OCR

Freitag · 10. Dezember 2021

Es geht um optische Texterkennung von gescannten Seiten. Ich habe nach diesem Verweis: OCR

xsane und gocr installiert.

Ich komme damit nicht recht klar. Hat jemand Erfahrung damit?

matbhm · 10. Dezember 2021

Klar kommst Du damit nicht klar, denn Texterkennung unter Linux kannst Du vergessen. Wenn Du ein Dokument hast, scannst Du das ein, musst das in einem gocr verträglichen Format abspeichern. Dann öffnest Du gocr, verlinkst zu dem eingescannten Dokument und startest die Texterkennung. Die Benutzeroberfläche von gocr entspricht optisch in etwa dem, was unter Windows 3.1 üblich war - und seine Fähigkeiten entsprechen dem. In der Regel ist das Ergebnis lausig! Es gibt bestimmte Bereiche, in denen Linux nicht brauchbar ist. Neben der Texterkennung gehört dazu die Spracherkennung.

Freitag · 10. Dezember 2021

Zitat von matbhm

musst das in einem gocr verträglichen Format abspeichern

welches Format nehme ich?

matbhm · 10. Dezember 2021

PNM-Files oder Image-Files. Welche Formate gocr verarbeitet, findest Du raus, indem Du gocr startest und auf "Browse" klickst. Dort werden die Formate angezeigt, die Du unter gocr öffnen kannst.

uname · 10. Dezember 2021

Zitat von Freitag

optische Texterkennung von gescannten Seiten.

wenn diese als Bild vorliegen sollte das eigentlich funktionieren.

getestet mit :

uname · 10. Dezember 2021

getestet mit:

gImageReader

matbhm · 10. Dezember 2021

Ich erkenne auf Deinen Bildern nix!

Und gimagereader gehört nicht zu den offiziellen Paketen.

uname · 10. Dezember 2021

Sorry!

Code

https://postimg.cc/MMfg6454
https://i.postimg.cc/XjbvnVNy/Bildschirmfoto-vom-2021-12-10-10-53-50.png

matbhm · 10. Dezember 2021

Gut, ist Ubuntu, der Ausgangsposter nutzt OpenSUSE!

Dr.Heinberg · 10. Dezember 2021

Zitat von matbhm

Es gibt bestimmte Bereiche, in denen Linux nicht brauchbar ist. Neben der Texterkennung gehört dazu die Spracherkennung.

Dem möchte ich teilweise widersprechen!

Die Texterkennung ist sogar hervorragend, wenn die Vorlage entsprechend gut ist.

Mach mal ein gutes ProbeFoto.jpg und dann ein:

Code

tesseract -l deu ProbeFoto.jpg Probefoto_mit_erkanntem_text.pdf pdf

Du wirst überrascht sein.

OCR

Probleme mit dem Ausdruck von pdf-Dateien über Okular

Call for Proposals :: Open Source Summit Europe, 16.-18. September::Wien, Österreich

NVIDIA Treiber unter Tumbleweed installieren

Linux-Events: große & kleinere Tage u. events in Deutchland, Österreich und der Schweiz ... Erlanger Tage übermorgen...

neu von KDE: Amarok 3.0 - nach einigen Jahren wieder da

vlim

BBPius

chris080

MichaRadius

A_Kueb

Teilen

Ähnliche Themen

gscan2pdf startet nicht nach Installation

tesseract-ocr