Dokumentenscanner​ für ein kleines Büro um Rechnungen einzulesen mit OCR

Hinweis: In dem Thema Dokumentenscanner​ für ein kleines Büro um Rechnungen einzulesen mit OCR gibt es 21 Antworten auf 3 Seiten. Der letzte Beitrag () befindet sich auf der letzten Seite.
  • Das PDF- Format IST Text.
    Aber man kann dort Bilder einbinden.


    Viele Programme erzeugen für Bildern (also *.jpg, *.png usw.) einfach ein rudimentäres PDF- Gerüst und schreiben dann eine \image Anweisung hinein.


    Wenn du PDFs scannen möchtest, kannst du einfach das PDF in ein echtes Bild umwandeln und das dann an die OCR verfüttern.
    z.B. sowas, wie: convert some.png some.jpg && tesseract some.jpg someOutputBase
    (bei tesseract kann man eine "Outputbase" in der Konfig festlegen; dann werden die Dinger automatisch im richtigen Format mit der richtigen Extension gespeichert)

  • Erst mal vielen Dank für die Informationen. Ich habe ein Cooler Master Elite 120-Gehäuse gekauft und ein Mainboard mit einem E350 er Prozessor. Das soll mal für den Anfang einen Samba-Speicher geben und mit etwas Glück kann das auch der Scan-Rechner werden. Ich werde dann mal später berichten und noch Detailfragen stellen.