gscan2pdf startet nicht nach Installation

Hinweis: In dem Thema gscan2pdf startet nicht nach Installation gibt es 31 Antworten auf 4 Seiten. Der letzte Beitrag () befindet sich auf der letzten Seite.
  • Ich hab das jetzt mal spasseshalber auf meinem System installiert. Das zieht in der Tat einiges an Perl Paketen nach. Die Ausgabe ist als Textdatei hier im Anhang, da länger als 10 000 Zeichen.

    Das OCR Zeugs ist aber, zumindest bei meiner Distribution, optional.

    Wie das bei openSUSE gepackt ist, kann ich nicht sagen. Da kann das durchaus abweichend sein.

  • tesseract-ocr ist in den Repos ... zumindest unter TW ... mal unter Yast - Software gesucht?

    Dort gibt es auch ein tesseract-ocr-german.

    Also tesseract-ocr ist da reichlihc drin. nur eben nicht die deutsche Version

    ja ich auch. Dann macht Texterkennung schon sinn. So kannst Du später mit einer Volltextsuche (z.b Recoll) nach Texten im Dokument suchen.


    Unabhängig von der Sinnhaftigkeit kann man im Fehlerdialog unten rechts ankreuzen, ob man einen Fehler zukünftig unterdrücken möchte.

    Im Scandialog kann man auch die Texterkennungsengine einstellen (tessract oder GOCR). Hier kann man das auch deaktivieren. Ggf. hilft einer der Punkte, um den Dialog weg zu bekommen.

    Verstehe. Das ist natürlich ein Grund mehr, dem Fehler mal auf dem Grund zu gehen und künftig doch mit der Texterkennung zu arbeiten. Ich denke, das kann gar nicht verkehrt sein. Irgendwie war mir das beim Thema Texterkennung nicht klar.


    Hallo SuseRookie20 ; Installiere das Paket tesseract-ocr-traineddata-german

    Heinz-Peter

    Habe ich mal nachgesucht, leider nicht gefunden im Yast. Möglicherweise fehlt mir die richtige Repo dafür.


    Trekkie00

    Danke für die Übersicht. Ich habe mal mir (noch) nicht die ganze Liste angesehen, aber die meisten der perl Pakete scheinen installiert zu sein. Die Software läuft ja im Grunde auch.. nur scheint eben das tesseract-ocr-german zu fehlen.


    Gruß

    SuseRookie

  • Habe ich mal nachgesucht, leider nicht gefunden im Yast.


    Dort gibt es auch ein tesseract-ocr-german.

    Brille?

    https://software.opensuse.org/…seract-traineddata-german

  • Alero

    wie gesagt - im Yast wurde mir das Paket nicht angezeigt. Allerdings gut möglich, dass mir noch einige wichtige Repos fehlen.. das ist aber ein eigenes Thema. Dennoch Danke für den Link.


    P.S.

    Paket ist installiert; Abfrage nach dem

    Code
    tesseract-ocr-deu

    kommt noch immer.


    Gruß

    SuseRookie

  • P.S.

    Paket ist installiert; Abfrage nach dem

    Code
    tesseract-ocr-deu

    kommt noch immer.

    Was für Paket?

    Code
    zypper se -si tesseract-ocr-traineddata-german

    Bei mir kommt das hier:

    Code
    user-Heinz$ zypper se -s tesseract-ocr-traineddata-german
    Repository-Daten werden geladen...
    Installierte Pakete werden gelesen...
    
    S | Name                             | Type  | Version           | Arch   | Repository
    --+----------------------------------+-------+-------------------+--------+----------------
      | tesseract-ocr-traineddata-german | Paket | 3.04.00-lp152.3.2 | noarch | Main Repository

    Die Rechtschreibfehler in diesem Beitrag sind nicht urheberrechtlich geschützt. Jeder der einen findet darf ihn behalten und in eigenen Werken weiterverwenden.

    Für den Inhalt des Beitrages 290801 haftet ausdrücklich der jeweilige Autor: Heinz-Peter

  • Was für Paket?

    Das Paket, dessen Link Alero freundlicherweise gepostet hat:

    https://software.opensuse.org/…seract-traineddata-german

    Code
    zypper se -si tesseract-ocr-traineddata-german

    Bei mir kommt das hier:

    Code
    user-Heinz$ zypper se -s tesseract-ocr-traineddata-german
    Repository-Daten werden geladen...
    Installierte Pakete werden gelesen...
    
    S | Name                             | Type  | Version           | Arch   | Repository
    --+----------------------------------+-------+-------------------+--------+----------------
      | tesseract-ocr-traineddata-german | Paket | 3.04.00-lp152.3.2 | noarch | Main Repository


    Bei mir sieht das so aus:

    Code
    user-Rainer$ # zypper se -si tesseract-ocr-traineddata-german
    Repository-Daten werden geladen...
    Installierte Pakete werden gelesen...
    Keine passenden Objekte gefunden.


    und:


    Code
    user-Rainer$ # zypper se -s tesseract-ocr-traineddata-german
    Repository-Daten werden geladen...
    Installierte Pakete werden gelesen...
    
    S | Name                             | Type  | Version           | Arch   | Repository
    --+----------------------------------+-------+-------------------+--------+---------------------
      | tesseract-ocr-traineddata-german | Paket | 3.04.00-lp152.3.2 | noarch | openSUSE-Leap-15.2-1
      | tesseract-ocr-traineddata-german | Paket | 3.04.00-lp152.3.2 | noarch | Haupt-Repository


    gefordert wird aber das Paket:

    Code
    tesseract-ocr-deu


    Es handelt sich also scheinbar um unterschiedliche Pakete.


    Gruß

    SuseRookie

  • Hi,

    es ist meiner Meinung nach ein Programmfehler. Ich habe mir mal den Quellcode näher angeschaut. Ich vermute, das die Entwicklung sehr ubuntu nah ist. Die Meldung

    Zitat


    Bitte installiere das tesseract-Paket 'tesseract-ocr-deu' und starte...

    wird im Coding zusammengebaut. Lediglich der Zusatz "deu" wird von der Laufzeit ermittelt. Unter ubuntu gibt es das Paket auch:

    Code
    ubuntudesktop:~$ apt show tesseract-ocr-deu
    Package: tesseract-ocr-deu
    Version: 1:4.0.0+git39-6572757-1ppa1~bionic1
    Status: install ok installed
    ....

    Eigentlich müsste man die Meldung unabhängig vom Paketanbieter präsentieren.


    Warum kommt es zur Fehlermeldung?

    Gscan2Pdf versucht die installierten Tesseractpakete zu ermitteln und prüft das mit der Lokalisierung. Was dann zu solchen Hinweisen kommt, die man bei Dir unter opensuse sieht.

    Dazu wird folgender Befehl abgesetzt und das Ergebnis in ein internes array gespeichert.

    Code
    ubuntudesktop:~$ tesseract --list-langs
    List of available languages (3):
    deu
    eng
    osd

    Die Logik schneidet dabei "List of avaiable..." weg. Übrig bleibt dann

    deu, eng, osd.


    Unter opensuse sieht das Ergebnis des Befehls aber so aus:

    Code
    opensuse > tesseract --list-langs
    [DS] Profile read from file (tesseract_opencl_profile_devices.dat).
    [DS] Device[1] 0:(null) score is 0.482032
    [DS] Selected Device[1]: "(null)" (Native)
    Warning: Parameter not found: enable_new_segsearch
    List of available languages (3):
    deu
    deu_frak
    eng

    Mit diesen zusätzlichen Ausgaben kommt die Logik nicht klar und steigt vermutlich aus. Der eigentlich vorhandene Eintrag "deu" wird nicht mehr gefunden.

    Eigentlich müsste diese Stelle robuster gestaltet werden und jede Ausgabezeile gegen die "harte" white list mit gültigen Werten geprüft werden oder die Zusätze anders unterdrücken.

    Das existiert auch noch in der frischen Version 2.12.1 (lib/Gscan2pdf/Tesseract.pm, sub languages, ff.).


    Warum sieht die Ausgabe hier anders aus? Ich vermute, dass die Opensusepakete mit dem Zusatz --enable-opencl gebaut wurden?


    Ich sehe auch gerade dass es einen recht frischen Bugreport dazu gibt:

    https://sourceforge.net/p/gscan2pdf/bugs/386/

    Sogar mit einem Korrekturvorschlag. Wenn ich das bei mir einbaue klappt es nun unter opensuse.


    Am besten mal warten..

    Für den Inhalt des Beitrages 290826 haftet ausdrücklich der jeweilige Autor: r3z5

  • Das Paket, dessen Link Alero freundlicherweise gepostet hat:

    Ja aber das Paket tesseract-ocr-traineddata-german ist bei Dir nicht installiert.


    Installiere mit

    Code
    zypper in tesseract-ocr-traineddata-german

    Kommt dann immer noch der Fehler?

    Die Rechtschreibfehler in diesem Beitrag sind nicht urheberrechtlich geschützt. Jeder der einen findet darf ihn behalten und in eigenen Werken weiterverwenden.

    Für den Inhalt des Beitrages 290831 haftet ausdrücklich der jeweilige Autor: Heinz-Peter

  • Ja aber das Paket tesseract-ocr-traineddata-german ist bei Dir nicht installiert.


    Installiere mit

    Code
    zypper in tesseract-ocr-traineddata-german

    Kommt dann immer noch der Fehler?

    habe ich gemacht. Scheinbar wurde da auch ein Paket ersetzt. Ich vermute, dass das Paket installiert war; allerdings aus einer anderen Repo.

    r3z5

    Danke für die Ausführung. Ich habe mir auch den Workaround mal angesehen; muss allerdings gestehen, dass ich als Einsteiger noch nicht richtig mit umzugehen weiß, wie diese Korrektur, die es scheinbar ist in mein System eingespielt wird.


    So lange wird es wohl auch ohne Texterkennung gehen ;)


    Gruß

    SuseRookie

  • Hi SuseRookie,

    oh! My bad. Der erwähnte Korrekturvorschlag vom "Bug-Reporter" bezog sich auf den Quellcode und war für den Entwickler gedacht. Das müssen "nicht Entwickler" nicht verstehen.

    Es wird irgendwann eine neue Version rauskommen (>2.12.1?), die diese Korrektur enthält.

    Dann kommen erst die Paketbetreuer und bauen neue Pakete für die verschiedenen Distributionen (zb. ubuntu, openSuse tumbleweed/Leap...).


    Erst nach dieser Aktion solltest Du das nach einem normalen Softwareupdate eine Veränderung sehen.


    Am besten mal warten..

    Für den Inhalt des Beitrages 290863 haftet ausdrücklich der jeweilige Autor: r3z5