gscan2pdf startet nicht nach Installation

Trekkie00 · 2. Mai 2021

Ich hab das jetzt mal spasseshalber auf meinem System installiert. Das zieht in der Tat einiges an Perl Paketen nach. Die Ausgabe ist als Textdatei hier im Anhang, da länger als 10 000 Zeichen.

Das OCR Zeugs ist aber, zumindest bei meiner Distribution, optional.

Wie das bei openSUSE gepackt ist, kann ich nicht sagen. Da kann das durchaus abweichend sein.

SuseRookie20 · 3. Mai 2021

Zitat von Alero

tesseract-ocr ist in den Repos ... zumindest unter TW ... mal unter Yast - Software gesucht?
Dort gibt es auch ein tesseract-ocr-german.

Also tesseract-ocr ist da reichlihc drin. nur eben nicht die deutsche Version

Zitat von r3z5

ja ich auch. Dann macht Texterkennung schon sinn. So kannst Du später mit einer Volltextsuche (z.b Recoll) nach Texten im Dokument suchen.

Unabhängig von der Sinnhaftigkeit kann man im Fehlerdialog unten rechts ankreuzen, ob man einen Fehler zukünftig unterdrücken möchte.
Im Scandialog kann man auch die Texterkennungsengine einstellen (tessract oder GOCR). Hier kann man das auch deaktivieren. Ggf. hilft einer der Punkte, um den Dialog weg zu bekommen.

Verstehe. Das ist natürlich ein Grund mehr, dem Fehler mal auf dem Grund zu gehen und künftig doch mit der Texterkennung zu arbeiten. Ich denke, das kann gar nicht verkehrt sein. Irgendwie war mir das beim Thema Texterkennung nicht klar.

Zitat von Heinz-Peter

Hallo SuseRookie20 ; Installiere das Paket tesseract-ocr-traineddata-german

Heinz-Peter

Habe ich mal nachgesucht, leider nicht gefunden im Yast. Möglicherweise fehlt mir die richtige Repo dafür.

Trekkie00

Danke für die Übersicht. Ich habe mal mir (noch) nicht die ganze Liste angesehen, aber die meisten der perl Pakete scheinen installiert zu sein. Die Software läuft ja im Grunde auch.. nur scheint eben das tesseract-ocr-german zu fehlen.

Gruß

SuseRookie

Alero · 3. Mai 2021

Zitat von SuseRookie20

Habe ich mal nachgesucht, leider nicht gefunden im Yast.

Zitat von Alero

Dort gibt es auch ein tesseract-ocr-german.

Brille?

https://software.opensuse.org/…seract-traineddata-german

SuseRookie20 · 3. Mai 2021

Alero

wie gesagt - im Yast wurde mir das Paket nicht angezeigt. Allerdings gut möglich, dass mir noch einige wichtige Repos fehlen.. das ist aber ein eigenes Thema. Dennoch Danke für den Link.

P.S.

Paket ist installiert; Abfrage nach dem

Code

tesseract-ocr-deu

kommt noch immer.

Gruß

SuseRookie

Heinz-Peter · 4. Mai 2021

Zitat von SuseRookie20
P.S.

Paket ist installiert; Abfrage nach dem
Code
tesseract-ocr-deu
kommt noch immer.

Was für Paket?

Code

zypper se -si tesseract-ocr-traineddata-german

Bei mir kommt das hier:

Code

user-Heinz$ zypper se -s tesseract-ocr-traineddata-german
Repository-Daten werden geladen...
Installierte Pakete werden gelesen...

S | Name                             | Type  | Version           | Arch   | Repository
--+----------------------------------+-------+-------------------+--------+----------------
  | tesseract-ocr-traineddata-german | Paket | 3.04.00-lp152.3.2 | noarch | Main Repository

SuseRookie20 · 5. Mai 2021

Zitat von Heinz-Peter

Was für Paket?

Das Paket, dessen Link Alero freundlicherweise gepostet hat:

https://software.opensuse.org/…seract-traineddata-german

Zitat von Heinz-Peter

Code

zypper se -si tesseract-ocr-traineddata-german

Bei mir kommt das hier:

Code

user-Heinz$ zypper se -s tesseract-ocr-traineddata-german
Repository-Daten werden geladen...
Installierte Pakete werden gelesen...

S | Name                             | Type  | Version           | Arch   | Repository
--+----------------------------------+-------+-------------------+--------+----------------
  | tesseract-ocr-traineddata-german | Paket | 3.04.00-lp152.3.2 | noarch | Main Repository

Bei mir sieht das so aus:

Code

user-Rainer$ # zypper se -si tesseract-ocr-traineddata-german
Repository-Daten werden geladen...
Installierte Pakete werden gelesen...
Keine passenden Objekte gefunden.

und:

Code

user-Rainer$ # zypper se -s tesseract-ocr-traineddata-german
Repository-Daten werden geladen...
Installierte Pakete werden gelesen...

S | Name                             | Type  | Version           | Arch   | Repository
--+----------------------------------+-------+-------------------+--------+---------------------
  | tesseract-ocr-traineddata-german | Paket | 3.04.00-lp152.3.2 | noarch | openSUSE-Leap-15.2-1
  | tesseract-ocr-traineddata-german | Paket | 3.04.00-lp152.3.2 | noarch | Haupt-Repository

gefordert wird aber das Paket:

Code

tesseract-ocr-deu

Es handelt sich also scheinbar um unterschiedliche Pakete.

Gruß

SuseRookie

r3z5 · 6. Mai 2021

Hi,

es ist meiner Meinung nach ein Programmfehler. Ich habe mir mal den Quellcode näher angeschaut. Ich vermute, das die Entwicklung sehr ubuntu nah ist. Die Meldung

Zitat

Bitte installiere das tesseract-Paket 'tesseract-ocr-deu' und starte...

wird im Coding zusammengebaut. Lediglich der Zusatz "deu" wird von der Laufzeit ermittelt. Unter ubuntu gibt es das Paket auch:

Code

ubuntudesktop:~$ apt show tesseract-ocr-deu
Package: tesseract-ocr-deu
Version: 1:4.0.0+git39-6572757-1ppa1~bionic1
Status: install ok installed
....

Eigentlich müsste man die Meldung unabhängig vom Paketanbieter präsentieren.

Warum kommt es zur Fehlermeldung?

Gscan2Pdf versucht die installierten Tesseractpakete zu ermitteln und prüft das mit der Lokalisierung. Was dann zu solchen Hinweisen kommt, die man bei Dir unter opensuse sieht.

Dazu wird folgender Befehl abgesetzt und das Ergebnis in ein internes array gespeichert.

Code

ubuntudesktop:~$ tesseract --list-langs
List of available languages (3):
deu
eng
osd

Die Logik schneidet dabei "List of avaiable..." weg. Übrig bleibt dann

deu, eng, osd.

Unter opensuse sieht das Ergebnis des Befehls aber so aus:

Code

opensuse > tesseract --list-langs
[DS] Profile read from file (tesseract_opencl_profile_devices.dat).
[DS] Device[1] 0:(null) score is 0.482032
[DS] Selected Device[1]: "(null)" (Native)
Warning: Parameter not found: enable_new_segsearch
List of available languages (3):
deu
deu_frak
eng

Mit diesen zusätzlichen Ausgaben kommt die Logik nicht klar und steigt vermutlich aus. Der eigentlich vorhandene Eintrag "deu" wird nicht mehr gefunden.

Eigentlich müsste diese Stelle robuster gestaltet werden und jede Ausgabezeile gegen die "harte" white list mit gültigen Werten geprüft werden oder die Zusätze anders unterdrücken.

Das existiert auch noch in der frischen Version 2.12.1 (lib/Gscan2pdf/Tesseract.pm, sub languages, ff.).

Warum sieht die Ausgabe hier anders aus? Ich vermute, dass die Opensusepakete mit dem Zusatz --enable-opencl gebaut wurden?

Ich sehe auch gerade dass es einen recht frischen Bugreport dazu gibt:

https://sourceforge.net/p/gscan2pdf/bugs/386/

Sogar mit einem Korrekturvorschlag. Wenn ich das bei mir einbaue klappt es nun unter opensuse.

Am besten mal warten..

Heinz-Peter · 6. Mai 2021

Zitat von SuseRookie20

Das Paket, dessen Link Alero freundlicherweise gepostet hat:

Ja aber das Paket tesseract-ocr-traineddata-german ist bei Dir nicht installiert.

Installiere mit

Code

zypper in tesseract-ocr-traineddata-german

Kommt dann immer noch der Fehler?

SuseRookie20 · 7. Mai 2021

Zitat von Heinz-Peter
Ja aber das Paket tesseract-ocr-traineddata-german ist bei Dir nicht installiert.

Installiere mit
Code
zypper in tesseract-ocr-traineddata-german
Kommt dann immer noch der Fehler?

habe ich gemacht. Scheinbar wurde da auch ein Paket ersetzt. Ich vermute, dass das Paket installiert war; allerdings aus einer anderen Repo.

Code

user-Rainer$ # zypper in tesseract-ocr-traineddata-german
Repository-Daten werden geladen...
Installierte Pakete werden gelesen...
Paketabhängigkeiten werden aufgelöst...

Das folgende NEUE Paket wird installiert:
  tesseract-ocr-traineddata-german

1 neues Paket zu installieren.
Gesamtgröße des Downloads: 4,6 MiB. Bereits im Cache gespeichert: 0 B. Nach der Operation werden zusätzlich 14,6 MiB belegt.
Fortfahren? [j/n/v/...? zeigt alle Optionen] (j): j
Paket tesseract-ocr-traineddata-german-3.04.00-lp152.3.2.noarch abrufen                                            (1/1),   4,6 MiB ( 14,6 MiB entpackt)
Abrufen: tesseract-ocr-traineddata-german-3.04.00-lp152.3.2.noarch.rpm .............................................................[fertig (4,7 MiB/s)]

Überprüfung auf Dateikonflikte läuft: ..........................................................................................................[Fehler]
2 Dateikonflikte festgestellt:

File /usr/share/tessdata/deu.traineddata
  from install of
     tesseract-ocr-traineddata-german-3.04.00-lp152.3.2.noarch (openSUSE-Leap-15.2-1)
  conflicts with file from package
     tesseract-traineddata-german-4.0.0.5-7.1.noarch (@System)

File /usr/share/tessdata/deu_frak.traineddata
  from install of
     tesseract-ocr-traineddata-german-3.04.00-lp152.3.2.noarch (openSUSE-Leap-15.2-1)
  conflicts with file from package
     tesseract-traineddata-german-4.0.0.5-7.1.noarch (@System)

Dateikonflikte treten auf, wenn zwei Pakete versuchen, Dateien mit demselben Namen, jedoch anderen Inhalten zu installieren. Wenn Sie den Vorgang fortsetzen, werden die im Konflikt stehenden Dateien ersetzt, wobei der bisherige Inhalt verloren geht.
Fortfahren? [ja/nein] (nein): j

(1/1) Installieren: tesseract-ocr-traineddata-german-3.04.00-lp152.3.2.noarch ..................................................................[fertig]

Alles anzeigen

r3z5

Danke für die Ausführung. Ich habe mir auch den Workaround mal angesehen; muss allerdings gestehen, dass ich als Einsteiger noch nicht richtig mit umzugehen weiß, wie diese Korrektur, die es scheinbar ist in mein System eingespielt wird.

So lange wird es wohl auch ohne Texterkennung gehen

Gruß

SuseRookie

r3z5 · 8. Mai 2021

Hi SuseRookie,

oh! My bad. Der erwähnte Korrekturvorschlag vom "Bug-Reporter" bezog sich auf den Quellcode und war für den Entwickler gedacht. Das müssen "nicht Entwickler" nicht verstehen.

Es wird irgendwann eine neue Version rauskommen (>2.12.1?), die diese Korrektur enthält.

Dann kommen erst die Paketbetreuer und bauen neue Pakete für die verschiedenen Distributionen (zb. ubuntu, openSuse tumbleweed/Leap...).

Erst nach dieser Aktion solltest Du das nach einem normalen Softwareupdate eine Veränderung sehen.

Am besten mal warten..

gscan2pdf startet nicht nach Installation

Fehler bei der Validitätsprüfung

Fedora 40 offeriert PyTorch und benennt Atomic-Varianten um

Neue Clonezilla-Version aktualisiert Unterbau

Schleswig-Holstein migriert nach Linux - Windows und Microsoft Office werden ersetzt durch Linux und LibreOffice

[Leap15.5] Keine Soundausgabe über Bluetooth

A_Kueb

Kukulkan

vpn

Nidrnox

hudel

Teilen