Open SuSE 13.2 PDF in Word bzw DOCX Datei Umwandeln (Bild,Text, Formatierungen)

LinuPia · 26. Oktober 2015

Zitat von wurzel99

dann verweise ich nochmals auf wine

http://www.pdfmate.com/pdf-converter-free.html

http://unipdf.com/download/

außerdem - ich hab es gerade getestet .. kann man sehr gut mit
gimagereader pdfs per OCR in Text umwandeln
https://software.opensuse.org/package/gimagereader

wenn dir Wine kein Graus ist dann - auch gerade getestet - kann man auch readiris 14 (evt. auch ältere versionen) zur Konvertierung nehmen.

Alles anzeigen

Warum -zum Teufel- sollte man ein Krücke wie wine nehmen, um OCR zu machen?
Das kann Linux besser.
Google hat ein sehr professionelles und überkomplettes OCR unter offener Lizenz für Linux veröffentlicht.

Lieber öfter mal googlen, als kranke wine Lösungen vorzuschlagen.

LinuPia · 26. Oktober 2015

Zitat von anonymousdark

Was heißt Duckduckgoe?
Ich soll mal danach googlen?

*pffff*
Wer Duckduckgo nicht kennt, kriegt auch keinen coolen PDFkit.
Google dir doch Windows.
*pffff*

wurzel99 · 26. Oktober 2015

Zitat

Google hat ein sehr professionelles und überkomplettes OCR unter offener Lizenz für Linux veröffentlicht.

ich kenne so einige Versuche, OCR für Linux zu realisieren .. aber keinen, der deiner Beschreibung entspricht.

Wenn du das hier meinst: http://www.netzwelt.de/news/12…exterkennung-browser.html bzw https://support.google.com/drive/answer/176692?hl=de
dann ist es eben eine Weblösung, die zwar OCR macht, aber im handling grottig ist.

Zitat

Duckduckgoe mal "pdf poppler" und "pdf toolkit"

Weder duckduckgo noch google noch bing liefern mir ein Poppler oder ein Pdf-toolkit, dass den Anforderungen des TE entspricht.

Zitat

Warum -zum Teufel- sollte man ein Krücke wie wine nehmen, um OCR zu machen?

Klar, Wine is ne Krücke aber mir immer noch sympatischer als ein Windows im Dual-boot oder in der VM.
Aber da darf jeder seine persönliche Präferenz haben
und .. es geht hier nicht um 'OCR machen' sondern ganz konkret um das Umwandeln von pdf in doc o.ä.
Da ist das Linux-Angebot eben sehr beschränkt und OCR(wenn es denn pdf als Input akzeptiert) nur ein notnagel.

LinuPia · 26. Oktober 2015

Die Welt ist immer größer, als unsere Sicht.

wurzel99 · 26. Oktober 2015

auf Tesseract (bzw gimagereader) wurde ja schon in Post 10 hingewiesen. Du hast den Link ja dankenswerterweise auch mal zitiert.

Ich hab hab mal Tesseract über gimagereader und YAGF auf ein paar Beispiel-PDFs losgelassen.

In beiden Fällen kam nur Müll dabei heraus. Dagegen war das Ergebnis von Readiris 14 unter Wine allererste Sahne. Alle Formatierungen stimmten, Bilder an der richtigen Stelle, Texterkennung nahezu 100%

Wenn man die Linux-Lösungen ohne jewede sachliche Basis in den Himmel hebt und die ganze Sache zur Religion macht dann macht man sich als Linux-Vertreter einfach nur lächerlich.

Dann lieber ehrlich sein und sagen: da gibt es nativ nix .. nimm die Krücke..

Damit ist dieses Thema für mich erledigt. Es gibt für die Wünsche des TE genug Lösungsansätze die qualitätativ einwandfrei funktionieren - auch wenn es nicht die reine Lehre ist.

Evt. tut es eben auch Tesseract

Ich hab noch ein paar andere Lösungen parat - aber die gibt es auf Wunsch dann per PM - sonst krieg ich für die weitere Krücken wieder den A... voll.

LinuPia · 26. Oktober 2015

Wenn man tesseract korrekt aufsetzt, hat man brillante Ergebnisse.
Samt allen typographischen Schnickschnack.

Ist vielleicht nicht so ganz einfach.
Ich halte es für sinnvoller sein Linux zu beherrschen lernen, denn auf wine auszuweichen.

Weicht man auf wine aus, kann man gleich bei Windows bleiben.
Schlicht, weil Windowsprogramme unter Windows problemlos laufen.
Wesentlich problemloser, als unter wine.

Kanonentux · 26. Oktober 2015

Zitat von LinuPia

Wenn man tesseract korrekt aufsetzt, hat man brillante Ergebnisse.
Samt allen typographischen Schnickschnack.

Mein Freund Kalle würde ein Tutorial dazu schreiben,
aber ich weiß gerade nicht, wo er aufgeht (ist).

senior53 · 26. Oktober 2015

Zitat

Daran wäre ich auch interessiert.

ich auch .. hochwertiges OCR mit Layouterkennung für Linux wäre was ganz Feines.

hans-joachim-koepke · 27. Oktober 2015

Hallo lunapia, wenn du OS hast dann nehme doch Libre Office der kann Dateien in pdf umwandeln ist nur ein klick. Auch in MS-Format, dann einfach speichern unter, Format wählen und fertig. Gruß hajo

LinuPia · 27. Oktober 2015

hans-joachim-koepke: Danke für den Tip. Leider hasse ich libreOffice und suche es zu vermeiden, wo es nur geht. Und das gelingt mir ziemlich gut. Außerdem will ich gar nix in PDFs umwandeln. Da ich nur den genialen vi Editor verwende, kann ich problemlos alle PDFs erstellen, die ich mag. Zudem habe ich einige Consolenwerkzeuge, die mir allerlei Magie für PDFs erlauben. Brauch ich abba auch nicht wirklich. Meist werden meine PDFs automatisch erzeugt. Sogar die Manpages für meine Scripte, falls ich mal welche schreibe.
Das Problem ist also, dass das gar nicht mein Problem ist. Das gehört nämlich anonymousdark. Und ich nehm doch niemanden einfach seine Probleme weg!

Kanonentux et. al. : Ich glaube nicht, dass dieser ominöse Kalle das macht. Der ist doch ein stinkfauler Sack. Außerdem würde der das doch alles nur in der Konsole machen. Und wer kann schon dessen Scripte anwenden, geschweige denn verstehen?

Abba mal Scherz beiseite.
Das Problem bei Tesseract sehe ich eher darin, dass es halt unter Linux wirklich nur eine -wenn auch sehr gute- OCR Engine ist.
Tesseract wurde ursprünglich von HP entwickelt. Das Ding wird schon seit über zwanzig Jahren programmiert. Wenn auch mit langen Pausen. Es war oft seiner kommerziellen Brüdern haushoch überlegen. Später wurde es unter eine freie Lizenz gestellt und dann von Google weiterentwickelt. Mit dem Resultat, dass es unter Android einwandfrei läuft, unter Linux es keine Sau einsetzen kann. (Außer dieser ominöse Kalle, der abba höchstens eine Strophe Kinderverse ocrt.)

Um damit gute Ergebnisse zu erzielen, sind letztlich drei Schritte sauber hinzukriegen:

Das Bild muss in der richtigen Orientierung vorliegen.
Man muss es mit höchstmöglichen Kontrast scannen, bzw. dorthin umwandeln
Man muss die korrekte Sprache festlegen
Etwas Nachbearbeitung, wie zum Beispiel mehrere Leerzeichen hintereinander in eines kürzen usw.

Das klingt harmlos.
Aber wer kann seinen Klickibuntiscanner aus dem Stand anweisen, das Bild mit höchstmöglichen Kontrast (und was ist das überhaupt?) zu scannen, bzw das Bild mit convert in der Konsole sauber zu pimpen?
Selbst bei den Spracheinstellungen bin ich mir da nicht so sicher, ob das jeder so hinkriegt. Bei Sauerländern und Franken halte ich das sogar für ein Riesenproblem. Echt!

Das sind traditionell die Aufgaben eines Frontends. Den finsteren Quark, der irgendwas tut, schön bunt mit userbewegenden Fortschrittsbalken zu versehen, auf dass der User nicht vom Glauben ab- und in die Konsole runterfalle.

Und da hätte ich dann schon eine Idee:
Wie wäre es, wenn wir das als Gemeinschaftsprojekt selbst basteln?
Ich würde den technischen Unterbau erledigen, und ihr bastelt eine GUI.
Also eine hübsche GUI für die OCR-Engine, die oben genannte Schritte linkshändig klickbar erledigt.

Sind die oberen Schritte genügend gut erledigt, kommt man auf eine Erkennungsrate von über 98%

Eine Einschränkung gibt es aber: Tesseract erkennt nur ca. 70 Fonts. Behandelt man Bilder die Schriftzüge in anderen Fonts haben, sinkt die Erkennungsleistung rapide.

Open SuSE 13.2 PDF in Word bzw DOCX Datei Umwandeln (Bild,Text, Formatierungen)

Probleme mit dem Ausdruck von pdf-Dateien über Okular

Call for Proposals :: Open Source Summit Europe, 16.-18. September::Wien, Österreich

NVIDIA Treiber unter Tumbleweed installieren

Linux-Events: große & kleinere Tage u. events in Deutchland, Österreich und der Schweiz ... Erlanger Tage übermorgen...

neu von KDE: Amarok 3.0 - nach einigen Jahren wieder da

vlim

BBPius

chris080

MichaRadius

A_Kueb

Teilen

Tags