von PDF Dokument (via Okular) Text auslesen.. und nach csv-formatiertem Text bringen: moeglich!?

andalusia · 7. März 2023

hi und guten Abend

Gibt es eine Möglichkeit, Daten aus dem PDF-Format zu entnehmen, während sie mit OKUKAR (Literaturlisten) gelesen und in csv bzw. calc-sheets ausgegeben werden? Ich habe gehört, dass ich Textstücke markieren kann - wenn das möglich ist, kann ich diese Stücke sammeln - und sie in eine Textdatei stecken und CSV-basierten Text erstellen.

Das sollte doch möglich sein, oder nicht!?

Alero · 8. März 2023

Mir nicht ganz klar, was du eigentlich willst, aber ich geb dir mal zwei Links. Vielleicht passt da was für dich.

Link 1

Link 2

andalusia · 9. März 2023

hallo Alero,

vielen Dank für deine Rückmeldung u. die Links - die guck ich mir abends an. Dankeschön!

Zitat von Alero

Mir nicht ganz klar, was du eigentlich willst, aber ich geb dir mal zwei Links. Vielleicht passt da was für dich.
Link 1
Link 2

Also ich denk mittlerweile dass Okular das leider nicht kann - also Text aus nem PDF extrahieren;

Vllt. muss ich tiefer schürfen; ggf. erst mal eine Schrifterkennung (Stichwort: OCR) drüber laufen lassen, welche sozusagen den Text draus extrahiert und überhaupt erst mal in ein weiterverarbeitbares (Text-)format überführt. Manchmal hat man sowas auch schon in den entsprechenden PDF-Viewern integriert.

Aber - ich fürchte ja: Mit okular geht das so ohne Weiteres leider wohl nicht

Habe früher mal mit MuPDF gearbeitet: Bei MuPDF geht das vielle. irgendwie über den Umweg PyMuPDF.

Dir nochmals vielen vielen Dank!!

LG

luigi · 9. März 2023

Auch ich verstehe das Problem noch nicht richtig, aber vielleicht hilft es ja, die pdf-Datei einfach mit Libreoffice zu öffnen.

tom2345 · 9. März 2023

Hallo andalusia,

wahrscheinlich verstehe ich dein Problem überhaupt nicht und antworte jetzt viel zu trivial. Aber manchmal kommen die Cracks nicht auf die einfachen Lösungen, weil sie die gedanklich als bekannt voraus setzen. Also erst einmal kommt es natürlich auf das pdf-Dokument an. Wenn das ein Bild zum Ursprung hat, also einen Scan zum Beispiel, dann kannst du keinen Text markieren oder kopieren. Wenn es aber eine Textdatei als Ursprung hat, kannst du mit gedrückter linker Maustaste Bereiche markieren und dann mit der rechten Maustaste kopieren. Was mich dabei schon aus der Bahn geworfen hat: oben links gibt es eine Auswahl zwischen "Bereichsauswahl" "Textauswahl" und "Tabellenauswahl". Da muss "Textauswahl" aktiviert sein.

Gigaman · 30. April 2023

tom2345 Text aus einem Bild zu kopieren geht schon. „Live Text“ heißt diese Funktion bei Apple.

Feli · 1. Mai 2023

Eine kurze Suche bringt "TextSnatcher" als Ergebnis. https://codepre.com/de/como-ex…nux-con-textsnatcher.html

von PDF Dokument (via Okular) Text auslesen.. und nach csv-formatiertem Text bringen: moeglich!?

VMware Workstation Pro und Fusion Pro kostenlos für persönlichen Gebrauch

L2TP-VPN-Verbindungsprobleme unter Tumbleweed

Offizielle M.2-Adapterplatine für den Raspberry Pi 5 erhältlich

Überarbeitetes CachyOS unterstützt Bcachefs und bietet KI-SDK

Audio funktioniert nach dem letzten Upgrade schon wieder nicht mehr

turtoise

Pilz

Guinnmanss55

VMB

herbie59

Teilen