von PDF Dokument (via Okular) Text auslesen.. und nach csv-formatiertem Text bringen: moeglich!?

Hinweis: In dem Thema von PDF Dokument (via Okular) Text auslesen.. und nach csv-formatiertem Text bringen: moeglich!? gibt es 6 Antworten. Der letzte Beitrag () befindet sich ganz unten auf dieser Seite.
  • hi und guten Abend


    Gibt es eine Möglichkeit, Daten aus dem PDF-Format zu entnehmen, während sie mit OKUKAR (Literaturlisten) gelesen und in csv bzw. calc-sheets ausgegeben werden? Ich habe gehört, dass ich Textstücke markieren kann - wenn das möglich ist, kann ich diese Stücke sammeln - und sie in eine Textdatei stecken und CSV-basierten Text erstellen.


    Das sollte doch möglich sein, oder nicht!?

    Interessen: Linux - überall drauf - auf Desktop, Laptop, auf den SBC (auch mal Armbian u.s.w). -;) meine Lieblings-Knowledgebase: https://AFFiNE.pro - auch OpenSource -;) :: https://www.allaboutcircuits.com :: WordPress Entwicklung - sic: make.wordpress.org/core/

    Für den Inhalt des Beitrages 304963 haftet ausdrücklich der jeweilige Autor: andalusia

  • Mir nicht ganz klar, was du eigentlich willst, aber ich geb dir mal zwei Links. Vielleicht passt da was für dich.

    Link 1

    Link 2

  • hallo Alero,

    vielen Dank für deine Rückmeldung u. die Links - die guck ich mir abends an. Dankeschön!


    Mir nicht ganz klar, was du eigentlich willst, aber ich geb dir mal zwei Links. Vielleicht passt da was für dich.

    Link 1

    Link 2



    Also ich denk mittlerweile dass Okular das leider nicht kann - also Text aus nem PDF extrahieren;

    Vllt. muss ich tiefer schürfen; ggf. erst mal eine Schrifterkennung (Stichwort: OCR) drüber laufen lassen, welche sozusagen den Text draus extrahiert und überhaupt erst mal in ein weiterverarbeitbares (Text-)format überführt. Manchmal hat man sowas auch schon in den entsprechenden PDF-Viewern integriert.


    Aber - ich fürchte ja: Mit okular geht das so ohne Weiteres leider wohl nicht

    Habe früher mal mit MuPDF gearbeitet: Bei MuPDF geht das vielle. irgendwie über den Umweg PyMuPDF.


    Dir nochmals vielen vielen Dank!!


    LG



    Interessen: Linux - überall drauf - auf Desktop, Laptop, auf den SBC (auch mal Armbian u.s.w). -;) meine Lieblings-Knowledgebase: https://AFFiNE.pro - auch OpenSource -;) :: https://www.allaboutcircuits.com :: WordPress Entwicklung - sic: make.wordpress.org/core/

    Für den Inhalt des Beitrages 304991 haftet ausdrücklich der jeweilige Autor: andalusia

  • Auch ich verstehe das Problem noch nicht richtig, aber vielleicht hilft es ja, die pdf-Datei einfach mit Libreoffice zu öffnen.

    Für den Inhalt des Beitrages 304993 haftet ausdrücklich der jeweilige Autor: luigi

  • Hallo andalusia,


    wahrscheinlich verstehe ich dein Problem überhaupt nicht und antworte jetzt viel zu trivial. Aber manchmal kommen die Cracks nicht auf die einfachen Lösungen, weil sie die gedanklich als bekannt voraus setzen. Also erst einmal kommt es natürlich auf das pdf-Dokument an. Wenn das ein Bild zum Ursprung hat, also einen Scan zum Beispiel, dann kannst du keinen Text markieren oder kopieren. Wenn es aber eine Textdatei als Ursprung hat, kannst du mit gedrückter linker Maustaste Bereiche markieren und dann mit der rechten Maustaste kopieren. Was mich dabei schon aus der Bahn geworfen hat: oben links gibt es eine Auswahl zwischen "Bereichsauswahl" "Textauswahl" und "Tabellenauswahl". Da muss "Textauswahl" aktiviert sein.

    Für den Inhalt des Beitrages 304994 haftet ausdrücklich der jeweilige Autor: tom2345

  • tom2345 Text aus einem Bild zu kopieren geht schon. „Live Text“ heißt diese Funktion bei Apple.

    Für den Inhalt des Beitrages 305937 haftet ausdrücklich der jeweilige Autor: Gigaman