Das PDF- Format IST Text.
Aber man kann dort Bilder einbinden.
Viele Programme erzeugen für Bildern (also *.jpg, *.png usw.) einfach ein rudimentäres PDF- Gerüst und schreiben dann eine \image Anweisung hinein.
Wenn du PDFs scannen möchtest, kannst du einfach das PDF in ein echtes Bild umwandeln und das dann an die OCR verfüttern.
z.B. sowas, wie: convert some.png some.jpg && tesseract some.jpg someOutputBase
(bei tesseract kann man eine "Outputbase" in der Konfig festlegen; dann werden die Dinger automatisch im richtigen Format mit der richtigen Extension gespeichert)