Ocr

OCR con tesseract PDF

3 minute read Published:

Come trasformare un PDF in doc/html/txt usando tesseract OCR open source
Installare Tesseract Tesseract è un OCR inizialmente sviluppato da HP e poi da Google. Io utilizzo un Mac, quindi è sufficiente avviare il terminale usare brew(il gestore di pacchetti mancanti per MacOS): $ brew install tesseract Per vedere se tutto è andato a buon fine: $ tesseract -v tesseract 3.05.01 leptonica-1.74.4 libjpeg 9b : libpng 1.6.31 : libtiff 4.0.8 : zlib 1.2.8 Se proviamo a trasformare al volo un PDF otteniamo: