Ad Menu

Tesseract-OCR

Tesseract-OCR:
Tesseract-OCR è un software open source rilasciato da google.
Con Tesseract-ocr si è in grado di trasformare i nostri ritagli dai giornali o dai documenti che vogliamo digitalizzare in un documenti di testo.
Molto comodo quando si deve elaborare documenti lunghi.
Basta cercare il pacchetto “tesseract-ocr” con synaptic; perchè è nei repository universe (che devono essere attivati Sistema -->Amministrazione-->Sorgenti software-->Universe.
Inoltre possiamo installare anche i pacchetti per altre lingue da quella italiana “tesseract-ocr-ita“,di default vi mette su Inglese che potete sostituire.


Una volta installato usiamo Xsane per scannerizzare le nostre immagini (ansi Documenti), acquisiamole in bianco e nero (non scala di grigi) usando almeno 250-300 dpi e salviamole in formato ".tiff".
A questo punto apriamo il terminale, spostiamoci nella directory in cui abbiamo salvato l’immagine e digitiamo il seguente comando:

tesseract nome_immagine.tiff giornale

Verrà creato un file .txt di nome “giornale” nella stessa directory.
Questo è tutto,buon lavoro.

Share/Bookmark
Stampa il Post - Print this Post

Comments :

0 commenti to “ Tesseract-OCR ”
Related Posts with Thumbnails