Ad Menu

Riconoscimento caratteri con gScan2Pdf e Tesseract-OCR

Riconoscimento caratteri con gScan2Pdf e Tesseract-OCR:
gScan2Pdf è un'interfaccia grafica per realizzare documenti PDF o DjVus da immagini di documenti acquisite tramite scanner o da immagini.
Molto spesso mi capita di salvare alcuni ritagli di giornale, o pagine di libri per evitare l'acquisto.
L'applicazione utilizza il riconoscimento dei caratteri e trasforma le immagini in testo tramite il programma Tesseract-OCR.




Gscan2Pdf è in grado di effettuare direttamente la scansione, funge da front-end di xsane, inoltre offre i filtri: Thereshold, Negate, Unsharp Mask; il ritaglio, e consente l'esportazione direttamente in Gimp per altre elaborazioni.
Per quello che riguarda il testo estratto è possibile utilizzare diversi motori d'estrazione tra cui Tesseract, Googr, e Cuneiforme, ed impostare la lingua a secondo del documento, al termine possiamo anche utilizzare l'editor per correggere alcune parole o frasi non completamente riconosciute, quando si tratta di un manifesto come il mio.
Al termine è possibile salvare il testo estratto nel formato: Txt, PDF, DjVus, Ps, Gif, Jpg, Png, Png, Pnm, Tiff, e Session.



Installazione:
Tesseract-ocr è composto da due parti principali, il programma, e il file di lingua contenuta nell'immagine che volete estrarre.
Da synaptic è possibile installare altre lingue per quando avete l'esigenza di estrarre del testo in lingua straniera, le lingue disponibili oltre all'italiano sono: Inglese, Tedesco, Francese, Spagnolo, Portoghese, Olandese, Danese, e Vietnamese.
Nell'esempio installo il programma e il riconoscimento per l'italiano e per l'inglese.
Aprire un terminale e digitare:

sudo apt-get install gscan2pdf tesseract-ocr tesseract-ocr-eng tesseract-ocr-ita

Al termine trovate il programma nel menù: Applicazioni-->Grafica-->gscan2Pdf.
Homepage: Qui.

Articoli correlati:
Tesseract-OCR: Qui.

Questo è tutto;)

Share/Bookmark
Stampa il Post - Print this Post

Comments :

0 commenti to “ Riconoscimento caratteri con gScan2Pdf e Tesseract-OCR ”
Related Posts with Thumbnails