extract_text

Questa repo contiene il codice per estrarre qualsiasi tipo di testo da una qualsiasi immagine tramite Tesserract, l'OCR Open Source di Google.

Installazione di Tesseract

Installare l'eseguibile Tesserac.

Su MacOS
brew install tesseract
Su Windows10
https://github.com/UB-Mannheim/tesseract/wiki

Setup ed esecuzione su Python

Su Python, installare il pacchetto pytesseract.

pip install pytesseract

Aprire lo script OCR_tesseract.py e sostituire i seguenti elementi:

####path_to_image#### con il percorso dell' immagine della quale si vuole estrarre il testo.
####path_to_text#### con il percorso dove si vuole salvare lo script che conterrà il testo estratto dall' immagine
(es: C:\Documenti\test.txt)
####path_to_tesseract#### il percorso all' eseguibile di Tesseract
(es: /usr/local/Cellar/tesseract/4.1.1/bin/tesseract o 'C:\Program Files\Tesseract-OCR\tesseract.exe')

Eseguire il codice.

Use case

Nella cartella esempio ci sono 3 immagini con i rispettivi file testuali convertiti con lo script esempio_OCR.py. Le immagini supportate dal motore OCR sono tutte quelle in formato png/jpeg/jpg.

Idee di miglioramento

è possibile migliorare la conversione utilizzando dei metodi di pre-processing delle immagini, tramite i pacchetti PIL e cv2. Ad esempio:

ridimensionare l'immagine in modo da aumentare la leggibilità
im_resized = im.resize((1980, 1000), Image.ANTIALIAS)
impostare un threshold ben calibrato (tendenzialmente infatti gli OCR lavorano meglio con immagini bianco e nero)
ret,thresh1 = cv2.threshold(img,127,255,cv2.THRESH_BINARY)

Reference

https://github.com/tesseract-ocr/tesseract

Name		Name	Last commit message	Last commit date
Latest commit History 10 Commits
esempio		esempio
OCR_tesseract.py		OCR_tesseract.py
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

extract_text

Installazione di Tesseract

Setup ed esecuzione su Python

Use case

Idee di miglioramento

Reference

About

Uh oh!

Releases

Packages

Languages

danilofiumi/extract_text

Folders and files

Latest commit

History

Repository files navigation

extract_text

Installazione di Tesseract

Setup ed esecuzione su Python

Use case

Idee di miglioramento

Reference

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages