Microsoft Edge, Microsoft, Browser Internet Firefox, Mozilla, estensioni OpenOffice, software libero, Writer, Impress, Calc PadFone, smartphone Matroska, multimedia Avast, antivirus, sicurezza html5, flash, giochi iPhone, iPod touch e iPad infografica, internet browsers, opera, mozilla firefox, chrome, internet explorer cloud computing, internet

sabato 19 febbraio 2011

FreeOCR è probabilmente il miglior programma gratuito/open source per il riconoscimento ottico dei caratteri.

FreeOCR (o per meglio dire Tesseract, dal momento che FreeOCR è solo la sua versione compilata), è probabilmente il miglior programma gratuito/open source per il riconoscimento ottico dei caratteri.

Per riconoscimento ottico dei caratteri (in breve OCR) si intende la capacità del computer di riconoscere il testo presente in un'immagine, in genere acquisita attraverso uno scanner, ma anche -per esempio- da un documento PDF.

Una volta che il computer avrà riconosciuto quell'immagine come documento di testo, sarà possibile utilizzare tutte le normali funzioni che si usano su un normale testo, come ricerca e sostituzione, controllo ortografico, cambiare carattere e impaginazione, ecc.

Purtroppo i programmi di OCR sono in genere costosi (Omnipage e Fine Reader i più famosi), ma anche dotati di caratteristiche che non si trovano nei corrispondenti programmi gratuiti, a partire dalla capacità di riconoscere automaticamente il layout di una pagina e di riprodurlo tale e quale, oppure di caricare e convertire direttamente in .doc (o altro formato testuale) i documenti PDF. Per chi non vuole spendere, comunque, esistono oggi dei programmi gratuiti abbastanza buoni anche per la lingua italiana, primo tra tutti FreeOCR/Tesseract. Con questo programma è anche possibile convertire i documenti PDF, ma a prezzo di un paio di passaggi in più.

Ecco dunque una guida per FreeOCR/Tesseract comprensibile a tutti.
  1. Scaricate e installate FreeOCR (esattamente dove c'è scritto Download Here)
  2. Andate in questa pagina e scaricate il file Italian language data for Tesseract (tesseract-2.00.ita.tar.gz)
  3. Utilizzate il vostro programma di archiviazione per scompattare in qualche cartella l'archivio con estensione .gz che avete appena scaricato. Se non avete un programma di archiviazione decente, scaricate IZArc o Universal Extractor da qui.
  4. Scompattate questa cartella appena scaricata dove volete, anche sul desktop.
  5. Copiate tutti i file della cartella appena scompattata in C:/Windows/tessdata . So che è una cosa sgradevole andare a mettere le mani nella cartella C:Windows, ma se non aggiungete i file in italiano, il programma non funzionerà con i documenti nella nostra lingua.
  6. Avviate FreeOCR e impostate a lingua italiana, come nell'immagine qui sotto:

  7. Acquisite il testo. Se avete uno scanner, impostatelo a 300dpi. In genere impostando una risoluzione superiore o inferiore si ottengono risultati peggiori (a meno di caratteri microscopici, nel qual caso si può salire a 600 dpi).
    Se avete un documento PDF, potete direttamente cliccare su OpenPDF.
  8. Adesso è molto importante delimitare il testo con il mouse, tracciando un rettangolo intorno alla parte del testo da convertire, soprattutto se i bordi della pagina digitalizzata sono un po' scuri (se non lo fate, il testo si potrebbe riempire di caratteri strani).

  9. Cliccate e finalmente potrete avere in italiano il vostro documento.
Pur non essendo paragonabile ai programmi del genere a pagamento, FreeOCR svolge lo stesso un lavoro abbastanza buono (il migliore tra i programmi gratuiti che abbia provato), e se imparete bene ad usarlo (non che ci voglia molto...), otterrete dei risultati soddisfacenti.

Screenshots.




Ricerca personalizzata

Se ti è piaciuto l'articolo , iscriviti al feed cliccando sull'immagine sottostante per tenerti sempre aggiornato sui nuovi contenuti del blog:




Nessun commento:
Scrivi commenti

Random Posts