Che cosa è uno scanner OCR?

November 1

Che cosa è uno scanner OCR?


Riconoscimento ottico dei caratteri (OCR) è una tecnica di inserimento dati che utilizza un tipo di carattere specifico e uno scanner OCR per leggere il set di caratteri e inviarlo al computer. L'American National Standards Institute, o ANSI, definisce il tipo di carattere come un insieme di caratteri 0-9, da A a Z, e alcuni caratteri speciali, ciascuna contenente una dimensione e forma definita. caratteri OCR sono riproducibili, e gli esseri umani e gli scanner OCR in grado di leggere e di distinguerli.

Categorie

scanner OCR sono o l'immissione di testo o scanner cattura dati. scanner di immissione del testo leggere l'intero documento, o almeno grandi porzioni di esso. L'inserimento dei dati può essere mano-fed o lo scanner può avere l'alimentazione automatica dei dati, la lettura, la cernita e accatastamento capacità. Quando si utilizza uno scanner Text Input, la modifica avviene durante o dopo la scansione. I dati scanner cattura cattura e formattare i dati durante il processo di scansione, e non la modifica umana dei dati avviene. A causa di questo, scanner Capture dati devono essere più accurate.

tipi

tipi scanner può essere fisso o portatile. scanner fissi, come il pianale, processo a foglio e scanner a tamburo usano principalmente Text Input per leggere, e memorizzare le immagini di dati sul computer, dove è possibile modificare o altrimenti formattare il testo catturato. scanner portatili, come penne digitali o scanner di codici a barre, utilizzare l'immissione di testo o Data Capture per leggere e le informazioni dei dati di processo e poi conservarlo per l'editing successivo, o "bloccare" i dati per impedirne la modifica.

metodi

In breve, uno scanner OCR scatta una foto del documento, e quindi il software dello scanner OCR guarda font OCR l'immagine contiene, e quindi legge e lo converte in testo utilizzando un abbinamento Matrix o un metodo Feature Extraction. Matrix Matching è una forma di pattern matching cui lo scanner guarda un carattere e corrisponde ad uno nella sua libreria di caratteri o modelli di carattere. Feature Extraction non si basa su una libreria predefinita, ma sulle caratteristiche generali quali aree aperte, forme chiuse, e linee che si intersecano quando decifrare caratteri. Feature Extraction va anche con il nome di Intelligent Character Recognition, o ICR.

Benefici

Il vantaggio più significativo di utilizzare uno scanner OCR è l'eliminazione di errori di immissione dati umani. scanner OCR leggono i dati in velocità che possono raggiungere più di 200 caratteri al secondo. Il tasso di accuratezza di uno scanner OCR è 99,9975 per cento, o un carattere male interpretato in 40.000, rispetto a un tasso misread umana di uno a 300 caratteri. validazione automatica cifra di controllo in grado di portare il tasso di accuratezza OCR a meno di uno su 3.000.000.

considerazioni

gli originali di scarsa qualità si tradurrà in documenti meno accurati OCR. documenti scritti a mano, documenti contenenti testo in stile, vecchi documenti, fotocopie e documenti più inviati via fax non funzionano bene con gli scanner OCR. Raccomandazioni per i documenti accettabili includono stampati testo in una dimensione di carattere meno di 72 punti, laser e il testo stampante a getto d'inchiostro, i documenti fax con 200 punti per pollice (dpi) o una maggiore risoluzione e materiali stampati in commercio come libri, opuscoli e riviste.