Il computer e il riconoscimento ottico. La nuova frontiera del OCR

Il computer e il riconoscimento ottico. La nuova frontiera del OCR
La diffusione crescente dei sistemi di gestione e archiviazione digitale dei documenti ha contribuito
a portare all’attenzione di tutti – anche dei più refrattari alle sigle tecnologiche – l’acronimo OCR,
ossia Optical Character Recognition. Il riconoscimento ottico dei caratteri è, in breve, una
tecnologia che permette al computer di interpretare i segni che trova su un foglio stampato non
come figure, ma come vere e proprie lettere e numeri, e quindi di ricostruire il testo contenuto nel
documento così da renderlo consultabile, analizzabile e modificabile. Ma qual è lo stato dell’arte
delle tecnologie OCR, e cosa possiamo aspettarci da un buon software? Per aiutarci a capire quali
sono le prestazioni da cercare quando si valuta un preventivo in questo senso, abbiamo chiesto
consiglio a
datasis.it
, un’azienda italiana specializzata proprio nella realizzazione di sistemi per la
gestione documentale. Ecco quali sono le cinque caratteristiche che non possono mancare ad un
buon software OCR:
• Formati multipli di output: un foglio stampato è un foglio stampato, ma un documento digitale può
presentarsi in tanti diversi formati, ciascuno adatto ad un utilizzo diverso e con vantaggi differenti.
Un buon programma di riconoscimento ottico dei caratteri, oggi, è in grado di convertire il
documento che scansiona in molti formati diversi, sia per l’utilizzo in software come Word o Excel,
sia per la lettura in PDF e persino nel linguaggio HTML usato per la programmazione delle pagine
Web.
• Supporto multilingua: la globalizzazione ha esposto tutti, anche aziende che solo trent’anni fa
avrebbero avuto una platea strettamente locale, ad una clientela e ad un parco fornitori
internazionali. Questo si traduce nella necessità di poter gestire l’acquisizione di documenti scritte
in lingue differenti: un OCR di buon livello gestisce, come minimo, le lingue principali come
Inglese, Francese, Italiano, Russo, Tedesco, Cinese e Giapponese, ma è normale aspettarsi molte
altre lingue fra quelle disponibili.
• Capacità di operare su grandi volumi di file: un’azienda anche di medie dimensioni produce
migliaia e migliaia di documenti nel corso dell’anno, e un sistema di gestione documentale deve
prevedere di convertirli tutti in formato digitale. Per non incorrere in lungaggini inaccettabili, che
rallenterebbero eccessivamente il lavoro, un buon programma OCR deve o permettere la
digitalizzazione contemporanea di più documenti, oppure offrire un tempo di elaborazione del
singolo documento molto ridotto, così da smaltire rapidamente le code di acquisizione.
• Affidabilità: la soluzione più diffusa, oggi, è quella di installare il software OCR scelto sulla rete
aziendale, così da permetterne un utilizzo da parte di tutte le postazioni senza rallentamenti del
lavoro. Ovviamente, questo richiede che un buon programma di questo tipo sia in grado di operare
in tale modalità, gestendo richieste da diversi computer contemporaneamente, senza
malfunzionamenti o blocchi che ne riducano l’efficienza.
• Supporto tecnico: un’azienda che inizia ad integrare la tecnologia OCR nei propri flussi di lavoro
standard gode di grandi vantaggi solo nel momento in cui la digitalizzazione diventa una normale
fase del lavoro quotidiano. Qualsiasi guasto al sistema significa rallentamenti e problemi per tutti; è
quindi fondamentale che un’offerta di software OCR includa sempre un adeguato supporto tecnico
in remoto, che possa intervenire in maniera risolutiva con una telefonata o addirittura tramite
accesso remoto ai PC aziendali.
Luca Ceriani