In che modo gli algoritmi di riconoscimento ottico dei caratteri ridefiniscono i processi aziendali?

Pubblicato: 2022-04-14

L'immissione di dati e il loro spostamento da un luogo all'altro è un'attività ripetitiva e dispendiosa in termini di tempo. Un dipendente può facilmente trascorrere fino a tre ore al giorno spostando i dati. Oltre a consumare il tempo dei lavoratori, la gestione manuale dei dati è soggetta a errori, che portano a perdite di entrate.

Un rapporto di Dun & Bradstreet, che indaga il passato e il futuro dei dati, ha rivelato che un'azienda su cinque perde denaro a causa di dati incompleti. La tecnologia di riconoscimento ottico dei caratteri (OCR) può aiutare le aziende a risolvere questi problemi. Gli algoritmi OCR possono trasformare i documenti cartacei in testo modificabile e ricercabile.

Possono anche estrarre informazioni da file e inserirle nei campi corrispondenti nei sistemi informatici di un'azienda. Quindi, come funziona l'OCR? In che modo questa tecnologia può aiutarti a raggiungere gli obiettivi di business? E dovresti contattare un fornitore di soluzioni di intelligenza artificiale per aiutarti a creare e configurare il software OCR?

Che cos'è il riconoscimento ottico dei caratteri e come funziona?

Definizione OCR

Il riconoscimento ottico dei caratteri è una tecnologia che converte il testo digitato o scritto a mano e le immagini stampate contenenti testo in un formato di dati digitali leggibile dalla macchina. Gli algoritmi OCR aiutano a trasformare grandi quantità di documenti cartacei in file digitali, facilitando l'archiviazione, l'elaborazione e la ricerca del testo.

I sistemi OCR sono costituiti da hardware e software. La parte hardware può essere uno scanner ottico o un dispositivo simile in grado di convertire documenti cartacei in formato digitale. La parte software è l'algoritmo OCR stesso.

Come funziona l'OCR?

È difficile per i computer riconoscere i caratteri a causa dei diversi tipi di carattere e delle variazioni su come è possibile scrivere una lettera. Le lettere scritte a mano complicano ulteriormente le cose. Tuttavia, gli algoritmi di riconoscimento ottico dei caratteri accettano questa sfida. Ogni soluzione OCR opera in quattro fasi principali:

Acquisizione dell'immagine

Il processo prevede l'utilizzo di uno scanner ottico per acquisire una copia digitale del documento cartaceo. Il documento deve essere correttamente allineato e dimensionato.

Pre-elaborazione

L'obiettivo di questa fase è rendere il file di input utilizzabile dall'algoritmo OCR. Il rumore e lo sfondo vengono eliminati. La pre-elaborazione comprende i seguenti passaggi:

Analisi del layout: identificazione di didascalie, colonne e grafici come blocchi
De-skew: inclinare il documento digitale per rendere le linee orizzontali nel caso in cui non fosse correttamente allineato durante la scansione
Perfezionamento dell'immagine: levigatura dei bordi, rimozione delle particelle di polvere, aumento del contrasto tra testo e sfondo
Rilevamento del testo: alcuni algoritmi rilevano parole separate e le dividono in lettere mentre altri lavorano direttamente con il testo senza dividerlo in caratteri.
Binarizzazione: conversione del documento scansionato in un formato in bianco e nero, dove le aree scure rappresentano i caratteri (alfabetici o numerici) e le aree bianche sono identificate come sfondo. Questo passaggio aiuta a riconoscere i diversi tipi di carattere.

Durante questa fase, gli algoritmi di riconoscimento ottico dei caratteri eseguono diverse manipolazioni per riconoscere lettere e numeri. Ci sono due approcci principali:

Riconoscimento dei modelli: gli algoritmi OCR vengono addestrati su un'ampia varietà di caratteri, formati di testo e stili di scrittura a mano per confrontare caratteri distinti dal file di input con ciò che hanno appreso.
Riconoscimento delle caratteristiche: alcuni algoritmi traggono vantaggio dalle proprietà dei caratteri note, come le linee incrociate e curve, per identificare i caratteri nei file di input. Ad esempio, una lettera "H" è identificata come due linee verticali e una linea orizzontale intersecante. Gli algoritmi OCR basati sulle reti neurali (NN) utilizzano una logica diversa in cui i primi livelli NN aggregano i pixel dal file di input per creare una mappa delle caratteristiche di basso livello dell'immagine.

Dopo aver rilevato i caratteri, il programma li converte in ASCII (American Standard Code for Information Exchange) per facilitare ulteriori manipolazioni.

Post produzione

L'output può essere di base come una stringa di caratteri o un file. Le soluzioni OCR più avanzate possono mantenere la struttura della pagina originale e creare un file PDF con testo ricercabile. Anche se finora non ci sono strumenti che garantiscano una precisione del 100% su diversi file di input, alcuni algoritmi di riconoscimento ottico dei caratteri possono raggiungere una precisione impressionante del 99,8% su testi familiari. L'uso della scrittura a mano comprometterà in modo significativo i risultati. Inoltre, è importante capire che con una formazione scadente o testi non familiari il tasso di errore può arrivare fino al 20%. Pertanto, è necessario che gli utenti controllino, rilevino e correggano costantemente l'output degli algoritmi OCR, soprattutto quando un nuovo tipo di documento entra nella pipeline.

La fase di post-elaborazione può coinvolgere anche l'elaborazione del linguaggio naturale (NLP) e altre tecniche di intelligenza artificiale per la verifica dei dati. L'IA non solo può correggere il testo, ma anche rilevare errori nei calcoli. Supponiamo che durante l'elaborazione di una fattura, un algoritmo OCR abbia identificato la somma totale in $ 500. L'IA può verificarlo aggiungendo tutte le spese e scoprendo che non ammontano a $ 500. L'IA può notificare a un dipendente umano di esaminare questo caso particolare.

Se vuoi migliorare la qualità dell'algoritmo, puoi sperimentare librerie OCR open source, come Tesseract, che utilizzano il proprio dizionario per la segmentazione dei caratteri. Un altro approccio consiste nel creare un glossario specializzato dei termini che ricorrono nel tuo dominio. Inoltre, i revisori possono utilizzare il loro feedback come input per un'altra sessione di addestramento dell'algoritmo di riconoscimento ottico dei caratteri.

In che modo gli algoritmi OCR possono avvantaggiare la tua azienda?

Ecco cosa possono fare per te le soluzioni di riconoscimento ottico dei caratteri:

Abbattimento dei costi: la conversione dei file in formato digitale e l'automazione dell'inserimento dei dati riduce i costi in termini di ore dipendenti
Aumenta la soddisfazione dei clienti: questa tecnologia consentirà alle persone di aggiornare le proprie informazioni personali da remoto scansionando i documenti di identità invece di recarsi fisicamente in una banca o in qualsiasi altro stabilimento
Offri opzioni di backup più economiche: non è necessario archiviare documenti cartacei insieme ai loro duplicati e triplicati, il che consuma costose unità di archiviazione fisica
Facilita la traduzione tra lingue diverse: alcuni strumenti OCR hanno la capacità di tradurre documenti da una lingua all'altra
Automatizzare i flussi di lavoro: la ricerca tra i file digitali con un buon sistema di gestione è più veloce che gestire i documenti cartacei. Meno processi verranno messi in attesa durante la ricerca di un file fisico perso. Se sei interessato a una soluzione di automazione più completa, puoi utilizzare servizi di automazione dei processi intelligenti che includono OCR e altre funzionalità avanzate.

Soluzioni OCR disponibili sul mercato

Se stai pensando di incorporare le funzionalità OCR nei tuoi sistemi IT, hai diverse opzioni tra cui scegliere.

Algoritmi open source di riconoscimento ottico dei caratteri

Esistono diversi algoritmi OCR open source che le aziende possono adattare alle proprie esigenze. Queste soluzioni sono più facili da personalizzare poiché il loro codice sorgente è universalmente accessibile. Tuttavia, non esiste un'autorità centrale. Gli sviluppatori di soluzioni open source non si assumono responsabilità e non offrono ulteriore supporto. Quindi, la qualità del codice può essere discutibile. Questa opzione è più adatta per le aziende con forti reparti IT in grado di riparare qualsiasi malfunzionamento. In alternativa, puoi contattare i consulenti di machine learning che possono personalizzare e riqualificare questo software per te.

Ecco alcune soluzioni OCR open source comunemente utilizzate:

Tesseract

Il motore open source Tesseract è uno degli strumenti OCR più popolari e si ritiene che sia uno degli strumenti gratuiti più accurati. È stata sviluppata da Hewlett-Packard tra il 1985 e il 1994. A partire dal 2006, questa piattaforma è stata gestita e ulteriormente sviluppata da Google. Tesseract è scritto in C++ ma offre wrapper in Java, Python, Swift, Ruby e R e alcuni linguaggi di programmazione più comuni.

Lo strumento funziona utilizzando una riga di comando e non dispone di un'interfaccia utente grafica. Tuttavia, ci sono diverse opzioni della GUI che puoi distribuire per rendere questa soluzione facile da usare. Un esempio è glmageReader. Questa interfaccia è sviluppata utilizzando Python e supporta diversi formati di immagine, inclusi PNG, GIF e PNM.

Tesseract non offre analisi del layout di pagina, non formatta l'output e la sua interfaccia a riga di comando richiede che tutte le immagini siano inviate in formato TIFF. Inoltre, questa soluzione OCR non è ottimizzata per GPU e non consente l'elaborazione batch.

OCRo

OCRopus è stato originariamente scritto in Python e ora ha una versione C++ separata. È supportato da Google ed è stato utilizzato come motore OCR per l'algoritmo di Google ReCaptcha.

OCRopus ha tre caratteristiche principali:

Analisi del layout fisico: identifica blocchi di testo, colonne e righe e determina l'ordine di lettura. Ad esempio, per rilevare le colonne, utilizza un algoritmo di rettangolo di spazi bianchi massimi per rilevare gli spazi bianchi tra le colonne.
Riconoscimento delle linee : riconosce le linee all'interno di ogni blocco o colonna, siano esse verticali o da sinistra a destra.
Modellazione statistica del linguaggio: utilizza dizionari e grammatica stocastica per risolvere il problema delle lettere mancanti e non identificate.

EasyOCR

Jaided AI, una società di riconoscimento ottico dei caratteri, ha creato il pacchetto EasyOCR utilizzando la libreria Python e PyTorch con i suoi modelli di deep learning. Supporta oltre 80 lingue tra cui caratteri cirillici, cinese e arabo e questa base continua ad espandersi. Come parte della roadmap di implementazione, è prevista l'aggiunta di opzioni configurabili per il riconoscimento del testo scritto a mano.

Soluzioni OCR commerciali

Le soluzioni Software as a Service (SaaS) ti consentono di beneficiare di algoritmi di alta qualità e di ricevere il supporto completo del fornitore. A seconda della piattaforma selezionata, potresti essere in grado di riqualificare l'algoritmo OCR sul tuo set di dati e adattarlo ulteriormente alle tue esigenze specifiche.

Amazon Texttract

Amazon Textract è un servizio basato sull'apprendimento automatico che estrae il testo stampato e scritto a mano dai documenti scansionati. Può funzionare con dati non strutturati e con testo formattato, come moduli e tabelle. La soluzione utilizza l'intelligenza artificiale e non richiede passaggi di configurazione o modelli aggiuntivi. Questo servizio è sicuro e conforme alle normative sulla protezione dei dati, come HIPAA e GDPR. Amazon Texttract offre quattro API che i clienti possono utilizzare e pagare di conseguenza:

Rileva l'API del testo del documento: estrae il testo stampato non strutturato e la scrittura a mano dalle scansioni. Costa $ 0,0015 per pagina per il primo milione di pagine; in seguito, il prezzo diminuisce.
Analizza l'API del documento: funziona con i dati strutturati. Estrae testo da moduli e tabelle. I clienti pagheranno $ 0,015 per pagina durante l'elaborazione delle tabelle e $ 0,05 per pagina nel caso dei moduli. Il prezzo diminuisce dopo il primo milione di pagine.
Analizza le spese API: funziona con le fatture. Questo servizio ha una tassonomia comune dei campi relativi alle ricevute. Ad esempio, può riconoscere il numero di fattura. Gli utenti pagheranno $ 0,01 per pagina per il primo milione di pagine.
API Analyze ID: comprende il contesto dei documenti di identità, come patenti di guida e passaporti, e può estrarre testo da campi specifici. Puoi beneficiare di questo servizio per $ 0,025 per le prime 100.000 pagine.

Google Cloud Vision

Google offre Vision API, che può estrarre testo stampato e scritto a mano da documenti e immagini. Contiene due funzioni per il riconoscimento ottico dei caratteri:

Text_detection: estrae il testo dalle immagini, come le fotografie dei segnali stradali
Document_text_detection: acquisisce testi in documenti e immagini. Si differenzia dalla funzione precedente in quanto la sua risposta è ottimizzata per testi densi.

Entrambe le funzionalità consentono agli utenti di elaborare gratuitamente le prime 1.000 unità al mese. Dopodiché, pagherai $ 1,5 per ogni 1.000 unità. Questo prezzo diminuirà man mano che invii più unità al mese.

Visione artificiale di Microsoft Azure

Microsoft offre servizi OCR come parte della sua API di visione artificiale generica, non come funzionalità autonoma. Quindi, paghi per l'intero pacchetto, che, oltre al riconoscimento ottico dei caratteri, include l'identificazione di celebrità, punti di riferimento, marchi e il rilevamento generale di oggetti. Questa API ti costerà $ 1 ogni 1.000 transazioni per il primo milione di unità. Successivamente, il prezzo scende a $ 0,65 per 1.000 transazioni e continuerà a diminuire man mano che invii più contenuti.

Principali casi d'uso dell'OCR in diversi settori

Gli algoritmi di riconoscimento ottico dei caratteri stanno guadagnando terreno in diversi settori. Di seguito sono elencate alcune delle applicazioni OCR più importanti.

OCR nel settore bancario

Gli istituti bancari utilizzano un sacco di documenti cartacei nei loro flussi di lavoro. Questi includono assegni, record dei clienti, richieste di prestito, estratti conto bancari, ecc. L'adozione di algoritmi di riconoscimento OCR consente ai dipendenti di archiviare e accedere a tutti questi documenti digitalmente e previene la perdita e il danneggiamento delle scartoffie.

Controllare la gestione

Un esempio di OCR in questo settore è l'utilizzo di app bancarie per depositare digitalmente assegni cartacei. Queste soluzioni implementano algoritmi di riconoscimento ottico dei caratteri per identificare i campi rilevanti nei controlli ed eseguire le operazioni di conseguenza senza che un dipendente debba trasferire tutti questi dati manualmente. Inoltre, tali app possono eseguire la convalida della firma rispetto al database esistente e cancellare immediatamente il controllo.

Onboarding del cliente

Invece di fare in modo che un dipendente verifichi manualmente le identità dei clienti, le soluzioni basate su OCR possono estrarre e convalidare tutte le informazioni rilevanti dal passaporto della persona e da altri documenti di identità. Ciò consente la verifica immediata e migliora l'esperienza del cliente.

Aggiornamento delle informazioni sui clienti

Invece di dover visitare o chiamare una banca, con l'aiuto dell'OCR, i clienti possono scansionare i propri documenti per aggiornare automaticamente le informazioni. Ad esempio, Alfa-Bank ha collaborato con Smart Engines per migliorare la propria app bancaria con funzionalità di riconoscimento ottico dei caratteri. Con questa nuova funzionalità, i clienti possono posizionare i documenti di identità davanti alla fotocamera del proprio smartphone, confermare i dati estratti e aggiornare le proprie informazioni nel sistema bancario.

OCR in ambito sanitario

Analogamente al settore bancario, le organizzazioni sanitarie accumulano molti documenti cartacei, come scansioni a raggi X, risultati dei test, piani di trattamento e così via. Gli algoritmi OCR aiutano a digitalizzare questi file per prevenire la perdita di documenti fisici e ridurre gli sforzi sprecati nella gestione manuale dei file cartacei. Inoltre, alcune soluzioni OCR che riconoscono il testo scritto a mano possono elaborare i documenti di iscrizione e le prescrizioni dei pazienti.

Sistema di reclami medici

Esistono fornitori di software specializzati nell'elaborazione di richieste mediche abilitate all'OCR. Una di queste società è OCR Solutions. Ha sviluppato un prodotto in grado di scansionare, verificare e indirizzare correttamente i reclami medici per un'ulteriore manipolazione. Questo programma è addestrato e configurato per funzionare con formati comuni, come moduli di reclamo dentale e CMS-1500, tra gli altri.

Fax

Molte strutture mediche si affidano ancora al fax. Le soluzioni di riconoscimento ottico dei caratteri possono convertire il materiale in entrata in un formato archiviato digitalmente accessibile.

Fatturazione

Le soluzioni basate su OCR aiutano le organizzazioni sanitarie a digitalizzare le fatture e ad archiviarle correttamente. Un esempio di OCR viene da Nanonets, con sede a San Francisco, che offre una soluzione basata su OCR specializzata nell'elaborazione delle fatture. La società afferma che il suo software ridurrà il tempo di immissione dei dati delle fatture da tre minuti per fattura a soli 30 secondi.

OCR nella vendita al dettaglio

Gli algoritmi di riconoscimento ottico dei caratteri consentono ai dipendenti della vendita al dettaglio di risparmiare tempo nell'elaborazione di ordini di acquisto, fatture, distinte di imballaggio e altri documenti. Queste soluzioni possono anche estrarre numeri di serie dai codici a barre dei prodotti e consentire ai clienti di scansionare i propri voucher ed estrarre codici seriali.

Scansione ID

I dipendenti del negozio potrebbero aver bisogno di scansionare le informazioni personali per molti motivi, come la verifica dell'età, la compilazione di informazioni per la fidelizzazione dei clienti e altro ancora. I fornitori di OCR sfruttano questa opportunità.

Ad esempio, OCR Solutions, con sede in Florida, ha sviluppato idMax, un software basato su OCR in grado di scansionare documenti ID, estrarre campi rilevanti e popolare il database del rivenditore con le informazioni corrispondenti. idMax può essere installato localmente o accessibile tramite il cloud.

Le sfide dell'adozione di una soluzione OCR nella tua azienda

Se hai deciso di implementare algoritmi di riconoscimento OCR per migliorare le tue operazioni, ci sono diversi aspetti che devi considerare:

Materiale di input: assicurati che tutti i file di input siano adatti per l'algoritmo OCR. Ad esempio, i file devono essere privi di danni che possono interferire con la capacità dell'algoritmo di riconoscerne il contenuto. Il contrasto è abbastanza alto, le pagine sono allineate correttamente, ecc. Alcuni algoritmi hanno potenti capacità di pre-elaborazione e possono risolvere alcuni di questi problemi per te. Ma se non è così, forse è una buona idea investire in uno scanner di alta qualità e garantire un corretto allineamento delle pagine.

Set di dati di addestramento: se decidi di addestrare o riqualificare algoritmi di riconoscimento ottico dei caratteri, devi assicurarti che i dati che intendi utilizzare rappresentino fedelmente il materiale di input e contengano annotazioni corrette sufficienti. Se il set di dati di addestramento è troppo piccolo o non contiene annotazioni adeguate, l'algoritmo non produrrà i risultati desiderati. Inoltre, durante l'allenamento, devi prestare particolare attenzione a caratteri/simboli simili. Ad esempio, i numeri 2 e 7 possono sembrare piuttosto simili, soprattutto se si prevede che l'algoritmo funzioni con testo scritto a mano. I data scientist devono coprire tali distinzioni nei dati di addestramento. Un altro esempio può essere l'utilizzo di algoritmi OCR per rilevare e acquisire le targhe delle auto. Devi assicurarti che il tuo algoritmo non vada per un adesivo personalizzato con il testo sul retro di un'auto che lo scambia per una targa.

Testo scritto a mano: con la scrittura a mano arrivano numerose sfide OCR aggiuntive. Esiste una grande varietà di stili di scrittura tra persone diverse, anche la scrittura di un singolo utente può essere incoerente. La raccolta di un set di dati di formazione rappresentativo affidabile è una sfida poiché è necessario tenere conto di tutti i diversi stili. La scrittura corsiva è particolarmente difficile da elaborare. Inoltre, mentre il testo stampato arriva in linea retta, la scrittura a mano tende ad avere rotazioni variabili, il che complica ancora di più le cose.

Ridimensionamento: se si aumenta il numero di utenti o il numero di richieste per fascia oraria, il sistema può crollare, soprattutto se si utilizza una soluzione open source e si fa affidamento sulla propria potenza di calcolo. In caso di prodotti OCR commerciali eseguiti nel cloud, puoi organizzare e pagare per una maggiore capacità.

Monitoraggio delle prestazioni dell'algoritmo OCR: dopo la distribuzione, le prestazioni dell'algoritmo potrebbero iniziare a peggiorare a causa di diversi fattori. Un esempio è il cambiamento nella distribuzione tra i dati di addestramento ei dati di produzione effettivi. Ciò si verifica quando il modello inizia a lavorare su set di dati per i quali non è stato preparato, come font diversi o caratteri con inclinazioni insolite. Queste modifiche influiranno sull'output del modello nel tempo ed è necessario rilevare questi problemi e riqualificare il modello di conseguenza per mantenere il livello di precisione iniziale.

Per riassumere

Gli algoritmi di riconoscimento ottico dei caratteri hanno il potenziale per accelerare i processi aziendali. Tuttavia, ci sono sfide associate da considerare. È probabile che l'algoritmo selezionato necessiti di un nuovo addestramento ed è un compito noioso annotare correttamente un set di dati di grandi dimensioni. Devi anche pensare al potenziale ridimensionamento man mano che la tua attività si espande.

L'adozione di una soluzione open source sembra allettante dal punto di vista del prezzo, ma ha i suoi svantaggi, come la mancanza di supporto e aggiornamenti, che possono aprire falle nella sicurezza. Le soluzioni commerciali sono più affidabili in questo senso, ma possono essere costose e difficili da personalizzare.

Se non sei sicuro di come procedere e quale soluzione OCR sia più adatta alla tua attività, non esitare a contattarci. In ITRex, saremo lieti di condurre una valutazione approfondita delle vostre esigenze aziendali per determinare la migliore opzione OCR. Possiamo anche aiutarti a riqualificare la soluzione selezionata e integrarla nel tuo sistema. Possiamo anche creare un algoritmo OCR personalizzato, se necessario.

Vuoi velocizzare le tue operazioni con il riconoscimento ottico dei caratteri? Lascia una riga a ITRex! I loro esperti di intelligenza artificiale ti assisteranno con l'integrazione e la formazione delle soluzioni OCR. Possono anche sviluppare algoritmi personalizzati per te, se necessario.

Pubblicato originariamente su https://itrexgroup.com il 6 aprile 2022.