Cum algoritmii de recunoaștere optică a caracterelor redefinesc procesele de afaceri?

Publicat: 2022-04-14

Introducerea datelor și mutarea acestora dintr-un loc în altul este o sarcină repetitivă, consumatoare de timp. Un angajat poate petrece cu ușurință până la trei ore pe zi doar mutând date. Pe lângă consumul de timp al lucrătorilor, manipularea manuală a datelor este predispusă la erori, care duc la pierderi de venituri.

Un raport al lui Dun & Bradstreet, care investighează trecutul și viitorul datelor, a arătat că una din cinci companii pierde bani din cauza datelor incomplete. Tehnologia de recunoaștere optică a caracterelor (OCR) poate ajuta companiile să rezolve aceste probleme. Algoritmii OCR pot transforma documente pe hârtie în text editabil, care poate fi căutat.

De asemenea, pot extrage informații din fișiere și le pot introduce în câmpurile corespunzătoare din sistemele IT ale unei companii. Deci, cum funcționează OCR? Cum vă poate ajuta această tehnologie să atingeți obiectivele de afaceri? Și ar trebui să contactați un furnizor de soluții de inteligență artificială pentru a vă ajuta să construiți și să configurați software-ul OCR?

Ce este recunoașterea optică a caracterelor și cum funcționează?

Definiție OCR

Recunoașterea optică a caracterelor este o tehnologie care convertește textul tipărit sau scris de mână și imaginile tipărite care conțin text într-un format de date digitale care poate fi citit de mașină. Algoritmii OCR ajută la transformarea unor cantități mari de documente pe hârtie în fișiere digitale, facilitând stocarea, procesarea și căutarea textului.

Sistemele OCR constau din hardware și software. Partea hardware poate fi un scaner optic sau un dispozitiv similar care poate converti documente de hârtie în format digital. Partea software este algoritmul OCR în sine.

Cum funcționează OCR?

Este greu pentru computere să recunoască caracterele din cauza diferitelor fonturi și variațiilor cu privire la modul în care poate fi scrisă o singură literă. Scrisorile scrise de mână complică și mai mult lucrurile. Cu toate acestea, algoritmii de recunoaștere optică a caracterelor preiau această provocare. Fiecare soluție OCR funcționează în patru pași principali:

Achizitie de imagini

Procesul presupune utilizarea unui scaner optic pentru a captura o copie digitală a documentului de hârtie. Documentul trebuie să fie aliniat și dimensionat corespunzător.

Preprocesare

Scopul acestei faze este de a face fișierul de intrare utilizabil de către algoritmul OCR. Zgomotul și fundalul sunt eliminate. Preprocesarea include următorii pași:

  • Analiza aspectului: identificarea legendelor, coloanelor și graficelor ca blocuri
  • Declinare: înclinarea documentului digital pentru a face liniile orizontale în cazul în care nu a fost aliniat corect în timpul scanării
  • Rafinamentul imaginii: netezirea marginilor, îndepărtarea particulelor de praf, creșterea contrastului dintre text și fundal
  • Detectarea textului: unii algoritmi detectează cuvinte separate și le împart în litere, în timp ce alții lucrează direct cu textul, fără a-l împărți în caractere.
  • Binarizare: convertirea documentului scanat într-un format alb-negru, unde zonele întunecate reprezintă caractere (alfabetice sau numerice) și zonele albe sunt identificate ca fundal. Acest pas ajută la recunoașterea diferitelor fonturi.

În această fază, algoritmii de recunoaștere optică a caracterelor efectuează diferite manipulări pentru a recunoaște literele și numerele. Există două abordări principale:

  • Recunoașterea modelelor: algoritmii OCR sunt antrenați pe o mare varietate de fonturi, formate de text și stiluri de scriere de mână pentru a compara caracterele distincte din fișierul de intrare cu ceea ce au învățat.
  • Recunoașterea caracteristicilor: unii algoritmi beneficiază de proprietățile caracterelor cunoscute, cum ar fi liniile încrucișate și curbate, pentru a identifica caracterele din fișierele de intrare. De exemplu, litera „H” este identificată ca două linii verticale și o linie orizontală care se traversează. Algoritmii OCR alimentați de rețele neuronale (NN) folosesc o logică diferită, în care primele straturi NN agregă pixeli din fișierul de intrare pentru a crea o hartă caracteristică la nivel scăzut a imaginii.

După detectarea caracterelor, programul le convertește în codul standard american pentru schimbul de informații (ASCII) pentru a facilita manipulările ulterioare.

Post procesare

Ieșirea poate fi de bază, precum un șir de caractere sau un fișier. Soluțiile OCR mai avansate pot păstra structura originală a paginii și pot crea un fișier PDF cu text care poate fi căutat. Chiar dacă până acum nu există instrumente care să garanteze o acuratețe de 100% pe diferite fișiere de intrare, unii algoritmi de recunoaștere optică a caracterelor pot atinge o precizie impresionantă de 99,8% pe texte familiare. Utilizarea scrisului de mână va compromite semnificativ rezultatele. De asemenea, este important să înțelegeți că, cu o pregătire slabă sau cu texte nefamiliare, rata de eroare poate fi de până la 20%. Prin urmare, este necesar ca utilizatorii să monitorizeze, să corecteze și să corecteze în mod constant rezultatul algoritmilor OCR, mai ales atunci când un nou tip de document intră în conductă.

Faza de post-procesare poate implica, de asemenea, procesarea limbajului natural (NLP) și alte tehnici AI pentru verificarea datelor. AI poate nu numai să corecteze textul, ci și să detecteze greșelile de calcul. Să presupunem că în timpul procesării unei facturi, un algoritm OCR a identificat suma totală ca fiind de 500 USD. AI poate verifica acest lucru adăugând toate cheltuielile și dând seama că acestea nu se ridică la 500 USD. AI poate notifica un angajat uman să examineze acest caz particular.

Dacă doriți să îmbunătățiți calitatea algoritmului, puteți experimenta cu biblioteci OCR open-source, cum ar fi Tesseract, care folosesc propriul dicționar pentru segmentarea caracterelor. O altă abordare este să creați un glosar specializat de termeni care apar din nou în domeniul dvs. De asemenea, recenzenții își pot folosi feedback-ul ca intrare la o altă sesiune de antrenament cu algoritmul de recunoaștere optică a caracterelor.

Cum pot algoritmii OCR să vă avantajeze afacerea?

Iată ce pot face soluțiile de recunoaștere optică a caracterelor pentru dvs.:

  • Reduceți costurile: conversia fișierelor în format digital și automatizarea introducerii datelor reduc costurile în ceea ce privește orele angajaților
  • Creșteți satisfacția clienților: această tehnologie le va permite oamenilor să își actualizeze informațiile personale de la distanță prin scanarea documentelor de identificare în loc să viziteze fizic o bancă sau orice altă unitate.
  • Oferiți opțiuni de backup mai ieftine: nu este nevoie să stocați documente pe hârtie împreună cu duplicatele și triplicatele acestora, ceea ce consumă unități de stocare fizice scumpe
  • Facilitați traducerea între diferite limbi: unele instrumente OCR au capacitatea de a traduce documente dintr-o limbă în alta
  • Automatizați fluxurile de lucru: căutarea prin fișiere digitale cu un sistem de management bun este mai rapidă decât gestionarea documentelor pe hârtie. Mai puține procese vor fi puse în așteptare în timp ce se caută un fișier fizic pierdut. Dacă sunteți interesat de o soluție de automatizare mai cuprinzătoare, puteți utiliza servicii inteligente de automatizare a proceselor care includ OCR și alte capabilități avansate.

Soluții OCR disponibile pe piață

Dacă vă gândiți să încorporați caracteristici OCR în sistemele dvs. IT, aveți mai multe opțiuni din care să alegeți.

Algoritmi de recunoaștere optică a caracterelor open-source

Există mai mulți algoritmi OCR open-source pe care companiile îi pot adapta nevoilor lor. Aceste soluții sunt mai ușor de personalizat, deoarece codul lor sursă este accesibil universal. Cu toate acestea, nu există o autoritate centrală. Dezvoltatorii de soluții open-source nu își asumă responsabilitatea și nu oferă suport suplimentar. Prin urmare, calitatea codului poate fi discutabilă. Această opțiune este mai potrivită pentru companiile cu departamente IT puternice, capabile să remedieze orice defecțiune. Alternativ, puteți contacta consultanții de învățare automată care pot personaliza și recalifica acest software pentru dvs.

Iată câteva soluții OCR open-source utilizate în mod obișnuit:

Teseract

Motorul open-source Tesseract este unul dintre cele mai populare instrumente OCR și se crede că este printre cele mai precise instrumente gratuite. A fost dezvoltată de Hewlett-Packard între 1985 și 1994. Începând cu 2006, această platformă a fost gestionată și dezvoltată în continuare de Google. Tesseract este scris în C++, dar oferă pachete în Java, Python, Swift, Ruby și R și câteva limbaje de programare mai comune.

Instrumentul funcționează folosind o linie de comandă și nu are o interfață grafică cu utilizatorul. Cu toate acestea, există mai multe opțiuni GUI pe care le puteți implementa pentru a face această soluție ușor de utilizat. Un exemplu este glmageReader. Această interfață este dezvoltată folosind Python și acceptă diferite formate de imagine, inclusiv PNG, GIF și PNM.

Tesseract nu oferă analiză a aspectului paginii, nu formatează rezultatul, iar interfața sa de linie de comandă necesită ca toate imaginile să fie trimise în format TIFF. În plus, această soluție OCR nu este optimizată pentru GPU și nu permite procesarea în lot.

OCRopus

OCRopus a fost scris inițial în Python și are acum o versiune separată C++. Este acceptat de Google și a fost folosit ca motor OCR pentru algoritmul Google ReCaptcha.

OCRopus are trei caracteristici principale:

  • Analiza aspectului fizic: identifică blocurile de text, coloanele și liniile și determină ordinea de citire. De exemplu, pentru a detecta coloanele, folosește un algoritm de dreptunghi de spațiu alb maxim pentru a detecta spațiile albe dintre coloane.
  • Recunoașterea liniilor : recunoaște liniile din fiecare bloc sau coloană, indiferent dacă sunt linii verticale sau de la stânga la dreapta.
  • Modelarea statistică a limbajului: folosește dicționare și gramatică stocastică pentru a rezolva problema literelor lipsă și neidentificate.

EasyOCR

Jaided AI, o companie de recunoaștere optică a caracterelor, a construit pachetul EasyOCR folosind biblioteca Python și PyTorch cu modelele sale de deep learning. Acceptă peste 80 de limbi, inclusiv scripturi chirilice, chineză și arabă, iar această bază continuă să se extindă. Ca parte a foii de parcurs de implementare, există planuri de a adăuga opțiuni configurabile pentru recunoașterea textului scris de mână.

Soluții OCR comerciale

Soluțiile software ca serviciu (SaaS) vă permit să beneficiați de algoritmi de înaltă calitate și să primiți asistență completă a furnizorilor. În funcție de platforma selectată, este posibil să puteți reinstrui algoritmul OCR pe setul dvs. de date și chiar să îl adaptați în continuare la nevoile dvs. unice.

Text Amazon

Amazon Textract este un serviciu bazat pe învățare automată care extrage text tipărit și scris de mână din documentele scanate. Poate funcționa cu date nestructurate și cu text formatat, cum ar fi formulare și tabele. Soluția folosește AI și nu are nevoie de pași sau șabloane suplimentare de configurare. Acest serviciu este sigur și în conformitate cu reglementările privind protecția datelor, cum ar fi HIPAA și GDPR. Amazon Texttract oferă patru API-uri pe care clienții le pot folosi și plăti în consecință:

  • Detectează textul documentului API: extrage textul tipărit nestructurat și scrisul de mână din scanări. Costă 0,0015 USD per pagină pentru primul milion de pagini; dupa aceea pretul scade.
  • Analizați documentul API: funcționează cu date structurate. Extrage text din formulare și tabele. Clienții vor plăti 0,015 USD pe pagină atunci când procesează tabele și 0,05 USD pe pagină în cazul formularelor. Prețul scade după primul milion de pagini.
  • API Analiză cheltuieli: funcționează cu facturi. Acest serviciu are o taxonomie comună a câmpurilor legate de chitanțe. De exemplu, poate recunoaște numărul facturii. Utilizatorii vor plăti 0,01 USD pe pagină pentru primul milion de pagini.
  • Analizează ID-ul API: înțelege contextul documentelor de identitate, cum ar fi permisele de conducere și pașapoartele și poate extrage text din anumite câmpuri. Puteți beneficia de acest serviciu pentru 0,025 USD pentru primele 100.000 de pagini.

Google Cloud Vision

Google oferă Vision API, care poate extrage text tipărit și scris de mână din documente și imagini. Conține două caracteristici pentru recunoașterea optică a caracterelor:

  • Text_detection: extrage text din imagini, cum ar fi fotografiile semnelor de circulație
  • Document_text_detection: captează texte în documente și imagini. Diferă de caracteristica anterioară deoarece răspunsul său este optimizat pentru texte dense.

Ambele funcții permit utilizatorilor să proceseze primele 1.000 de unități pe lună gratuit. După aceea, veți plăti 1,5 USD pentru fiecare 1.000 de unități. Acest preț va scădea pe măsură ce trimiteți mai multe unități pe lună.

Microsoft Azure Computer Vision

Microsoft oferă servicii OCR ca parte a API-ului său generic de viziune computerizată, nu ca o caracteristică de sine stătătoare. Deci, plătiți pentru întregul pachet, care, pe lângă recunoașterea optică a caracterelor, include identificarea celebrităților, repere, mărci și detectarea generală a obiectelor. Acest API vă va costa 1 USD la 1.000 de tranzacții pentru primul milion de unități. Ulterior, prețul scade la 0,65 USD per 1.000 de tranzacții și va continua să scadă pe măsură ce trimiteți mai mult conținut.

Cele mai bune cazuri de utilizare OCR în diferite industrii

Algoritmii de recunoaștere optică a caracterelor câștigă teren în diferite industrii. Mai jos sunt câteva dintre cele mai importante aplicații OCR.

OCR în domeniul bancar

Instituțiile bancare folosesc o mulțime de documente pe hârtie în fluxurile lor de lucru. Acestea includ cecuri, înregistrări ale clienților, cereri de împrumut, extrase bancare etc. Adoptarea algoritmilor de recunoaștere OCR permite angajaților să stocheze și să acceseze toate aceste documente digital și previne pierderea și deteriorarea documentelor.

Verificați manipularea

Un exemplu de OCR în acest sector este utilizarea aplicațiilor bancare pentru a depune digital cecuri pe hârtie. Aceste soluții implementează algoritmi de recunoaștere optică a caracterelor pentru a identifica câmpurile relevante în verificări și pentru a efectua operațiuni în consecință, fără a fi nevoie ca un angajat să transfere toate aceste date manual. În plus, astfel de aplicații pot efectua validarea semnăturii în baza de date existentă și pot șterge imediat verificarea.

Integrarea clientului

În loc să aibă un angajat să verifice manual identitățile clienților, soluțiile bazate pe OCR pot extrage și valida toate informațiile relevante din pașaportul persoanei și din alte documente de identitate. Acest lucru permite verificarea instantanee și îmbunătățește experiența clientului.

Actualizarea informațiilor despre clienți

În loc să fie nevoiți să viziteze sau să sune o bancă, cu ajutorul OCR, clienții își pot scana documentele pentru a actualiza automat informațiile. De exemplu, Alfa-Bank a colaborat cu Smart Engines pentru a-și îmbunătăți aplicația bancară cu capabilități de recunoaștere optică a caracterelor. Cu această nouă funcție, clienții pot plasa documente de identitate în fața camerelor smartphone-ului lor, pot confirma datele extrase și își pot actualiza informațiile în sistemul bancar.

OCR în domeniul sănătății

Similar sectorului bancar, organizațiile din domeniul sănătății acumulează multe documente pe hârtie, cum ar fi scanări cu raze X, rezultate ale testelor, planuri de tratament și așa mai departe. Algoritmii OCR ajută la digitizarea acestor fișiere pentru a preveni pierderea documentelor fizice și pentru a reduce eforturile irosite la manipularea manuală a fișierelor de hârtie. În plus, unele soluții OCR care recunosc textul scris de mână pot procesa documentele de înscriere a pacienților și prescripțiile.

Sistemul de reclamații medicale

Există furnizori de software specializați în procesarea cererilor medicale cu OCR. O astfel de companie este OCR Solutions. A dezvoltat un produs care poate scana, verifica și direcționa corect cererile medicale pentru o manipulare ulterioară. Acest program este antrenat și configurat să funcționeze cu formate comune, cum ar fi Formulare de reclamație dentară și CMS-1500, printre altele.

Fax

Multe unități medicale se bazează în continuare pe fax. Soluțiile de recunoaștere optică a caracterelor pot converti materialul primit într-un format accesibil stocat digital.

Facturare

Soluțiile bazate pe OCR ajută organizațiile din domeniul sănătății să digitalizeze facturile și să le înregistreze corect. Un exemplu de OCR vine de la Nanonets din San Francisco, care oferă o soluție bazată pe OCR, specializată în procesarea facturilor. Compania susține că software-ul său va reduce timpul de introducere a datelor pe factură de la trei minute pe factură la doar 30 de secunde.

OCR în retail

Algoritmii de recunoaștere optică a caracterelor le permit angajaților din comerțul cu amănuntul să economisească timp în procesarea comenzilor de cumpărare, facturilor, listelor de ambalare și a altor documente. Aceste soluții pot extrage, de asemenea, numere de serie din codurile de bare ale produselor și permit clienților să-și scaneze voucherele și să extragă coduri de serie.

scanare ID

Angajații magazinului ar putea avea nevoie să scaneze informațiile personale din mai multe motive, cum ar fi verificarea vârstei, completarea informațiilor pentru fidelizarea clienților și multe altele. Furnizorii de OCR valorifică această oportunitate.

De exemplu, OCR Solutions, cu sediul în Florida, a dezvoltat idMax, un software bazat pe OCR care poate scana documente de identitate, extrage câmpuri relevante și popula baza de date a comerciantului cu informații corespunzătoare. idMax poate fi instalat local sau accesat prin cloud.

Provocările adoptării unei soluții OCR în afacerea dvs

Dacă ați decis să implementați algoritmi de recunoaștere OCR pentru a vă îmbunătăți operațiunile, există câteva aspecte pe care trebuie să le luați în considerare:

Material de intrare: asigurați-vă că toate fișierele de intrare sunt potrivite pentru algoritmul OCR. De exemplu, fișierele trebuie să fie lipsite de daune care pot interfera cu capacitatea algoritmului de a-și recunoaște conținutul. Contrastul este suficient de mare, paginile sunt aliniate corect etc. Unii algoritmi au capabilități puternice de preprocesare și pot rezolva unele dintre aceste probleme pentru dvs. Dar dacă nu este cazul, poate că este o idee bună să investiți într-un scaner de înaltă calitate și să vă asigurați o aliniere adecvată a paginii.

Setul de date de antrenament: dacă decideți să antrenați sau să reîncărcați algoritmi de recunoaștere optică a caracterelor, trebuie să vă asigurați că datele pe care intenționați să le utilizați reprezintă fidel materialul de intrare și conțin suficiente adnotări corecte. Dacă setul de date de antrenament este prea mic sau nu conține adnotări adecvate, algoritmul nu va produce rezultatele dorite. De asemenea, în timpul antrenamentului, trebuie să acordați o atenție deosebită caracterelor/simbolurilor similare. De exemplu, numerele 2 și 7 pot arăta destul de asemănătoare, mai ales dacă algoritmul este de așteptat să funcționeze cu text scris de mână. Oamenii de știință de date trebuie să acopere astfel de distincții în datele de instruire. Un alt exemplu poate fi folosirea algoritmilor OCR pentru a detecta și capta numerele de înmatriculare ale mașinilor. Trebuie să vă asigurați că algoritmul dvs. nu folosește un autocolant personalizat cu text pe spatele unei mașini, confundându-l cu o plăcuță de înmatriculare.

Text scris de mână: cu scrisul de mână vin numeroase provocări suplimentare OCR. Există o mare varietate de stiluri de scriere între diferite persoane, chiar și scrierea unui utilizator individual poate fi inconsecventă. Colectarea unui set de date de formare reprezentativ de încredere este o provocare, deoarece trebuie să luați în considerare toate stilurile diferite. Scrisul de mână cursiv este deosebit de dificil de procesat. De asemenea, în timp ce textul tipărit vine în linie dreaptă, scrisul de mână tinde să aibă rotații variabile, ceea ce complică și mai mult lucrurile.

Scalare: dacă creșteți numărul de utilizatori sau numărul de solicitări pe interval de timp, sistemul se poate prăbuși, mai ales dacă utilizați o soluție open-source și vă bazați pe propria putere de calcul. În cazul produselor OCR comerciale care rulează în cloud, puteți aranja și plăti pentru mai multă capacitate.

Monitorizarea performanței algoritmului OCR: după implementare, performanța algoritmului poate începe să se degradeze din cauza diferiților factori. Un exemplu este schimbarea distribuției dintre datele de antrenament și datele de producție efective. Acest lucru se întâmplă atunci când modelul începe să lucreze pe seturi de date pentru care nu a fost pregătit, cum ar fi diferite fonturi sau caractere cu înclinații neobișnuite. Aceste modificări vor afecta rezultatul modelului de-a lungul timpului și trebuie să detectați aceste probleme și să reeducați modelul în consecință pentru a-și menține nivelul inițial de acuratețe.

În concluzie

Algoritmii optici de recunoaștere a caracterelor au potențialul de a vă accelera procesele de afaceri. Cu toate acestea, există provocări asociate de luat în considerare. Este posibil ca algoritmul selectat să aibă nevoie de reinstruire și este o sarcină obositoare să adnotați corect un set de date mare. De asemenea, trebuie să vă gândiți la potențiala extindere pe măsură ce afacerea dvs. se extinde.

Adoptarea unei soluții open-source pare tentantă din punct de vedere al prețului, dar vine cu dezavantajele sale, cum ar fi lipsa de suport și actualizări, care pot deschide lacune de securitate. Soluțiile comerciale sunt mai fiabile în acest sens, dar pot fi costisitoare și greu de personalizat.

Dacă nu sunteți sigur cum să procedați și care soluție OCR este cea mai potrivită pentru afacerea dvs., nu ezitați să contactați. La ITRex, vom fi bucuroși să efectuăm o evaluare amănunțită a nevoilor afacerii dumneavoastră pentru a determina cea mai bună opțiune OCR. De asemenea, vă putem ajuta să reeducați soluția selectată și să o integrați în sistemul dumneavoastră. De asemenea, putem construi un algoritm OCR personalizat, dacă este necesar.

Doriți să vă accelerați operațiunile cu recunoașterea optică a caracterelor? Aruncă un rând pe ITRex! Experții lor în inteligență artificială vă vor ajuta cu integrarea și instruirea soluției OCR. De asemenea, pot dezvolta algoritmi personalizați pentru dvs., dacă este necesar.


Publicat inițial la https://itrexgroup.com pe 6 aprilie 2022.