Cum funcționează un motor OCR?

Publicat: 2022-08-06

Extragerea și reutilizarea datelor din documente scanate, imagini ale camerei și PDF-uri numai pentru imagini poate fi dificilă.

Cu toate acestea, un motor OCR bazat pe ML, avansat din punct de vedere tehnologic, poate îndeplini sarcina eficient.

Acest articol va discuta cum funcționează un motor OCR și de ce SDK-ul OCR ar putea fi potrivit pentru nevoile dvs.

= ascunde tabelul de conținut
1 Ce este recunoașterea optică a caracterelor (OCR)?
1.1 Care este importanța unui motor OCR?
2 Cum funcționează un motor OCR?
2.1 Achiziția imaginii
2.2 Preprocesarea imaginii
2.3 Recunoașterea textului
2.4 Potrivirea modelelor
2.5 Extragerea caracteristicilor
2.6 Postprocesare
3 Care sunt cazurile de utilizare tipice pentru OCR?
4 Care sunt principalele moduri prin care motoarele OCR ajută companiile de astăzi?
5 Cum puteți integra un SDK OCR?

Ce este recunoașterea optică a caracterelor (OCR)?

OCR – Recunoaștere optică a caracterelor – convertește o imagine de text într-un format de text care poate fi citit de mașină activat de AI.

OCR are avantaje extraordinare față de scanările simple, deoarece nu puteți edita, căuta sau număra cuvintele din fișierul imagine folosind un editor de text.

Cu toate acestea, OCR poate converti imaginea într-un document text, stocând conținutul acesteia ca date text.

Care este importanța unui motor OCR?

Astăzi, majoritatea fluxurilor de lucru în afaceri implică primirea de informații din presa scrisă. Facturile, formularele de hârtie, documentele legale scanate și contractele tipărite fac parte din procesele de afaceri.

Este nevoie de mult timp și spațiu pentru a stoca și gestiona aceste volume mari de documente.

Aici, OCR oferă avantaje de gestionare a documentelor fără hârtie față de intervenția manuală, care este plictisitoare și lentă.

Tehnologia OCR îmbunătățită bazată pe inteligență artificială rezolvă problema prin conversia imaginilor text în date text care pot fi analizate de alt software de afaceri.

Datele procesate sunt apoi încorporate pentru a efectua analize, a eficientiza operațiunile și a automatiza procesele, îmbunătățind în cele din urmă productivitatea.

Cum funcționează un motor OCR?

Achizitie de imagini

Achiziția imaginilor este primul pas în care un scaner citește documente și le convertește în date binare. Clasifică zonele luminoase ca fundal și zonele întunecate ca text pentru a analiza imaginea scanată.

Preprocesarea imaginii

Procesul de achiziție vine cu murdărie și erori. Deci, motorul OCR curăță mai întâi imaginea și elimină erorile înainte de a citi.

Aceste tehnici de curățare:

  • Declinarea sau înclinarea : remediați problemele de aliniere în timpul scanării.
  • Eliminarea de pete : îndepărtați orice pete de imagine digitală care netezesc marginile imaginilor text.
  • Cutiile și liniile sunt curățate în imagine.
  • Recunoașterea scriptului pentru tehnologia OCR în mai multe limbi.

Recunoașterea textului

Potrivirea modelelor și extragerea caracteristicilor sunt cele două tipuri principale de procese ale algoritmilor OCR pe care software-ul OCR le utilizează în principal pentru recunoașterea textului.

Potrivire de model

Următorul pas este potrivirea modelului prin separarea unei imagini de caracter numită glif și comparând-o cu un glif stocat în mod similar.

Procesul funcționează numai atunci când gliful stocat are un font și o scară similare cu gliful de intrare.

Extragerea caracteristicilor

Următorul pas este extragerea caracteristicilor. Procesul descompune sau descompune glifele în caracteristici precum linii, bucle închise, direcția liniilor și intersecțiile liniilor.

Aceste caracteristici găsesc cea mai bună potrivire sau cel mai apropiat vecin dintre diferitele lui glife stocate.

Post procesare

În cele din urmă, după analiză, sistemul convertește datele text extrase într-un fișier computerizat.

Care sunt cazurile de utilizare tipice pentru OCR?

  • Servicii bancare : tehnologia OCR ajută industria bancară să proceseze și să verifice documentele pentru documentele de împrumut, cecurile de depozit și alte tranzacții financiare. A îmbunătățit prevenirea fraudei și a îmbunătățit securitatea tranzacțiilor.
  • Asistență medicală : OCR a revoluționat industria sănătății. Procesează înregistrările pacienților, inclusiv tratamentele, testele, înregistrările spitalului și plățile de asigurări. Recent, a ajutat la eficientizarea fluxului de lucru și la reducerea lucrărilor manuale din spital, păstrând în același timp evidențele la zi.
  • Documentație juridică : tehnologia OCR facilitează documentele legale importante aprobate care pot fi scanate și stocate într-o bază de date electronică pentru o recuperare convenabilă. Apoi, documentele pot fi vizualizate și partajate de multe persoane.
  • Logistica : industria logisticii era mai putin eficienta inainte de tehnologia OCR. Anterior, introducerea manuală a documentelor de afaceri era consumatoare de timp și era predispusă la erori. Din cauza previziunii, angajații au fost nevoiți să introducă datele în mai multe sisteme de contabilitate. Companiile de logistică folosesc OCR pentru a urmări mai eficient etichetele pachetelor, facturile, chitanțele și alte documente. Cu Amazon Texttract, software-ul Foresight poate citi caracterele cu mai multă acuratețe în multe aspecte diferite, ceea ce crește eficiența afacerii.

Care sunt principalele moduri prin care motoarele OCR ajută companiile de astăzi?

  • Automatizarea fluxurilor de lucru
  • Transformarea fișierelor numai pentru citire în text editabil
  • Crearea de fișiere sonore
  • Traducerea limbilor străine
  • Gestionarea formularelor și chestionarelor
  • Realizarea unei introduceri de date mai rapide și mai precise

Cum puteți integra un SDK OCR?

SDK-ul OCR al FileStack ajută la digitizarea documentelor și la extragerea și organizarea datelor de pe cărți de credit, pașapoarte, permise de conducere și bonuri fiscale fără a ridica un deget.

OCR de la FileStack organizează și eficientizează procesul de captare a datelor, astfel încât să nu fie nevoie.

Pentru a extrage textul din documentele complexe din imagini, FileStack are două soluții diferite bazate pe învățarea automată care funcționează cu precizie.

  1. Învățare nesupravegheată cu procesare inteligentă a imaginilor
  2. Segmentare supravegheată

Instrumentele avansate de detectare și preprocesare a documentelor sunt cea mai recentă adăugare a FileStack care poate crește acuratețea.

În primul rând, API-ul FileStack încarcă imaginile în bazele de date. Apoi, transformați-le într-un format unificat și redimensionați-le la o dimensiune standard.

Ulterior, acestea sunt introduse în instrumentele de detectare și preprocesare a documentelor pentru a face imaginea mai clară pentru motorul OCR. Rezultatele generează un răspuns JSON care conține toate informațiile textelor extrase în imaginea originală.

În API-ul de procesare, OCR este disponibil ca operație sincronă. Urmând această sarcină:

ocr

În mod corespunzător, răspunsul:

{
„document”: {
„zone_text”: [
{
"casetă de încadrare": [
{
„x”: 834,
„y”: 478
},
{
„x”: 3372,
„y”: 739
},
{
„x”: 3251,
„y”: 1907
},
{
„x”: 714,
„y”: 1646
}
],
"linii": [
{
"casetă de încadrare": [
{
„x”: 957,
„y”: 490
},
{
„x”: 3008,
„y”: 701
},
{
„x”: 2977,
„y”: 1009
},
{
„x”: 925,
„y”: 797
}
],
„text”: „Filestack poate detecta”,
„cuvinte”: [
{
"casetă de încadrare": [
{
„x”: 957,
„y”: 490
},
{
„x”: 1833,
„y”: 580
},
{
„x”: 1802,
„y”: 888
},
{
„x”: 925,
„y”: 797
}
],
„text”: „Filestack”
},
{
"casetă de încadrare": [
{
„x”: 1916,
„y”: 589
},
{
„x”: 2266,
„y”: 625
},
{
„x”: 2235,
„y”: 932
},
{
„x”: 1884,
„y”: 896
}
],
„text”: „poate”
},
{
"casetă de încadrare": [
{
„x”: 2336,
„y”: 632
},
{
„x”: 3008,
„y”: 701
},
{
„x”: 2977,
„y”: 1009
},
{
„x”: 2304,
„y”: 939
}
],
„text”: „detecta”
}
]
},
{
"casetă de încadrare": [
{
„x”: 860,
„y”: 858
},
{
„x”: 3330,
„y”: 1049
},
{
„x”: 3301,
„y”: 1421
},
{
„x”: 831,
„y”: 1229
}
],
„text”: „tipărit și scris de mână”,
„cuvinte”: [
{
"casetă de încadrare": [
{
„x”: 860,
„y”: 858
},
{
„x”: 1550,
„y”: 912
},
{
„x”: 1521,
„y”: 1283
},
{
„x”: 831,
„y”: 1229
}
],
„text”: „tipărit”
},
{
"casetă de încadrare": [
{
„x”: 1677,
„y”: 922
},
{
„x”: 2047,
„y”: 951
},
{
„x”: 2018,
„y”: 1321
},
{
„x”: 1648,
„y”: 1292
}
],
„text”: „și”
},
{
"casetă de încadrare": [
{
„x”: 2107,
„y”: 954
},
{
„x”: 3330,
„y”: 1049
},
{
„x”: 3301,
„y”: 1421
},
{
„x”: 2078,
„y”: 1326
}
],
„text”: „scris de mână”
}
]
},
{
"casetă de încadrare": [
{
„x”: 749,
„y”: 1305
},
{
„x”: 2504,
„y”: 1486
},
{
„x”: 2469,
„y”: 1826
},
{
„x”: 714,
„y”: 1645
}
],
„text”: „texte care utilizează OCR”,
„cuvinte”: [
{
"casetă de încadrare": [
{
„x”: 749,
„y”: 1305
},
{
„x”: 1233,
„y”: 1355
},
{
„x”: 1198,
„y”: 1695
},
{
„x”: 714,
„y”: 1645
}
],
„text”: „texte”
},
{
"casetă de încadrare": [
{
„x”: 1317,
„y”: 1364
},
{
„x”: 1910,
„y”: 1425
},
{
„x”: 1875,
„y”: 1765
},
{
„x”: 1282,
„y”: 1704
}
],
„text”: „folosind”
},
{
"casetă de încadrare": [
{
„x”: 1972,
„y”: 1431
},
{
„x”: 2504,
„y”: 1486
},
{
„x”: 2469,
„y”: 1826
},
{
„x”: 1937,
„y”: 1771
}
],
„text”: „OCR”
}
]
}
],
„text”: „Filestack poate detecta\ntextele tipărite și scrise de mână\nutilizând OCR”
}
]
},
„text”: „Filestack poate detecta\ntexte imprimate și scrise de mână\nutilizând OCR\n”,
„text_area_percentage”: 23,40692449819434
}

În funcție de parametrii de răspuns, puteți obține răspunsul OCR pe imaginea dvs., după cum urmează:

https://cdn.filestackcontent.com/security=p:<POLICY>,s:<SEMNATURA>/ocr/<HANDLE>

Puteți utiliza OCR într-un lanț cu alte sarcini, cum ar fi doc_detection:

https://cdn.filestackcontent.com/security=p:<POLICY>,s:<SIGNATURE>/doc_detection=coords:false,preprocess:true/ocr/<HANDLE>

De asemenea, utilizați OCR cu o adresă URL externă:

https://cdn.filestackcontent.com/<FILESTACK_API_KEY>/security=p:<POLICY>,s:<SIGNATURE>/ocr/<EXTERNAL_URL>

În cele din urmă, utilizați OCR cu aliasuri de stocare:

https://cdn.filestackcontent.com/<FILESTACK_API_KEY>/security=p:<POLICY>,s:<SIGNATURE>/ocr/src://<STORAGE_ALIAS>/<PATH_TO_FILE>