Jak działa silnik OCR?
Opublikowany: 2022-08-06Wyodrębnianie i ponowne wykorzystywanie danych z zeskanowanych dokumentów, obrazów z aparatu i plików PDF zawierających tylko obrazy może być trudne.
Jednak zaawansowany technologicznie silnik OCR oparty na ML może skutecznie wykonać to zadanie.
W tym artykule omówimy, jak działa silnik OCR i dlaczego SDK OCR może być odpowiednim rozwiązaniem dla Twoich potrzeb.
Co to jest optyczne rozpoznawanie znaków (OCR)?
OCR – Optical Character Recognition – konwertuje obraz tekstu na format tekstowy do odczytu maszynowego z obsługą AI.
OCR ma ogromne zalety w porównaniu z prostymi skanami, ponieważ nie można edytować, wyszukiwać ani liczyć słów w pliku obrazu za pomocą edytora tekstu.
Jednak OCR może przekonwertować obraz na dokument tekstowy, przechowując jego zawartość jako dane tekstowe.
Jakie jest znaczenie silnika OCR?
Obecnie większość biznesowych przepływów pracy wiąże się z otrzymywaniem informacji z mediów drukowanych. Faktury, formularze papierowe, zeskanowane dokumenty prawne i drukowane umowy są częścią procesów biznesowych.
Przechowywanie i zarządzanie tak dużą ilością dokumentów zajmuje dużo czasu i miejsca.
W tym przypadku OCR oferuje korzyści w zakresie zarządzania dokumentami bez użycia papieru w porównaniu z ręczną interwencją, która jest żmudna i powolna.
Ulepszona technologia OCR oparta na sztucznej inteligencji rozwiązuje problem, przekształcając obrazy tekstowe w dane tekstowe, które mogą być analizowane przez inne oprogramowanie biznesowe.
Przetworzone dane są następnie włączane do przeprowadzania analiz, usprawniania operacji i automatyzacji procesów, ostatecznie poprawiając produktywność.
Jak działa silnik OCR?
Pozyskiwanie obrazu
Akwizycja obrazu to pierwszy krok, w którym skaner odczytuje dokumenty i konwertuje je na dane binarne. Klasyfikuje jasne obszary jako tło, a ciemne jako tekst, aby przeanalizować zeskanowany obraz.
Wstępne przetwarzanie obrazu
Proces akwizycji wiąże się z brudem i błędami. Tak więc silnik OCR najpierw czyści obraz i odrzuca błędy przed odczytem.
Te techniki czyszczenia:
Rozpoznawanie tekstu
Dopasowywanie wzorców i ekstrakcja funkcji to dwa główne typy procesów algorytmów OCR, które oprogramowanie OCR wykorzystuje głównie do rozpoznawania tekstu.
Dopasowywanie wzorów
Następnym krokiem jest dopasowanie wzorca poprzez oddzielenie obrazu znaku o nazwie glif i porównanie go z podobnie przechowywanym glifem.
Proces działa tylko wtedy, gdy przechowywany glif ma czcionkę i skalę podobną do glifu wejściowego.
Ekstrakcja funkcji
Następnym krokiem jest wyodrębnienie funkcji. Proces rozkłada lub rozkłada glify na elementy, takie jak linie, zamknięte pętle, kierunek linii i przecięcia linii.
Te funkcje znajdują najlepsze dopasowanie lub najbliższego sąsiada spośród różnych zapisanych glifów.
Przetwarzanie końcowe
Na koniec, po analizie, system konwertuje wyodrębnione dane tekstowe na plik komputerowy.
Jakie są typowe przypadki użycia OCR?
Jakie są kluczowe sposoby, w jakie silniki OCR pomagają dziś firmom?
Jak zintegrować pakiet OCR SDK?
Oprogramowanie FileStack OCR SDK pomaga w digitalizacji dokumentów oraz wyodrębnianiu i porządkowaniu danych z kart kredytowych, paszportów, praw jazdy i pokwitowań podatkowych bez kiwnięcia palcem.
OCR z FileStack organizuje i usprawnia proces przechwytywania danych, więc nie musisz tego robić.
Aby wyodrębnić tekst ze złożonych dokumentów na obrazach, FileStack oferuje dwa różne rozwiązania oparte na uczeniu maszynowym, które działają dokładnie.
- Nauka nienadzorowana z inteligentnym przetwarzaniem obrazu
- Nadzorowana segmentacja
Zaawansowane narzędzia do wykrywania i wstępnego przetwarzania dokumentów to najnowszy dodatek FileStack, który może zwiększyć dokładność.
Po pierwsze, API FileStack przesyła obrazy do swoich baz danych. Następnie przekształć je w ujednolicony format i zmień ich rozmiar do standardowego rozmiaru.
Następnie są one wprowadzane do narzędzi do wykrywania dokumentów i przetwarzania wstępnego, aby obraz był wyraźniejszy dla silnika OCR. Wyniki generują odpowiedź JSON zawierającą wszystkie informacje o wyodrębnionych tekstach do oryginalnego obrazu.
W przetwarzającym API OCR jest dostępny jako operacja synchroniczna. Po tym zadaniu:
okr |
Odpowiednio odpowiedź:
{ „dokument”: { „obszary_tekstu”: [ { „obwiednia”: [ { „x”: 834, „y”: 478 }, { „x”: 3372, „y”: 739 }, { „x”: 3251, „y”: 1907 }, { „x”: 714, „y”: 1646 } ], "linie": [ { „obwiednia”: [ { „x”: 957, „y”: 490 }, { „x”: 3008, „y”: 701 }, { „x”: 2977, „y”: 1009 }, { „x”: 925, „y”: 797 } ], „text”: „Filestack może wykryć”, "słowa": [ { „obwiednia”: [ { „x”: 957, „y”: 490 }, { „x”: 1833, „y”: 580 }, { „x”: 1802, „y”: 888 }, { „x”: 925, „y”: 797 } ], „tekst”: „Stos plików” }, { „obwiednia”: [ { „x”: 1916, „y”: 589 }, { „x”: 2266, „y”: 625 }, { „x”: 2235, „y”: 932 }, { „x”: 1884, „y”: 896 } ], „tekst”: „może” }, { „obwiednia”: [ { „x”: 2336, „y”: 632 }, { „x”: 3008, „y”: 701 }, { „x”: 2977, „y”: 1009 }, { „x”: 2304, „y”: 939 } ], „tekst”: „wykryj” } ] }, { „obwiednia”: [ { „x”: 860, „y”: 858 }, { „x”: 3330, „y”: 1049 }, { „x”: 3301, „y”: 1421 }, { „x”: 831, „y”: 1229 } ], „tekst”: „drukowany i odręczny”, "słowa": [ { „obwiednia”: [ { „x”: 860, „y”: 858 }, { „x”: 1550, „y”: 912 }, { „x”: 1521, „y”: 1283 }, { „x”: 831, „y”: 1229 } ], „tekst”: „drukowany” }, { „obwiednia”: [ { „x”: 1677, „y”: 922 }, { „x”: 2047, „y”: 951 }, { „x”: 2018, „y”: 1321 }, { „x”: 1648, „y”: 1292 } ], „tekst”: „i” }, { „obwiednia”: [ { „x”: 2107, „y”: 954 }, { „x”: 3330, „y”: 1049 }, { „x”: 3301, „y”: 1421 }, { „x”: 2078, „y”: 1326 } ], „tekst”: „odręczny” } ] }, { „obwiednia”: [ { „x”: 749, „y”: 1305 }, { „x”: 2504, „y”: 1486 }, { „x”: 2469, „y”: 1826 }, { „x”: 714, „y”: 1645 } ], „tekst”: „teksty z wykorzystaniem OCR”, "słowa": [ { „obwiednia”: [ { „x”: 749, „y”: 1305 }, { „x”: 1233, „y”: 1355 }, { „x”: 1198, „y”: 1695 }, { „x”: 714, „y”: 1645 } ], „tekst”: „teksty” }, { „obwiednia”: [ { „x”: 1317, „y”: 1364 }, { „x”: 1910, „y”: 1425 }, { „x”: 1875, „y”: 1765 }, { „x”: 1282, „y”: 1704 } ], „tekst”: „używając” }, { „obwiednia”: [ { „x”: 1972, „y”: 1431 }, { „x”: 2504, „y”: 1486 }, { „x”: 2469, „y”: 1826 }, { „x”: 1937, „y”: 1771 } ], „tekst”: „OCR” } ] } ], „tekst”: „Stos plików może wykrywać\ndrukowane i pisane ręcznie\nteksty za pomocą OCR” } ] }, „tekst”: „Stos plików może wykrywać\ndrukowane i pisane ręcznie\nteksty za pomocą OCR\n”, „procent_obszaru_tekstowego”: 23.4069249819434 } |
W zależności od parametrów odpowiedzi możesz uzyskać odpowiedź OCR na obrazie, jak poniżej:
https://cdn.filestackcontent.com/security=p:<POLITYKA>,s:<PODPIS>/ocr/<UCHWYT> |
Możesz używać OCR w łańcuchu z innymi zadaniami, takimi jak doc_detection:
https://cdn.filestackcontent.com/security=p:<POLITYKA>,s:<SYGNATURA>/doc_detection=coords:false,preprocess:true/ocr/<UCHWYT> |
Użyj również OCR z zewnętrznym adresem URL:
https://cdn.filestackcontent.com/<FILESTACK_API_KEY>/security=p:<POLICY>,s:<SIGNATURE>/ocr/<EXTERNAL_URL> |
Na koniec użyj OCR z aliasami magazynu:
https://cdn.filestackcontent.com/<FILESTACK_API_KEY>/security=p:<POLICY>,s:<SIGNATURE>/ocr/src://<STORAGE_ALIAS>/<PATH_TO_FILE> |