Wie funktioniert eine OCR-Engine?
Veröffentlicht: 2022-08-06Das Extrahieren und Wiederverwenden von Daten aus gescannten Dokumenten, Kamerabildern und Nur-Bild-PDFs kann schwierig sein.
Eine technologisch fortschrittliche ML-basierte OCR-Engine kann die Aufgabe jedoch effizient ausführen.
In diesem Artikel wird erläutert, wie eine OCR-Engine funktioniert und warum das OCR-SDK genau das Richtige für Ihre Anforderungen sein könnte.
Was ist optische Zeichenerkennung (OCR)?
OCR – Optical Character Recognition – wandelt ein Textbild in ein KI-fähiges, maschinenlesbares Textformat um.
OCR hat enorme Vorteile gegenüber einfachen Scans, da Sie die Wörter in der Bilddatei nicht mit einem Texteditor bearbeiten, durchsuchen oder zählen können.
OCR kann das Bild jedoch in ein Textdokument umwandeln und seinen Inhalt als Textdaten speichern.
Was ist die Bedeutung einer OCR-Engine?
Heutzutage beinhalten die meisten Geschäftsabläufe den Empfang von Informationen aus Printmedien. Rechnungen, Papierformulare, gescannte Rechtsdokumente und gedruckte Verträge sind Teil von Geschäftsprozessen.
Es braucht viel Zeit und Platz, um diese großen Mengen an Papierkram zu speichern und zu verwalten.
Hier bietet OCR Vorteile beim papierlosen Dokumentenmanagement gegenüber manuellen Eingriffen, die mühsam und langsam sind.
Die verbesserte KI-basierte OCR-Technologie löst das Problem, indem sie Textbilder in Textdaten umwandelt, die von anderer Unternehmenssoftware analysiert werden können.
Die verarbeiteten Daten werden dann integriert, um Analysen durchzuführen, Abläufe zu rationalisieren und Prozesse zu automatisieren, wodurch letztendlich die Produktivität gesteigert wird.
Wie funktioniert eine OCR-Engine?
Bilderfassung
Die Bilderfassung ist der erste Schritt, bei dem ein Scanner Dokumente liest und sie in Binärdaten umwandelt. Es kategorisiert die hellen Bereiche als Hintergrund und die dunklen Bereiche als Text, um das gescannte Bild zu analysieren.
Bildvorverarbeitung
Der Akquisitionsprozess ist mit Schmutz und Fehlern behaftet. Die OCR-Engine bereinigt also zuerst das Bild und verwirft die Fehler vor dem Lesen.
Diese Reinigungstechniken:
Texterkennung
Musterabgleich und Merkmalsextraktion sind die beiden Haupttypen von OCR-Algorithmusprozessen, die OCR-Software hauptsächlich für die Texterkennung verwendet.
Musterabgleich
Der nächste Schritt besteht darin, das Muster abzugleichen, indem ein Zeichenbild namens Glyphe getrennt und mit einer ähnlich gespeicherten Glyphe verglichen wird.
Der Prozess funktioniert nur, wenn die gespeicherte Glyphe eine Schriftart und einen Maßstab hat, die der Eingabeglyphe ähnlich sind.
Feature-Extraktion
Der nächste Schritt ist die Merkmalsextraktion. Der Prozess zerlegt oder zerlegt die Glyphen in Merkmale wie Linien, geschlossene Schleifen, Linienrichtung und Linienkreuzungen.
Diese Funktionen finden die beste Übereinstimmung oder den nächsten Nachbarn unter den verschiedenen gespeicherten Glyphen.
Nachbearbeitung
Schließlich wandelt das System nach der Analyse die extrahierten Textdaten in eine Computerdatei um.
Was sind typische OCR-Anwendungsfälle?
Was sind die wichtigsten Möglichkeiten, wie OCR-Engines Unternehmen heute helfen?
Wie können Sie ein OCR-SDK integrieren?
Das OCR SDK von FileStack hilft beim Digitalisieren von Dokumenten und beim Extrahieren und Organisieren von Daten aus Kreditkarten, Pässen, Führerscheinen und Steuerbelegen, ohne einen Finger zu rühren.
OCR von FileStack organisiert und rationalisiert den Datenerfassungsprozess, damit Sie sich nicht darum kümmern müssen.
Um den Text in den komplexen Dokumenten in den Bildern zu extrahieren, verfügt FileStack über zwei verschiedene auf maschinellem Lernen basierende Lösungen, die genau funktionieren.
- Unüberwachtes Lernen mit intelligenter Bildverarbeitung
- Überwachte Segmentierung
Erweiterte Dokumentenerkennungs- und Vorverarbeitungswerkzeuge sind die neueste Ergänzung von FileStack, die die Genauigkeit erhöhen können.
Zunächst lädt die API von FileStack die Bilder in ihre Datenbanken hoch. Wandeln Sie sie dann in ein einheitliches Format um und ändern Sie die Größe auf eine Standardgröße.
Anschließend werden sie in Dokumentenerkennungs- und Vorverarbeitungstools eingespeist, um das Bild für die OCR-Engine klarer zu machen. Die Ergebnisse generieren eine JSON-Antwort, die alle Informationen der extrahierten Texte in das Originalbild enthält.
In der Verarbeitungs-API ist OCR als synchrone Operation verfügbar. Nach dieser Aufgabe:
okr |
Entsprechend die Antwort:
{ "dokumentieren": { „Textbereiche“: [ { „Begrenzungsbox“: [ { „x“: 834, „j“: 478 }, { „x“: 3372, „j“: 739 }, { „x“: 3251, „j“: 1907 }, { „x“: 714, „j“: 1646 } ], "Linien": [ { „Begrenzungsbox“: [ { „x“: 957, „j“: 490 }, { „x“: 3008, „j“: 701 }, { „x“: 2977, „j“: 1009 }, { „x“: 925, „j“: 797 } ], „text“: „Filestack kann erkennen“, "Wörter": [ { „Begrenzungsbox“: [ { „x“: 957, „j“: 490 }, { „x“: 1833, „j“: 580 }, { „x“: 1802, „j“: 888 }, { „x“: 925, „j“: 797 } ], „text“: „Dateistapel“ }, { „Begrenzungsbox“: [ { „x“: 1916, „j“: 589 }, { „x“: 2266, „j“: 625 }, { „x“: 2235, „j“: 932 }, { „x“: 1884, „j“: 896 } ], „text“: „kann“ }, { „Begrenzungsbox“: [ { „x“: 2336, „j“: 632 }, { „x“: 3008, „j“: 701 }, { „x“: 2977, „j“: 1009 }, { „x“: 2304, „j“: 939 } ], „Text“: „Erkennen“ } ] }, { „Begrenzungsbox“: [ { „x“: 860, „j“: 858 }, { „x“: 3330, „j“: 1049 }, { „x“: 3301, „j“: 1421 }, { „x“: 831, „j“: 1229 } ], „Text“: „gedruckt und handschriftlich“, "Wörter": [ { „Begrenzungsbox“: [ { „x“: 860, „j“: 858 }, { „x“: 1550, „j“: 912 }, { „x“: 1521, „j“: 1283 }, { „x“: 831, „j“: 1229 } ], „Text“: „gedruckt“ }, { „Begrenzungsbox“: [ { „x“: 1677, „j“: 922 }, { „x“: 2047, „j“: 951 }, { „x“: 2018, „j“: 1321 }, { „x“: 1648, „j“: 1292 } ], „Text“: „und“ }, { „Begrenzungsbox“: [ { „x“: 2107, „y“: 954 }, { „x“: 3330, „j“: 1049 }, { „x“: 3301, „j“: 1421 }, { „x“: 2078, „j“: 1326 } ], „Text“: „handschriftlich“ } ] }, { „Begrenzungsbox“: [ { „x“: 749, „j“: 1305 }, { „x“: 2504, „j“: 1486 }, { „x“: 2469, „j“: 1826 }, { „x“: 714, „j“: 1645 } ], „Text“: „Texte mit OCR“, "Wörter": [ { „Begrenzungsbox“: [ { „x“: 749, „j“: 1305 }, { „x“: 1233, „j“: 1355 }, { „x“: 1198, „j“: 1695 }, { „x“: 714, „j“: 1645 } ], „Text“: „Texte“ }, { „Begrenzungsbox“: [ { „x“: 1317, „j“: 1364 }, { „x“: 1910, „j“: 1425 }, { „x“: 1875, „y“: 1765 }, { „x“: 1282, „j“: 1704 } ], „text“: „mit“ }, { „Begrenzungsbox“: [ { „x“: 1972, „j“: 1431 }, { „x“: 2504, „j“: 1486 }, { „x“: 2469, „j“: 1826 }, { „x“: 1937, „j“: 1771 } ], „Text“: „OCR“ } ] } ], „text“: „Filestack kann\ngedruckte und handschriftliche\nTexte mit OCR erkennen“ } ] }, „text“: „Filestack kann\ngedruckte und handschriftliche\nTexte mit OCR erkennen\n“, „text_area_percentage“: 23.40692449819434 } |
Abhängig von den Antwortparametern können Sie die OCR-Antwort auf Ihrem Bild wie folgt erhalten:
https://cdn.filestackcontent.com/security=p:<POLICY>,s:<SIGNATURE>/ocr/<HANDLE> |
Sie können OCR in einer Kette mit anderen Aufgaben wie doc_detection verwenden:
https://cdn.filestackcontent.com/security=p:<POLICY>,s:<SIGNATURE>/doc_detection=coords:false,preprocess:true/ocr/<HANDLE> |
Verwenden Sie OCR auch mit einer externen URL:
https://cdn.filestackcontent.com/<FILESTACK_API_KEY>/security=p:<POLICY>,s:<SIGNATURE>/ocr/<EXTERNAL_URL> |
Verwenden Sie schließlich OCR mit Speicheraliasen:
https://cdn.filestackcontent.com/<FILESTACK_API_KEY>/security=p:<POLICY>,s:<SIGNATURE>/ocr/src://<STORAGE_ALIAS>/<PATH_TO_FILE> |