Wie funktioniert eine OCR-Engine?

Veröffentlicht: 2022-08-06

Das Extrahieren und Wiederverwenden von Daten aus gescannten Dokumenten, Kamerabildern und Nur-Bild-PDFs kann schwierig sein.

Eine technologisch fortschrittliche ML-basierte OCR-Engine kann die Aufgabe jedoch effizient ausführen.

In diesem Artikel wird erläutert, wie eine OCR-Engine funktioniert und warum das OCR-SDK genau das Richtige für Ihre Anforderungen sein könnte.

= Inhaltsverzeichnis ausblenden
1 Was ist optische Zeichenerkennung (OCR)?
1.1 Welche Bedeutung hat eine OCR-Engine?
2 Wie funktioniert eine OCR-Engine?
2.1 Bildaufnahme
2.2 Bildvorverarbeitung
2.3 Texterkennung
2.4 Musterabgleich
2.5 Merkmalsextraktion
2.6 Nachbearbeitung
3 Was sind typische OCR-Anwendungsfälle?
4 Was sind die wichtigsten Möglichkeiten, wie OCR-Engines Unternehmen heute helfen?
5 Wie können Sie ein OCR-SDK integrieren?

Was ist optische Zeichenerkennung (OCR)?

OCR – Optical Character Recognition – wandelt ein Textbild in ein KI-fähiges, maschinenlesbares Textformat um.

OCR hat enorme Vorteile gegenüber einfachen Scans, da Sie die Wörter in der Bilddatei nicht mit einem Texteditor bearbeiten, durchsuchen oder zählen können.

OCR kann das Bild jedoch in ein Textdokument umwandeln und seinen Inhalt als Textdaten speichern.

Was ist die Bedeutung einer OCR-Engine?

Heutzutage beinhalten die meisten Geschäftsabläufe den Empfang von Informationen aus Printmedien. Rechnungen, Papierformulare, gescannte Rechtsdokumente und gedruckte Verträge sind Teil von Geschäftsprozessen.

Es braucht viel Zeit und Platz, um diese großen Mengen an Papierkram zu speichern und zu verwalten.

Hier bietet OCR Vorteile beim papierlosen Dokumentenmanagement gegenüber manuellen Eingriffen, die mühsam und langsam sind.

Die verbesserte KI-basierte OCR-Technologie löst das Problem, indem sie Textbilder in Textdaten umwandelt, die von anderer Unternehmenssoftware analysiert werden können.

Die verarbeiteten Daten werden dann integriert, um Analysen durchzuführen, Abläufe zu rationalisieren und Prozesse zu automatisieren, wodurch letztendlich die Produktivität gesteigert wird.

Wie funktioniert eine OCR-Engine?

Bilderfassung

Die Bilderfassung ist der erste Schritt, bei dem ein Scanner Dokumente liest und sie in Binärdaten umwandelt. Es kategorisiert die hellen Bereiche als Hintergrund und die dunklen Bereiche als Text, um das gescannte Bild zu analysieren.

Bildvorverarbeitung

Der Akquisitionsprozess ist mit Schmutz und Fehlern behaftet. Die OCR-Engine bereinigt also zuerst das Bild und verwirft die Fehler vor dem Lesen.

Diese Reinigungstechniken:

  • Entzerren oder Neigen : Beheben Sie Ausrichtungsprobleme während des Scans.
  • Entflecken : Entfernen Sie alle digitalen Bildflecken, die die Kanten von Textbildern glätten.
  • Boxen und Linien werden im Bild bereinigt.
  • Erkennung des Skripts für mehrsprachige OCR-Technologie.

Texterkennung

Musterabgleich und Merkmalsextraktion sind die beiden Haupttypen von OCR-Algorithmusprozessen, die OCR-Software hauptsächlich für die Texterkennung verwendet.

Musterabgleich

Der nächste Schritt besteht darin, das Muster abzugleichen, indem ein Zeichenbild namens Glyphe getrennt und mit einer ähnlich gespeicherten Glyphe verglichen wird.

Der Prozess funktioniert nur, wenn die gespeicherte Glyphe eine Schriftart und einen Maßstab hat, die der Eingabeglyphe ähnlich sind.

Feature-Extraktion

Der nächste Schritt ist die Merkmalsextraktion. Der Prozess zerlegt oder zerlegt die Glyphen in Merkmale wie Linien, geschlossene Schleifen, Linienrichtung und Linienkreuzungen.

Diese Funktionen finden die beste Übereinstimmung oder den nächsten Nachbarn unter den verschiedenen gespeicherten Glyphen.

Nachbearbeitung

Schließlich wandelt das System nach der Analyse die extrahierten Textdaten in eine Computerdatei um.

Was sind typische OCR-Anwendungsfälle?

  • Bankwesen : Die OCR-Technologie unterstützt die Bankenbranche bei der Verarbeitung und Überprüfung von Unterlagen für Kreditdokumente, Einzahlungsschecks und andere Finanztransaktionen. Es hat die Betrugsprävention und die Transaktionssicherheit verbessert.
  • Gesundheitswesen : OCR hat die Gesundheitsbranche revolutioniert. Es verarbeitet Patientenakten, einschließlich Behandlungen, Tests, Krankenhausakten und Versicherungszahlungen. Es hat kürzlich dazu beigetragen, den Arbeitsablauf zu rationalisieren und die manuelle Arbeit im Krankenhaus zu reduzieren, während die Aufzeichnungen auf dem neuesten Stand gehalten werden.
  • Rechtsdokumentation : Die OCR-Technologie erleichtert wichtige genehmigte Rechtsdokumente, die gescannt und zum bequemen Abruf in einer elektronischen Datenbank gespeichert werden können. Dann können die Dokumente auch von vielen Personen eingesehen und geteilt werden.
  • Logistik : Die Logistikbranche war vor der OCR-Technologie weniger effizient. Früher war die manuelle Erfassung von Geschäftsdokumenten zeitaufwändig und fehleranfällig. Aus Voraussicht mussten die Mitarbeiter die Daten in mehrere Buchhaltungssysteme eingeben. Logistikunternehmen verwenden OCR, um Paketetiketten, Rechnungen, Quittungen und andere Dokumente effizienter zu verfolgen. Mit Amazon Textract kann die Foresight-Software Zeichen in vielen verschiedenen Layouts genauer lesen, was die Geschäftseffizienz erhöht.

Was sind die wichtigsten Möglichkeiten, wie OCR-Engines Unternehmen heute helfen?

  • Arbeitsabläufe automatisieren
  • Schreibgeschützte Dateien in bearbeitbaren Text umwandeln
  • Audiodateien erstellen
  • Fremdsprachen übersetzen
  • Verwalten von Formularen und Fragebögen
  • Erzielen einer schnelleren und genaueren Dateneingabe

Wie können Sie ein OCR-SDK integrieren?

Das OCR SDK von FileStack hilft beim Digitalisieren von Dokumenten und beim Extrahieren und Organisieren von Daten aus Kreditkarten, Pässen, Führerscheinen und Steuerbelegen, ohne einen Finger zu rühren.

OCR von FileStack organisiert und rationalisiert den Datenerfassungsprozess, damit Sie sich nicht darum kümmern müssen.

Um den Text in den komplexen Dokumenten in den Bildern zu extrahieren, verfügt FileStack über zwei verschiedene auf maschinellem Lernen basierende Lösungen, die genau funktionieren.

  1. Unüberwachtes Lernen mit intelligenter Bildverarbeitung
  2. Überwachte Segmentierung

Erweiterte Dokumentenerkennungs- und Vorverarbeitungswerkzeuge sind die neueste Ergänzung von FileStack, die die Genauigkeit erhöhen können.

Zunächst lädt die API von FileStack die Bilder in ihre Datenbanken hoch. Wandeln Sie sie dann in ein einheitliches Format um und ändern Sie die Größe auf eine Standardgröße.

Anschließend werden sie in Dokumentenerkennungs- und Vorverarbeitungstools eingespeist, um das Bild für die OCR-Engine klarer zu machen. Die Ergebnisse generieren eine JSON-Antwort, die alle Informationen der extrahierten Texte in das Originalbild enthält.

In der Verarbeitungs-API ist OCR als synchrone Operation verfügbar. Nach dieser Aufgabe:

okr

Entsprechend die Antwort:

{
"dokumentieren": {
„Textbereiche“: [
{
„Begrenzungsbox“: [
{
„x“: 834,
„j“: 478
},
{
„x“: 3372,
„j“: 739
},
{
„x“: 3251,
„j“: 1907
},
{
„x“: 714,
„j“: 1646
}
],
"Linien": [
{
„Begrenzungsbox“: [
{
„x“: 957,
„j“: 490
},
{
„x“: 3008,
„j“: 701
},
{
„x“: 2977,
„j“: 1009
},
{
„x“: 925,
„j“: 797
}
],
„text“: „Filestack kann erkennen“,
"Wörter": [
{
„Begrenzungsbox“: [
{
„x“: 957,
„j“: 490
},
{
„x“: 1833,
„j“: 580
},
{
„x“: 1802,
„j“: 888
},
{
„x“: 925,
„j“: 797
}
],
„text“: „Dateistapel“
},
{
„Begrenzungsbox“: [
{
„x“: 1916,
„j“: 589
},
{
„x“: 2266,
„j“: 625
},
{
„x“: 2235,
„j“: 932
},
{
„x“: 1884,
„j“: 896
}
],
„text“: „kann“
},
{
„Begrenzungsbox“: [
{
„x“: 2336,
„j“: 632
},
{
„x“: 3008,
„j“: 701
},
{
„x“: 2977,
„j“: 1009
},
{
„x“: 2304,
„j“: 939
}
],
„Text“: „Erkennen“
}
]
},
{
„Begrenzungsbox“: [
{
„x“: 860,
„j“: 858
},
{
„x“: 3330,
„j“: 1049
},
{
„x“: 3301,
„j“: 1421
},
{
„x“: 831,
„j“: 1229
}
],
„Text“: „gedruckt und handschriftlich“,
"Wörter": [
{
„Begrenzungsbox“: [
{
„x“: 860,
„j“: 858
},
{
„x“: 1550,
„j“: 912
},
{
„x“: 1521,
„j“: 1283
},
{
„x“: 831,
„j“: 1229
}
],
„Text“: „gedruckt“
},
{
„Begrenzungsbox“: [
{
„x“: 1677,
„j“: 922
},
{
„x“: 2047,
„j“: 951
},
{
„x“: 2018,
„j“: 1321
},
{
„x“: 1648,
„j“: 1292
}
],
„Text“: „und“
},
{
„Begrenzungsbox“: [
{
„x“: 2107,
„y“: 954
},
{
„x“: 3330,
„j“: 1049
},
{
„x“: 3301,
„j“: 1421
},
{
„x“: 2078,
„j“: 1326
}
],
„Text“: „handschriftlich“
}
]
},
{
„Begrenzungsbox“: [
{
„x“: 749,
„j“: 1305
},
{
„x“: 2504,
„j“: 1486
},
{
„x“: 2469,
„j“: 1826
},
{
„x“: 714,
„j“: 1645
}
],
„Text“: „Texte mit OCR“,
"Wörter": [
{
„Begrenzungsbox“: [
{
„x“: 749,
„j“: 1305
},
{
„x“: 1233,
„j“: 1355
},
{
„x“: 1198,
„j“: 1695
},
{
„x“: 714,
„j“: 1645
}
],
„Text“: „Texte“
},
{
„Begrenzungsbox“: [
{
„x“: 1317,
„j“: 1364
},
{
„x“: 1910,
„j“: 1425
},
{
„x“: 1875,
„y“: 1765
},
{
„x“: 1282,
„j“: 1704
}
],
„text“: „mit“
},
{
„Begrenzungsbox“: [
{
„x“: 1972,
„j“: 1431
},
{
„x“: 2504,
„j“: 1486
},
{
„x“: 2469,
„j“: 1826
},
{
„x“: 1937,
„j“: 1771
}
],
„Text“: „OCR“
}
]
}
],
„text“: „Filestack kann\ngedruckte und handschriftliche\nTexte mit OCR erkennen“
}
]
},
„text“: „Filestack kann\ngedruckte und handschriftliche\nTexte mit OCR erkennen\n“,
„text_area_percentage“: 23.40692449819434
}

Abhängig von den Antwortparametern können Sie die OCR-Antwort auf Ihrem Bild wie folgt erhalten:

https://cdn.filestackcontent.com/security=p:<POLICY>,s:<SIGNATURE>/ocr/<HANDLE>

Sie können OCR in einer Kette mit anderen Aufgaben wie doc_detection verwenden:

https://cdn.filestackcontent.com/security=p:<POLICY>,s:<SIGNATURE>/doc_detection=coords:false,preprocess:true/ocr/<HANDLE>

Verwenden Sie OCR auch mit einer externen URL:

https://cdn.filestackcontent.com/<FILESTACK_API_KEY>/security=p:<POLICY>,s:<SIGNATURE>/ocr/<EXTERNAL_URL>

Verwenden Sie schließlich OCR mit Speicheraliasen:

https://cdn.filestackcontent.com/<FILESTACK_API_KEY>/security=p:<POLICY>,s:<SIGNATURE>/ocr/src://<STORAGE_ALIAS>/<PATH_TO_FILE>