OCRエンジンはどのように機能しますか?
公開: 2022-08-06スキャンしたドキュメント、カメラ画像、画像のみの PDF からデータを抽出して転用するのは、難しい場合があります。
ただし、技術的に高度な ML ベースの OCR エンジンは、タスクを効率的に実行できます。
この記事では、OCR エンジンの仕組みと、OCR SDK がニーズに適している理由について説明します。
光学式文字認識 (OCR) とは?
OCR –光学式文字認識– テキストの画像を AI 対応の機械可読テキスト形式に変換します。
OCR は、テキスト エディターを使用して画像ファイル内の単語を編集、検索、またはカウントできないため、単純なスキャンよりも大きな利点があります。
ただし、OCR は画像をテキスト ドキュメントに変換し、その内容をテキスト データとして保存することができます。
OCR エンジンの重要性は何ですか?
今日、ビジネス ワークフローの大部分は、印刷媒体から情報を受け取ることに関係しています。 請求書、紙のフォーム、スキャンされた法律文書、および印刷された契約書は、ビジネス プロセスの一部です。
これらの大量の書類を保管および管理するには、多くの時間とスペースが必要です。
ここで、OCR は、退屈で時間のかかる手動操作よりも、ペーパーレスのドキュメント管理の利点を提供します。
改善された AI ベースの OCR テクノロジは、テキスト画像を他のビジネス ソフトウェアで分析できるテキスト データに変換することで問題を解決します。
処理されたデータは、分析の実行、運用の合理化、プロセスの自動化に組み込まれ、最終的に生産性が向上します。
OCRエンジンはどのように機能しますか?
画像取得
画像の取得は、スキャナーがドキュメントを読み取り、それらをバイナリ データに変換する最初のステップです。 スキャンした画像を分析するために、明るい領域を背景として、暗い領域をテキストとして分類します。
画像の前処理
取得プロセスには、汚れやエラーが伴います。 そのため、OCR エンジンは最初に画像を消去し、読み取る前にエラーを破棄します。
これらのクリーニング技術:
テキスト認識
パターン マッチングと特徴抽出は、OCR ソフトウェアが主にテキスト認識に使用する 2 つの主な OCR アルゴリズム プロセスです。
パターンマッチング
次のステップでは、glyph という名前の文字イメージを分離し、それを同様に格納されたグリフと比較して、パターンを照合します。
このプロセスは、格納されたグリフのフォントとスケールが入力グリフと類似している場合にのみ機能します。
特徴抽出
次のステップは特徴抽出です。 このプロセスでは、グリフをライン、閉じたループ、ラインの方向、ラインの交点などのフィーチャに分割または分解します。
これらの機能は、さまざまな格納されたグリフの中から最適な一致または最も近いものを見つけます。
後処理
最後に、分析後、システムは抽出されたテキスト データをコンピューター化されたファイルに変換します。
一般的な OCR の使用例とは?
OCR エンジンが今日のビジネスに役立つ主な方法は何ですか?
OCR SDK をどのように統合できますか?
FileStack の OCR SDK は、ドキュメントをデジタル化し、クレジット カード、パスポート、運転免許証、納税証明書から指一本動かさずにデータを抽出して整理するのに役立ちます。
FileStack の OCR は、データ キャプチャ プロセスを整理および合理化するため、その必要はありません。
画像内の複雑なドキュメント内のテキストを抽出するために、FileStack には、正確に機能する 2 つの異なる機械学習ベースのソリューションがあります。
- インテリジェントな画像処理による教師なし学習
- 教師付きセグメンテーション
高度なドキュメント検出および前処理ツールは、FileStack の最新の追加機能であり、精度を高めることができます。
まず、FileStack の API が画像をデータベースにアップロードします。 次に、それらを統一された形式に変換し、標準サイズにサイズ変更します。
その後、それらは文書検出および前処理ツールに送られ、OCR エンジン用に画像がより鮮明になります。 結果は、元の画像に抽出されたテキストのすべての情報を含む JSON 応答を生成します。
処理 API では、OCR は同期操作として使用できます。 このタスクに続いて:
ocr |
それに応じて、応答:
{ "資料": { “テキストエリア”: [ { “bounding_box”: [ { 「×」:834、 「よ」:478 }、 { 「×」:3372、 「よ」:739 }、 { 「×」:3251、 「y」: 1907年 }、 { 「×」:714、 「y」: 1646 } ]、 「行」:[ { “bounding_box”: [ { 「×」:957、 「よ」:490 }、 { 「×」:3008、 「よ」:701 }、 { 「×」:2977、 「よ」:1009 }、 { 「×」:925、 「よ」:797 } ]、 「テキスト」:「ファイルスタックは検出できます」、 「言葉」:[ { “bounding_box”: [ { 「×」:957、 「よ」:490 }、 { 「×」:1833年、 「よ」:580 }、 { 「×」:1802、 「よ」:888 }、 { 「×」:925、 「よ」:797 } ]、 「テキスト」:「ファイルスタック」 }、 { “bounding_box”: [ { 「×」:1916年、 「よ」:589 }、 { 「×」:2266、 「よ」:625 }、 { 「×」:2235、 「よ」:932 }、 { 「×」:1884年、 「よ」:896 } ]、 「テキスト」:「できる」 }、 { “bounding_box”: [ { 「×」:2336、 「よ」:632 }、 { 「×」:3008、 「よ」:701 }、 { 「×」:2977、 「よ」:1009 }、 { 「×」:2304、 「よ」:939 } ]、 「テキスト」:「検出」 } ] }、 { “bounding_box”: [ { 「×」:860、 「よ」:858 }、 { 「×」:3330、 「y」: 1049 }、 { 「×」:3301、 「y」: 1421 }、 { 「×」:831、 「y」: 1229 } ]、 「テキスト」:「印刷および手書き」、 「言葉」:[ { “bounding_box”: [ { 「×」:860、 「よ」:858 }、 { 「×」:1550、 「よ」:912 }、 { 「×」:1521、 「y」: 1283 }、 { 「×」:831、 「y」: 1229 } ]、 「テキスト」:「印刷」 }、 { “bounding_box”: [ { 「×」:1677年、 「よ」:922 }、 { 「×」:2047年、 「よ」:951 }、 { 「×」:2018年、 「y」: 1321 }、 { 「×」:1648、 「y」: 1292 } ]、 「テキスト」:「および」 }、 { “bounding_box”: [ { 「×」:2107、 「よ」:954 }、 { 「×」:3330、 「y」: 1049 }、 { 「×」:3301、 「y」: 1421 }、 { 「×」:2078、 「よ」: 1326 } ]、 「テキスト」:「手書き」 } ] }、 { “bounding_box”: [ { 「×」:749、 「y」: 1305 }、 { 「×」:2504、 「y」: 1486 }、 { 「×」:2469、 「y」: 1826 }、 { 「×」:714、 「y」: 1645 } ]、 「テキスト」:「OCRを使用したテキスト」、 「言葉」:[ { “bounding_box”: [ { 「×」:749、 「y」: 1305 }、 { 「×」:1233、 「よ」: 1355 }、 { 「×」:1198、 「y」: 1695 }、 { 「×」:714、 「y」: 1645 } ]、 「テキスト」:「テキスト」 }、 { “bounding_box”: [ { 「×」:1317、 「y」: 1364 }、 { 「×」:1910年、 「よ」: 1425 }、 { 「×」:1875年、 「y」: 1765 }、 { 「×」:1282、 「y」: 1704 } ]、 「テキスト」:「使用する」 }、 { “bounding_box”: [ { 「×」:1972年、 「y」: 1431 }、 { 「×」:2504、 「y」: 1486 }、 { 「×」:2469、 「y」: 1826 }、 { 「×」:1937年 「y」: 1771 } ]、 「テキスト」:「OCR」 } ] } ]、 「テキスト」: 「Filestack は、OCR を使用して\n印刷されたテキストと手書きの\nテキストを検出できます」 } ] }、 “text”: “Filestack は、OCR を使用して\n印刷されたテキストと手書きの\nテキストを検出できます\n", 「text_area_percentage」: 23.40692449819434 } |
応答パラメーターに応じて、次のように画像の OCR 応答を取得できます。
https://cdn.filestackcontent.com/security=p:<ポリシー>,s:<署名>/ocr/<ハンドル> |
doc_detection などの他のタスクとチェーンで OCR を使用できます。
https://cdn.filestackcontent.com/security=p:<ポリシー>,s:<署名>/doc_detection=coords:false,preprocess:true/ocr/<ハンドル> |
また、外部 URL で OCR を使用します。
https://cdn.filestackcontent.com/<FILESTACK_API_KEY>/security=p:<POLICY>,s:<SIGNATURE>/ocr/<EXTERNAL_URL> |
最後に、ストレージ エイリアスで OCR を使用します。
https://cdn.filestackcontent.com/<FILESTACK_API_KEY>/security=p:<POLICY>,s:<SIGNATURE>/ocr/src://<STORAGE_ALIAS>/<PATH_TO_FILE> |