OCRエンジンはどのように機能しますか?

公開: 2022-08-06

スキャンしたドキュメント、カメラ画像、画像のみの PDF からデータを抽出して転用するのは、難しい場合があります。

ただし、技術的に高度な ML ベースの OCR エンジンは、タスクを効率的に実行できます。

この記事では、OCR エンジンの仕組みと、OCR SDK がニーズに適している理由について説明します。

= 目次非表示
1光学式文字認識 (OCR) とは?
1.1 OCR エンジンの重要性とは?
2 OCRエンジンはどのように機能しますか?
2.1画像取得
2.2画像の前処理
2.3テキスト認識
2.4パターンマッチング
2.5特徴抽出
2.6後処理
3一般的な OCR の使用例は?
4 OCR エンジンが今日のビジネスに役立つ主な方法は何ですか?
5 OCR SDK をどのように統合できますか?

光学式文字認識 (OCR) とは?

OCR –光学式文字認識– テキストの画像を A​​I 対応の機械可読テキスト形式に変換します。

OCR は、テキスト エディターを使用して画像ファイル内の単語を編集、検索、またはカウントできないため、単純なスキャンよりも大きな利点があります。

ただし、OCR は画像をテキスト ドキュメントに変換し、その内容をテキスト データとして保存することができます。

OCR エンジンの重要性は何ですか?

今日、ビジネス ワークフローの大部分は、印刷媒体から情報を受け取ることに関係しています。 請求書、紙のフォーム、スキャンされた法律文書、および印刷された契約書は、ビジネス プロセスの一部です。

これらの大量の書類を保管および管理するには、多くの時間とスペースが必要です。

ここで、OCR は、退屈で時間のかかる手動操作よりも、ペーパーレスのドキュメント管理の利点を提供します。

改善された AI ベースの OCR テクノロジは、テキスト画像を他のビジネス ソフトウェアで分析できるテキスト データに変換することで問題を解決します。

処理されたデータは、分析の実行、運用の合理化、プロセスの自動化に組み込まれ、最終的に生産性が向上します。

OCRエンジンはどのように機能しますか?

画像取得

画像の取得は、スキャナーがドキュメントを読み取り、それらをバイナリ データに変換する最初のステップです。 スキャンした画像を分析するために、明るい領域を背景として、暗い領域をテキストとして分類します。

画像の前処理

取得プロセスには、汚れやエラーが伴います。 そのため、OCR エンジンは最初に画像を消去し、読み取る前にエラーを破棄します。

これらのクリーニング技術:

  • 傾き補正または傾き: スキャン中の位置合わせの問題を修正します。
  • 斑点除去 : テキスト画像のエッジを滑らかにするデジタル画像の斑点を取り除きます。
  • 画像内のボックスとラインが消去されます。
  • 多言語 OCR テクノロジのスクリプトの認識。

テキスト認識

パターン マッチングと特徴抽出は、OCR ソフトウェアが主にテキスト認識に使用する 2 つの主な OCR アルゴリズム プロセスです。

パターンマッチング

次のステップでは、glyph という名前の文字イメージを分離し、それを同様に格納されたグリフと比較して、パターンを照合します。

このプロセスは、格納されたグリフのフォントとスケールが入力グリフと類似している場合にのみ機能します。

特徴抽出

次のステップは特徴抽出です。 このプロセスでは、グリフをライン、閉じたループ、ラインの方向、ラインの交点などのフィーチャに分割または分解します。

これらの機能は、さまざまな格納されたグリフの中から最適な一致または最も近いものを見つけます。

後処理

最後に、分析後、システムは抽出されたテキスト データをコンピューター化されたファイルに変換します。

一般的な OCR の使用例とは?

  • バンキング: OCR テクノロジは、銀行業界がローン ドキュメント、預金小切手、およびその他の金融取引の書類を処理および検証するのに役立ちます。 詐欺防止が改善され、トランザクションのセキュリティが強化されました。
  • ヘルスケア: OCR はヘルスケア業界に革命をもたらしました。 治療、検査、病院の記録、保険金の支払いなど、患者の記録を処理します。 最近では、記録を最新の状態に保ちながら、ワークフローを合理化し、病院の手作業を削減するのに役立っています。
  • 法的文書: OCR テクノロジにより、承認された重要な法的文書をスキャンして電子データベースに保存し、簡単に検索できるようになります。 その後、ドキュメントは多くの人が閲覧および共有することもできます。
  • ロジスティクス: ロジスティクス業界は、OCR テクノロジが導入される前は効率が低かった。 以前は、ビジネス文書の手動入力は時間がかかり、エラーが発生しやすかった. 先見性のために、従業員は複数の会計システムにデータを入力する必要がありました。 物流会社は OCR を使用して、パッケージ ラベル、請求書、領収書、およびその他のドキュメントをより効率的に追跡します。 Amazon Textract を使用すると、Foresight ソフトウェアは多くの異なるレイアウトで文字をより正確に読み取ることができるため、ビジネス効率が向上します。

OCR エンジンが今日のビジネスに役立つ主な方法は何ですか?

  • ワークフローの自動化
  • 読み取り専用ファイルを編集可能なテキストに変換する
  • 可聴ファイルの作成
  • 外国語の翻訳
  • フォームとアンケートの管理
  • より速く、より正確なデータ入力を実現

OCR SDK をどのように統合できますか?

FileStack の OCR SDK は、ドキュメントをデジタル化し、クレジット カード、パスポート、運転免許証、納税証明書から指一本動かさずにデータを抽出して整理するのに役立ちます。

FileStack の OCR は、データ キャプチャ プロセスを整理および合理化するため、その必要はありません。

画像内の複雑なドキュメント内のテキストを抽出するために、FileStack には、正確に機能する 2 つの異なる機械学習ベースのソリューションがあります。

  1. インテリジェントな画像処理による教師なし学習
  2. 教師付きセグメンテーション

高度なドキュメント検出および前処理ツールは、FileStack の最新の追加機能であり、精度を高めることができます。

まず、FileStack の API が画像をデータベースにアップロードします。 次に、それらを統一された形式に変換し、標準サイズにサイズ変更します。

その後、それらは文書検出および前処理ツールに送られ、OCR エンジン用に画像がより鮮明になります。 結果は、元の画像に抽出されたテキストのすべての情報を含む JSON 応答を生成します。

処理 API では、OCR は同期操作として使用できます。 このタスクに続いて:

ocr

それに応じて、応答:

{
"資料": {
“テキストエリア”: [
{
“bounding_box”: [
{
「×」:834、
「よ」:478
}、
{
「×」:3372、
「よ」:739
}、
{
「×」:3251、
「y」: 1907年
}、
{
「×」:714、
「y」: 1646
}
]、
「行」:[
{
“bounding_box”: [
{
「×」:957、
「よ」:490
}、
{
「×」:3008、
「よ」:701
}、
{
「×」:2977、
「よ」:1009
}、
{
「×」:925、
「よ」:797
}
]、
「テキスト」:「ファイルスタックは検出できます」、
「言葉」:[
{
“bounding_box”: [
{
「×」:957、
「よ」:490
}、
{
「×」:1833年、
「よ」:580
}、
{
「×」:1802、
「よ」:888
}、
{
「×」:925、
「よ」:797
}
]、
「テキスト」:「ファイルスタック」
}、
{
“bounding_box”: [
{
「×」:1916年、
「よ」:589
}、
{
「×」:2266、
「よ」:625
}、
{
「×」:2235、
「よ」:932
}、
{
「×」:1884年、
「よ」:896
}
]、
「テキスト」:「できる」
}、
{
“bounding_box”: [
{
「×」:2336、
「よ」:632
}、
{
「×」:3008、
「よ」:701
}、
{
「×」:2977、
「よ」:1009
}、
{
「×」:2304、
「よ」:939
}
]、
「テキスト」:「検出」
}
]
}、
{
“bounding_box”: [
{
「×」:860、
「よ」:858
}、
{
「×」:3330、
「y」: 1049
}、
{
「×」:3301、
「y」: 1421
}、
{
「×」:831、
「y」: 1229
}
]、
「テキスト」:「印刷および手書き」、
「言葉」:[
{
“bounding_box”: [
{
「×」:860、
「よ」:858
}、
{
「×」:1550、
「よ」:912
}、
{
「×」:1521、
「y」: 1283
}、
{
「×」:831、
「y」: 1229
}
]、
「テキスト」:「印刷」
}、
{
“bounding_box”: [
{
「×」:1677年、
「よ」:922
}、
{
「×」:2047年、
「よ」:951
}、
{
「×」:2018年、
「y」: 1321
}、
{
「×」:1648、
「y」: 1292
}
]、
「テキスト」:「および」
}、
{
“bounding_box”: [
{
「×」:2107、
「よ」:954
}、
{
「×」:3330、
「y」: 1049
}、
{
「×」:3301、
「y」: 1421
}、
{
「×」:2078、
「よ」: 1326
}
]、
「テキスト」:「手書き」
}
]
}、
{
“bounding_box”: [
{
「×」:749、
「y」: 1305
}、
{
「×」:2504、
「y」: 1486
}、
{
「×」:2469、
「y」: 1826
}、
{
「×」:714、
「y」: 1645
}
]、
「テキスト」:「OCRを使用したテキスト」、
「言葉」:[
{
“bounding_box”: [
{
「×」:749、
「y」: 1305
}、
{
「×」:1233、
「よ」: 1355
}、
{
「×」:1198、
「y」: 1695
}、
{
「×」:714、
「y」: 1645
}
]、
「テキスト」:「テキスト」
}、
{
“bounding_box”: [
{
「×」:1317、
「y」: 1364
}、
{
「×」:1910年、
「よ」: 1425
}、
{
「×」:1875年、
「y」: 1765
}、
{
「×」:1282、
「y」: 1704
}
]、
「テキスト」:「使用する」
}、
{
“bounding_box”: [
{
「×」:1972年、
「y」: 1431
}、
{
「×」:2504、
「y」: 1486
}、
{
「×」:2469、
「y」: 1826
}、
{
「×」:1937年
「y」: 1771
}
]、
「テキスト」:「OCR」
}
]
}
]、
「テキスト」: 「Filestack は、OCR を使用して\n印刷されたテキストと手書きの\nテキストを検出できます」
}
]
}、
“text”: “Filestack は、OCR を使用して\n印刷されたテキストと手書きの\nテキストを検出できます\n",
「text_area_percentage」: 23.40692449819434
}

応答パラメーターに応じて、次のように画像の OCR 応答を取得できます。

https://cdn.filestackcontent.com/security=p:<ポリシー>,s:<署名>/ocr/<ハンドル>

doc_detection などの他のタスクとチェーンで OCR を使用できます。

https://cdn.filestackcontent.com/security=p:<ポリシー>,s:<署名>/doc_detection=coords:false,preprocess:true/ocr/<ハンドル>

また、外部 URL で OCR を使用します。

https://cdn.filestackcontent.com/<FILESTACK_API_KEY>/security=p:<POLICY>,s:<SIGNATURE>/ocr/<EXTERNAL_URL>

最後に、ストレージ エイリアスで OCR を使用します。

https://cdn.filestackcontent.com/<FILESTACK_API_KEY>/security=p:<POLICY>,s:<SIGNATURE>/ocr/src://<STORAGE_ALIAS>/<PATH_TO_FILE>