光学式文字認識アルゴリズムはビジネスプロセスをどのように再定義しますか?
公開: 2022-04-14データを入力してある場所から別の場所に移動することは、時間のかかる反復的な作業です。 1人の従業員は、データを移動するだけで1日最大3時間を簡単に費やすことができます。 労働者の時間を浪費することに加えて、手動のデータ処理はエラーを起こしやすく、収益の損失につながります。
データの過去と未来を調査したDun&Bradstreetのレポートによると、5つの企業のうち1つが不完全なデータのためにお金を失っています。 光学式文字認識(OCR)テクノロジーは、企業がこれらの問題を解決するのに役立ちます。 OCRアルゴリズムは、紙ベースのドキュメントを編集可能な検索可能なテキストに変換できます。
また、ファイルから情報を抽出して、会社のITシステムの対応するフィールドに入力することもできます。 では、OCRはどのように機能しますか? このテクノロジーは、ビジネス目標の達成にどのように役立ちますか? また、OCRソフトウェアの構築とセットアップを支援するために、人工知能ソリューションプロバイダーに連絡する必要がありますか?
光学式文字認識とは何ですか?どのように機能しますか?
OCRの定義
光学式文字認識は、入力または手書きのテキストと、テキストを含む印刷画像を機械で読み取り可能なデジタルデータ形式に変換するテクノロジーです。 OCRアルゴリズムは、大量の紙のドキュメントをデジタルファイルに変換し、テキストの保存、処理、検索を容易にします。
OCRシステムは、ハードウェアとソフトウェアで構成されています。 ハードウェア部分は、紙の文書をデジタル形式に変換できる光学スキャナーまたは同様のデバイスにすることができます。 ソフトウェア部分はOCRアルゴリズム自体です。
OCRはどのように機能しますか?
フォントが異なり、1文字の書き方が異なるため、コンピューターが文字を認識するのは困難です。 手書きの手紙は問題をさらに複雑にします。 それにもかかわらず、光学式文字認識アルゴリズムはこの課題に取り組みます。 すべてのOCRソリューションは、次の4つの主要なステップで動作します。
画像取得
このプロセスでは、光学スキャナーを使用して紙の文書のデジタルコピーをキャプチャします。 ドキュメントは適切に配置され、サイズが変更されている必要があります。
前処理
このフェーズの目標は、入力ファイルをOCRアルゴリズムで使用できるようにすることです。 ノイズとバックグラウンドが除去されます。 前処理には、次の手順が含まれます。
- レイアウト分析:キャプション、列、およびグラフをブロックとして識別します
- デスキュー:スキャン中に適切に位置合わせされなかった場合に備えて、デジタルドキュメントを傾けて線を水平にします
- 画像のリファインメント:エッジを滑らかにし、ほこりの粒子を取り除き、テキストと背景のコントラストを高めます
- テキスト検出:一部のアルゴリズムは個別の単語を検出して文字に分割しますが、他のアルゴリズムはテキストを文字に分割せずに直接処理します。
- 二値化:スキャンしたドキュメントを白黒フォーマットに変換します。暗い領域は文字(アルファベットまたは数字)を表し、白い領域は背景として識別されます。 この手順は、さまざまなフォントを認識するのに役立ちます。
このフェーズでは、光学式文字認識アルゴリズムがさまざまな操作を実行して文字と数字を認識します。 主なアプローチは2つあります。
- パターン認識: OCRアルゴリズムは、さまざまなフォント、テキスト形式、および手書きスタイルでトレーニングされ、入力ファイルからの個別の文字を学習した文字と比較します。
- 特徴認識:一部のアルゴリズムは、交差線や曲線などの既知の文字プロパティを利用して、入力ファイル内の文字を識別します。 たとえば、文字「H」は、2本の垂直線と1本の交差する水平線として識別されます。 ニューラルネットワーク(NN)を利用したOCRアルゴリズムは、最初のNNレイヤーが入力ファイルからピクセルを集約して、画像の低レベルの特徴マップを作成する別のロジックを使用します。
文字を検出した後、プログラムはそれらを情報交換用の米国標準コード(ASCII)に変換して、さらに操作しやすくします。
後処理
出力は、文字列やファイルのような基本的なものにすることができます。 より高度なOCRソリューションは、元のページ構造を保持し、検索可能なテキストを含むPDFファイルを作成できます。 これまでのところ、さまざまな入力ファイルで100%の精度を保証するツールはありませんが、一部の光学式文字認識アルゴリズムでは、使い慣れたテキストで99.8%という優れた精度を実現できます。 手書きを使用すると、結果が大幅に損なわれます。 また、不十分なトレーニングやなじみのないテキストでは、エラー率が20%にもなる可能性があることを理解することが重要です。 したがって、特に新しいタイプのドキュメントがパイプラインに入るときは、ユーザーがOCRアルゴリズムの出力を常に監視、校正、および修正する必要があります。
後処理フェーズには、データ検証のための自然言語処理(NLP)やその他のAI技術も含まれる場合があります。 AIはテキストを修正するだけでなく、計算の間違いを見つけることもできます。 請求書の処理中に、OCRアルゴリズムによって合計が500ドルであると識別されたと仮定します。 AIは、すべての費用を追加し、それらが500ドルに達しないことを把握することで、これを確認できます。 AIは、この特定のケースを確認するように人間の従業員に通知できます。
アルゴリズムの品質を向上させたい場合は、文字のセグメンテーションに独自の辞書を使用するTesseractなどのオープンソースのOCRライブラリを試すことができます。 もう1つのアプローチは、ドメインで繰り返し発生する用語の専門用語集を作成することです。 また、レビュー担当者は、フィードバックを別の光学式文字認識アルゴリズムトレーニングセッションへの入力として使用できます。
OCRアルゴリズムはどのようにあなたのビジネスに利益をもたらしますか?
光学式文字認識ソリューションでできることは次のとおりです。
- コストの削減:ファイルをデジタル形式に変換し、データ入力を自動化することで、従業員の時間の面でコストを削減します
- 顧客満足度の向上:このテクノロジーにより、銀行やその他の施設を実際に訪問する代わりに、身分証明書をスキャンすることで、個人情報をリモートで更新できるようになります。
- より安価なバックアップオプションを提供します。紙ベースのドキュメントを複製や三重と一緒に保存する必要がないため、高価な物理ストレージユニットが消費されます。
- 異なる言語間の翻訳を容易にする:一部のOCRツールには、ある言語から別の言語にドキュメントを翻訳する機能があります
- ワークフローの自動化:適切な管理システムを備えたデジタルファイルの検索は、紙のドキュメントを処理するよりも高速です。 失われた物理ファイルを探す間、保留されるプロセスが少なくなります。 より包括的な自動化ソリューションに関心がある場合は、OCRやその他の高度な機能を含むインテリジェントなプロセス自動化サービスを利用できます。
市場で入手可能なOCRソリューション
OCR機能をITシステムに組み込むことを検討している場合は、いくつかのオプションから選択できます。
オープンソースの光学式文字認識アルゴリズム
企業がニーズに適応できるオープンソースのOCRアルゴリズムがいくつかあります。 これらのソリューションは、ソースコードにどこからでもアクセスできるため、カスタマイズが簡単です。 ただし、中央の権限はありません。 オープンソースソリューションの開発者は責任を負わず、それ以上のサポートも提供しません。 したがって、コードの品質には疑問が残る可能性があります。 このオプションは、誤動作を修正できる強力なIT部門を持つ企業に適しています。 または、このソフトウェアをカスタマイズして再トレーニングできる機械学習コンサルタントに連絡することもできます。
一般的に使用されるオープンソースのOCRソリューションは次のとおりです。
正八胞体
Tesseractオープンソースエンジンは最も人気のあるOCRツールの1つであり、最も正確な無料ツールの1つであると考えられています。 1985年から1994年の間にヒューレットパッカードによって開発されました。2006年以降、このプラットフォームはGoogleによって管理され、さらに開発されました。 TesseractはC++で記述されていますが、Java、Python、Swift、Ruby、R、およびいくつかのより一般的なプログラミング言語のラッパーを提供します。
このツールはコマンドラインを使用して動作し、グラフィカルユーザーインターフェイスはありません。 ただし、このソリューションをユーザーフレンドリーにするために展開できるGUIオプションがいくつかあります。 一例はglmageReaderです。 このインターフェースはPythonを使用して開発されており、PNG、GIF、PNMなどのさまざまな画像形式をサポートしています。
Tesseractはページレイアウト分析を提供せず、出力をフォーマットしません。また、そのコマンドラインインターフェイスでは、すべての画像をTIFF形式で送信する必要があります。 さらに、このOCRソリューションはGPU用に最適化されておらず、バッチ処理を許可していません。
OCRopus
OCRopusは元々Pythonで作成されていましたが、現在は別のC++バージョンがあります。 これはGoogleによってサポートされており、GoogleReCaptchaアルゴリズムのOCRエンジンとして使用されていました。
OCRopusには3つの主な機能があります。
- 物理レイアウト分析:テキストブロック、列、および行を識別し、読み取り順序を決定します。 たとえば、列を検出するには、最大空白の長方形アルゴリズムを使用して、列間の空白を検出します。
- 線認識:垂直線か左から右線かに関係なく、各ブロックまたは列内の線を認識します。
- 統計的言語モデリング:辞書と確率的文法を使用して、文字の欠落や未確認の問題を解決します。
EasyOCR
光学式文字認識会社であるJaidedAIは、ディープラーニングモデルを備えたPythonとPyTorchライブラリを使用してEasyOCRパッケージを構築しました。 キリル文字、中国語、アラビア語を含む80以上の言語をサポートしており、このベースは拡大を続けています。 実装ロードマップの一部として、手書きのテキストを認識するための構成可能なオプションを追加する計画があります。
商用OCRソリューション
Software as a Service(SaaS)ソリューションを使用すると、高品質のアルゴリズムの恩恵を受け、完全なベンダーサポートを受けることができます。 選択したプラットフォームによっては、データセットでOCRアルゴリズムを再トレーニングし、独自のニーズにさらに適合させることができる場合があります。
Amazon Textract
Amazon Textractは、スキャンされたドキュメントから印刷および手書きのテキストを抽出する機械学習ベースのサービスです。 非構造化データや、フォームやテーブルなどのフォーマットされたテキストを処理できます。 このソリューションはAIを使用しており、追加の構成手順やテンプレートは必要ありません。 このサービスは安全で、HIPAAやGDPRなどのデータ保護規則に準拠しています。 Amazon Textractは、顧客が使用してそれに応じて支払うことができる4つのAPIを提供します。
- ドキュメントテキストの検出API:スキャンから構造化されていない印刷テキストと手書き文字を抽出します。 最初の100万ページの費用は1ページあたり0.0015ドルです。 その後、価格が下がります。
- ドキュメントAPIの分析:構造化データを処理します。 フォームとテーブルからテキストを抽出します。 クライアントは、テーブルを処理するときに1ページあたり$ 0.015を支払い、フォームの場合は1ページあたり$0.05を支払います。 最初の100万ページを過ぎると価格が下がります。
- 経費APIの分析:請求書を処理します。 このサービスには、レシート関連フィールドの共通の分類法があります。 たとえば、請求書番号を認識できます。 ユーザーは最初の100万ページに対して1ページあたり0.01ドルを支払います。
- ID APIの分析:運転免許証やパスポートなどの身分証明書のコンテキストを理解し、特定のフィールドからテキストを抽出できます。 このサービスは、最初の100,000ページで0.025ドルで利用できます。
Google Cloud Vision
GoogleはVisionAPIを提供しています。これは、ドキュメントや画像から印刷および手書きのテキストを抽出できます。 光学式文字認識の2つの機能が含まれています。
- Text_detection:交通標識の写真などの画像からテキストを抽出します
- Document_text_detection:ドキュメントと画像のテキストをキャプチャします。 応答が密なテキスト用に最適化されているため、以前の機能とは異なります。
どちらの機能も、ユーザーが月に最初の1,000ユニットを無料で処理できるようにします。 その後、1,000ユニットごとに$1.5を支払います。 1か月あたりのユニット数を増やすと、この価格は下がります。
MicrosoftAzureコンピュータービジョン
Microsoftは、スタンドアロン機能としてではなく、汎用のコンピュータービジョンAPIの一部としてOCRサービスを提供しています。 したがって、光学式文字認識に加えて、有名人、ランドマーク、ブランドの識別、および一般的なオブジェクトの検出を含むパッケージ全体の料金を支払います。 このAPIは、最初の100万ユニットの1,000トランザクションあたり1ドルの費用がかかります。 その後、価格は1,000トランザクションあたり0.65ドルに下がり、さらにコンテンツを送信すると価格が下がり続けます。
さまざまな業界での上位のOCRユースケース
光学式文字認識アルゴリズムは、さまざまな業界で注目を集めています。 以下は、最も有名なOCRアプリケーションの一部です。
銀行のOCR
銀行機関は、ワークフローで大量の紙ベースのドキュメントを使用しています。 これらには、小切手、顧客記録、ローン申請書、銀行取引明細書などが含まれます。OCR認識アルゴリズムを採用すると、従業員はこれらすべてのドキュメントをデジタルで保存およびアクセスでき、事務処理の損失や損傷を防ぐことができます。
取り扱いを確認する
このセクターのOCRの一例は、銀行のアプリを使用して紙ベースの小切手をデジタルで預けることです。 これらのソリューションは、光学式文字認識アルゴリズムを展開して、小切手の関連フィールドを識別し、従業員がこのすべてのデータを手動で転送する必要なしに、それに応じて操作を実行します。 さらに、このようなアプリは、既存のデータベースに対して署名検証を実行し、チェックをすぐにクリアできます。
顧客のオンボーディング
従業員にクライアントの身元を手動で確認させる代わりに、OCRを利用したソリューションでは、個人のパスポートやその他のIDドキュメントからすべての関連情報を抽出して検証できます。 これにより、即時検証が可能になり、カスタマーエクスペリエンスが向上します。
クライアント情報の更新
クライアントは、OCRを使用して銀行に行ったり電話をかけたりする代わりに、ドキュメントをスキャンして情報を自動的に更新できます。 たとえば、Alfa-BankはSmart Enginesと協力して、光学式文字認識機能を備えた銀行アプリを強化しました。 この新機能により、お客様はスマートフォンのカメラの前にID文書を配置し、抽出されたデータを確認し、銀行システムで情報を更新することができます。
ヘルスケアにおけるOCR
銀行部門と同様に、医療機関はX線スキャン、テスト結果、治療計画など、多くの紙の文書を蓄積しています。 OCRアルゴリズムは、これらのファイルをデジタル化して、物理的なドキュメントの損失を防ぎ、紙のファイルを手動で処理するために浪費される労力を削減するのに役立ちます。 さらに、手書きのテキストを認識する一部のOCRソリューションは、患者登録用紙と処方箋を処理できます。
医療費請求システム
OCR対応の医療請求処理を専門とするソフトウェアベンダーがあります。 そのような会社の1つがOCRソリューションです。 それは、さらなる処理のために医療請求をスキャン、検証、および正しくルーティングできる製品を開発しました。 このプログラムは、DentalClaimFormsやCMS-1500などの一般的な形式で動作するようにトレーニングおよび構成されています。
ファックス
多くの医療施設は今でもファックスに依存しています。 光学式文字認識ソリューションは、入ってくる素材をアクセス可能なデジタル保存形式に変換できます。
請求
OCRを利用したソリューションは、医療機関が請求書をデジタル化して正しく提出するのに役立ちます。 OCRの例の1つは、請求書処理に特化したOCRを利用したソリューションを提供するサンフランシスコを拠点とするNanonetsからのものです。 同社は、自社のソフトウェアにより、請求書データの入力時間が請求書ごとに3分からわずか30秒に短縮されると主張しています。
小売業のOCR
光学式文字認識アルゴリズムにより、小売店の従業員は、発注書、請求書、パッキングリスト、およびその他のドキュメントの処理にかかる時間を節約できます。 これらのソリューションは、製品のバーコードからシリアル番号を抽出し、顧客がバウチャーをスキャンしてシリアルコードを抽出できるようにすることもできます。
IDスキャン
店舗の従業員は、年齢確認、顧客の忠誠心のための情報の入力など、さまざまな理由で個人情報をスキャンする必要がある場合があります。 OCRベンダーはこの機会を利用しています。
たとえば、フロリダを拠点とするOCR Solutionsは、IDドキュメントをスキャンし、関連フィールドを抽出し、小売業者のデータベースに対応する情報を入力できるOCRを利用したソフトウェアであるidMaxを開発しました。 idMaxは、ローカルにインストールすることも、クラウドを介してアクセスすることもできます。
ビジネスにOCRソリューションを採用する際の課題
運用を改善するためにOCR認識アルゴリズムを展開することにした場合、考慮する必要のあるいくつかの側面があります。
入力資料:すべての入力ファイルがOCRアルゴリズムに適していることを確認してください。 たとえば、ファイルには、そのコンテンツを認識するアルゴリズムの機能を妨げる可能性のある損傷がない必要があります。 コントラストが十分に高く、ページが適切に配置されているなど。一部のアルゴリズムには強力な前処理機能があり、これらの問題の一部を解決できます。 ただし、そうでない場合は、高品質のスキャナーに投資して、適切なページの配置を確保することをお勧めします。
トレーニングデータセット:光学式文字認識アルゴリズムをトレーニングまたは再トレーニングする場合は、使用する予定のデータが入力素材を忠実に表し、十分な正しい注釈が含まれていることを確認する必要があります。 トレーニングデータセットが小さすぎるか、適切な注釈が含まれていない場合、アルゴリズムは望ましい結果を生成しません。 また、トレーニング中は、類似した文字/記号に特別な注意を払う必要があります。 たとえば、特にアルゴリズムが手書きのテキストで機能することが期待される場合、番号2と7はかなり似ているように見える場合があります。 データサイエンティストは、トレーニングデータでそのような違いをカバーする必要があります。 もう1つの例は、OCRアルゴリズムを使用して、車のナンバープレートを検出してキャプチャすることです。 車の後ろにテキストが書かれたカスタムステッカーがナンバープレートと間違えられないように、アルゴリズムが適用されないようにする必要があります。
手書きのテキスト:手書きには、さらに多くのOCRの課題があります。 さまざまな人々の間でさまざまな書き方があり、個々のユーザーの書き方でさえ一貫性がない可能性があります。 さまざまなスタイルをすべて考慮する必要があるため、信頼できる代表的なトレーニングデータセットを収集することは困難です。 筆記体の手書きは、処理が特に困難です。 また、印刷されたテキストは直線になりますが、手書きは回転が変化する傾向があるため、問題はさらに複雑になります。
スケーリング:ユーザー数またはタイムスロットあたりのリクエスト数を増やすと、特にオープンソースソリューションを使用していて、独自のコンピューティング能力に依存している場合、システムが崩壊する可能性があります。 クラウドで実行される商用OCR製品の場合は、より多くの容量を手配して支払うことができます。
OCRアルゴリズムのパフォーマンス監視:展開後、さまざまな要因によりアルゴリズムのパフォーマンスが低下し始める場合があります。 一例として、トレーニングデータと実際の生産データの間の分布の変化があります。 これは、モデルが準備されていないデータセット(さまざまなフォントや異常な傾斜のある文字など)で作業を開始したときに発生します。 これらの変更は時間の経過とともにモデルの出力に影響を与えるため、これらの問題を検出し、それに応じてモデルを再トレーニングして、初期の精度レベルを維持する必要があります。
総括する
光学式文字認識アルゴリズムは、ビジネスプロセスをスピードアップする可能性があります。 ただし、考慮すべき関連する課題があります。 選択したアルゴリズムは再トレーニングが必要になる可能性が高く、大きなデータセットに適切に注釈を付けるのは面倒な作業です。 また、ビジネスの拡大に伴う潜在的なスケーリングについても考慮する必要があります。
オープンソースソリューションを採用することは、価格的には魅力的ですが、セキュリティの抜け穴を開く可能性のあるサポートや更新の欠如などの欠点があります。 商用ソリューションはこの点でより信頼性がありますが、コストがかかり、カスタマイズが難しい場合があります。
続行する方法や、ビジネスに最適なOCRソリューションがわからない場合は、遠慮なくご連絡ください。 ITRexでは、お客様のビジネスニーズを徹底的に評価して、最適なOCRオプションを決定します。 また、選択したソリューションを再トレーニングしてシステムに統合することもできます。 必要に応じて、カスタムOCRアルゴリズムを構築することもできます。
光学式文字認識で操作を高速化したいですか? ITRexを一行ドロップ! 彼らのAI専門家は、OCRソリューションの統合とトレーニングを支援します。 また、必要に応じて、カスタムアルゴリズムを開発することもできます。
もともとは2022年4月6日にhttps://itrexgroup.comで公開されました。