光學字符識別算法如何重新定義業務流程？

已發表: 2022-04-14

輸入數據並將其從一個地方移動到另一個地方是一項耗時且重複的任務。一名員工每天可以輕鬆地花費三個小時來移動數據。除了佔用工人的時間外，人工處理數據還容易出錯，從而導致收入損失。

鄧白氏調查數據的過去和未來的一份報告顯示，五分之一的企業因數據不完整而虧損。光學字符識別（OCR）技術可以幫助企業解決這些問題。 OCR 算法可以將紙質文檔轉換為可編輯的可搜索文本。

他們還可以從文件中提取信息並將其輸入到公司 IT 系統的相應字段中。那麼，OCR 是如何工作的呢？這項技術如何幫助您實現業務目標？您是否應該聯繫人工智能解決方案提供商來幫助您構建和設置 OCR 軟件？

什麼是光學字符識別，它是如何工作的？

OCR 定義

光學字符識別是一種將打字或手寫文本以及包含文本的打印圖像轉換為機器可讀的數字數據格式的技術。 OCR 算法有助於將大量紙質文檔轉換為數字文件，從而促進文本存儲、處理和搜索。

OCR 系統由硬件和軟件組成。硬件部分可以是光學掃描儀或可以將紙質文檔轉換為數字格式的類似設備。軟件部分是OCR算法本身。

OCR 是如何工作的？

計算機很難識別字符，因為不同的字體和一個字母的書寫方式會有所不同。手寫信件使事情更加複雜。然而，光學字符識別算法接受了這一挑戰。每個 OCR 解決方案都通過四個主要步驟運行：

圖像採集

該過程涉及使用光學掃描儀捕獲紙質文檔的數字副本。文檔必須正確對齊和調整大小。

預處理

此階段的目標是使輸入文件可供 OCR 算法使用。消除了噪音和背景。預處理包括以下步驟：

佈局分析：將標題、列和圖形識別為塊
去歪斜：傾斜數字文檔以使線條水平，以防掃描期間未正確對齊
圖像細化：平滑邊緣，去除灰塵顆粒，增加文本和背景之間的對比度
文本檢測：一些算法檢測單獨的單詞並將它們分成字母，而另一些算法則直接處理文本而不將其拆分為字符。
二值化：將掃描的文檔轉換為黑白格式，其中深色區域代表字符（字母或數字），白色區域被識別為背景。此步驟有助於識別不同的字體。

在這個階段，光學字符識別算法執行不同的操作來識別字母和數字。主要有兩種方法：

模式識別： OCR 算法經過各種字體、文本格式和手寫風格的訓練，以將輸入文件中的不同字符與他們學到的字符進行比較。
特徵識別：一些算法受益於已知的字符屬性，例如交叉線和曲線，以識別輸入文件中的字符。例如，字母“H”被識別為兩條垂直線和一條交叉的水平線。由神經網絡 (NN) 提供支持的 OCR 算法使用不同的邏輯，其中第一個 NN 層聚合來自輸入文件的像素以創建圖像的低級特徵圖。

檢測到字符後，程序將其轉換為美國信息交換標準代碼 (ASCII)，以方便進一步操作。

後期處理

輸出可以是基本的，例如字符串或文件。更高級的 OCR 解決方案可以保留原始頁面結構並創建帶有可搜索文本的 PDF 文件。儘管目前還沒有工具可以保證對不同輸入文件的 100% 準確率，但一些光學字符識別算法可以在熟悉的文本上達到 99.8% 的驚人準確率。使用手寫會顯著影響結果。此外，重要的是要了解，如果訓練不足或文本不熟悉，錯誤率可能高達 20%。因此，用戶有必要不斷監控、校對和糾正 OCR 算法的輸出，尤其是當一種新型文檔進入管道時。

後處理階段還可能涉及自然語言處理 (NLP) 和其他用於數據驗證的 AI 技術。人工智能不僅可以糾正文本，還可以捕捉計算中的錯誤。假設在處理髮票時，OCR 算法識別出總金額為 500 美元。 AI 可以通過將所有費用相加並確定它們不達 500 美元來驗證這一點。人工智能可以通知人類員工審查這個特殊案例。

如果您想提高算法的質量，您可以嘗試使用開源 OCR 庫，例如 Tesseract，它們使用自己的字典進行字符分割。另一種方法是為您的領域中重複出現的術語創建專門的詞彙表。此外，審閱者可以將他們的反饋用作另一個光學字符識別算法培訓課程的輸入。

OCR 算法如何使您的業務受益？

以下是光學字符識別解決方案可以為您做的事情：

降低成本：將文件轉換為數字格式並自動輸入數據可降低員工工時方面的成本
提高客戶滿意度：這項技術將使人們能夠通過掃描身份證明文件遠程更新他們的個人信息，而不是親自去銀行或任何其他機構
提供更便宜的備份選項：無需將紙質文檔及其副本和一式三份存儲在一起，這會消耗昂貴的物理存儲單元
促進不同語言之間的翻譯：一些 OCR 工具能夠將文檔從一種語言翻譯成另一種語言
自動化工作流程：使用良好的管理系統搜索數字文件比處理紙質文件要快。在查找丟失的物理文件時，將暫停較少的進程。如果您對更全面的自動化解決方案感興趣，您可以利用包括 OCR 和其他高級功能的智能流程自動化服務。

市場上可用的 OCR 解決方案

如果您正在考慮將 OCR 功能整合到您的 IT 系統中，那麼您有多種選擇。

開源光學字符識別算法

有幾種開源 OCR 算法可供企業適應其需求。這些解決方案更容易定制，因為它們的源代碼是普遍可訪問的。但是，沒有中央權威。開源解決方案的開發人員不承擔責任，也不提供進一步的支持。因此，代碼的質量可能存在問題。此選項更適合擁有強大的 IT 部門能夠修復任何故障的公司。或者，您可以聯繫機器學習顧問，他們可以為您定制和重新培訓該軟件。

以下是一些常用的開源 OCR 解決方案：

正方體

Tesseract 開源引擎是最流行的 OCR 工具之一，被認為是最準確的免費工具之一。它由惠普在 1985 年至 1994 年間開發。從 2006 年開始，該平台由谷歌管理和進一步開發。 Tesseract 是用 C++ 編寫的，但它提供了 Java、Python、Swift、Ruby 和 R 以及一些更常見的編程語言的包裝器。

該工具使用命令行操作，沒有圖形用戶界面。但是，您可以部署幾個 GUI 選項以使該解決方案對用戶友好。一個例子是 glmageReader。該接口使用 Python 開發，支持不同的圖像格式，包括 PNG、GIF 和 PNM。

Tesseract 不提供頁面佈局分析，不格式化輸出，其命令行界面要求所有圖像都以 TIFF 格式提交。此外，此 OCR 解決方案未針對 GPU 進行優化，並且不允許批處理。

奧羅普斯

OCRopus 最初是用 Python 編寫的，現在有一個單獨的 C++ 版本。它由 Google 支持，並被用作 Google ReCaptcha 算法的 OCR 引擎。

OCRopus 具有三個主要功能：

物理佈局分析：識別文本塊、列和行並確定閱讀順序。例如，為了檢測列，它使用最大空白矩形算法來檢測列之間的空白。
行識別：識別每個塊或列中的行，無論是垂直行還是從左到右的行。
統計語言建模：使用字典和隨機語法來解決丟失和無法識別的字母問題。

EasyOCR

光學字符識別公司 Jaided AI 使用 Python 和 PyTorch 庫及其深度學習模型構建了 EasyOCR 包。它支持 80 多種語言，包括西里爾字母、中文和阿拉伯語，並且這個基礎不斷擴大。作為實施路線圖的一部分，計劃添加用於識別手寫文本的可配置選項。

商業 OCR 解決方案

軟件即服務 (SaaS) 解決方案使您能夠從高質量算法中受益並獲得全面的供應商支持。根據所選平台，您可能能夠在數據集上重新訓練 OCR 算法，甚至進一步使其適應您的獨特需求。

亞馬遜文摘

Amazon Textract 是一項基於機器學習的服務，可從掃描的文檔中提取印刷和手寫文本。它可以處理非結構化數據和格式化文本，例如表格和表格。該解決方案使用 AI，不需要任何額外的配置步驟或模板。該服務安全且符合數據保護法規，例如 HIPAA 和 GDPR。 Amazon Textract 提供了四種 API，客戶可以相應地使用和付費：

檢測文檔文本 API：從掃描中提取非結構化打印文本和筆跡。前 100 萬頁每頁的成本為 0.0015 美元；之後，價格下降。
分析文檔 API：使用結構化數據。從表單和表格中提取文本。客戶在處理表格時每頁支付 0.015 美元，在處理表格時每頁支付 0.05 美元。在第一百萬頁之後價格下降。
分析費用 API：適用於發票。此服務具有收據相關字段的通用分類法。例如，它可以識別發票號碼。用戶將為前一百萬頁支付每頁 0.01 美元。
分析 ID API：了解身份證件的上下文，例如駕照和護照，並可以從特定字段中提取文本。對於前 100,000 頁，您可以以 0.025 美元的價格從這項服務中受益。

谷歌云願景

Google 提供 Vision API，它可以從文檔和圖像中提取印刷和手寫文本。它包含兩個光學字符識別功能：

text_detection：從圖像中提取文本，例如交通標誌的照片
Document_text_detection：捕獲文檔和圖像中的文本。它與之前的功能不同，因為它的響應針對密集文本進行了優化。

這兩項功能都允許用戶每月免費處理前 1,000 個單位。之後，您將每 1,000 個單位支付 1.5 美元。隨著您每月提交更多單位，此價格會降低。

微軟 Azure 計算機視覺

Microsoft 提供 OCR 服務作為其通用計算機視覺 API 的一部分，而不是作為獨立功能。因此，您需要為整個套餐付費，其中除了光學字符識別外，還包括名人、地標、品牌和一般對象檢測的識別。對於前 100 萬個單位，此 API 將花費您每 1,000 筆交易 1 美元。之後，價格降至每 1,000 筆交易 0.65 美元，並且隨著您提交更多內容，價格將繼續下降。

不同行業的頂級 OCR 用例

光學字符識別算法在不同行業中越來越受歡迎。以下是一些最突出的 OCR 應用程序。

銀行業務中的 OCR

銀行機構在其工作流程中使用大量紙質文檔。其中包括支票、客戶記錄、貸款申請、銀行對賬單等。採用 OCR 識別算法允許員工以數字方式存儲和訪問所有這些文件，並防止文書工作丟失和損壞。

支票處理

該領域 OCR 的一個例子是使用銀行應用程序以數字方式存入紙質支票。這些解決方案部署光學字符識別算法來識別支票中的相關字段並相應地執行操作，而無需員工手動傳輸所有這些數據。此外，此類應用程序可以對現有數據庫執行簽名驗證並立即清除檢查。

客戶入職

OCR 支持的解決方案無需員工手動驗證客戶身份，而是可以從個人護照和其他身份證件中提取和驗證所有相關信息。這允許即時驗證並改善客戶體驗。

客戶信息更新

在 OCR 的幫助下，客戶無需訪問或致電銀行，而是可以掃描他們的文件以自動更新信息。例如，Alfa-Bank 與 Smart Engines 合作，通過光學字符識別功能增強其銀行應用程序。借助這項新功能，客戶可以將身份證件放在智能手機的攝像頭前，確認提取的數據，並在銀行系統中更新他們的信息。

醫療保健中的 OCR

與銀行業類似，醫療機構積累了許多紙質文件，例如 X 射線掃描、測試結果、治療計劃等。 OCR 算法有助於將這些文件數字化，以防止物理文件丟失並減少手動處理紙質文件所浪費的精力。此外，一些識別手寫文本的 OCR 解決方案可以處理患者登記文件和處方。

醫療索賠系統

有些軟件供應商專門從事支持 OCR 的醫療索賠處理。 OCR Solutions 就是這樣一家公司。它開發了一種產品，可以掃描、驗證和正確發送醫療索賠以供進一步處理。該程序經過培訓和配置，可以使用常見格式，例如牙科索賠表和 CMS-1500 等。

傳真

許多醫療機構仍然依賴傳真。光學字符識別解決方案可以將傳入的材料轉換為可訪問的數字存儲格式。

發票

OCR 支持的解決方案可幫助醫療保健組織將發票數字化並正確歸檔。一個 OCR 示例來自總部位於舊金山的 Nanonets，它提供了一種專門處理髮票的 OCR 驅動的解決方案。該公司聲稱其軟件將把發票數據輸入時間從每張發票的 3 分鐘縮短到 30 秒。

零售中的 OCR

光學字符識別算法使零售員工能夠節省處理採購訂單、發票、裝箱單和其他文件的時間。這些解決方案還可以從產品的條形碼中提取序列號，並使客戶能夠掃描他們的憑證並提取序列碼。

身份證掃描

商店員工可能出於多種原因需要掃描個人信息，例如年齡驗證、填寫客戶忠誠度信息等。 OCR 供應商利用了這個機會。

例如，位於佛羅里達州的 OCR Solutions 開發了 idMax，這是一款由 OCR 驅動的軟件，可以掃描 ID 文檔、提取相關字段並用相應的信息填充零售商的數據庫。 idMax 可以本地安裝，也可以通過雲端訪問。

在您的業務中採用 OCR 解決方案的挑戰

如果您決定部署 OCR 識別算法來改進您的操作，則需要考慮以下幾個方面：

輸入材料：確保所有輸入文件都適合 OCR 算法。例如，文件需要沒有可能干擾算法識別其內容的能力的損壞。對比度足夠高，頁面是否正確對齊等。一些算法具有強大的預處理能力，可以為您解決其中的一些問題。但如果不是這種情況，也許投資購買高質量的掃描儀並確保正確的頁面對齊是一個好主意。

訓練數據集：如果您決定訓練或重新訓練光學字符識別算法，您需要確保您計劃使用的數據忠實地代表您的輸入材料並包含足夠正確的註釋。如果您的訓練數據集太小或不包含足夠的註釋，則該算法將不會產生所需的結果。此外，在訓練期間，您需要特別注意相似的字符/符號。例如，數字 2 和 7 可能看起來非常相似，尤其是在算法預計可以處理手寫文本的情況下。數據科學家需要在訓練數據中涵蓋這些區別。另一個例子是使用 OCR 算法來檢測和捕獲汽車上的車牌。您需要確保您的算法不會將汽車後部的帶有文字的自定義標籤誤認為是車牌。

手寫文本：手寫帶來許多額外的 OCR 挑戰。不同人之間的寫作風格多種多樣，即使是個人用戶的寫作也可能不一致。收集可靠的代表性訓練數據集是一項挑戰，因為您需要考慮所有不同的風格。草書筆跡特別難以處理。此外，雖然印刷文本是一條直線，但手寫往往有可變的旋轉，這使事情變得更加複雜。

擴展性：如果您增加用戶數量或每個時隙的請求數量，系統可能會崩潰，尤其是在您使用開源解決方案並依賴自己的計算能力的情況下。如果是在雲中運行的商業 OCR 產品，您可以安排並支付更多容量。

OCR算法的性能監控：部署後，由於不同的因素，算法的性能可能會開始下降。一個例子是訓練數據和實際生產數據之間的分佈變化。當模型開始處理它沒有準備好的數據集時會發生這種情況，例如不同的字體或具有異常傾斜的字符。這些變化會隨著時間的推移影響模型的輸出，您需要檢測這些問題並相應地重新訓練模型以保持其初始準確度水平。

總結一下

光學字符識別算法有可能加快您的業務流程。然而，有一些相關的挑戰需要考慮。所選算法可能需要重新訓練，正確註釋大型數據集是一項繁瑣的任務。隨著業務的擴展，您還需要考慮潛在的擴展。

採用開源解決方案在價格方面似乎很誘人，但它也有其缺點，例如缺乏支持和更新，這可能會打開安全漏洞。商業解決方案在這方面更可靠，但成本高且難以定制。

如果您不確定如何進行以及哪種 OCR 解決方案最適合您的業務，請隨時與我們聯繫。在 ITRex，我們很樂意對您的業務需求進行全面評估，以確定最佳 OCR 選項。我們還可以幫助您重新培訓選定的解決方案並將其集成到您的系統中。如果需要，我們還可以構建自定義 OCR 算法。

您想通過光學字符識別加速您的操作嗎？刪除 ITRex 一行！他們的 AI 專家將協助您進行 OCR 解決方案集成和培訓。如果需要，他們還可以為您開發自定義算法。

最初於2022 年 4 月 6 日在https://itrexgroup.com上發布。