OCR 引擎如何工作?
已发表: 2022-08-06从扫描的文档、相机图像和纯图像 PDF 中提取和重新利用数据可能很棘手。
但是,技术先进的基于 ML 的 OCR 引擎可以有效地执行任务。
本文将讨论 OCR 引擎的工作原理以及为什么 OCR SDK 可以满足您的需求。
什么是光学字符识别 (OCR)?
OCR——光学字符识别——将文本图像转换为支持人工智能的机器可读文本格式。
OCR 与简单扫描相比具有巨大的优势,因为您无法使用文本编辑器编辑、搜索或计算图像文件中的单词。
但是,OCR 可以将图像转换为文本文档,将其内容存储为文本数据。
OCR 引擎的重要性是什么?
今天,大多数业务工作流程都涉及从印刷媒体接收信息。 发票、纸质表格、扫描的法律文件和打印的合同是业务流程的一部分。
存储和管理这些大量文书工作需要大量时间和空间。
在这里,与繁琐且缓慢的人工干预相比,OCR 提供了无纸化文档管理优势。
改进的基于 AI 的 OCR 技术通过将文本图像转换为其他业务软件可以分析的文本数据来解决该问题。
然后合并处理后的数据以进行分析、简化操作和自动化流程,最终提高生产力。
OCR 引擎如何工作?
图像采集
图像采集是扫描仪读取文档并将其转换为二进制数据的第一步。 它将亮区分类为背景,将暗区分类为文本,以分析扫描的图像。
图像预处理
采集过程伴随着污垢和错误。 因此,OCR 引擎在读取之前首先清理图像并丢弃错误。
这些清洁技术:
文本识别
模式匹配和特征提取是 OCR 软件主要用于文本识别的两种主要类型的 OCR 算法过程。
模式匹配
下一步是通过分离一个名为glyph的字符图像并将其与类似存储的 glyph 进行比较来匹配模式。
仅当存储的字形具有与输入字形相似的字体和比例时,该过程才有效。
特征提取
下一步是特征提取。 该过程将字形分解或分解为线条、闭合环、线条方向和线条交叉点等特征。
这些功能在其各种存储的字形中找到最佳匹配或最近的邻居。
后期处理
最后,经过分析,系统将提取的文本数据转换为计算机化文件。
什么是典型的 OCR 用例?
OCR 引擎今天帮助企业的主要方式是什么?
如何集成 OCR SDK?
FileStack 的 OCR SDK 有助于将文档数字化,并从信用卡、护照、驾驶执照和税收收据中提取和组织数据,而无需费力。
FileStack 的 OCR 组织并简化了数据捕获过程,因此您不必这样做。
为了提取图像中复杂文档中的文本,FileStack 有两种不同的基于机器学习的解决方案,它们可以正常工作。
- 具有智能图像处理的无监督学习
- 监督分割
高级文档检测和预处理工具是 FileStack 的最新功能,可以提高准确性。
首先,FileStack 的 API 将图像上传到其数据库。 然后,将它们转换为统一格式,并将它们调整为标准大小。
之后,它们被输入文档检测和预处理工具,以使 OCR 引擎的图像更清晰。 结果生成一个 JSON 响应,其中包含提取文本的所有信息到原始图像中。
在处理 API 中,OCR 可作为同步操作使用。 执行此任务:
ocr |
相应地,回应:
{ “文档”: { “文本区域”:[ { “边界框”:[ { “x”:834, “是”:478 }, { “x”:3372, “是”:739 }, { “x”:3251, “y”:1907 }, { “x”:714, “是”:1646 } ], “线条”:[ { “边界框”:[ { “x”:957, “是”:490 }, { “x”:3008, “是”:701 }, { “x”:2977, “是”:1009 }, { “x”:925, “是”:797 } ], “text”: “Filestack 可以检测到”, “字”: [ { “边界框”:[ { “x”:957, “是”:490 }, { “x”:1833, “y”:580 }, { “x”:1802, “是”:888 }, { “x”:925, “是”:797 } ], “文本”:“文件堆栈” }, { “边界框”:[ { “x”:1916, “是”:589 }, { “x”:2266, “是”:625 }, { “x”:2235, “是”:932 }, { “x”:1884, “是”:896 } ], “文本”:“可以” }, { “边界框”:[ { “x”:2336, “是”:632 }, { “x”:3008, “是”:701 }, { “x”:2977, “是”:1009 }, { “x”:2304, “是”:939 } ], “文本”:“检测” } ] }, { “边界框”:[ { “x”:860, “是”:858 }, { “x”:3330, “y”:1049 }, { “x”:3301, “是”:1421 }, { “x”:831, “是”:1229 } ], “文本”:“打印和手写”, “字”: [ { “边界框”:[ { “x”:860, “是”:858 }, { “x”:1550, “是”:912 }, { “x”:1521, “是”:1283 }, { “x”:831, “是”:1229 } ], “文本”:“打印” }, { “边界框”:[ { “x”:1677, “是”:922 }, { “x”:2047, “是”:951 }, { “x”:2018 年, “是”:1321 }, { “x”:1648, “是”:1292 } ], “文本”:“和” }, { “边界框”:[ { “x”:2107, “y”:954 }, { “x”:3330, “y”:1049 }, { “x”:3301, “是”:1421 }, { “x”:2078, “是”:1326 } ], “文字”:“手写” } ] }, { “边界框”:[ { “x”:749, “是”:1305 }, { “x”:2504, “y”:1486 }, { “x”:2469, “y”:1826 }, { “x”:714, “是”:1645 } ], “文本”:“使用 OCR 的文本”, “字”: [ { “边界框”:[ { “x”:749, “是”:1305 }, { “x”:1233, “是”:1355 }, { “x”:1198, “y”:1695 }, { “x”:714, “是”:1645 } ], “文本”:“文本” }, { “边界框”:[ { “x”:1317, “是”:1364 }, { “x”:1910, “是”:1425 }, { “x”:1875, “y”:1765 }, { “x”:1282, “y”:1704 } ], “文本”:“使用” }, { “边界框”:[ { “x”:1972 年, “是”:1431 }, { “x”:2504, “y”:1486 }, { “x”:2469, “y”:1826 }, { “x”:1937 年, “y”:1771 } ], “文本”:“OCR” } ] } ], “text”:“Filestack 可以使用 OCR 检测\n打印和手写的\n文本” } ] }, “text”: “Filestack 可以使用 OCR\n 检测\n打印和手写的\n文本”, “text_area_percentage”:23.40692449819434 } |
根据响应参数,您可以获得图像上的 OCR 响应,如下所示:
https://cdn.filestackcontent.com/security=p:<POLICY>,s:<SIGNATURE>/ocr/<HANDLE> |
您可以将 OCR 与其他任务(例如 doc_detection)一起使用:
https://cdn.filestackcontent.com/security=p:<POLICY>,s:<SIGNATURE>/doc_detection=coords:false,preprocess:true/ocr/<HANDLE> |
此外,将 OCR 与外部 URL 一起使用:
https://cdn.filestackcontent.com/<FILESTACK_API_KEY>/security=p:<POLICY>,s:<SIGNATURE>/ocr/<EXTERNAL_URL> |
最后,将 OCR 与存储别名一起使用:
https://cdn.filestackcontent.com/<FILESTACK_API_KEY>/security=p:<POLICY>,s:<SIGNATURE>/ocr/src://<STORAGE_ALIAS>/<PATH_TO_FILE> |