OCR 引擎如何工作?

已发表: 2022-08-06

从扫描的文档、相机图像和纯图像 PDF 中提取和重新利用数据可能很棘手。

但是,技术先进的基于 ML 的 OCR 引擎可以有效地执行任务。

本文将讨论 OCR 引擎的工作原理以及为什么 OCR SDK 可以满足您的需求。

= 目录隐藏
1什么是光学字符识别 (OCR)?
1.1 OCR 引擎的重要性是什么?
2 OCR 引擎如何工作?
2.1图像采集
2.2图像预处理
2.3文本识别
2.4模式匹配
2.5特征提取
2.6后处理
3什么是典型的 OCR 用例?
4 OCR 引擎今天帮助企业的主要方式是什么?
5如何集成 OCR SDK?

什么是光学字符识别 (OCR)?

OCR——光学字符识别——将文本图像转换为支持人工智能的机器可读文本格式。

OCR 与简单扫描相比具有巨大的优势,因为您无法使用文本编辑器编辑、搜索或计算图像文件中的单词。

但是,OCR 可以将图像转换为文本文档,将其内容存储为文本数据。

OCR 引擎的重要性是什么?

今天,大多数业务工作流程都涉及从印刷媒体接收信息。 发票、纸质表格、扫描的法律文件和打印的合同是业务流程的一部分。

存储和管理这些大量文书工作需要大量时间和空间。

在这里,与繁琐且缓慢的人工干预相比,OCR 提供了无纸化文档管理优势。

改进的基于 AI 的 OCR 技术通过将文本图像转换为其他业务软件可以分析的文本数据来解决该问题。

然后合并处理后的数据以进行分析、简化操作和自动化流程,最终提高生产力。

OCR 引擎如何工作?

图像采集

图像采集是扫描仪读取文档并将其转换为二进制数据的第一步。 它将亮区分类为背景,将暗区分类为文本,以分析扫描的图像。

图像预处理

采集过程伴随着污垢和错误。 因此,OCR 引擎在读取之前首先清理图像并丢弃错误。

这些清洁技术:

  • 歪斜倾斜:修复扫描期间的对齐问题。
  • 去斑:去除任何使文本图像边缘平滑的数字图像斑点。
  • 图像中的方框和线条被清除。
  • 多语言 OCR 技术的脚本识别。

文本识别

模式匹配和特征提取是 OCR 软件主要用于文本识别的两种主要类型的 OCR 算法过程。

模式匹配

下一步是通过分离一个名为glyph的字符图像并将其与类似存储的 glyph 进行比较来匹配模式。

仅当存储的字形具有与输入字形相似的字体和比例时,该过程才有效。

特征提取

下一步是特征提取。 该过程将字形分解或分解为线条、闭合环、线条方向和线条交叉点等特征。

这些功能在其各种存储的字形中找到最佳匹配或最近的邻居。

后期处理

最后,经过分析,系统将提取的文本数据转换为计算机化文件。

什么是典型的 OCR 用例?

  • 银行业:OCR 技术帮助银行业处理和验证贷款文件、存款支票和其他金融交易的文书工作。 它改进了欺诈预防并增强了交易安全性。
  • 医疗保健:OCR 彻底改变了医疗保健行业。 它处理患者记录,包括治疗、测试、医院记录和保险付款。 它最近帮助简化了工作流程并减少了医院的手工工作,同时保持记录最新。
  • 法律文件:OCR 技术促进了重要的批准法律文件,这些文件可以被扫描并存储在电子数据库中,以便于检索。 然后文档也可能被许多人查看和共享。
  • 物流:在 OCR 技术出现之前,物流行业的效率较低。 以前,手动输入业务文档既费时又容易出错。 由于有远见,员工不得不将数据输入到多个会计系统中。 物流公司使用 OCR 更有效地跟踪包裹标签、发票、收据和其他文件。 借助 Amazon Textract,Foresight 软件可以跨多种不同布局更准确地读取字符,从而提高业务效率。

OCR 引擎今天帮助企业的主要方式是什么?

  • 自动化工作流程
  • 将只读文件转换为可编辑文本
  • 创建有声文件
  • 翻译外语
  • 管理表格和问卷
  • 实现更快、更准确的数据输入

如何集成 OCR SDK?

FileStack 的 OCR SDK 有助于将文档数字化,并从信用卡、护照、驾驶执照和税收收据中提取和组织数据,而无需费力。

FileStack 的 OCR 组织并简化了数据捕获过程,因此您不必这样做。

为了提取图像中复杂文档中的文本,FileStack 有两种不同的基于机器学习的解决方案,它们可以正常工作。

  1. 具有智能图像处理的无监督学习
  2. 监督分割

高级文档检测和预处理工具是 FileStack 的最新功能,可以提高准确性。

首先,FileStack 的 API 将图像上传到其数据库。 然后,将它们转换为统一格式,并将它们调整为标准大小。

之后,它们被输入文档检测和预处理工具,以使 OCR 引擎的图像更清晰。 结果生成一个 JSON 响应,其中包含提取文本的所有信息到原始图像中。

在处理 API 中,OCR 可作为同步操作使用。 执行此任务:

ocr

相应地,回应:

{
“文档”: {
“文本区域”:[
{
“边界框”:[
{
“x”:834,
“是”:478
},
{
“x”:3372,
“是”:739
},
{
“x”:3251,
“y”:1907
},
{
“x”:714,
“是”:1646
}
],
“线条”:[
{
“边界框”:[
{
“x”:957,
“是”:490
},
{
“x”:3008,
“是”:701
},
{
“x”:2977,
“是”:1009
},
{
“x”:925,
“是”:797
}
],
“text”: “Filestack 可以检测到”,
“字”: [
{
“边界框”:[
{
“x”:957,
“是”:490
},
{
“x”:1833,
“y”:580
},
{
“x”:1802,
“是”:888
},
{
“x”:925,
“是”:797
}
],
“文本”:“文件堆栈”
},
{
“边界框”:[
{
“x”:1916,
“是”:589
},
{
“x”:2266,
“是”:625
},
{
“x”:2235,
“是”:932
},
{
“x”:1884,
“是”:896
}
],
“文本”:“可以”
},
{
“边界框”:[
{
“x”:2336,
“是”:632
},
{
“x”:3008,
“是”:701
},
{
“x”:2977,
“是”:1009
},
{
“x”:2304,
“是”:939
}
],
“文本”:“检测”
}
]
},
{
“边界框”:[
{
“x”:860,
“是”:858
},
{
“x”:3330,
“y”:1049
},
{
“x”:3301,
“是”:1421
},
{
“x”:831,
“是”:1229
}
],
“文本”:“打印和手写”,
“字”: [
{
“边界框”:[
{
“x”:860,
“是”:858
},
{
“x”:1550,
“是”:912
},
{
“x”:1521,
“是”:1283
},
{
“x”:831,
“是”:1229
}
],
“文本”:“打印”
},
{
“边界框”:[
{
“x”:1677,
“是”:922
},
{
“x”:2047,
“是”:951
},
{
“x”:2018 年,
“是”:1321
},
{
“x”:1648,
“是”:1292
}
],
“文本”:“和”
},
{
“边界框”:[
{
“x”:2107,
“y”:954
},
{
“x”:3330,
“y”:1049
},
{
“x”:3301,
“是”:1421
},
{
“x”:2078,
“是”:1326
}
],
“文字”:“手写”
}
]
},
{
“边界框”:[
{
“x”:749,
“是”:1305
},
{
“x”:2504,
“y”:1486
},
{
“x”:2469,
“y”:1826
},
{
“x”:714,
“是”:1645
}
],
“文本”:“使用 OCR 的文本”,
“字”: [
{
“边界框”:[
{
“x”:749,
“是”:1305
},
{
“x”:1233,
“是”:1355
},
{
“x”:1198,
“y”:1695
},
{
“x”:714,
“是”:1645
}
],
“文本”:“文本”
},
{
“边界框”:[
{
“x”:1317,
“是”:1364
},
{
“x”:1910,
“是”:1425
},
{
“x”:1875,
“y”:1765
},
{
“x”:1282,
“y”:1704
}
],
“文本”:“使用”
},
{
“边界框”:[
{
“x”:1972 年,
“是”:1431
},
{
“x”:2504,
“y”:1486
},
{
“x”:2469,
“y”:1826
},
{
“x”:1937 年,
“y”:1771
}
],
“文本”:“OCR”
}
]
}
],
“text”:“Filestack 可以使用 OCR 检测\n打印和手写的\n文本”
}
]
},
“text”: “Filestack 可以使用 OCR\n 检测\n打印和手写的\n文本”,
“text_area_percentage”:23.40692449819434
}

根据响应参数,您可以获得图像上的 OCR 响应,如下所示:

https://cdn.filestackcontent.com/security=p:<POLICY>,s:<SIGNATURE>/ocr/<HANDLE>

您可以将 OCR 与其他任务(例如 doc_detection)一起使用:

https://cdn.filestackcontent.com/security=p:<POLICY>,s:<SIGNATURE>/doc_detection=coords:false,preprocess:true/ocr/<HANDLE>

此外,将 OCR 与外部 URL 一起使用:

https://cdn.filestackcontent.com/<FILESTACK_API_KEY>/security=p:<POLICY>,s:<SIGNATURE>/ocr/<EXTERNAL_URL>

最后,将 OCR 与存储别名一起使用:

https://cdn.filestackcontent.com/<FILESTACK_API_KEY>/security=p:<POLICY>,s:<SIGNATURE>/ocr/src://<STORAGE_ALIAS>/<PATH_TO_FILE>