Как работает механизм OCR?

Опубликовано: 2022-08-06

Извлечение и перепрофилирование данных из отсканированных документов, изображений с камеры и PDF-файлов, содержащих только изображения, может оказаться сложной задачей.

Однако технологически продвинутый механизм OCR на основе машинного обучения может эффективно выполнять эту задачу.

В этой статье мы обсудим, как работает модуль OCR и почему SDK OCR может подойти для ваших нужд.

= Содержание скрыть
1 Что такое оптическое распознавание символов (OCR)?
1.1 В чем важность механизма оптического распознавания символов?
2 Как работает модуль OCR?
2.1 Получение изображения
2.2 Предварительная обработка изображения
2.3 Распознавание текста
2.4 Сопоставление с образцом
2.5 Извлечение признаков
2.6 Постобработка
3 Каковы типичные варианты использования OCR?
4 Каковы ключевые способы, которыми OCR-движки помогают бизнесу сегодня?
5 Как интегрировать OCR SDK?

Что такое оптическое распознавание символов (OCR)?

OCR — оптическое распознавание символов — преобразует изображение текста в машиночитаемый текстовый формат с поддержкой ИИ.

OCR имеет огромные преимущества по сравнению с простым сканированием, поскольку вы не можете редактировать, искать или подсчитывать слова в файле изображения с помощью текстового редактора.

Однако OCR может преобразовать изображение в текстовый документ, сохранив его содержимое в виде текстовых данных.

В чем важность механизма OCR?

Сегодня большинство бизнес-процессов связано с получением информации из печатных СМИ. Счета-фактуры, бумажные формы, отсканированные юридические документы и распечатанные контракты являются частью бизнес-процессов.

Для хранения и управления этими большими объемами документов требуется много времени и места.

Здесь OCR предлагает преимущества безбумажного управления документами по сравнению с ручным вмешательством, которое утомительно и медленно.

Усовершенствованная технология OCR на основе искусственного интеллекта решает проблему путем преобразования текстовых изображений в текстовые данные, которые могут быть проанализированы другим программным обеспечением для бизнеса.

Затем обработанные данные используются для проведения аналитики, оптимизации операций и автоматизации процессов, что в конечном итоге повышает производительность.

Как работает механизм OCR?

Получение изображения

Получение изображения — это первый шаг, когда сканер считывает документы и преобразует их в двоичные данные. Он классифицирует светлые области как фон, а темные области — как текст для анализа отсканированного изображения.

Предварительная обработка изображения

Процесс приобретения сопровождается грязью и ошибками. Таким образом, механизм OCR сначала очищает изображение и отбрасывает ошибки перед чтением.

Эти методы очистки:

  • Устранение перекоса или наклона : исправление проблем с выравниванием во время сканирования.
  • Удаление пятен : удаление пятен цифрового изображения, которые сглаживают края текстовых изображений.
  • Коробки и линии на изображении убраны.
  • Распознавание сценария для многоязычной технологии OCR.

Распознавание текста

Сопоставление с образцом и извлечение признаков — это два основных типа процессов алгоритмов OCR, которые программное обеспечение OCR в основном использует для распознавания текста.

Сопоставление с образцом

Следующим шагом является сопоставление шаблона путем отделения изображения символа с именем глифа и сравнения его с аналогичным сохраненным глифом.

Этот процесс работает только в том случае, если сохраненный глиф имеет шрифт и масштаб, аналогичные входному глифу.

Извлечение признаков

Следующий шаг — извлечение признаков. Процесс разбивает или разлагает глифы на элементы, такие как линии, замкнутые контуры, направление линий и пересечения линий.

Эти функции находят наилучшее совпадение или ближайшего соседа среди различных сохраненных глифов.

Постобработка

Наконец, после анализа система преобразует извлеченные текстовые данные в компьютеризированный файл.

Каковы типичные варианты использования OCR?

  • Банковское дело : технология OCR помогает банковской отрасли обрабатывать и проверять документы для кредитных документов, депозитных чеков и других финансовых транзакций. Это улучшило предотвращение мошенничества и повысило безопасность транзакций.
  • Здравоохранение : OCR произвел революцию в сфере здравоохранения. Он обрабатывает записи пациентов, включая лечение, анализы, больничные записи и страховые выплаты. Недавно он помог оптимизировать рабочий процесс и сократить объем ручной работы в больницах, сохраняя записи в актуальном состоянии.
  • Юридическая документация : технология оптического распознавания текста упрощает важные утвержденные юридические документы, которые можно сканировать и хранить в электронной базе данных для удобного поиска. Тогда документы также могут быть просмотрены и переданы многим людям.
  • Логистика : логистическая отрасль была менее эффективной до появления технологии OCR. Раньше ввод бизнес-документов вручную отнимал много времени и приводил к ошибкам. Из-за дальновидности сотрудникам пришлось вводить данные в несколько учетных систем. Логистические компании используют OCR для более эффективного отслеживания этикеток на упаковках, счетов-фактур, квитанций и других документов. Благодаря Amazon Textract программное обеспечение Foresight может более точно считывать символы в различных макетах, что повышает эффективность бизнеса.

Каковы ключевые способы, которыми OCR-движки помогают бизнесу сегодня?

  • Автоматизация рабочих процессов
  • Превращение файлов только для чтения в редактируемый текст
  • Создание звуковых файлов
  • Перевод иностранных языков
  • Работа с формами и анкетами
  • Достижение более быстрого и точного ввода данных

Как вы можете интегрировать OCR SDK?

OCR SDK FileStack помогает оцифровывать документы, а также извлекать и упорядочивать данные из кредитных карт, паспортов, водительских прав и налоговых квитанций, не пошевелив пальцем.

OCR от FileStack организует и оптимизирует процесс сбора данных, поэтому вам не нужно этого делать.

Для извлечения текста из сложных документов на изображениях в FileStack есть два разных решения на основе машинного обучения, которые работают точно.

  1. Неконтролируемое обучение с интеллектуальной обработкой изображений
  2. Контролируемая сегментация

Расширенные инструменты обнаружения и предварительной обработки документов — последнее дополнение FileStack, которое может повысить точность.

Во-первых, API FileStack загружает изображения в свои базы данных. Затем преобразуйте их в единый формат и измените размер до стандартного размера.

После этого они передаются в инструменты обнаружения и предварительной обработки документов, чтобы сделать изображение более четким для механизма OCR. Результаты генерируют ответ JSON, содержащий всю информацию извлеченных текстов в исходном изображении.

В API обработки OCR доступен как синхронная операция. После этой задачи:

окр

Соответственно ответ:

{
"документ": {
«текстовые_области»: [
{
"Ограничительная рамка": [
{
«х»: 834,
«у»: 478
},
{
«х»: 3372,
«у»: 739
},
{
«х»: 3251,
«у»: 1907 г.
},
{
«х»: 714,
«у»: 1646
}
],
«линии»: [
{
"Ограничительная рамка": [
{
«х»: 957,
«у»: 490
},
{
«х»: 3008,
«у»: 701
},
{
«х»: 2977,
«у»: 1009
},
{
«х»: 925,
«у»: 797
}
],
«текст»: «Стек файлов может обнаружить»,
«слова»: [
{
"Ограничительная рамка": [
{
«х»: 957,
«у»: 490
},
{
«х»: 1833,
«у»: 580
},
{
«х»: 1802,
«у»: 888
},
{
«х»: 925,
«у»: 797
}
],
«текст»: «Стопка файлов»
},
{
"Ограничительная рамка": [
{
«х»: 1916,
«у»: 589
},
{
«х»: 2266,
«у»: 625
},
{
«х»: 2235,
«у»: 932
},
{
«х»: 1884,
«у»: 896
}
],
«текст»: «можно»
},
{
"Ограничительная рамка": [
{
«х»: 2336,
«у»: 632
},
{
«х»: 3008,
«у»: 701
},
{
«х»: 2977,
«у»: 1009
},
{
«х»: 2304,
«у»: 939
}
],
«текст»: «обнаружить»
}
]
},
{
"Ограничительная рамка": [
{
«х»: 860,
«у»: 858
},
{
«х»: 3330,
«у»: 1049
},
{
«х»: 3301,
«у»: 1421
},
{
«х»: 831,
«у»: 1229
}
],
«текст»: «печатный и рукописный»,
«слова»: [
{
"Ограничительная рамка": [
{
«х»: 860,
«у»: 858
},
{
«х»: 1550,
«у»: 912
},
{
«х»: 1521,
«у»: 1283
},
{
«х»: 831,
«у»: 1229
}
],
«текст»: «печатный»
},
{
"Ограничительная рамка": [
{
«х»: 1677,
«у»: 922
},
{
«х»: 2047,
«у»: 951
},
{
«х»: 2018,
«у»: 1321
},
{
«х»: 1648,
«у»: 1292
}
],
«текст»: «и»
},
{
"Ограничительная рамка": [
{
«х»: 2107,
«у»: 954
},
{
«х»: 3330,
«у»: 1049
},
{
«х»: 3301,
«у»: 1421
},
{
«х»: 2078,
«у»: 1326
}
],
«текст»: «рукописный»
}
]
},
{
"Ограничительная рамка": [
{
«х»: 749,
«у»: 1305
},
{
«х»: 2504,
«у»: 1486
},
{
«х»: 2469,
«у»: 1826
},
{
«х»: 714,
«у»: 1645
}
],
«текст»: «тексты с использованием OCR»,
«слова»: [
{
"Ограничительная рамка": [
{
«х»: 749,
«у»: 1305
},
{
«х»: 1233,
«у»: 1355
},
{
«х»: 1198,
«у»: 1695
},
{
«х»: 714,
«у»: 1645
}
],
«текст»: «тексты»
},
{
"Ограничительная рамка": [
{
«х»: 1317,
«у»: 1364
},
{
«х»: 1910,
«у»: 1425
},
{
«х»: 1875,
«у»: 1765
},
{
«х»: 1282,
«у»: 1704
}
],
«текст»: «используя»
},
{
"Ограничительная рамка": [
{
«х»: 1972 г.,
«у»: 1431
},
{
«х»: 2504,
«у»: 1486
},
{
«х»: 2469,
«у»: 1826
},
{
«х»: 1937 г.,
«у»: 1771
}
],
«текст»: «OCR»
}
]
}
],
«текст»: «Filestack может обнаруживать\nпечатные и рукописные\nтексты с помощью оптического распознавания символов»
}
]
},
«text»: «Filestack может обнаруживать\nпечатные и рукописные\nтексты с помощью OCR\n»,
«text_area_percentage»: 23.40692449819434
}

В зависимости от параметров ответа вы можете получить ответ OCR на своем изображении следующим образом:

https://cdn.filestackcontent.com/security=p:<POLICY>,s:<SIGNATURE>/ocr/<HANDLE>

Вы можете использовать OCR в цепочке с другими задачами, такими как doc_detection:

https://cdn.filestackcontent.com/security=p:<POLICY>,s:<SIGNATURE>/doc_detection=coords:false,preprocess:true/ocr/<HANDLE>

Кроме того, используйте OCR с внешним URL-адресом:

https://cdn.filestackcontent.com/<FILESTACK_API_KEY>/security=p:<POLICY>,s:<SIGNATURE>/ocr/<EXTERNAL_URL>

Наконец, используйте OCR с псевдонимами хранилища:

https://cdn.filestackcontent.com/<FILESTACK_API_KEY>/security=p:<POLICY>,s:<SIGNATURE>/ocr/src://<STORAGE_ALIAS>/<PATH_TO_FILE>