Как работает механизм OCR?
Опубликовано: 2022-08-06Извлечение и перепрофилирование данных из отсканированных документов, изображений с камеры и PDF-файлов, содержащих только изображения, может оказаться сложной задачей.
Однако технологически продвинутый механизм OCR на основе машинного обучения может эффективно выполнять эту задачу.
В этой статье мы обсудим, как работает модуль OCR и почему SDK OCR может подойти для ваших нужд.
Что такое оптическое распознавание символов (OCR)?
OCR — оптическое распознавание символов — преобразует изображение текста в машиночитаемый текстовый формат с поддержкой ИИ.
OCR имеет огромные преимущества по сравнению с простым сканированием, поскольку вы не можете редактировать, искать или подсчитывать слова в файле изображения с помощью текстового редактора.
Однако OCR может преобразовать изображение в текстовый документ, сохранив его содержимое в виде текстовых данных.
В чем важность механизма OCR?
Сегодня большинство бизнес-процессов связано с получением информации из печатных СМИ. Счета-фактуры, бумажные формы, отсканированные юридические документы и распечатанные контракты являются частью бизнес-процессов.
Для хранения и управления этими большими объемами документов требуется много времени и места.
Здесь OCR предлагает преимущества безбумажного управления документами по сравнению с ручным вмешательством, которое утомительно и медленно.
Усовершенствованная технология OCR на основе искусственного интеллекта решает проблему путем преобразования текстовых изображений в текстовые данные, которые могут быть проанализированы другим программным обеспечением для бизнеса.
Затем обработанные данные используются для проведения аналитики, оптимизации операций и автоматизации процессов, что в конечном итоге повышает производительность.
Как работает механизм OCR?
Получение изображения
Получение изображения — это первый шаг, когда сканер считывает документы и преобразует их в двоичные данные. Он классифицирует светлые области как фон, а темные области — как текст для анализа отсканированного изображения.
Предварительная обработка изображения
Процесс приобретения сопровождается грязью и ошибками. Таким образом, механизм OCR сначала очищает изображение и отбрасывает ошибки перед чтением.
Эти методы очистки:
Распознавание текста
Сопоставление с образцом и извлечение признаков — это два основных типа процессов алгоритмов OCR, которые программное обеспечение OCR в основном использует для распознавания текста.
Сопоставление с образцом
Следующим шагом является сопоставление шаблона путем отделения изображения символа с именем глифа и сравнения его с аналогичным сохраненным глифом.
Этот процесс работает только в том случае, если сохраненный глиф имеет шрифт и масштаб, аналогичные входному глифу.
Извлечение признаков
Следующий шаг — извлечение признаков. Процесс разбивает или разлагает глифы на элементы, такие как линии, замкнутые контуры, направление линий и пересечения линий.
Эти функции находят наилучшее совпадение или ближайшего соседа среди различных сохраненных глифов.
Постобработка
Наконец, после анализа система преобразует извлеченные текстовые данные в компьютеризированный файл.
Каковы типичные варианты использования OCR?
Каковы ключевые способы, которыми OCR-движки помогают бизнесу сегодня?
Как вы можете интегрировать OCR SDK?
OCR SDK FileStack помогает оцифровывать документы, а также извлекать и упорядочивать данные из кредитных карт, паспортов, водительских прав и налоговых квитанций, не пошевелив пальцем.
OCR от FileStack организует и оптимизирует процесс сбора данных, поэтому вам не нужно этого делать.
Для извлечения текста из сложных документов на изображениях в FileStack есть два разных решения на основе машинного обучения, которые работают точно.
- Неконтролируемое обучение с интеллектуальной обработкой изображений
- Контролируемая сегментация
Расширенные инструменты обнаружения и предварительной обработки документов — последнее дополнение FileStack, которое может повысить точность.
Во-первых, API FileStack загружает изображения в свои базы данных. Затем преобразуйте их в единый формат и измените размер до стандартного размера.
После этого они передаются в инструменты обнаружения и предварительной обработки документов, чтобы сделать изображение более четким для механизма OCR. Результаты генерируют ответ JSON, содержащий всю информацию извлеченных текстов в исходном изображении.
В API обработки OCR доступен как синхронная операция. После этой задачи:
окр |
Соответственно ответ:
{ "документ": { «текстовые_области»: [ { "Ограничительная рамка": [ { «х»: 834, «у»: 478 }, { «х»: 3372, «у»: 739 }, { «х»: 3251, «у»: 1907 г. }, { «х»: 714, «у»: 1646 } ], «линии»: [ { "Ограничительная рамка": [ { «х»: 957, «у»: 490 }, { «х»: 3008, «у»: 701 }, { «х»: 2977, «у»: 1009 }, { «х»: 925, «у»: 797 } ], «текст»: «Стек файлов может обнаружить», «слова»: [ { "Ограничительная рамка": [ { «х»: 957, «у»: 490 }, { «х»: 1833, «у»: 580 }, { «х»: 1802, «у»: 888 }, { «х»: 925, «у»: 797 } ], «текст»: «Стопка файлов» }, { "Ограничительная рамка": [ { «х»: 1916, «у»: 589 }, { «х»: 2266, «у»: 625 }, { «х»: 2235, «у»: 932 }, { «х»: 1884, «у»: 896 } ], «текст»: «можно» }, { "Ограничительная рамка": [ { «х»: 2336, «у»: 632 }, { «х»: 3008, «у»: 701 }, { «х»: 2977, «у»: 1009 }, { «х»: 2304, «у»: 939 } ], «текст»: «обнаружить» } ] }, { "Ограничительная рамка": [ { «х»: 860, «у»: 858 }, { «х»: 3330, «у»: 1049 }, { «х»: 3301, «у»: 1421 }, { «х»: 831, «у»: 1229 } ], «текст»: «печатный и рукописный», «слова»: [ { "Ограничительная рамка": [ { «х»: 860, «у»: 858 }, { «х»: 1550, «у»: 912 }, { «х»: 1521, «у»: 1283 }, { «х»: 831, «у»: 1229 } ], «текст»: «печатный» }, { "Ограничительная рамка": [ { «х»: 1677, «у»: 922 }, { «х»: 2047, «у»: 951 }, { «х»: 2018, «у»: 1321 }, { «х»: 1648, «у»: 1292 } ], «текст»: «и» }, { "Ограничительная рамка": [ { «х»: 2107, «у»: 954 }, { «х»: 3330, «у»: 1049 }, { «х»: 3301, «у»: 1421 }, { «х»: 2078, «у»: 1326 } ], «текст»: «рукописный» } ] }, { "Ограничительная рамка": [ { «х»: 749, «у»: 1305 }, { «х»: 2504, «у»: 1486 }, { «х»: 2469, «у»: 1826 }, { «х»: 714, «у»: 1645 } ], «текст»: «тексты с использованием OCR», «слова»: [ { "Ограничительная рамка": [ { «х»: 749, «у»: 1305 }, { «х»: 1233, «у»: 1355 }, { «х»: 1198, «у»: 1695 }, { «х»: 714, «у»: 1645 } ], «текст»: «тексты» }, { "Ограничительная рамка": [ { «х»: 1317, «у»: 1364 }, { «х»: 1910, «у»: 1425 }, { «х»: 1875, «у»: 1765 }, { «х»: 1282, «у»: 1704 } ], «текст»: «используя» }, { "Ограничительная рамка": [ { «х»: 1972 г., «у»: 1431 }, { «х»: 2504, «у»: 1486 }, { «х»: 2469, «у»: 1826 }, { «х»: 1937 г., «у»: 1771 } ], «текст»: «OCR» } ] } ], «текст»: «Filestack может обнаруживать\nпечатные и рукописные\nтексты с помощью оптического распознавания символов» } ] }, «text»: «Filestack может обнаруживать\nпечатные и рукописные\nтексты с помощью OCR\n», «text_area_percentage»: 23.40692449819434 } |
В зависимости от параметров ответа вы можете получить ответ OCR на своем изображении следующим образом:
https://cdn.filestackcontent.com/security=p:<POLICY>,s:<SIGNATURE>/ocr/<HANDLE> |
Вы можете использовать OCR в цепочке с другими задачами, такими как doc_detection:
https://cdn.filestackcontent.com/security=p:<POLICY>,s:<SIGNATURE>/doc_detection=coords:false,preprocess:true/ocr/<HANDLE> |
Кроме того, используйте OCR с внешним URL-адресом:
https://cdn.filestackcontent.com/<FILESTACK_API_KEY>/security=p:<POLICY>,s:<SIGNATURE>/ocr/<EXTERNAL_URL> |
Наконец, используйте OCR с псевдонимами хранилища:
https://cdn.filestackcontent.com/<FILESTACK_API_KEY>/security=p:<POLICY>,s:<SIGNATURE>/ocr/src://<STORAGE_ALIAS>/<PATH_TO_FILE> |