¿Cómo los algoritmos de reconocimiento óptico de caracteres redefinen los procesos comerciales?

Publicado: 2022-04-14

Introducir datos y moverlos de un lugar a otro es una tarea repetitiva que consume mucho tiempo. Un empleado puede pasar fácilmente hasta tres horas al día simplemente moviendo datos. Además de consumir el tiempo de los trabajadores, el manejo manual de datos es propenso a errores, lo que genera pérdidas de ingresos.

Un informe de Dun & Bradstreet, que investiga el pasado y el futuro de los datos, reveló que una de cada cinco empresas pierde dinero debido a datos incompletos. La tecnología de reconocimiento óptico de caracteres (OCR) puede ayudar a las empresas a resolver estos problemas. Los algoritmos de OCR pueden transformar documentos en papel en texto editable que permite realizar búsquedas.

También pueden extraer información de archivos e ingresarla en los campos correspondientes en los sistemas de TI de una empresa. Entonces, ¿cómo funciona OCR? ¿Cómo puede ayudar esta tecnología a alcanzar los objetivos comerciales? ¿Y debería ponerse en contacto con un proveedor de soluciones de inteligencia artificial para que le ayude a crear y configurar el software OCR?

¿Qué es el reconocimiento óptico de caracteres y cómo funciona?

definición de reconocimiento óptico de caracteres

El reconocimiento óptico de caracteres es una tecnología que convierte texto mecanografiado o escrito a mano e imágenes impresas que contienen texto en un formato de datos digitales legibles por máquina. Los algoritmos de OCR ayudan a convertir grandes cantidades de documentos en papel en archivos digitales, lo que facilita el almacenamiento, el procesamiento y la búsqueda de texto.

Los sistemas OCR consisten en hardware y software. La parte del hardware puede ser un escáner óptico o un dispositivo similar que pueda convertir documentos en papel a formato digital. La parte del software es el propio algoritmo OCR.

¿Cómo funciona OCR?

Es difícil para las computadoras reconocer los caracteres debido a las diferentes fuentes y variaciones en cómo se puede escribir una letra. Las cartas escritas a mano complican aún más las cosas. Sin embargo, los algoritmos de reconocimiento óptico de caracteres asumen este desafío. Cada solución de OCR opera en cuatro pasos principales:

Adquisición de imágen

El proceso implica el uso de un escáner óptico para capturar una copia digital del documento en papel. El documento debe estar correctamente alineado y dimensionado.

Preprocesamiento

El objetivo de esta fase es hacer que el algoritmo OCR pueda utilizar el archivo de entrada. El ruido y el fondo se eliminan. El preprocesamiento incluye los siguientes pasos:

  • Análisis de diseño: identificación de leyendas, columnas y gráficos como bloques
  • De-skew: inclinar el documento digital para que las líneas queden horizontales en caso de que no se haya alineado correctamente durante el escaneo
  • Refinamiento de la imagen: suavizar los bordes, eliminar las partículas de polvo, aumentar el contraste entre el texto y el fondo
  • Detección de texto: algunos algoritmos detectan palabras separadas y las dividen en letras mientras que otros trabajan directamente con el texto sin dividirlo en caracteres.
  • Binarización: convertir el documento escaneado a un formato en blanco y negro, donde las áreas oscuras representan caracteres (alfabéticos o numéricos) y las áreas blancas se identifican como fondo. Este paso ayuda a reconocer diferentes fuentes.

Durante esta fase, los algoritmos de reconocimiento óptico de caracteres realizan diferentes manipulaciones para reconocer letras y números. Hay dos enfoques principales:

  • Reconocimiento de patrones: los algoritmos de OCR se entrenan en una amplia variedad de fuentes, formatos de texto y estilos de escritura a mano para comparar distintos caracteres del archivo de entrada con lo que han aprendido.
  • Reconocimiento de características: algunos algoritmos se benefician de propiedades de caracteres conocidas, como líneas cruzadas y curvas, para identificar caracteres en archivos de entrada. Por ejemplo, una letra "H" se identifica como dos líneas verticales y una línea horizontal cruzada. Los algoritmos de OCR con tecnología de redes neuronales (NN) utilizan una lógica diferente en la que las primeras capas de NN agregan píxeles del archivo de entrada para crear un mapa de características de bajo nivel de la imagen.

Después de detectar los caracteres, el programa los convierte al Código Estándar Estadounidense para el Intercambio de Información (ASCII) para facilitar las manipulaciones posteriores.

Postprocesamiento

La salida puede ser básica como una cadena de caracteres o un archivo. Las soluciones de OCR más avanzadas pueden conservar la estructura de la página original y crear un archivo PDF con texto de búsqueda. Aunque hasta el momento no existen herramientas que garanticen una precisión del 100 % en diferentes archivos de entrada, algunos algoritmos de reconocimiento óptico de caracteres pueden lograr una precisión impresionante del 99,8 % en textos familiares. El uso de la escritura a mano comprometerá significativamente los resultados. Además, es importante comprender que con una capacitación deficiente o textos desconocidos, la tasa de error puede llegar al 20 %. Por lo tanto, es necesario que los usuarios supervisen, revisen y corrijan constantemente la salida de los algoritmos de OCR, especialmente cuando un nuevo tipo de documento ingresa a la canalización.

La fase de posprocesamiento también puede implicar el procesamiento del lenguaje natural (NLP) y otras técnicas de IA para la verificación de datos. La IA no solo puede corregir el texto, sino también detectar errores en los cálculos. Supongamos que al procesar una factura, un algoritmo OCR identificó la suma total en $500. AI puede verificar esto sumando todos los gastos y determinando que no suman $500. AI puede notificar a un empleado humano para que revise este caso en particular.

Si desea mejorar la calidad del algoritmo, puede experimentar con bibliotecas de OCR de código abierto, como Tesseract, que utilizan su propio diccionario para la segmentación de caracteres. Otro enfoque es crear un glosario especializado de términos recurrentes en su dominio. Además, los revisores pueden usar sus comentarios como entrada para otra sesión de entrenamiento del algoritmo de reconocimiento óptico de caracteres.

¿Cómo pueden los algoritmos de OCR beneficiar a su empresa?

Esto es lo que las soluciones de reconocimiento óptico de caracteres pueden hacer por usted:

  • Reduzca los costos: la conversión de archivos al formato digital y la automatización de la entrada de datos reducen los costos en términos de horas de los empleados
  • Aumentar la satisfacción del cliente: esta tecnología permitirá a las personas actualizar su información personal de forma remota mediante el escaneo de documentos de identificación en lugar de visitar físicamente un banco o cualquier otro establecimiento
  • Ofrezca opciones de copia de seguridad más económicas: no es necesario almacenar documentos en papel junto con sus duplicados y triplicados, lo que consume costosas unidades de almacenamiento físico
  • Facilitar la traducción entre diferentes idiomas: algunas herramientas de OCR tienen la capacidad de traducir documentos de un idioma a otro
  • Automatice los flujos de trabajo: buscar en archivos digitales con un buen sistema de gestión implementado es más rápido que tratar con documentos en papel. Se suspenderán menos procesos mientras se busca un archivo físico perdido. Si está interesado en una solución de automatización más completa, puede utilizar los servicios de automatización de procesos inteligentes que incluyen OCR y otras capacidades avanzadas.

Soluciones OCR disponibles en el mercado

Si está pensando en incorporar funciones de OCR en sus sistemas de TI, tiene varias opciones para elegir.

Algoritmos de reconocimiento de caracteres ópticos de código abierto

Hay varios algoritmos de OCR de código abierto que las empresas pueden adaptar a sus necesidades. Estas soluciones son más fáciles de personalizar ya que su código fuente es universalmente accesible. Sin embargo, no existe una autoridad central. Los desarrolladores de soluciones de código abierto no asumen ninguna responsabilidad y no ofrecen soporte adicional. Por lo tanto, la calidad del código puede ser cuestionable. Esta opción es más adecuada para empresas con departamentos de TI sólidos capaces de solucionar cualquier mal funcionamiento. Alternativamente, puede comunicarse con consultores de aprendizaje automático que pueden personalizar y volver a capacitar este software para usted.

Aquí hay algunas soluciones de OCR de código abierto de uso común:

teseracto

El motor de código abierto Tesseract es una de las herramientas OCR más populares y se cree que se encuentra entre las herramientas gratuitas más precisas. Fue desarrollado por Hewlett-Packard entre 1985 y 1994. A partir de 2006, esta plataforma fue administrada y desarrollada por Google. Tesseract está escrito en C++ pero ofrece contenedores en Java, Python, Swift, Ruby y R, y algunos lenguajes de programación más comunes.

La herramienta funciona mediante una línea de comandos y no tiene una interfaz gráfica de usuario. Sin embargo, hay varias opciones de GUI que puede implementar para que esta solución sea fácil de usar. Un ejemplo es glmageReader. Esta interfaz se desarrolla con Python y admite diferentes formatos de imagen, incluidos PNG, GIF y PNM.

Tesseract no ofrece análisis de diseño de página, no da formato a la salida y su interfaz de línea de comandos requiere que todas las imágenes se envíen en formato TIFF. Además, esta solución de OCR no está optimizada para GPU y no permite el procesamiento por lotes.

OCropus

OCRopus se escribió originalmente en Python y ahora tiene una versión C++ separada. Es compatible con Google y se utilizó como motor de OCR para el algoritmo Google ReCaptcha.

OCRopus tiene tres características principales:

  • Análisis de diseño físico: identifica bloques de texto, columnas y líneas y determina el orden de lectura. Por ejemplo, para detectar columnas, utiliza un algoritmo de rectángulo de espacio en blanco máximo para detectar espacios en blanco entre columnas.
  • Reconocimiento de línea: reconoce líneas dentro de cada bloque o columna, ya sean líneas verticales o de izquierda a derecha.
  • Modelado estadístico del lenguaje: utiliza diccionarios y gramática estocástica para resolver el problema de las letras faltantes y no identificadas.

EasyOCR

Jaided AI, una empresa de reconocimiento óptico de caracteres, creó el paquete EasyOCR utilizando la biblioteca Python y PyTorch con sus modelos de aprendizaje profundo. Admite más de 80 idiomas, incluidos alfabetos cirílicos, chino y árabe, y esta base sigue expandiéndose. Como parte de la hoja de ruta de implementación, hay planes para agregar opciones configurables para reconocer texto escrito a mano.

Soluciones comerciales de OCR

Las soluciones de software como servicio (SaaS) le permiten beneficiarse de algoritmos de alta calidad y recibir soporte completo del proveedor. Dependiendo de la plataforma seleccionada, es posible que pueda volver a entrenar el algoritmo OCR en su conjunto de datos e incluso adaptarlo aún más a sus necesidades únicas.

Amazon Textil

Amazon Textract es un servicio basado en aprendizaje automático que extrae texto impreso y escrito a mano de documentos escaneados. Puede trabajar con datos no estructurados y con texto formateado, como formularios y tablas. La solución utiliza IA y no necesita pasos de configuración ni plantillas adicionales. Este servicio es seguro y cumple con las normas de protección de datos, como HIPAA y GDPR. Amazon Textract ofrece cuatro API que los clientes pueden usar y pagar en consecuencia:

  • API de detección de texto de documento: extrae texto impreso no estructurado y escritura a mano de los escaneos. Cuesta $0.0015 por página para el primer millón de páginas; después, el precio baja.
  • Analizar documento API: trabaja con datos estructurados. Extrae texto de formularios y tablas. Los clientes pagarán $0,015 por página en el caso de procesamiento de tablas y $0,05 por página en el caso de formularios. El precio disminuye después del primer millón de páginas.
  • API de análisis de gastos: funciona con facturas. Este servicio tiene una taxonomía común de campos relacionados con recibos. Por ejemplo, puede reconocer el número de factura. Los usuarios pagarán $0.01 por página por el primer millón de páginas.
  • Analizar ID API: comprende el contexto de los documentos de identidad, como licencias de conducir y pasaportes, y puede extraer texto de campos específicos. Puedes beneficiarte de este servicio por $0.025 por las primeras 100,000 páginas.

Visión de la nube de Google

Google ofrece Vision API, que puede extraer texto impreso y escrito a mano de documentos e imágenes. Contiene dos características para el reconocimiento óptico de caracteres:

  • Text_detection: extrae texto de imágenes, como fotografías de señales de tráfico
  • Document_text_detection: captura textos en documentos e imágenes. Se diferencia de la función anterior en que su respuesta está optimizada para textos densos.

Ambas características permiten a los usuarios procesar las primeras 1000 unidades al mes de forma gratuita. Después de eso, pagará $1.5 por cada 1,000 unidades. Este precio disminuirá a medida que envíe más unidades por mes.

Visión por computadora de Microsoft Azure

Microsoft ofrece servicios de OCR como parte de su API genérica de visión por computadora, no como una característica independiente. Por lo tanto, paga por el paquete completo que, además del reconocimiento óptico de caracteres, incluye identificación de celebridades, puntos de referencia, marcas y detección general de objetos. Esta API le costará $ 1 por cada 1000 transacciones para el primer millón de unidades. Posteriormente, el precio se reduce a $0,65 por cada 1000 transacciones y seguirá bajando a medida que envíe más contenido.

Principales casos de uso de OCR en diferentes industrias

Los algoritmos de reconocimiento óptico de caracteres están ganando terreno en diferentes industrias. A continuación se muestran algunas de las aplicaciones de OCR más destacadas.

OCR en la banca

Las instituciones bancarias utilizan muchos documentos en papel en sus flujos de trabajo. Estos incluyen cheques, registros de clientes, solicitudes de préstamos, extractos bancarios, etc. La adopción de algoritmos de reconocimiento OCR permite a los empleados almacenar y acceder a todos estos documentos digitalmente y evita la pérdida y el daño del papeleo.

Manejo de cheques

Un ejemplo de OCR en este sector es el uso de aplicaciones bancarias para depositar cheques en papel digitalmente. Estas soluciones implementan algoritmos de reconocimiento óptico de caracteres para identificar campos relevantes en los cheques y realizar operaciones en consecuencia sin la necesidad de que un empleado transfiera todos estos datos manualmente. Además, dichas aplicaciones pueden realizar la validación de firmas en la base de datos existente y borrar el cheque de inmediato.

Incorporación de clientes

En lugar de que un empleado verifique las identidades de los clientes manualmente, las soluciones impulsadas por OCR pueden extraer y validar toda la información relevante del pasaporte de la persona y otros documentos de identificación. Esto permite una verificación instantánea y mejora la experiencia del cliente.

Actualización de la información del cliente

En lugar de tener que visitar o llamar a un banco, con la ayuda de OCR, los clientes pueden escanear sus documentos para actualizar la información automáticamente. Por ejemplo, Alfa-Bank colaboró ​​con Smart Engines para mejorar su aplicación bancaria con capacidades de reconocimiento óptico de caracteres. Con esta nueva función, los clientes pueden colocar documentos de identificación frente a las cámaras de sus teléfonos inteligentes, confirmar los datos extraídos y actualizar su información en el sistema bancario.

OCR en el cuidado de la salud

Al igual que en el sector bancario, las organizaciones de atención médica acumulan muchos documentos en papel, como radiografías, resultados de pruebas, planes de tratamiento, etc. Los algoritmos de OCR ayudan a digitalizar estos archivos para evitar la pérdida de documentos físicos y reducir los esfuerzos desperdiciados en el manejo manual de archivos en papel. Además, algunas soluciones de OCR que reconocen texto escrito a mano pueden procesar recetas y documentos de inscripción de pacientes.

Sistema de reclamaciones médicas

Hay proveedores de software que se especializan en el procesamiento de reclamos médicos con OCR. Una de esas empresas es OCR Solutions. Desarrolló un producto que puede escanear, verificar y enrutar correctamente las reclamaciones médicas para su posterior manejo. Este programa está capacitado y configurado para trabajar con formatos comunes, como formularios de reclamos dentales y CMS-1500, entre otros.

Fax

Muchas instalaciones médicas aún dependen del fax. Las soluciones de reconocimiento óptico de caracteres pueden convertir el material entrante en un formato almacenado digitalmente accesible.

Facturación

Las soluciones basadas en OCR ayudan a las organizaciones de atención médica a digitalizar facturas y archivarlas correctamente. Un ejemplo de OCR proviene de Nanonets, con sede en San Francisco, que ofrece una solución impulsada por OCR que se especializa en el procesamiento de facturas. La empresa afirma que su software reducirá el tiempo de entrada de datos de facturas de tres minutos por factura a solo 30 segundos.

OCR en el comercio minorista

Los algoritmos de reconocimiento óptico de caracteres permiten a los empleados minoristas ahorrar tiempo en el procesamiento de órdenes de compra, facturas, listas de empaque y otros documentos. Estas soluciones también pueden extraer números de serie de los códigos de barras de los productos y permitir a los clientes escanear sus vales y extraer códigos de serie.

escaneo de identificación

Los empleados de la tienda pueden necesitar escanear información personal por muchas razones, como verificación de edad, completar información para la lealtad del cliente y más. Los proveedores de OCR aprovechan esta oportunidad.

Por ejemplo, OCR Solutions, con sede en Florida, desarrolló idMax, un software impulsado por OCR que puede escanear documentos de identificación, extraer campos relevantes y llenar la base de datos del minorista con la información correspondiente. idMax se puede instalar localmente o acceder a través de la nube.

Desafíos de adoptar una solución OCR en su negocio

Si decidió implementar algoritmos de reconocimiento OCR para mejorar sus operaciones, hay varios aspectos que debe considerar:

Material de entrada: asegúrese de que todos los archivos de entrada sean adecuados para el algoritmo OCR. Por ejemplo, los archivos deben estar libres de daños que puedan interferir con la capacidad del algoritmo para reconocer su contenido. El contraste es lo suficientemente alto, las páginas están correctamente alineadas, etc. Algunos algoritmos tienen poderosas capacidades de preprocesamiento y pueden resolver algunos de estos problemas por usted. Pero si este no es el caso, tal vez sea una buena idea invertir en un escáner de alta calidad y garantizar una alineación de página adecuada.

Conjunto de datos de entrenamiento: si decide entrenar o volver a entrenar algoritmos de reconocimiento óptico de caracteres, debe asegurarse de que los datos que planea usar representen fielmente su material de entrada y contengan suficientes anotaciones correctas. Si su conjunto de datos de entrenamiento es demasiado pequeño o no contiene las anotaciones adecuadas, el algoritmo no producirá los resultados deseados. Además, durante el entrenamiento, debe prestar especial atención a caracteres/símbolos similares. Por ejemplo, los números 2 y 7 pueden parecer bastante similares, especialmente si se espera que el algoritmo funcione con texto escrito a mano. Los científicos de datos deben cubrir tales distinciones en los datos de entrenamiento. Otro ejemplo puede ser el uso de algoritmos OCR para detectar y capturar matrículas en automóviles. Debe asegurarse de que su algoritmo no busque una calcomanía personalizada con texto en la parte trasera de un automóvil que lo confunda con una placa.

Texto escrito a mano: con la escritura a mano surgen numerosos desafíos adicionales de OCR. Hay una gran variedad de estilos de escritura entre diferentes personas, incluso la escritura de un usuario individual puede ser inconsistente. Recopilar un conjunto de datos de entrenamiento representativo confiable es un desafío, ya que debe tener en cuenta todos los diferentes estilos. La escritura cursiva es particularmente difícil de procesar. Además, mientras que el texto impreso viene en línea recta, la escritura a mano tiende a tener rotaciones variables, lo que complica aún más las cosas.

Escalado: si aumenta la cantidad de usuarios o la cantidad de solicitudes por intervalo de tiempo, el sistema puede colapsar, especialmente si está utilizando una solución de código abierto y confiando en su propia potencia informática. En el caso de productos comerciales de OCR que se ejecutan en la nube, puede solicitar y pagar más capacidad.

Supervisión del rendimiento del algoritmo OCR: después de la implementación, el rendimiento del algoritmo puede comenzar a degradarse debido a diferentes factores. Un ejemplo es el cambio en la distribución entre los datos de entrenamiento y los datos de producción reales. Esto ocurre cuando el modelo comienza a trabajar en conjuntos de datos para los que no estaba preparado, como diferentes fuentes o caracteres con inclinaciones inusuales. Estos cambios afectarán la salida del modelo con el tiempo, y debe detectar estos problemas y volver a entrenar el modelo en consecuencia para mantener su nivel de precisión inicial.

Para resumir

Los algoritmos de reconocimiento óptico de caracteres tienen el potencial de acelerar sus procesos comerciales. Sin embargo, hay desafíos asociados a considerar. Es probable que el algoritmo seleccionado necesite volver a entrenarse, y es una tarea tediosa anotar correctamente un conjunto de datos grande. También debe pensar en la escalabilidad potencial a medida que su negocio se expande.

Adoptar una solución de código abierto parece tentador en cuanto al precio, pero tiene sus desventajas, como la falta de soporte y actualizaciones, que pueden abrir brechas de seguridad. Las soluciones comerciales son más confiables en este sentido, pero pueden ser costosas y difíciles de personalizar.

Si no está seguro de cómo proceder y qué solución de OCR es la más adecuada para su negocio, no dude en comunicarse. En ITRex, estaremos encantados de realizar una evaluación exhaustiva de las necesidades de su negocio para determinar la mejor opción de OCR. También podemos ayudarlo a volver a entrenar la solución seleccionada e integrarla en su sistema. También podemos crear un algoritmo de OCR personalizado, si es necesario.

¿Quiere agilizar sus operaciones con el reconocimiento óptico de caracteres? ¡Escriba unas líneas a ITRex! Sus expertos en IA lo ayudarán con la integración y capacitación de la solución OCR. También pueden desarrollar algoritmos personalizados para usted, si es necesario.


Publicado originalmente en https://itrexgroup.com el 6 de abril de 2022.