Como os algoritmos de reconhecimento óptico de caracteres redefinem os processos de negócios?

Publicados: 2022-04-14

Inserir dados e movê-los de um lugar para outro é uma tarefa demorada e repetitiva. Um funcionário pode facilmente passar até três horas por dia apenas movendo dados. Além de consumir o tempo dos trabalhadores, o manuseio manual de dados está sujeito a erros, que levam a perdas de receita.

Um relatório da Dun & Bradstreet, investigando o passado e o futuro dos dados, revelou que uma em cada cinco empresas perde dinheiro devido a dados incompletos. A tecnologia de reconhecimento óptico de caracteres (OCR) pode ajudar as empresas a resolver esses problemas. Os algoritmos de OCR podem transformar documentos em papel em texto pesquisável editável.

Eles também podem extrair informações de arquivos e inseri-las nos campos correspondentes nos sistemas de TI de uma empresa. Então, como funciona o OCR? Como essa tecnologia pode ajudá-lo a atingir as metas de negócios? E você deve entrar em contato com um provedor de soluções de inteligência artificial para ajudá-lo a criar e configurar o software OCR?

O que é reconhecimento óptico de caracteres e como funciona?

Definição de OCR

O reconhecimento óptico de caracteres é uma tecnologia que converte texto digitado ou manuscrito e imagens impressas contendo texto em um formato de dados digital legível por máquina. Os algoritmos de OCR ajudam a transformar grandes quantidades de documentos em papel em arquivos digitais, facilitando o armazenamento, processamento e pesquisa de texto.

Os sistemas OCR consistem em hardware e software. A parte de hardware pode ser um scanner óptico ou um dispositivo semelhante que pode converter documentos em papel para o formato digital. A parte do software é o próprio algoritmo OCR.

Como funciona o OCR?

É difícil para os computadores reconhecerem caracteres por causa das diferentes fontes e variações de como uma letra pode ser escrita. As cartas manuscritas complicam ainda mais as coisas. No entanto, os algoritmos de reconhecimento óptico de caracteres assumem esse desafio. Cada solução de OCR opera em quatro etapas principais:

Aquisição de imagem

O processo envolve o uso de um scanner óptico para capturar uma cópia digital do documento em papel. O documento deve estar devidamente alinhado e dimensionado.

Pré-processando

O objetivo desta fase é tornar o arquivo de entrada utilizável pelo algoritmo OCR. O ruído e o fundo são eliminados. O pré-processamento inclui as seguintes etapas:

Análise de layout: identificando legendas, colunas e gráficos como blocos
De-skew: inclinando o documento digital para tornar as linhas horizontais, caso ele não tenha sido alinhado corretamente durante a digitalização
Refinamento da imagem: suavizando as bordas, removendo partículas de poeira, aumentando o contraste entre o texto e o plano de fundo
Detecção de texto: alguns algoritmos detectam palavras separadas e as dividem em letras, enquanto outros trabalham diretamente com o texto sem dividi-lo em caracteres.
Binarização: conversão do documento digitalizado em um formato preto e branco, onde as áreas escuras representam caracteres (alfabéticos ou numéricos) e as áreas brancas são identificadas como plano de fundo. Esta etapa ajuda a reconhecer diferentes fontes.

Durante esta fase, os algoritmos de reconhecimento óptico de caracteres realizam diferentes manipulações para reconhecer letras e números. Existem duas abordagens principais:

Reconhecimento de padrões: os algoritmos de OCR são treinados em uma ampla variedade de fontes, formatos de texto e estilos de caligrafia para comparar caracteres distintos do arquivo de entrada com o que eles aprenderam.
Reconhecimento de recursos: alguns algoritmos se beneficiam de propriedades de caracteres conhecidas, como linhas cruzadas e curvas, para identificar caracteres em arquivos de entrada. Por exemplo, uma letra “H” é identificada como duas linhas verticais e uma linha horizontal cruzada. Os algoritmos de OCR alimentados por redes neurais (NN) usam uma lógica diferente em que as primeiras camadas NN agregam pixels do arquivo de entrada para criar um mapa de recursos de baixo nível da imagem.

Depois de detectar os caracteres, o programa os converte em American Standard Code for Information Exchange (ASCII) para facilitar as manipulações posteriores.

Pós-processamento

A saída pode ser básica como uma cadeia de caracteres ou um arquivo. Soluções de OCR mais avançadas podem manter a estrutura da página original e criar um arquivo PDF com texto pesquisável. Embora não existam ferramentas até agora que garantam 100% de precisão em diferentes arquivos de entrada, alguns algoritmos de reconhecimento óptico de caracteres podem atingir uma precisão impressionante de 99,8% em textos familiares. O uso de caligrafia comprometerá significativamente os resultados. Além disso, é importante entender que, com treinamento ruim ou textos desconhecidos, a taxa de erro pode chegar a 20%. Portanto, é necessário que os usuários monitorem, revisem e corrijam constantemente a saída dos algoritmos de OCR, especialmente quando um novo tipo de documento entra no pipeline.

A fase de pós-processamento também pode envolver processamento de linguagem natural (NLP) e outras técnicas de IA para verificação de dados. A IA pode não apenas corrigir o texto, mas também detectar erros nos cálculos. Vamos supor que durante o processamento de uma fatura, um algoritmo de OCR identificou a soma total como $ 500. A IA pode verificar isso adicionando todas as despesas e descobrindo que elas não chegam a US$ 500. A IA pode notificar um funcionário humano para revisar esse caso específico.

Se você deseja melhorar a qualidade do algoritmo, pode experimentar bibliotecas OCR de código aberto, como Tesseract, que usam seu próprio dicionário para segmentação de caracteres. Outra abordagem é criar um glossário especializado de termos recorrentes em seu domínio. Além disso, os revisores podem usar seus comentários como uma entrada para outra sessão de treinamento de algoritmo de reconhecimento óptico de caracteres.

Como os algoritmos de OCR podem beneficiar seu negócio?

Aqui está o que as soluções de reconhecimento óptico de caracteres podem fazer por você:

Reduza os custos: converter arquivos para o formato digital e automatizar a entrada de dados reduz os custos em termos de horas de trabalho
Aumentar a satisfação do cliente: esta tecnologia permitirá que as pessoas atualizem suas informações pessoais remotamente, digitalizando documentos de identificação, em vez de visitar fisicamente um banco ou qualquer outro estabelecimento
Ofereça opções de backup mais baratas: não há necessidade de armazenar documentos em papel junto com suas duplicatas e triplicadas, o que consome unidades de armazenamento físico caras
Facilitar a tradução entre diferentes idiomas: algumas ferramentas de OCR têm a capacidade de traduzir documentos de um idioma para outro
Automatize os fluxos de trabalho: pesquisar em arquivos digitais com um bom sistema de gerenciamento é mais rápido do que lidar com documentos em papel. Menos processos serão colocados em espera enquanto procuram um arquivo físico perdido. Se você estiver interessado em uma solução de automação mais abrangente, poderá utilizar serviços inteligentes de automação de processos que incluem OCR e outros recursos avançados.

Soluções de OCR disponíveis no mercado

Se você está pensando em incorporar recursos de OCR em seus sistemas de TI, você tem várias opções para escolher.

Algoritmos de reconhecimento óptico de caracteres de código aberto

Existem vários algoritmos de OCR de código aberto que as empresas podem adaptar às suas necessidades. Essas soluções são mais fáceis de personalizar, pois seu código-fonte é universalmente acessível. No entanto, não existe uma autoridade central. Os desenvolvedores de soluções de código aberto não assumem responsabilidade e não oferecem suporte adicional. Portanto, a qualidade do código pode ser questionável. Esta opção é mais adequada para empresas com departamentos de TI fortes e capazes de corrigir qualquer mau funcionamento. Como alternativa, você pode entrar em contato com consultores de aprendizado de máquina que podem personalizar e treinar novamente esse software para você.

Aqui estão algumas soluções de OCR de código aberto comumente usadas:

Tesseract

O mecanismo de código aberto Tesseract é uma das ferramentas de OCR mais populares e acredita-se que esteja entre as ferramentas gratuitas mais precisas. Foi desenvolvido pela Hewlett-Packard entre 1985 e 1994. A partir de 2006, esta plataforma foi gerenciada e desenvolvida pelo Google. O Tesseract é escrito em C++, mas oferece wrappers em Java, Python, Swift, Ruby e R e algumas linguagens de programação mais comuns.

A ferramenta opera usando uma linha de comando e não possui uma interface gráfica de usuário. No entanto, existem várias opções de GUI que você pode implantar para tornar essa solução amigável. Um exemplo é glmageReader. Essa interface é desenvolvida usando Python e suporta diferentes formatos de imagem, incluindo PNG, GIF e PNM.

O Tesseract não oferece análise de layout de página, não formata a saída e sua interface de linha de comando exige que todas as imagens sejam enviadas no formato TIFF. Além disso, esta solução de OCR não é otimizada para GPU e não permite processamento em lote.

OCRopus

O OCRopus foi originalmente escrito em Python e agora tem uma versão C++ separada. É suportado pelo Google e foi usado como um mecanismo de OCR para o algoritmo Google ReCaptcha.

O OCRopus tem três características principais:

Análise de layout físico: identifica blocos de texto, colunas e linhas e determina a ordem de leitura. Por exemplo, para detectar colunas, ele usa um algoritmo de retângulo de espaço em branco máximo para detectar espaços em branco entre as colunas.
Reconhecimento de linha: reconhece linhas dentro de cada bloco ou coluna, sejam elas linhas verticais ou da esquerda para a direita.
Modelagem estatística de linguagem: usa dicionários e gramática estocástica para resolver o problema de letras ausentes e não identificadas.

EasyOCR

A Jaided AI, uma empresa de reconhecimento óptico de caracteres, criou o pacote EasyOCR usando a biblioteca Python e PyTorch com seus modelos de aprendizado profundo. Ele suporta mais de 80 idiomas, incluindo scripts cirílicos, chinês e árabe, e essa base continua se expandindo. Como parte do roteiro de implementação, há planos para adicionar opções configuráveis para reconhecer texto manuscrito.

Soluções comerciais de OCR

As soluções de software como serviço (SaaS) permitem que você se beneficie de algoritmos de alta qualidade e receba suporte total do fornecedor. Dependendo da plataforma selecionada, você poderá treinar novamente o algoritmo OCR em seu conjunto de dados e adaptá-lo ainda mais às suas necessidades exclusivas.

Amazon Textract

O Amazon Textract é um serviço baseado em machine learning que extrai texto impresso e manuscrito de documentos digitalizados. Ele pode trabalhar com dados não estruturados e com texto formatado, como formulários e tabelas. A solução usa IA e não precisa de nenhuma etapa ou modelo de configuração extra. Este serviço é seguro e está em conformidade com os regulamentos de proteção de dados, como HIPAA e GDPR. O Amazon Textract oferece quatro APIs que os clientes podem usar e pagar de acordo:

API de detecção de texto de documento: extrai texto impresso não estruturado e manuscrito de digitalizações. Custa $ 0,0015 por página para o primeiro milhão de páginas; depois, o preço diminui.
API de análise de documentos: trabalha com dados estruturados. Extrai texto de formulários e tabelas. Os clientes pagarão $ 0,015 por página no processamento de tabelas e $ 0,05 por página no caso de formulários. O preço diminui após o primeiro milhão de páginas.
API de análise de despesas: funciona com faturas. Este serviço tem uma taxonomia comum de campos relacionados a recibos. Por exemplo, ele pode reconhecer o número da fatura. Os usuários pagarão US$ 0,01 por página pelo primeiro milhão de páginas.
API Analyze ID: entende o contexto de documentos de identidade, como carteiras de motorista e passaportes, e pode extrair texto de campos específicos. Você pode se beneficiar deste serviço por US$ 0,025 para as primeiras 100.000 páginas.

Visão do Google Cloud

O Google oferece a API Vision, que pode extrair texto impresso e manuscrito de documentos e imagens. Ele contém dois recursos para reconhecimento óptico de caracteres:

Text_detection: extrai texto de imagens, como fotografias de sinais de trânsito
Document_text_detection: captura textos em documentos e imagens. Ele difere do recurso anterior, pois sua resposta é otimizada para textos densos.

Ambos os recursos permitem que os usuários processem as primeiras 1.000 unidades por mês gratuitamente. Depois disso, você pagará $ 1,5 por cada 1.000 unidades. Esse preço diminuirá à medida que você enviar mais unidades por mês.

Visão Computacional do Microsoft Azure

A Microsoft oferece serviços de OCR como parte de sua API genérica de visão computacional, não como um recurso autônomo. Assim, você paga pelo pacote completo, que, além do reconhecimento óptico de caracteres, inclui identificação de celebridades, pontos turísticos, marcas e detecção geral de objetos. Essa API custará US$ 1 por 1.000 transações para o primeiro milhão de unidades. Depois, o preço diminui para US$ 0,65 por 1.000 transações e continuará diminuindo à medida que você envia mais conteúdo.

Principais casos de uso de OCR em diferentes setores

Algoritmos de reconhecimento óptico de caracteres estão ganhando força em diferentes indústrias. Abaixo estão alguns dos aplicativos de OCR mais proeminentes.

OCR na banca

As instituições bancárias usam muitos documentos em papel em seus fluxos de trabalho. Isso inclui cheques, registros de clientes, pedidos de empréstimo, extratos bancários, etc. A adoção de algoritmos de reconhecimento de OCR permite que os funcionários armazenem e acessem todos esses documentos digitalmente e evita perda e danos de papelada.

Verifique o manuseio

Um exemplo de OCR nesse setor é o uso de aplicativos bancários para depositar digitalmente cheques em papel. Essas soluções implementam algoritmos de reconhecimento óptico de caracteres para identificar campos relevantes em cheques e realizar operações de acordo sem a necessidade de um funcionário transferir todos esses dados manualmente. Além disso, esses aplicativos podem realizar a validação de assinatura no banco de dados existente e limpar a verificação imediatamente.

Integração do cliente

Em vez de um funcionário verificar manualmente as identidades dos clientes, as soluções baseadas em OCR podem extrair e validar todas as informações relevantes do passaporte da pessoa e de outros documentos de identificação. Isso permite a verificação instantânea e melhora a experiência do cliente.

Atualização de informações do cliente

Em vez de ter que visitar ou ligar para um banco, com a ajuda do OCR, os clientes podem digitalizar seus documentos para atualizar as informações automaticamente. Por exemplo, o Alfa-Bank colaborou com a Smart Engines para aprimorar seu aplicativo bancário com recursos de reconhecimento óptico de caracteres. Com esse novo recurso, os clientes podem colocar documentos de identificação na frente das câmeras de seus smartphones, confirmar os dados extraídos e atualizar suas informações no sistema bancário.

OCR na área da saúde

Semelhante ao setor bancário, as organizações de saúde acumulam muitos documentos em papel, como exames de raios X, resultados de exames, planos de tratamento e assim por diante. Os algoritmos de OCR ajudam a digitalizar esses arquivos para evitar a perda de documentos físicos e reduzir os esforços desperdiçados no manuseio manual de arquivos em papel. Além disso, algumas soluções de OCR que reconhecem texto manuscrito podem processar documentos e prescrições de inscrição de pacientes.

Sistema de reclamações médicas

Existem fornecedores de software que se especializam no processamento de pedidos médicos habilitados para OCR. Uma dessas empresas é a OCR Solutions. Ela desenvolveu um produto que pode escanear, verificar e encaminhar corretamente as alegações médicas para manuseio posterior. Este programa é treinado e configurado para trabalhar com formatos comuns, como Formulários de Reclamação Odontológica e CMS-1500, entre outros.

Fax

Muitas instalações médicas ainda dependem de fax. As soluções de reconhecimento óptico de caracteres podem converter o material recebido em um formato acessível armazenado digitalmente.

Faturamento

As soluções baseadas em OCR ajudam as organizações de saúde a digitalizar faturas e arquivá-las corretamente. Um exemplo de OCR vem da Nanonets, com sede em São Francisco, que oferece uma solução baseada em OCR especializada no processamento de faturas. A empresa afirma que seu software reduzirá o tempo de entrada de dados de fatura de três minutos por fatura para apenas 30 segundos.

OCR no varejo

Os algoritmos de reconhecimento óptico de caracteres permitem que os funcionários do varejo economizem tempo no processamento de pedidos de compra, faturas, listas de embalagem e outros documentos. Essas soluções também podem extrair números de série dos códigos de barras dos produtos e permitir que os clientes digitalizem seus vouchers e extraiam códigos de série.

Verificação de identidade

Os funcionários da loja podem precisar digitalizar informações pessoais por vários motivos, como verificação de idade, preenchimento de informações para fidelização de clientes e muito mais. Os fornecedores de OCR capitalizam essa oportunidade.

Por exemplo, a OCR Solutions, com sede na Flórida, desenvolveu o idMax, um software baseado em OCR que pode digitalizar documentos de identificação, extrair campos relevantes e preencher o banco de dados do varejista com informações correspondentes. O idMax pode ser instalado localmente ou acessado através da nuvem.

Desafios de adotar uma solução de OCR em seu negócio

Se você decidiu implantar algoritmos de reconhecimento de OCR para melhorar suas operações, há vários aspectos que você precisa considerar:

Material de entrada: certifique-se de que todos os arquivos de entrada sejam adequados para o algoritmo OCR. Por exemplo, os arquivos precisam estar livres de danos que possam interferir na capacidade do algoritmo de reconhecer seu conteúdo. O contraste é alto o suficiente, as páginas estão alinhadas corretamente, etc. Alguns algoritmos têm recursos poderosos de pré-processamento e podem resolver alguns desses problemas para você. Mas se esse não for o caso, talvez seja uma boa ideia investir em um scanner de alta qualidade e garantir o alinhamento adequado da página.

Conjunto de dados de treinamento: se você decidir treinar ou retreinar algoritmos de reconhecimento óptico de caracteres, precisará garantir que os dados que planeja usar representem fielmente seu material de entrada e contenham anotações corretas suficientes. Se seu conjunto de dados de treinamento for muito pequeno ou não contiver anotações adequadas, o algoritmo não produzirá os resultados desejados. Além disso, durante o treinamento, você precisa prestar atenção especial a caracteres/símbolos semelhantes. Por exemplo, os números 2 e 7 podem parecer bastante semelhantes, especialmente se espera-se que o algoritmo funcione com texto manuscrito. Os cientistas de dados precisam cobrir essas distinções nos dados de treinamento. Outro exemplo pode ser o uso de algoritmos de OCR para detectar e capturar placas de carros. Você precisa ter certeza de que seu algoritmo não vai para um adesivo personalizado com texto na parte de trás de um carro confundindo-o com uma placa de licença.

Texto manuscrito: com a caligrafia vêm vários desafios adicionais de OCR. Existe uma grande variedade de estilos de escrita entre pessoas diferentes, até mesmo a escrita de um usuário individual pode ser inconsistente. Reunir um conjunto de dados de treinamento representativo confiável é um desafio, pois você precisa levar em conta todos os diferentes estilos. A caligrafia cursiva é particularmente difícil de processar. Além disso, enquanto o texto impresso vem em linha reta, a caligrafia tende a ter rotações variáveis, o que complica ainda mais as coisas.

Escala: se você aumentar o número de usuários ou o número de solicitações por intervalo de tempo, o sistema pode entrar em colapso, especialmente se você estiver usando uma solução de código aberto e contando com seu próprio poder de computação. No caso de produtos OCR comerciais executados na nuvem, você pode organizar e pagar por mais capacidade.

Monitoramento de desempenho do algoritmo OCR: após a implantação, o desempenho do algoritmo pode começar a se degradar devido a diferentes fatores. Um exemplo é a mudança na distribuição entre os dados de treinamento e os dados de produção reais. Isso ocorre quando o modelo começa a trabalhar em conjuntos de dados para os quais não foi preparado, como fontes ou caracteres diferentes com inclinações incomuns. Essas alterações afetarão a saída do modelo ao longo do tempo, e você precisa detectar esses problemas e treinar novamente o modelo de acordo para manter seu nível de precisão inicial.

Resumindo

Os algoritmos de reconhecimento óptico de caracteres têm o potencial de acelerar seus processos de negócios. No entanto, há desafios associados a serem considerados. É provável que o algoritmo selecionado precise de retreinamento e é uma tarefa tediosa anotar adequadamente um grande conjunto de dados. Você também precisa pensar no dimensionamento potencial à medida que sua empresa se expande.

Adotar uma solução de código aberto parece tentador em termos de preço, mas vem com suas desvantagens, como falta de suporte e atualizações, que podem abrir brechas de segurança. As soluções comerciais são mais confiáveis a esse respeito, mas podem ser caras e difíceis de personalizar.

Se você não tiver certeza de como proceder e qual solução de OCR é a mais adequada para o seu negócio, não hesite em entrar em contato. Na ITRex, teremos prazer em realizar uma avaliação completa das necessidades do seu negócio para determinar a melhor opção de OCR. Também podemos ajudá-lo a treinar novamente a solução selecionada e integrá-la ao seu sistema. Também podemos construir um algoritmo de OCR personalizado, se necessário.

Deseja acelerar suas operações com reconhecimento óptico de caracteres? Solte ITRex uma linha! Seus especialistas em IA irão ajudá-lo com a integração e o treinamento da solução OCR. Eles também podem desenvolver algoritmos personalizados para você, se necessário.

Originalmente publicado em https://itrexgroup.com em 6 de abril de 2022.