Comment les algorithmes de reconnaissance optique de caractères redéfinissent les processus métier ?

Publié: 2022-04-14

Saisir des données et les déplacer d'un endroit à un autre est une tâche chronophage et répétitive. Un employé peut facilement passer jusqu'à trois heures par jour à déplacer des données. En plus de faire perdre du temps aux employés, le traitement manuel des données est sujet aux erreurs, ce qui entraîne des pertes de revenus.

Un rapport de Dun & Bradstreet, enquêtant sur le passé et l'avenir des données, a révélé qu'une entreprise sur cinq perd de l'argent en raison de données incomplètes. La technologie de reconnaissance optique de caractères (OCR) peut aider les entreprises à résoudre ces problèmes. Les algorithmes OCR peuvent transformer des documents papier en texte consultable modifiable.

Ils peuvent également extraire des informations de fichiers et les saisir dans les champs correspondants des systèmes informatiques d'une entreprise. Alors, comment fonctionne l'OCR ? Comment cette technologie peut-elle vous aider à atteindre vos objectifs commerciaux ? Et devriez-vous contacter un fournisseur de solutions d'intelligence artificielle pour vous aider à créer et à configurer un logiciel OCR ?

Qu'est-ce que la reconnaissance optique de caractères et comment fonctionne-t-elle ?

Définition ROC

La reconnaissance optique des caractères est une technologie qui convertit le texte dactylographié ou manuscrit et les images imprimées contenant du texte en un format de données numériques lisible par machine. Les algorithmes OCR permettent de transformer de grandes quantités de documents papier en fichiers numériques, facilitant ainsi le stockage, le traitement et la recherche de texte.

Les systèmes OCR se composent de matériel et de logiciels. La partie matérielle peut être un scanner optique ou un appareil similaire capable de convertir des documents papier au format numérique. La partie logicielle est l'algorithme OCR lui-même.

Comment fonctionne l'OCR ?

Il est difficile pour les ordinateurs de reconnaître les caractères en raison des différentes polices et des variations sur la façon dont une lettre peut être écrite. Les lettres manuscrites compliquent encore plus les choses. Néanmoins, les algorithmes de reconnaissance optique de caractères relèvent ce défi. Chaque solution OCR fonctionne en quatre étapes principales :

Acquisition d'image

Le processus consiste à utiliser un scanner optique pour capturer une copie numérique du document papier. Le document doit être correctement aligné et dimensionné.

Pré-traitement

Le but de cette phase est de rendre le fichier d'entrée utilisable par l'algorithme OCR. Le bruit et le fond sont éliminés. Le prétraitement comprend les étapes suivantes :

Analyse de la mise en page : identification des légendes, des colonnes et des graphiques en tant que blocs
Redressement : inclinaison du document numérique pour rendre les lignes horizontales au cas où il n'aurait pas été correctement aligné lors de la numérisation
Affinage de l' image : lissage des bords, suppression des particules de poussière, augmentation du contraste entre le texte et l'arrière-plan
Détection de texte : certains algorithmes détectent des mots séparés et les divisent en lettres tandis que d'autres travaillent directement avec le texte sans le diviser en caractères.
Binarisation : conversion du document numérisé en un format noir et blanc, où les zones sombres représentent les caractères (alphabétiques ou numériques) et les zones blanches sont identifiées comme arrière-plan. Cette étape permet de reconnaître différentes polices.

Durant cette phase, les algorithmes de reconnaissance optique de caractères effectuent différentes manipulations pour reconnaître les lettres et les chiffres. Il existe deux approches principales :

Reconnaissance de formes : les algorithmes OCR sont formés sur une grande variété de polices, de formats de texte et de styles d'écriture manuscrite pour comparer les caractères distincts du fichier d'entrée à ce qu'ils ont appris.
Reconnaissance des caractéristiques : certains algorithmes bénéficient de propriétés de caractères connues, telles que les lignes croisées et courbes, pour identifier les caractères dans les fichiers d'entrée. Par exemple, une lettre "H" est identifiée comme deux lignes verticales et une ligne horizontale transversale. Les algorithmes OCR alimentés par des réseaux de neurones (NN) utilisent une logique différente dans laquelle les premières couches NN agrègent les pixels du fichier d'entrée pour créer une carte de caractéristiques de bas niveau de l'image.

Après avoir détecté les caractères, le programme les convertit en American Standard Code for Information Exchange (ASCII) pour faciliter les manipulations ultérieures.

Post-traitement

La sortie peut être basique comme une chaîne de caractères ou un fichier. Des solutions OCR plus avancées peuvent conserver la structure de page d'origine et créer un fichier PDF avec du texte interrogeable. Même s'il n'existe jusqu'à présent aucun outil garantissant une précision à 100 % sur différents fichiers d'entrée, certains algorithmes de reconnaissance optique de caractères peuvent atteindre une précision impressionnante de 99,8 % sur des textes familiers. L'écriture manuscrite compromettra considérablement les résultats. De plus, il est important de comprendre qu'avec une mauvaise formation ou des textes inconnus, le taux d'erreur peut atteindre 20 %. Par conséquent, il est nécessaire que les utilisateurs surveillent, relisent et corrigent en permanence la sortie des algorithmes OCR, en particulier lorsqu'un nouveau type de document entre dans le pipeline.

La phase de post-traitement peut également impliquer le traitement du langage naturel (TAL) et d'autres techniques d'IA pour la vérification des données. L'IA peut non seulement corriger le texte, mais aussi détecter les erreurs de calcul. Supposons que lors du traitement d'une facture, un algorithme OCR a identifié la somme totale comme étant de 500 $. L'IA peut le vérifier en additionnant toutes les dépenses et en découvrant qu'elles ne s'élèvent pas à 500 $. L'IA peut demander à un employé humain d'examiner ce cas particulier.

Si vous souhaitez améliorer la qualité de l'algorithme, vous pouvez expérimenter des bibliothèques OCR open source, telles que Tesseract, qui utilisent leur propre dictionnaire pour la segmentation des caractères. Une autre approche consiste à créer un glossaire spécialisé des termes récurrents dans votre domaine. De plus, les réviseurs peuvent utiliser leurs commentaires comme entrée pour une autre session de formation sur l'algorithme de reconnaissance optique de caractères.

Comment les algorithmes OCR peuvent-ils profiter à votre entreprise ?

Voici ce que les solutions de reconnaissance optique de caractères peuvent faire pour vous :

Réduisez les coûts : la conversion des fichiers au format numérique et l'automatisation de la saisie des données réduisent les coûts en termes d'heures de travail
Augmenter la satisfaction des clients : cette technologie permettra aux personnes de mettre à jour leurs informations personnelles à distance en scannant des documents d'identification au lieu de se rendre physiquement dans une banque ou tout autre établissement
Offrir des options de sauvegarde moins chères : il n'est pas nécessaire de stocker des documents papier avec leurs doubles et triples exemplaires, ce qui consomme des unités de stockage physiques coûteuses
Faciliter la traduction entre différentes langues : certains outils OCR ont la capacité de traduire des documents d'une langue à une autre
Automatisez les flux de travail : rechercher dans des fichiers numériques avec un bon système de gestion en place est plus rapide que de traiter des documents papier. Moins de processus seront mis en attente lors de la recherche d'un fichier physique perdu. Si vous êtes intéressé par une solution d'automatisation plus complète, vous pouvez utiliser des services d'automatisation de processus intelligents qui incluent l'OCR et d'autres fonctionnalités avancées.

Solutions OCR disponibles sur le marché

Si vous envisagez d'intégrer des fonctionnalités OCR dans vos systèmes informatiques, vous avez le choix entre plusieurs options.

Algorithmes open-source de reconnaissance optique de caractères

Il existe plusieurs algorithmes OCR open source que les entreprises peuvent adapter à leurs besoins. Ces solutions sont plus faciles à personnaliser car leur code source est universellement accessible. Cependant, il n'y a pas d'autorité centrale. Les développeurs de solutions open source n'assument aucune responsabilité et n'offrent pas de support supplémentaire. Par conséquent, la qualité du code peut être discutable. Cette option est plus adaptée aux entreprises dotées de services informatiques solides capables de réparer tout dysfonctionnement. Vous pouvez également contacter des consultants en apprentissage automatique qui peuvent personnaliser et recycler ce logiciel pour vous.

Voici quelques solutions OCR open source couramment utilisées :

Tesseract

Le moteur open source Tesseract est l'un des outils OCR les plus populaires, et il est considéré comme l'un des outils gratuits les plus précis. Elle a été développée par Hewlett-Packard entre 1985 et 1994. À partir de 2006, cette plate-forme a été gérée et développée par Google. Tesseract est écrit en C++ mais il propose des wrappers en Java, Python, Swift, Ruby et R, et quelques langages de programmation plus courants.

L'outil fonctionne à l'aide d'une ligne de commande et n'a pas d'interface utilisateur graphique. Cependant, il existe plusieurs options d'interface graphique que vous pouvez déployer pour rendre cette solution conviviale. Un exemple est glmageReader. Cette interface est développée à l'aide de Python et prend en charge différents formats d'image, notamment PNG, GIF et PNM.

Tesseract n'offre pas d'analyse de la mise en page, ne formate pas la sortie et son interface de ligne de commande nécessite que toutes les images soient soumises au format TIFF. De plus, cette solution OCR n'est pas optimisée pour le GPU et ne permet pas le traitement par lots.

OCRopus

OCRopus a été initialement écrit en Python et a maintenant une version C++ distincte. Il est pris en charge par Google et a été utilisé comme moteur OCR pour l'algorithme Google ReCaptcha.

OCRopus a trois fonctionnalités principales :

Analyse de la disposition physique : identifie les blocs de texte, les colonnes et les lignes et détermine l'ordre de lecture. Par exemple, pour détecter les colonnes, il utilise un algorithme de rectangle d'espace blanc maximal pour détecter les espaces blancs entre les colonnes.
Reconnaissance des lignes : reconnaît les lignes dans chaque bloc ou colonne, qu'il s'agisse de lignes verticales ou de gauche à droite.
Modélisation statistique du langage : utilise des dictionnaires et une grammaire stochastique pour résoudre le problème des lettres manquantes et non identifiées.

EasyOCR

Jaided AI, une société de reconnaissance optique de caractères, a créé le package EasyOCR à l'aide de la bibliothèque Python et PyTorch avec ses modèles d'apprentissage en profondeur. Il prend en charge plus de 80 langues, y compris les scripts cyrilliques, le chinois et l'arabe, et cette base ne cesse de s'étendre. Dans le cadre de la feuille de route de mise en œuvre, il est prévu d'ajouter des options configurables pour la reconnaissance du texte manuscrit.

Solutions OCR commerciales

Les solutions de logiciel en tant que service (SaaS) vous permettent de bénéficier d'algorithmes de haute qualité et de bénéficier d'un support complet du fournisseur. Selon la plate-forme sélectionnée, vous pourrez peut-être recycler l'algorithme OCR sur votre jeu de données et même l'adapter davantage à vos besoins uniques.

Texte d'Amazon

Amazon Textract est un service basé sur l'apprentissage automatique qui extrait du texte imprimé et manuscrit à partir de documents numérisés. Il peut fonctionner avec des données non structurées et avec du texte formaté, comme des formulaires et des tableaux. La solution utilise l'IA et ne nécessite aucune étape ou modèle de configuration supplémentaire. Ce service est sécurisé et conforme aux réglementations sur la protection des données, telles que HIPAA et GDPR. Amazon Textract propose quatre API que les clients peuvent utiliser et payer en conséquence :

Détecter l'API de texte de document : extrait le texte imprimé non structuré et l'écriture manuscrite des numérisations. Coûte 0,0015 $ par page pour le premier million de pages ; après, le prix baisse.
API d'analyse de document : fonctionne avec des données structurées. Extrait le texte des formulaires et des tableaux. Les clients paieront 0,015 $ par page lors du traitement des tableaux et 0,05 $ par page dans le cas des formulaires. Le prix diminue après le premier million de pages.
API d'analyse des dépenses : fonctionne avec les factures. Ce service a une taxonomie commune de champs liés aux reçus. Par exemple, il peut reconnaître le numéro de facture. Les utilisateurs paieront 0,01 $ par page pour le premier million de pages.
API Analyze ID : comprend le contexte des documents d'identité, tels que les permis de conduire et les passeports, et peut extraire du texte à partir de champs spécifiques. Vous pouvez bénéficier de ce service pour 0,025 $ pour les 100 000 premières pages.

Google Cloud Vision

Google propose l'API Vision, qui peut extraire du texte imprimé et manuscrit à partir de documents et d'images. Il contient deux fonctionnalités pour la reconnaissance optique des caractères :

Text_detection : extrait du texte à partir d'images, comme des photographies de panneaux de signalisation
Document_text_detection : capture les textes dans les documents et les images. Elle diffère de la fonctionnalité précédente car sa réponse est optimisée pour les textes denses.

Les deux fonctionnalités permettent aux utilisateurs de traiter gratuitement les 1 000 premières unités par mois. Après cela, vous paierez 1,5 $ par tranche de 1 000 unités. Ce prix diminuera à mesure que vous soumettez plus d'unités par mois.

Vision par ordinateur Microsoft Azure

Microsoft propose des services OCR dans le cadre de son API de vision par ordinateur générique, et non en tant que fonctionnalité autonome. Ainsi, vous payez pour l'ensemble du package, qui, en plus de la reconnaissance optique des caractères, comprend l'identification des célébrités, des monuments, des marques et la détection générale des objets. Cette API vous coûtera 1 $ pour 1 000 transactions pour le premier million d'unités. Ensuite, le prix diminue à 0,65 $ pour 1 000 transactions et continuera de baisser à mesure que vous soumettez plus de contenu.

Principaux cas d'utilisation de l'OCR dans différents secteurs

Les algorithmes de reconnaissance optique de caractères gagnent du terrain dans différentes industries. Vous trouverez ci-dessous certaines des applications OCR les plus importantes.

OCR dans le secteur bancaire

Les institutions bancaires utilisent des tonnes de documents papier dans leurs flux de travail. Il s'agit notamment des chèques, des dossiers clients, des demandes de prêt, des relevés bancaires, etc. L'adoption d'algorithmes de reconnaissance OCR permet aux employés de stocker et d'accéder à tous ces documents numériquement et évite les pertes et dommages de documents.

Traitement des chèques

Un exemple d'OCR dans ce secteur consiste à utiliser des applications bancaires pour déposer numériquement des chèques papier. Ces solutions déploient des algorithmes de reconnaissance optique de caractères pour identifier les champs pertinents des chèques et effectuer les opérations en conséquence sans qu'un employé ait besoin de transférer manuellement toutes ces données. De plus, ces applications peuvent effectuer une validation de signature par rapport à la base de données existante et effacer la vérification immédiatement.

Intégration client

Au lieu de demander à un employé de vérifier manuellement l'identité des clients, les solutions basées sur l'OCR peuvent extraire et valider toutes les informations pertinentes du passeport de la personne et d'autres documents d'identité. Cela permet une vérification instantanée et améliore l'expérience client.

Mise à jour des informations clients

Au lieu d'avoir à visiter ou à appeler une banque, avec l'aide de l'OCR, les clients peuvent numériser leurs documents pour mettre à jour automatiquement les informations. Par exemple, Alfa-Bank a collaboré avec Smart Engines pour améliorer son application bancaire avec des capacités de reconnaissance optique de caractères. Avec cette nouvelle fonctionnalité, les clients peuvent placer des documents d'identité devant les caméras de leur smartphone, confirmer les données extraites et mettre à jour leurs informations dans le système bancaire.

OCR dans le domaine de la santé

Comme dans le secteur bancaire, les organismes de santé accumulent de nombreux documents papier, tels que des radiographies, des résultats de tests, des plans de traitement, etc. Les algorithmes OCR aident à numériser ces fichiers pour éviter la perte de documents physiques et réduire les efforts gaspillés lors de la manipulation manuelle des fichiers papier. De plus, certaines solutions OCR qui reconnaissent le texte manuscrit peuvent traiter les documents d'inscription des patients et les ordonnances.

Système de réclamations médicales

Il existe des éditeurs de logiciels spécialisés dans le traitement des réclamations médicales par OCR. L'une de ces sociétés est OCR Solutions. Elle a développé un produit capable de numériser, de vérifier et d'acheminer correctement les réclamations médicales pour un traitement ultérieur. Ce programme est formé et configuré pour fonctionner avec des formats courants, tels que les formulaires de réclamation dentaire et CMS-1500, entre autres.

Fax

De nombreux établissements médicaux comptent encore sur le fax. Les solutions de reconnaissance optique de caractères peuvent convertir le matériel entrant dans un format accessible stocké numériquement.

Facturation

Les solutions basées sur l'OCR aident les organismes de santé à numériser les factures et à les classer correctement. Un exemple d'OCR provient de Nanonets, basé à San Francisco, qui propose une solution alimentée par OCR et spécialisée dans le traitement des factures. La société affirme que son logiciel réduira le temps de saisie des données de facturation de trois minutes par facture à seulement 30 secondes.

OCR dans le commerce de détail

Les algorithmes de reconnaissance optique des caractères permettent aux employés du commerce de gagner du temps lors du traitement des bons de commande, des factures, des listes de colisage et d'autres documents. Ces solutions peuvent également extraire les numéros de série des codes-barres des produits et permettre aux clients de scanner leurs bons et d'extraire les codes de série.

Numérisation d'identité

Les employés du magasin peuvent avoir besoin de numériser des informations personnelles pour de nombreuses raisons, telles que la vérification de l'âge, la saisie d'informations pour la fidélité des clients, etc. Les fournisseurs d'OCR profitent de cette opportunité.

Par exemple, OCR Solutions, basée en Floride, a développé idMax, un logiciel basé sur l'OCR qui peut numériser des documents d'identité, extraire les champs pertinents et remplir la base de données du détaillant avec les informations correspondantes. idMax peut être installé localement ou accessible via le cloud.

Les défis de l'adoption d'une solution OCR dans votre entreprise

Si vous avez décidé de déployer des algorithmes de reconnaissance OCR pour améliorer vos opérations, vous devez prendre en compte plusieurs aspects :

Matériel d'entrée : assurez-vous que tous les fichiers d'entrée sont adaptés à l'algorithme OCR. Par exemple, les fichiers doivent être exempts de dommages susceptibles d'interférer avec la capacité de l'algorithme à reconnaître son contenu. Le contraste est suffisamment élevé, les pages sont correctement alignées, etc. Certains algorithmes ont de puissantes capacités de prétraitement et peuvent résoudre certains de ces problèmes pour vous. Mais si ce n'est pas le cas, c'est peut-être une bonne idée d'investir dans un scanner de haute qualité et d'assurer un alignement correct des pages.

Ensemble de données d'entraînement : si vous décidez d'entraîner ou de recycler des algorithmes de reconnaissance optique de caractères, vous devez vous assurer que les données que vous prévoyez d'utiliser représentent fidèlement votre matériel d'entrée et contiennent suffisamment d'annotations correctes. Si votre ensemble de données d'entraînement est trop petit ou ne contient pas d'annotations adéquates, l'algorithme ne produira pas les résultats souhaités. De plus, pendant la formation, vous devez porter une attention particulière aux caractères/symboles similaires. Par exemple, les nombres 2 et 7 peuvent sembler assez similaires, surtout si l'algorithme est censé fonctionner avec du texte manuscrit. Les scientifiques des données doivent couvrir ces distinctions dans les données de formation. Un autre exemple peut être l'utilisation d'algorithmes OCR pour détecter et capturer les plaques d'immatriculation sur les voitures. Vous devez vous assurer que votre algorithme ne va pas pour un autocollant personnalisé avec du texte à l'arrière d'une voiture le confondant avec une plaque d'immatriculation.

Texte manuscrit : l'écriture manuscrite s'accompagne de nombreux défis OCR supplémentaires. Il existe une grande variété de styles d'écriture parmi différentes personnes, même l'écriture d'un utilisateur individuel peut être incohérente. La collecte d'un ensemble de données d'entraînement représentatif fiable est un défi car vous devez tenir compte de tous les différents styles. L'écriture manuscrite cursive est particulièrement difficile à traiter. De plus, alors que le texte imprimé se présente en ligne droite, l'écriture manuscrite a tendance à avoir des rotations variables, ce qui complique encore plus les choses.

Scaling : si vous augmentez le nombre d'utilisateurs ou le nombre de requêtes par tranche horaire, le système peut s'effondrer, surtout si vous utilisez une solution open-source et que vous vous appuyez sur votre propre puissance de calcul. Dans le cas de produits OCR commerciaux qui s'exécutent dans le cloud, vous pouvez organiser et payer pour plus de capacité.

Surveillance des performances de l'algorithme OCR : après le déploiement, les performances de l'algorithme peuvent commencer à se dégrader en raison de différents facteurs. Un exemple est le changement de répartition entre les données d'entraînement et les données de production réelles. Cela se produit lorsque le modèle commence à travailler sur des ensembles de données pour lesquels il n'a pas été préparé, tels que des polices différentes ou des caractères avec des inclinaisons inhabituelles. Ces changements affecteront la sortie du modèle au fil du temps, et vous devez détecter ces problèmes et recycler le modèle en conséquence pour maintenir son niveau de précision initial.

Pour résumer

Les algorithmes de reconnaissance optique de caractères ont le potentiel d'accélérer vos processus métier. Cependant, il y a des défis associés à considérer. L'algorithme sélectionné nécessitera probablement une nouvelle formation, et il est fastidieux d'annoter correctement un grand ensemble de données. Vous devez également réfléchir à la mise à l'échelle potentielle à mesure que votre entreprise se développe.

L'adoption d'une solution open source semble tentante en termes de prix, mais elle s'accompagne d'inconvénients, tels que le manque de support et de mises à jour, qui peuvent ouvrir des failles de sécurité. Les solutions commerciales sont plus fiables à cet égard, mais peuvent être coûteuses et difficiles à personnaliser.

Si vous ne savez pas comment procéder et quelle solution OCR convient le mieux à votre entreprise, n'hésitez pas à nous contacter. Chez ITRex, nous serons heureux de procéder à une évaluation approfondie des besoins de votre entreprise afin de déterminer la meilleure option OCR. Nous pouvons également vous aider à recycler la solution sélectionnée et à l'intégrer dans votre système. Nous pouvons également créer un algorithme OCR personnalisé, si nécessaire.

Vous souhaitez accélérer vos opérations grâce à la reconnaissance optique de caractères ? Laissez tomber ITRex une ligne! Leurs experts en intelligence artificielle vous assisteront dans l'intégration et la formation de la solution OCR. Ils peuvent également développer des algorithmes personnalisés pour vous, si nécessaire.

Publié à l'origine sur https://itrexgroup.com le 6 avril 2022.