Qu’est-ce que la détection des anomalies et quels avantages peut-elle apporter à votre entreprise ?

Publié: 2023-08-24

La détection des anomalies peut vous aider à identifier les tendances à venir avant vos concurrents. Il peut signaler les transactions frauduleuses en surveillant le trafic des boutiques en ligne et repérer les violences dans les lieux publics, donnant ainsi à votre équipe de sécurité la possibilité d'intervenir avant que des personnes ne soient blessées.

Intéressé? Il existe des sociétés dédiées à la détection des anomalies qui peuvent vous aider à créer et à intégrer des logiciels personnalisés adaptés pour détecter les écarts de comportement dans votre secteur d'activité.

Alors, qu’est-ce que la détection d’anomalies ? Comment ça marche? Et comment pouvez-vous l'intégrer dans les processus et flux de travail de votre entreprise ?

Aperçu du contenu

  • Qu’est-ce que la détection d’anomalies ?
  • Comment fonctionne la détection des anomalies ?
  • Cas d'utilisation clés de la détection d'anomalies
  • Premiers pas avec la détection des anomalies
  • Comment ITRex peut aider à la détection des anomalies

Qu’est-ce que la détection d’anomalies ?

La détection d'anomalies est un type d'exploration de données qui analyse les données d'une entreprise pour détecter les points de données qui s'écartent de la ligne de base établie (par exemple, le comportement standard de l'ensemble de données). Ces valeurs aberrantes indiquent généralement des incidents, tels que des problèmes techniques dans les équipements, des changements dans les préférences des clients et d'autres types d'anomalies, permettant aux entreprises d'agir avant que les dommages ne soient causés.

Qu'est-ce qu'une anomalie ?

Une anomalie est un point de données incohérent qui s'écarte d'un modèle familier. Même si cela ne représente pas toujours une préoccupation majeure, cela vaut la peine d'enquêter pour éviter d'éventuelles escalades. Par exemple, une augmentation des ventes de produits peut être le résultat d’une campagne marketing réussie ou indiquer un changement dans les tendances et le comportement des clients, auquel les entreprises devront s’adapter.

Les anomalies dans les données commerciales se répartissent en trois catégories aberrantes :

  • Une valeur aberrante globale est un point de données situé anormalement loin du reste des données. Supposons que vous receviez 7 000 $ sur votre compte bancaire chaque mois. Si vous recevez soudainement un transfert de 50 000 $, ce serait une exception mondiale.
  • Une valeur contextuelle aberrante s'écarte du reste des données dans le même contexte. Par exemple, si vous vivez dans un pays où il neige généralement en hiver et où le temps est chaud en été, de fortes chutes de neige en hiver sont normales. Mais connaître des chutes de neige pendant l’été serait une exception contextuelle.
  • Une valeur aberrante collective se produit lorsqu'un sous-ensemble de points de données s'écarte de l'ensemble de données. Par exemple, si vous observez des baisses inhabituelles des ventes de plusieurs produits apparemment sans rapport, mais que vous réalisez ensuite que cela est lié d’une manière ou d’une autre, alors vos observations sont combinées en une seule valeur aberrante collective.

Pourquoi avons-nous besoin de l’IA pour la détection des anomalies ?

La plupart des entreprises traitent d'importants volumes de données structurées et non structurées, ces dernières représentant jusqu'à 90 % des informations générées au sein de l'entreprise. Il est impossible de traiter toutes ces informations manuellement et de générer des informations significatives, surtout si nous parlons de données non structurées, constituées d'images, de transactions, de texte libre, etc.

La recherche montre que les techniques d'apprentissage automatique (ML) constituent le meilleur choix pour traiter de grands ensembles de données non structurées. Ce champ dispose d'un grand nombre d'algorithmes et vous pouvez sélectionner ce qui vous convient le mieux. Vous pouvez également combiner plusieurs techniques de ML pour des résultats optimaux.

Comment fonctionne la détection des anomalies ?

Il existe trois principaux types de techniques de détection d'anomalies basées sur l'IA et le ML.

  • Détection d'anomalies supervisée . Ici, les modèles ML sont formés et testés avec un ensemble de données entièrement étiqueté contenant un comportement normal et anormal. L'approche fonctionne bien lors de la détection d'écarts faisant partie d'un ensemble de données d'entraînement, mais la technologie trébuche face à une nouvelle anomalie qu'elle n'a pas vue lors de l'entraînement. Les techniques supervisées nécessitent un effort manuel et une expertise du domaine, car quelqu'un doit étiqueter les données.
  • Détection d'anomalies non supervisée . Cette méthode ne nécessite pas d’étiquetage manuel des données. Les modèles supposent que seul un petit pourcentage de points de données qui diffèrent significativement du reste des données constituent des anomalies. Les techniques non supervisées peuvent toujours exceller dans l'identification de nouvelles anomalies dont elles n'ont pas été témoins pendant la formation, car elles détectent les valeurs aberrantes en fonction de leurs caractéristiques plutôt que de ce qu'elles ont appris pendant la formation. Cependant, ces algorithmes sont plutôt complexes et leur architecture est une boîte noire, ce qui signifie que les utilisateurs ne recevront pas d’explication sur la manière dont l’outil a pris ses décisions.
  • Détection d'anomalies semi-supervisée . Ces techniques impliquent à la fois des données étiquetées et non étiquetées, ce qui réduit les dépenses liées à l'annotation manuelle. De plus, un modèle de détection d'anomalies semi-supervisé peut toujours apprendre après le déploiement et détecter des anomalies qu'il n'a pas vues lors de la formation. Comme pour les techniques non supervisées, ces modèles peuvent également fonctionner avec des données non structurées.

Méthodes de détection d'anomalies basées sur l'IA

La détection des anomalies repose sur l'intelligence artificielle (IA) et ses sous-types, dont le ML. Voici cinq techniques de ML fréquemment déployées dans ce contexte.

Encodeurs automatiques

Les auto-encodeurs sont des réseaux de neurones artificiels non supervisés qui compressent les données puis les reconstruisent pour qu'elles ressemblent le plus possible à leur forme originale. Ces algorithmes peuvent ignorer efficacement le bruit et reconstruire du texte, des images et d’autres types de données. Un auto-encodeur comporte deux parties :

  • Encodeur, qui compresse les données d'entrée
  • Décodeur, qui décompresse les données à proximité de leur forme originale

Lorsque vous utilisez un encodeur automatique, faites attention à la taille du code, car elle déterminera le taux de compression. Un autre paramètre important est le nombre de couches. Avec moins de couches, l’algorithme sera plus rapide, mais il pourrait fonctionner sur moins de fonctionnalités.

Réseaux bayésiens

Cette technique est un type de modèle probabiliste basé sur un graphique qui calcule la probabilité sur la base de l'inférence bayésienne. Les nœuds d'un graphique correspondent à des variables aléatoires, tandis que les arêtes représentent des dépendances conditionnelles qui permettent au modèle de faire des inférences.

Les réseaux bayésiens sont utilisés dans les diagnostics, la modélisation causale, le raisonnement, etc. Dans la détection des anomalies, cette méthode est particulièrement utile pour détecter des écarts subtils difficiles à repérer à l’aide d’autres techniques. Cette méthode peut également tolérer des données manquantes lors de l'entraînement et conservera de solides performances si elle est entraînée sur de petits ensembles de données.

Modèles basés sur la densité

Il s'agit d'une technique de clustering ML non supervisée qui détecte des modèles en s'appuyant uniquement sur l'emplacement spatial et les distances entre voisins. Il compare la valeur de densité d'un point de données à la densité de ses points de données voisins. Une valeur aberrante (une anomalie) aura une valeur de densité inférieure à celle des autres populations de données.

Machine à vecteurs de support (SVM)

Il s'agit d'un algorithme de ML supervisé couramment utilisé pour la classification. Cependant, les extensions SVM peuvent également fonctionner dans un environnement non supervisé. Cette technique utilise des hyperplans pour diviser les points de données en classes.

Même si SVM fonctionne généralement avec deux classes ou plus, lors de la détection des anomalies, il peut analyser les problèmes d'une seule classe. Il apprend « la norme » pour cette classe et détermine si un point de données peut appartenir à cette classe ou s’il s’agit d’une valeur aberrante.

Modèles de mélange gaussien (GMM)

GMM est une technique de clustering probabiliste. Cette technique classe les données en différents groupes en fonction de la distribution de probabilité. Il suppose que les points de données appartiennent à un mélange de distributions gaussiennes avec des paramètres inconnus et détecte les anomalies en repérant les données dans les régions à faible densité.

Cas d'utilisation clés de la détection d'anomalies

Maintenant que vous savez comment fonctionne la détection d'anomalies en coulisses et les techniques d'IA sur lesquelles elle s'appuie, il est temps d'étudier quelques exemples de détection d'anomalies dans différents secteurs.

Détection des anomalies dans les soins de santé

La détection des anomalies peut bénéficier au secteur médical en aidant les médecins à identifier tout problème de santé des patients, à détecter les escalades chez les patients hospitalisés, à informer le personnel médical avant qu'il ne soit trop tard et à faciliter le diagnostic et la sélection du traitement. Tout cela réduit le travail manuel et la charge cognitive subis par les médecins.

Cependant, la détection des anomalies présente des défis uniques dans le domaine des soins de santé.

L'un des problèmes est qu'il peut être difficile d'établir une ligne de base (c'est-à-dire un comportement normal) lorsqu'il s'agit de différents diagrammes médicaux. Par exemple, l’électroencéphalogramme d’une personne en bonne santé varie en fonction des caractéristiques individuelles. Les chercheurs ont identifié des variations considérables chez les enfants, et il existe des différences chez les adultes selon le groupe d'âge et le sexe.

Un autre aspect est que les modèles ML doivent être très précis, car la vie des gens dépendra de leurs performances.

Les algorithmes de détection d’anomalies médicales peuvent analyser les informations suivantes :

  • Signes vitaux et autres paramètres mesurés par les appareils médicaux IoT
  • Images médicales, telles que radiographies et tomodensitogrammes, montrant des signes de tumeurs bénignes et malignes, d'infections et d'autres problèmes de santé.
  • Réclamations d'assurance maladie, aidant à identifier et à bloquer toute activité frauduleuse. Cela pourrait changer la donne dans le domaine de l'assurance médicale puisque jusqu'à 10 % des dépenses annuelles de Medicare et Medicaid sont actuellement consacrées à des réclamations frauduleuses.

Un exemple de détection d’anomalies provient d’une équipe de recherche en Afrique du Sud. Ils ont combiné avec succès des techniques d’auto-encodeur et d’amplification de gradient extrême pour surveiller les variables physiologiques des patients atteints de COVID-19 et détecter toute anomalie pouvant indiquer une dégradation de la santé.

Une autre équipe s’est concentrée non seulement sur la détection des anomalies, mais également sur l’explication des raisons pour lesquelles l’outil les a signalées comme telles. Ainsi, ils ont d’abord utilisé des techniques de détection d’anomalies pour repérer les écarts, puis déployé des algorithmes d’exploration d’aspects pour définir un ensemble de caractéristiques dans lesquelles un certain point de données est considéré comme une valeur aberrante.

Détection d'anomalies dans le divertissement

Les environnements sportifs et de divertissement s’appuient sur une surveillance de sécurité vidéo étendue avec des centaines de caméras. Par conséquent, il ne serait pas possible pour les équipes de sécurité de détecter et de réagir à temps aux accidents si les images étaient visionnées manuellement. Grâce au ML, les algorithmes peuvent analyser les vidéos diffusées par chaque caméra de l'installation et détecter les violations de sécurité.

À mesure que les modèles ML continuent d’apprendre sur le terrain, ils peuvent détecter des menaces et des violations que vos opérateurs humains n’auraient pas pu remarquer. Ces algorithmes peuvent détecter le vandalisme, les troubles parmi les spectateurs, la fumée, les objets suspects, etc., et alerter le personnel de sécurité afin qu'il ait le temps d'agir et d'éviter les responsabilités et les atteintes à la réputation.

L’un de ces projets sort tout droit de notre portefeuille. Une société de divertissement basée aux États-Unis possédant des salles de jeux réparties dans tout le pays s'est tournée vers ITRex pour créer une solution de détection d'anomalies basée sur le ML qui s'intégrerait à son système de vidéosurveillance basé sur le cloud. Cette application détecterait tout comportement dangereux et violent, comme casser des machines à sous. Cela simplifierait également le processus administratif en repérant les objets oubliés et les machines en panne.

Notre équipe a construit un modèle ML personnalisé à l'aide d'un auto-encodeur variationnel. Nous avons regroupé un ensemble de données de formation de 150 vidéos illustrant la violence physique et les dommages matériels et prétraité ces vidéos avec le framework OpenCV. Ensuite, nous nous sommes appuyés sur la bibliothèque torchvision pour normaliser et augmenter les données et l'avons utilisée pour entraîner l'algorithme ML.

La solution résultante reposait sur une validation croisée pour détecter les anomalies. Par exemple, il pourrait identifier les machines à sous défectueuses en « lisant » le message d'erreur à l'écran et en le validant par rapport aux modèles d'écran disponibles. La solution finale s'intègre parfaitement au système de sécurité basé sur le cloud du client, surveille les machines à sous 24h/24 et 7j/7 et avertit le personnel de sécurité chaque fois qu'elle détecte une anomalie.

Détection d'anomalies dans la fabrication

À mesure que les processus de fabrication deviennent de plus en plus automatisés, les machines deviennent plus complexes et les installations s’agrandissent. Par conséquent, les approches de surveillance traditionnelles ne suffisent plus.

Les techniques de détection des anomalies peuvent décrire différents écarts par rapport à la norme dans votre établissement et vous avertir avant qu'ils ne s'aggravent et même apprendre à faire la distinction entre les problèmes mineurs et les préoccupations urgentes.

La détection des anomalies présente de nombreux avantages pour le secteur manufacturier. Ces outils peuvent détecter les problèmes suivants :

  • Dysfonctionnement de l'équipement . En collaboration avec les fabricants de capteurs Internet des objets (IoT), les algorithmes d'IA peuvent surveiller divers paramètres de l'appareil, comme les vibrations, la température, etc., et détecter tout écart par rapport à la norme. De tels changements peuvent indiquer que l'équipement est surchargé, mais cela peut aussi signifier le début d'une panne. L’algorithme signalera l’équipement pour une inspection plus approfondie. C’est ce qu’on appelle également la maintenance prédictive.
  • Sous-utilisation des équipements . Les solutions de détection d'anomalies basées sur le ML peuvent identifier les appareils qui restent inactifs pendant une période prolongée et inciter l'opérateur à équilibrer la répartition de la charge.
  • Risques pour la sécurité . En surveillant les flux des caméras de sécurité, un logiciel de détection d'anomalies peut repérer les employés qui ne respectent pas les protocoles de sécurité de l'usine, mettant ainsi leur bien-être en danger. Si vos employés utilisent des appareils portables pour surveiller la sécurité, ML peut analyser les données des capteurs pour repérer les travailleurs épuisés et malades et les encourager à faire une pause ou à se déconnecter pour cette journée.
  • Problèmes d'infrastructures . Les algorithmes ML peuvent détecter les fuites d’eau ou de gaz et tout autre dommage aux infrastructures et en informer le gestionnaire de site correspondant.

Un exemple de solution de détection d’anomalies de fabrication vient de Hemlock Semiconductor, un producteur américain de polysilicium hyper pur. L'entreprise a déployé la détection des anomalies pour obtenir une visibilité sur ses processus et enregistrer tout écart par rapport aux modèles de production optimaux. L'entreprise a déclaré avoir économisé environ 300 000 dollars par mois en consommation de ressources.

Détection d'anomalies dans le commerce de détail

La détection des anomalies peut aider les détaillants à identifier des modèles de comportement inhabituels et à utiliser ces informations pour améliorer leurs opérations et protéger leur entreprise et leurs clients. Les algorithmes d’IA peuvent s’adapter à l’évolution des demandes des clients et alerter les détaillants afin qu’ils cessent d’acquérir des produits qui ne se vendront pas tout en réapprovisionnant les articles demandés. En outre, les anomalies peuvent représenter des opportunités commerciales dès les premiers stades, permettant aux détaillants d’en tirer profit avant la concurrence. Dans le cas du commerce électronique, les propriétaires de sites Web peuvent déployer des modèles de détection d'anomalies pour surveiller le trafic afin de détecter les comportements inhabituels susceptibles de signaler une activité frauduleuse.

De plus, les détaillants peuvent utiliser des techniques de détection d’anomalies pour sécuriser leurs locaux. Chez ITRex, nous avons mené une série de PoC pour créer une solution capable de détecter les expressions de violence, telles que les bagarres, dans les vidéos diffusées par les caméras de sécurité placées dans les centres commerciaux et autres lieux publics. La solution s’appuie sur la méthode de détection des anomalies des réseaux neuronaux convolutifs 3D, qui a été formée sur un vaste ensemble de données de combat. Ce type d'algorithme ML est connu pour fonctionner correctement sur les tâches de détection d'actions. Si une telle solution vous intéresse, nous pouvons vous montrer la démo complète pour commencer. Ensuite, notre équipe affinera l’algorithme et ajustera ses paramètres en fonction des spécificités de votre emplacement et de votre entreprise, et nous l’intégrerons de manière transparente dans votre système de sécurité existant.

Premiers pas avec la détection des anomalies

Comme vous pouvez le constater, la formation de modèles d'IA personnalisés pour la détection précise des anomalies peut constituer un défi technique. C'est pourquoi notre équipe a préparé un guide en cinq étapes pour les entreprises qui envisagent cette nouvelle technologie. Faites défiler vers le bas pour découvrir quelques conseils d'experts et envisagez de télécharger notre guide commercial sur l'IA si vous débutez dans l'IA ou si vous recherchez plus d'informations sur les applications d'IA et les coûts des projets.

Étape 1 : Déterminez la manière dont vous aborderez la détection des anomalies

Il y a deux options ici. Soit vous recherchez des anomalies spécifiques dans vos données, soit vous souhaitez signaler tout ce qui s'écarte du comportement standard. Ce que vous choisissez ici aura un impact sur vos données d'entraînement et limitera la sélection des techniques d'IA.

Si vous souhaitez détecter chaque événement qui s'écarte de la ligne de base, vous entraînerez le modèle sur un grand ensemble de données représentant un comportement normal. Par exemple, si vous travaillez sur la conduite automobile et la sécurité routière, votre ensemble de données sera composé de vidéos montrant une conduite sûre.

Supposons que vous cherchiez à détecter des anomalies spécifiques, par exemple des accidents de voiture, mais pas des infractions mineures, comme le fait de franchir un feu rouge. Dans ce cas, votre ensemble de données de formation comprendra des vidéos ou des images d'accidents de voiture.

Étape 2 : Agréger et prétraiter l'ensemble de données de formation

Le résultat de l’étape précédente vous aidera à décider du type de données dont vous avez besoin.

Collectez les données à partir des sources internes de votre entreprise ou utilisez des ensembles de données accessibles au public. Ensuite, nettoyez ces données pour éliminer les doublons et toute entrée incorrecte ou déséquilibrée. Lorsque l'ensemble de données est nettoyé, vous pouvez utiliser des techniques de mise à l'échelle, de normalisation et d'autres techniques de transformation des données pour rendre l'ensemble adapté aux algorithmes d'IA. Divisez votre ensemble de données en trois parties :

  • Données de formation pour enseigner les modèles
  • Données de validation pour évaluer les performances du modèle pendant l'entraînement
  • Tester les données pour évaluer les performances après avoir terminé le processus de formation

Pour plus d'informations, consultez notre guide détaillé sur la façon de préparer les données pour l'apprentissage automatique.

Étape 3 : Choisissez votre technique de détection d'anomalies

Cette étape n'est pertinente que si vous souhaitez créer une solution personnalisée. Vous ou votre fournisseur de technologie sélectionnerez la technique d’IA la mieux adaptée pour résoudre le problème commercial. Il y a trois facteurs clés à considérer ici :

  • La tâche à accomplir (voir l’étape 1 ci-dessus). Si vous souhaitez détecter des anomalies spécifiquement définies, Variational Autoencoder (VAE) est une excellente option.
  • Les exigences techniques . Cela peut inclure les niveaux de précision et de détail que vous souhaitez atteindre. Par exemple, si vous souhaitez entraîner un modèle ML qui détecte les anomalies dans les vidéos, il est essentiel de décider de la fréquence d'images optimale, car différents algorithmes analysent les images à différentes vitesses. Tant que l'anomalie que vous souhaitez détecter peut se produire en une seconde, il est recommandé d'étudier chaque image d'un clip vidéo, et l'utilisation d'algorithmes plus lents, tels que VAE, devient peu pratique. La décomposition en valeurs singulières (SVD), en revanche, peut effectuer le travail beaucoup plus rapidement.
  • La taille de votre ensemble de données d'entraînement . Certains modèles, tels que les encodeurs automatiques, ne peuvent pas être correctement entraînés sur de petits ensembles de données.

Étape 4 : Construire/acheter et entraîner le modèle

Vous pouvez soit acheter un logiciel de détection d'anomalies prêt à l'emploi, soit mettre en œuvre un système personnalisé qui correspondra à vos besoins uniques et adapté au type d'anomalies qui vous intéresse.

Vous pouvez opter pour un système de détection d'anomalies prêt à l'emploi lorsque vous disposez de ressources financières limitées, d'un ensemble de données de formation personnalisé ou de pas de temps pour la formation du modèle, et vous pouvez trouver un fournisseur qui propose déjà une solution capable de détecter le type d'anomalies. qui vous préoccupe. Mais gardez à l’esprit que ces solutions comportent des hypothèses intégrées concernant les caractéristiques des données et qu’elles fonctionneront bien tant que ces hypothèses seront valables. Cependant, si les données de votre entreprise s'écartent de cette référence, l'algorithme risque de ne pas détecter les anomalies avec la même précision.

Si vous disposez de suffisamment de données pour entraîner les algorithmes d'IA, vous pouvez engager une société de développement ML pour créer et former une solution de détection d'anomalies personnalisée. Cette option sera conçue pour répondre aux besoins de votre entreprise et s’intégrer à vos processus. Un autre grand avantage est que vous pouvez toujours optimiser cette solution même après le déploiement. Vous pouvez modifier ses paramètres pour le faire fonctionner plus rapidement ou vous concentrer sur différents paramètres, en fonction de l'évolution des besoins de votre entreprise.

Étape 5 : Déployer et surveiller la solution

Vous déployerez la solution de détection d'anomalies soit localement, soit dans le cloud. Si vous travaillez avec ITRex, nous aurons le choix entre deux options :

  • Détection d'anomalies basée sur le cloud , où nous regroupons les données de vos systèmes logiciels, appareils et services tiers et les transmettons au cloud pour le stockage et le traitement afin de soulager vos ressources locales.
  • Détection des anomalies Edge , où les algorithmes ML analysent vos données localement et téléchargent uniquement une partie des données sur le cloud. Cette approche est particulièrement adaptée aux systèmes critiques qui ne tolèrent pas les retards, tels que les véhicules autonomes et les solutions médicales IoT.

Les algorithmes de ML continuent d'apprendre sur le tas, ce qui leur permet de s'adapter à de nouveaux types de données. Mais cela signifie également qu’ils peuvent acquérir des préjugés et d’autres tendances indésirables. Pour éviter ce scénario, vous pouvez planifier un audit pour réévaluer les performances des algorithmes et mettre en œuvre les ajustements nécessaires.

Comment ITRex peut aider à la détection des anomalies

Chez ITRex Group, nous possédons une vaste expérience des modèles ML, tels que les auto-encodeurs bêta-variationnels (Beta-VAE) et les modèles de mélange gaussien (GMM), l'IoT, l'analyse de données et la visualisation de données. Nous avons mis en œuvre ces technologies dans différents secteurs, nous sommes donc conscients des spécificités qu'apportent les secteurs fortement réglementés, tels que la santé. Nous utilisons une combinaison de technologies open source et propriétaires, telles que des outils d'exploration de données et des frameworks ML, pour développer des solutions personnalisées et les intégrer dans vos processus métier.

Nos solutions personnalisées basées sur l'IA pour la détection des anomalies peuvent fonctionner avec les deux tâches : détecter les anomalies prédéfinies et repérer tout écart par rapport au comportement standard établi. Vous pouvez opter pour le cloud pour économiser sur l'infrastructure, ou nous pouvons faire fonctionner le système localement pour prendre en charge les applications critiques qui ne tolèrent pas la latence.

Intéressé par la mise en œuvre d’un système de détection d’anomalies ? Écrivez-nous ! Nous pouvons vous aider à créer et à former un modèle ML personnalisé. Même si vous optez pour une solution toute faite, si elle est open-source et dispose d'une API, nous pouvons toujours la recycler sur vos propres données afin qu'elle s'adapte mieux à votre système !


Publié initialement sur https://itrexgroup.com le 1er août 2023.