¿Qué es la detección de anomalías y cómo puede beneficiar a su empresa?

Publicado: 2023-08-24

La detección de anomalías puede ayudarle a identificar las próximas tendencias antes que sus competidores. Puede detectar transacciones fraudulentas al monitorear el tráfico de las tiendas en línea y detectar violencia en lugares públicos, lo que le brinda a su equipo de seguridad la oportunidad de interferir antes de que las personas resulten heridas.

¿Interesado? Existen empresas dedicadas a la detección de anomalías que pueden ayudarlo a crear e integrar software personalizado diseñado para detectar desviaciones de comportamiento en su sector de operaciones.

Entonces, ¿qué es la detección de anomalías? ¿Como funciona? ¿Y cómo puedes incorporarlo a los procesos y flujos de trabajo de tu empresa?

Descripción general del contenido

¿Qué es la detección de anomalías?
¿Cómo funciona la detección de anomalías?
Casos de uso clave de detección de anomalías
Comenzando con la detección de anomalías
Cómo ITRex puede ayudar con la detección de anomalías

¿Qué es la detección de anomalías?

La detección de anomalías es un tipo de minería de datos que analiza los datos de una empresa para detectar puntos de datos que se desvían de la línea de base establecida (por ejemplo, el comportamiento estándar del conjunto de datos). Estos valores atípicos suelen indicar incidentes, como fallos técnicos en los equipos, cambios en las preferencias de los clientes y otros tipos de anomalías, lo que permite a las empresas actuar antes de que se produzca el daño.

¿Qué es una anomalía?

Una anomalía es un dato inconsistente que se desvía de un patrón familiar. Aunque no siempre representa una preocupación importante, vale la pena investigarlo para evitar posibles escaladas. Por ejemplo, un aumento en las ventas de productos puede ser el resultado de una campaña de marketing exitosa o puede indicar un cambio en las tendencias y el comportamiento de los clientes, al que las empresas tendrán que adaptarse.

Las anomalías de los datos comerciales se dividen en tres categorías atípicas:

Un valor atípico global es un punto de datos que se encuentra anormalmente lejos del resto de los datos. Supongamos que recibe $7,000 en su cuenta bancaria cada mes. Si de repente recibe una transferencia de 50.000 dólares, sería un valor atípico a nivel mundial.
Un valor atípico contextual se desvía del resto de los datos dentro del mismo contexto. Por ejemplo, si vive en un país donde normalmente nieva en invierno y el clima es cálido en verano, entonces es normal que caigan fuertes nevadas en invierno. Pero experimentar una nevada durante el verano sería un caso atípico contextual.
Un valor atípico colectivo se produce cuando un subconjunto de puntos de datos se desvía del conjunto de datos completo. Por ejemplo, si observa caídas inusuales en las ventas de varios productos aparentemente no relacionados, pero luego se da cuenta de que de alguna manera están relacionados, entonces sus observaciones se combinan en un valor atípico colectivo.

¿Por qué necesitamos IA en la detección de anomalías?

La mayoría de las empresas manejan grandes volúmenes de datos estructurados y no estructurados; estos últimos representan hasta el 90% de la información generada dentro de las paredes de una empresa. Es imposible procesar toda esta información manualmente y generar insights significativos, especialmente si hablamos de datos no estructurados, que se componen de imágenes, transacciones, texto de formato libre, etc.

Las investigaciones muestran que las técnicas de aprendizaje automático (ML) son la mejor opción para procesar grandes conjuntos de datos no estructurados. Este campo tiene una gran cantidad de algoritmos y puedes seleccionar el que más te convenga. También puede combinar varias técnicas de ML para obtener resultados óptimos.

¿Cómo funciona la detección de anomalías?

Hay tres tipos principales de técnicas de detección de anomalías basadas en IA y ML.

Detección supervisada de anomalías . Aquí, los modelos de ML se entrenan y prueban con un conjunto de datos completamente etiquetado que contiene comportamiento normal y anómalo. El enfoque funciona bien cuando se detectan desviaciones que formaban parte de un conjunto de datos de entrenamiento, pero la tecnología tropieza cuando se enfrenta a una nueva anomalía que no ha visto en el entrenamiento. Las técnicas supervisadas requieren esfuerzo manual y experiencia en el dominio, ya que alguien necesita etiquetar los datos.
Detección de anomalías no supervisadas . Este método no necesita etiquetado de datos manual. Los modelos suponen que sólo un pequeño porcentaje de puntos de datos que difieren significativamente del resto de los datos constituyen anomalías. Las técnicas no supervisadas aún pueden sobresalir en la identificación de nuevas anomalías que no presenciaron durante el entrenamiento porque detectan valores atípicos en función de sus características y no de lo que aprendieron durante el entrenamiento. Sin embargo, estos algoritmos son bastante complejos y su arquitectura es una caja negra, lo que significa que los usuarios no recibirán una explicación de cómo la herramienta tomó sus decisiones.
Detección de anomalías semisupervisada . Estas técnicas implican datos tanto etiquetados como no etiquetados, lo que reduce los gastos de anotación manual. Además, un modelo de detección de anomalías semisupervisado aún puede aprender después de la implementación y detectar anomalías que no ha visto durante el entrenamiento. Al igual que ocurre con las técnicas no supervisadas, estos modelos también pueden funcionar con datos no estructurados.

Métodos de detección de anomalías basados en IA

La detección de anomalías se basa en la inteligencia artificial (IA) y sus subtipos, incluido el ML. A continuación se presentan cinco técnicas de aprendizaje automático que se implementan con frecuencia en este contexto.

codificadores automáticos

Los codificadores automáticos son redes neuronales artificiales no supervisadas que comprimen datos y luego los reconstruyen para que se parezcan lo más posible a la forma original. Estos algoritmos pueden ignorar eficazmente el ruido y reconstruir texto, imágenes y otros tipos de datos. Un codificador automático tiene dos partes:

Codificador, que comprime los datos de entrada.
Decodificador, que descomprime los datos cerca de su forma original.

Cuando utilice un codificador automático, preste atención al tamaño del código, ya que determinará la tasa de compresión. Otro parámetro importante es el número de capas. Con menos capas, el algoritmo será más rápido, pero podría funcionar en menos funciones.

Redes bayesianas

Esta técnica es un tipo de modelo probabilístico basado en gráficos que calcula la probabilidad basándose en la inferencia bayesiana. Los nodos en un gráfico corresponden a variables aleatorias, mientras que los bordes representan dependencias condicionales que permiten al modelo hacer inferencias.

Las redes bayesianas se utilizan en diagnóstico, modelado causal, razonamiento y más. En la detección de anomalías, este método es particularmente útil para detectar desviaciones sutiles que son difíciles de detectar utilizando otras técnicas. Este método también puede tolerar datos faltantes durante el entrenamiento y aún tendrá un rendimiento sólido si se entrena en conjuntos de datos pequeños.

Modelos basados en densidad

Esta es una técnica de agrupación de ML no supervisada que detecta patrones basándose únicamente en la ubicación espacial y las distancias entre vecinos. Compara el valor de densidad de un punto de datos con la densidad de sus puntos de datos vecinos. Un valor atípico (una anomalía) tendrá un valor de densidad más bajo que otras poblaciones de datos.

Máquina de vectores de soporte (SVM)

Este es un algoritmo de ML supervisado que se usa comúnmente para la clasificación. Sin embargo, las extensiones SVM también pueden funcionar en un entorno no supervisado. Esta técnica utiliza hiperplanos para dividir puntos de datos en clases.

Aunque SVM normalmente trabaja con dos o más clases, en la detección de anomalías puede analizar problemas de una sola clase. Aprende "la norma" para esta clase y determina si un punto de datos puede pertenecer a esta clase o si es un valor atípico.

Modelos de mezcla gaussiana (GMM)

GMM es una técnica de agrupamiento probabilístico. Esta técnica clasifica los datos en diferentes grupos según la distribución de probabilidad. Asume que los puntos de datos pertenecen a una combinación de distribuciones gaussianas con parámetros desconocidos y detecta anomalías detectando datos en regiones de baja densidad.

Casos de uso clave de detección de anomalías

Ahora que sabe cómo funciona la detección de anomalías entre bastidores y las técnicas de inteligencia artificial en las que se basa, es hora de estudiar algunos ejemplos de detección de anomalías en diferentes industrias.

Detección de anomalías en la asistencia sanitaria.

La detección de anomalías puede beneficiar al sector médico al ayudar a los médicos a identificar cualquier problema con la salud del paciente, detectar escaladas en los pacientes hospitalizados, notificar al personal médico antes de que sea demasiado tarde y ayudar en el diagnóstico y la selección del tratamiento. Todo ello reduce el trabajo manual y la carga cognitiva que experimentan los médicos.

Sin embargo, la detección de anomalías tiene sus desafíos únicos en la atención médica.

Un problema es que puede resultar difícil establecer la línea de base (es decir, el comportamiento normal) cuando se trata de diferentes cuadros médicos. Por ejemplo, un electroencefalograma de una persona sana varía según las características individuales. Los investigadores identificaron variaciones considerables en los niños y existen diferencias en los adultos según el grupo de edad y el sexo.

Otro aspecto es que los modelos de ML deben ser muy precisos, ya que la vida de las personas dependerá de su desempeño.

Los algoritmos de detección de anomalías médicas pueden analizar la siguiente información:

Signos vitales y otros parámetros medidos por dispositivos médicos de IoT
Imágenes médicas, como radiografías y tomografías computarizadas, que muestran signos de tumores benignos y malignos, infecciones y otras afecciones de salud.
Reclamaciones de seguros médicos, ayudando a identificar y bloquear cualquier actividad fraudulenta. Esto podría cambiar las reglas del juego en el seguro médico, ya que hasta el 10% de los gastos anuales de Medicare y Medicaid se destinan actualmente a reclamaciones fraudulentas.

Un ejemplo de detección de anomalías proviene de un equipo de investigación en Sudáfrica. Combinaron con éxito técnicas de codificador automático y de aumento de gradiente extremo para monitorear las variables fisiológicas de los pacientes con COVID-19 y detectar cualquier anomalía que pudiera indicar una degradación de la salud.

Otro equipo se centró no sólo en detectar anomalías sino también en explicar por qué la herramienta las marcó como tales. Entonces, primero, utilizaron técnicas de detección de anomalías para detectar desviaciones y luego implementaron algoritmos de minería de aspectos para delinear un conjunto de características en las que un determinado punto de datos se considera un valor atípico.

Detección de anomalías en el entretenimiento.

Los entornos deportivos y de entretenimiento dependen de un amplio monitoreo de seguridad basado en video con cientos de cámaras. Por lo tanto, no sería posible que los equipos de seguridad detectaran accidentes y reaccionaran a tiempo si las imágenes se revisaran manualmente. Gracias al ML, los algoritmos pueden analizar los vídeos que se transmiten desde cada cámara de la instalación y detectar violaciones de seguridad.

A medida que los modelos de ML continúan aprendiendo en el trabajo, podrían detectar amenazas e infracciones que sus operadores humanos no podrían haber notado. Estos algoritmos pueden detectar vandalismo, disturbios entre los espectadores, humo, objetos sospechosos y más, y alertar al personal de seguridad para que tenga tiempo de actuar y evitar responsabilidades y daños a la reputación.

Uno de esos proyectos sale directamente de nuestra cartera. Una empresa de entretenimiento con sede en EE. UU. con salas de juego ubicadas en todo el país recurrió a ITRex para crear una solución de detección de anomalías basada en ML que se integraría en su sistema de videovigilancia basado en la nube. Esta aplicación detectaría cualquier comportamiento peligroso y violento, como romper máquinas tragamonedas. También agilizaría el proceso administrativo al detectar artículos olvidados y máquinas averiadas.

Nuestro equipo creó un modelo de aprendizaje automático personalizado utilizando un codificador automático variacional. Agregamos un conjunto de datos de entrenamiento de 150 videos que representan violencia física y daños a la propiedad y preprocesamos estos videos con el marco OpenCV. Luego, confiamos en la biblioteca torchvision para normalizar y aumentar los datos y los usamos para entrenar el algoritmo ML.

La solución resultante se basó en una validación cruzada para detectar anomalías. Por ejemplo, podría identificar máquinas tragamonedas que no funcionan correctamente "leyendo" el mensaje de error en la pantalla y validándolo con las plantillas de pantalla disponibles. La solución final se integró perfectamente en el sistema de seguridad basado en la nube del cliente, supervisó las máquinas tragamonedas las 24 horas del día, los 7 días de la semana y notificó al personal de seguridad cada vez que detectó una anomalía.

Detección de anomalías en la fabricación.

A medida que los procesos de fabricación se automatizan cada vez más, la maquinaria se vuelve más compleja y las instalaciones crecen. En consecuencia, los enfoques tradicionales de seguimiento ya no son suficientes.

Las técnicas de detección de anomalías pueden representar diferentes desviaciones de la norma en sus instalaciones y notificarle antes de que se agraven e incluso aprender a distinguir entre problemas menores y preocupaciones urgentes.

Existen numerosos beneficios de detección de anomalías para la fabricación. Estas herramientas pueden detectar los siguientes problemas:

Mal funcionamiento del equipo . En colaboración con los fabricantes de sensores de Internet de las cosas (IoT), los algoritmos de IA pueden monitorear varios parámetros del dispositivo, como vibración, temperatura, etc., y detectar cualquier desviación de la norma. Tales cambios pueden indicar que el equipo está sobrecargado, pero también pueden significar el comienzo de una avería. El algoritmo marcará el equipo para una inspección más exhaustiva. A esto también se le llama mantenimiento predictivo.
Subutilización de equipos . Las soluciones de detección de anomalías basadas en ML pueden ver qué dispositivos permanecen inactivos durante un período prolongado e instan al operador a equilibrar la distribución de la carga.
Peligros de seguridad . Al monitorear las transmisiones de las cámaras de seguridad, el software de detección de anomalías puede detectar empleados que no cumplen con los protocolos de seguridad de la fábrica, poniendo en peligro su bienestar. Si sus empleados usan dispositivos portátiles para monitorear la seguridad, ML puede analizar los datos de los sensores para detectar trabajadores agotados y enfermos y alentarlos a tomar un descanso o cerrar sesión ese día.
Cuestiones de infraestructura . Los algoritmos de ML pueden detectar fugas de agua o gas y cualquier otro daño a la infraestructura y notificar al administrador del sitio correspondiente.

Un ejemplo de una solución de detección de anomalías de fabricación proviene de Hemlock Semiconductor, un productor de polisilicio hiperpuro con sede en Estados Unidos. La empresa implementó la detección de anomalías para obtener visibilidad de sus procesos y registrar cualquier desviación de los patrones de producción óptimos. La empresa informó haber ahorrado alrededor de 300.000 dólares al mes en consumo de recursos.

Detección de anomalías en el comercio minorista

La detección de anomalías puede ayudar a los minoristas a identificar patrones inusuales de comportamiento y utilizar estos conocimientos para mejorar las operaciones y proteger sus negocios y clientes. Los algoritmos de IA pueden captar las demandas cambiantes de los clientes y alertar a los minoristas para que dejen de adquirir productos que no se venderán mientras reabastecen los artículos que tienen demanda. Además, las anomalías pueden representar oportunidades de negocio en las primeras etapas, lo que permite a los minoristas aprovecharlas antes que la competencia. En el caso del comercio electrónico, los propietarios de sitios web pueden implementar modelos de detección de anomalías para monitorear el tráfico y detectar comportamientos inusuales que puedan indicar actividad fraudulenta.

Además, los minoristas pueden utilizar técnicas de detección de anomalías para proteger sus instalaciones. En ITRex, llevamos a cabo una serie de PoC para construir una solución que pueda detectar expresiones de violencia, como peleas, en videos transmitidos por cámaras de seguridad ubicadas en centros comerciales y otros lugares públicos. La solución se basa en el método de detección de anomalías de redes neuronales convolucionales 3D, que se entrenó en un extenso conjunto de datos de lucha. Se sabe que este tipo de algoritmo de aprendizaje automático funciona bien en tareas de detección de acciones. Si está interesado en una solución de este tipo, podemos mostrarle la demostración completa para empezar. Luego, nuestro equipo afinará el algoritmo y ajustará su configuración para que coincida con las características específicas de su ubicación y negocio, y lo integraremos perfectamente en su sistema de seguridad existente.

Comenzando con la detección de anomalías

Como puede ver, entrenar modelos de IA personalizados para la detección de anomalías puntuales puede ser un desafío técnico. Es por eso que nuestro equipo preparó una guía de cinco pasos para las empresas que estén considerando esta novedosa tecnología. Desplácese hacia abajo para obtener algunos consejos de expertos y considere descargar nuestra guía empresarial sobre IA si es nuevo en el mundo de la IA o busca más información sobre las aplicaciones de IA y los costos de los proyectos.

Paso 1: determine cómo abordará la detección de anomalías

Aquí hay dos opciones. O está buscando anomalías específicas en sus datos o desea marcar todo lo que se desvía del comportamiento estándar. Lo que elijas aquí afectará tus datos de entrenamiento y restringirá la selección de técnicas de IA.

Si desea detectar cada evento que se desvía de la línea de base, entrenará el modelo en un conjunto de datos grande que represente el comportamiento normal. Por ejemplo, si está trabajando en la conducción y la seguridad del tráfico, su conjunto de datos estará compuesto por vídeos que muestren una conducción segura.

Supongamos que está buscando detectar anomalías específicas, por ejemplo, accidentes automovilísticos, pero no infracciones menores, como pasarse un semáforo en rojo. En este caso, su conjunto de datos de entrenamiento incluirá videos o imágenes de accidentes automovilísticos.

Paso 2: agregar y preprocesar el conjunto de datos de entrenamiento

El resultado del paso anterior le ayudará a decidir qué tipo de datos necesita.

Recopile los datos de las fuentes internas de su empresa o utilice conjuntos de datos disponibles públicamente. Luego, limpie estos datos para eliminar duplicados y cualquier entrada incorrecta o desequilibrada. Cuando se limpia el conjunto de datos, puede utilizar escalado, normalización y otras técnicas de transformación de datos para que el conjunto sea adecuado para los algoritmos de IA. Divida su conjunto de datos en tres partes:

Datos de entrenamiento para enseñar los modelos.
Datos de validación para evaluar el rendimiento del modelo durante el entrenamiento.
Prueba de datos para calificar el desempeño después de completar el proceso de capacitación.

Para obtener más información, consulte nuestra guía detallada sobre cómo preparar datos para el aprendizaje automático.

Paso 3: elija su técnica de detección de anomalías

Este paso solo es relevante si desea crear una solución personalizada. Usted o su proveedor de tecnología seleccionarán la técnica de IA más adecuada para abordar el problema empresarial. Hay tres factores clave a considerar aquí:

La tarea en cuestión (consulte el Paso 1 más arriba). Si desea detectar anomalías definidas específicamente, el codificador automático variacional (VAE) es una excelente opción.
Los requisitos técnicos . Esto podría incluir los niveles de precisión y detalle que desea alcanzar. Por ejemplo, si desea entrenar un modelo de aprendizaje automático que detecte anomalías en videos, decidir la velocidad de fotogramas óptima es clave, ya que diferentes algoritmos analizan fotogramas a diferentes velocidades. Siempre que la anomalía que desea detectar pueda ocurrir en un segundo, se recomienda que estudie cada cuadro de un videoclip, y el uso de algoritmos más lentos, como VAE, resulta poco práctico. La descomposición de valores singulares (SVD), por otro lado, puede hacer el trabajo considerablemente más rápido.
El tamaño de su conjunto de datos de entrenamiento . Algunos modelos, como los codificadores automáticos, no se pueden entrenar adecuadamente en conjuntos de datos pequeños.

Paso 4: construir/comprar y entrenar el modelo

Puede comprar un software de detección de anomalías ya preparado o implementar un sistema personalizado que corresponda a sus necesidades únicas y se adapte al tipo de anomalías que le interesan.

Puede optar por un sistema de detección de anomalías listo para usar cuando tenga recursos financieros limitados, no tenga un conjunto de datos de capacitación personalizado o no tenga tiempo para la capacitación del modelo, y puede encontrar un proveedor que ya ofrezca una solución que pueda detectar el tipo de anomalías. usted está preocupado. Pero tenga en cuenta que estas soluciones tienen suposiciones incorporadas con respecto a las características de los datos y funcionarán bien mientras estas suposiciones se mantengan. Sin embargo, si los datos de su empresa se desvían de esa línea de base, es posible que el algoritmo no detecte anomalías con la misma precisión.

Si tiene datos suficientes para entrenar algoritmos de IA, puede contratar una empresa de desarrollo de ML para crear y entrenar una solución personalizada de detección de anomalías. Esta opción estará diseñada para satisfacer las necesidades de su negocio y adaptarse a sus procesos. Otro gran beneficio es que aún puede optimizar esta solución incluso después de la implementación. Puede modificar su configuración para que funcione más rápido o centrarse en diferentes parámetros, según los requisitos cambiantes de su negocio.

Paso 5: implementar y monitorear la solución

Implementarás la solución de detección de anomalías localmente o en la nube. Si trabaja con ITRex, tendremos dos opciones para que elija:

Detección de anomalías basada en la nube , donde agregamos datos de sus sistemas de software, dispositivos y servicios de terceros y los transmitimos a la nube para su almacenamiento y procesamiento para aliviar la carga de sus recursos locales.
Detección de anomalías de borde , donde los algoritmos de ML analizan sus datos localmente y solo cargan una parte de los datos a la nube. Este enfoque es más adecuado para sistemas de misión crítica que no toleran retrasos, como vehículos autónomos y soluciones médicas de IoT.

Los algoritmos de ML continúan aprendiendo en el trabajo, lo que les permite adaptarse a nuevos tipos de datos. Pero esto también significa que pueden adquirir prejuicios y otras tendencias indeseables. Para evitar este escenario, puede programar una auditoría para reevaluar el rendimiento de los algoritmos e implementar los ajustes necesarios.

Cómo ITRex puede ayudar con la detección de anomalías

En ITRex Group, tenemos una amplia experiencia con modelos de ML, como codificadores automáticos variacionales (Beta-VAE) y modelos de mezcla gaussiana (GMM), IoT, análisis de datos y visualización de datos. Hemos implementado estas tecnologías en diferentes industrias, por lo que somos conscientes de las características específicas que aportan los sectores fuertemente regulados, como la atención médica. Utilizamos una combinación de tecnología patentada y de código abierto, como herramientas de minería de datos y marcos de aprendizaje automático, para desarrollar soluciones personalizadas e integrarlas en sus procesos comerciales.

Nuestras soluciones personalizadas basadas en IA para la detección de anomalías pueden funcionar con ambas tareas: detectar anomalías predefinidas y detectar cualquier desviación del comportamiento estándar establecido. Puede optar por la nube para ahorrar en infraestructura o podemos hacer que el sistema se ejecute localmente para admitir aplicaciones críticas que no toleran la latencia.

¿Interesado en implementar un sistema de detección de anomalías? ¡Envíanos un mensaje ! Podemos ayudarle a crear y entrenar un modelo de ML personalizado. Incluso si opta por una solución ya preparada, si es de código abierto y tiene una API, aún podemos volver a entrenarla con sus propios datos para que se ajuste mejor a su sistema.

Publicado originalmente en https://itrexgroup.com el 1 de agosto de 2023.