Что такое обнаружение аномалий и какую пользу оно может принести вашей компании?

Опубликовано: 2023-08-24

Обнаружение аномалий может помочь вам выявить предстоящие тенденции раньше ваших конкурентов. Он может выявлять мошеннические транзакции, отслеживая трафик интернет-магазина, и выявлять случаи насилия в общественных местах, давая вашей службе безопасности возможность вмешаться до того, как люди пострадают.

Заинтересованы? Существуют специализированные компании по обнаружению аномалий, которые могут помочь вам создать и интегрировать специальное программное обеспечение, предназначенное для выявления поведенческих отклонений в вашем секторе деятельности.

Итак, что же такое обнаружение аномалий? Как это работает? И как вы можете включить это в процессы и рабочие процессы вашей компании?

Обзор контента

  • Что такое обнаружение аномалий?
  • Как работает обнаружение аномалий?
  • Основные варианты использования обнаружения аномалий
  • Начало работы с обнаружением аномалий
  • Как ITRex может помочь в обнаружении аномалий

Что такое обнаружение аномалий?

Обнаружение аномалий — это тип интеллектуального анализа данных, при котором анализируются данные компании для обнаружения точек данных, которые отклоняются от установленного базового уровня (например, стандартного поведения набора данных). Эти выбросы обычно указывают на инциденты, такие как технические сбои в оборудовании, изменения в предпочтениях клиентов и другие типы отклонений, что позволяет компаниям действовать до того, как ущерб будет нанесен.

Что такое аномалия?

Аномалия — это противоречивая точка данных, которая отклоняется от привычного шаблона. Несмотря на то, что это не всегда вызывает серьезную озабоченность, его стоит изучить, чтобы предотвратить возможную эскалацию. Например, всплеск продаж продукции может быть результатом успешной маркетинговой кампании или указывать на изменение тенденций и поведения клиентов, к которым компаниям придется адаптироваться.

Аномалии бизнес-данных делятся на три категории выбросов:

  • Глобальный выброс — это точка данных, расположенная аномально далеко от остальных данных. Предположим, вы ежемесячно получаете 7000 долларов на свой банковский счет. Если вы внезапно получите перевод в размере 50 000 долларов США, это будет глобальный выброс.
  • Контекстуальный выброс отличается от остальных данных в том же контексте. Например, если вы живете в стране, где зимой обычно идет снег, а летом тепло, то обильные снегопады зимой — это нормально. Но снегопад летом был бы контекстуальным исключением.
  • Коллективный выброс — это когда подмножество точек данных отклоняется от всего набора данных. Например, если вы наблюдаете необычное падение продаж нескольких, казалось бы, не связанных друг с другом продуктов, но затем понимаете, что это каким-то образом связано, тогда ваши наблюдения объединяются в один общий выброс.

Зачем нам нужен ИИ для обнаружения аномалий?

Большинство компаний имеют дело с большими объемами структурированных и неструктурированных данных, причем последние составляют до 90% информации, генерируемой в стенах компании. Невозможно обработать всю эту информацию вручную и получить осмысленную информацию, особенно если мы говорим о неструктурированных данных, которые состоят из изображений, транзакций, текста в произвольной форме и т. д.

Исследования показывают, что методы машинного обучения (ML) являются лучшим выбором для обработки больших неструктурированных наборов данных. В этом поле имеется обширное количество алгоритмов, и вы можете выбрать тот, который подходит вам лучше всего. Вы также можете комбинировать несколько методов машинного обучения для достижения оптимальных результатов.

Как работает обнаружение аномалий?

Существует три основных типа методов обнаружения аномалий на основе искусственного интеллекта и машинного обучения.

  • Контролируемое обнаружение аномалий . Здесь модели ML обучаются и тестируются с использованием полностью размеченного набора данных, содержащего нормальное и аномальное поведение. Этот подход хорошо работает при обнаружении отклонений, которые были частью набора обучающих данных, но технология спотыкается, сталкиваясь с новой аномалией, которую она не видела при обучении. Контролируемые методы требуют ручных усилий и знаний в предметной области, поскольку кто-то должен маркировать данные.
  • Неконтролируемое обнаружение аномалий . Этот метод не требует ручной маркировки данных. В моделях предполагается, что лишь небольшой процент точек данных, которые значительно отличаются от остальных данных, представляют собой аномалии. Неконтролируемые методы по-прежнему могут преуспеть в выявлении новых аномалий, которые они не заметили во время обучения, поскольку они обнаруживают выбросы на основе их характеристик, а не на том, что они узнали во время обучения. Однако эти алгоритмы довольно сложны, а их архитектура представляет собой черный ящик, а это означает, что пользователи не получат объяснения того, как инструмент принимал свои решения.
  • Полуконтролируемое обнаружение аномалий . Эти методы включают как помеченные, так и неразмеченные данные, что снижает затраты на ручное аннотирование. Кроме того, полуконтролируемая модель обнаружения аномалий все еще может обучаться после развертывания и обнаруживать аномалии, которые она не обнаружила при обучении. Как и в случае с неконтролируемыми методами, эти модели также могут работать с неструктурированными данными.

Методы обнаружения аномалий на основе искусственного интеллекта

Обнаружение аномалий опирается на искусственный интеллект (ИИ) и его подтипы, включая МО. Вот пять методов машинного обучения, которые часто используются в этом контексте.

Автоэнкодеры

Автоэнкодеры — это неконтролируемые искусственные нейронные сети, которые сжимают данные, а затем восстанавливают их, чтобы они максимально напоминали исходную форму. Эти алгоритмы могут эффективно игнорировать шум и восстанавливать текст, изображения и другие типы данных. Автоэнкодер состоит из двух частей:

  • Кодер, сжимающий входные данные
  • Декодер, который распаковывает данные почти до их исходной формы.

При использовании автоэнкодера обратите внимание на размер кода, поскольку от него зависит степень сжатия. Еще один важный параметр – количество слоев. При меньшем количестве слоев алгоритм будет работать быстрее, но он сможет работать с меньшим количеством функций.

Байесовские сети

Этот метод представляет собой разновидность вероятностной графической модели, которая рассчитывает вероятность на основе байесовского вывода. Узлы графа соответствуют случайным переменным, а ребра представляют собой условные зависимости, которые позволяют модели делать выводы.

Байесовские сети используются в диагностике, причинно-следственном моделировании, рассуждениях и т. д. При обнаружении аномалий этот метод особенно полезен для обнаружения тонких отклонений, которые трудно обнаружить с помощью других методов. Этот метод также допускает отсутствие данных во время обучения и по-прежнему будет иметь хорошую производительность при обучении на небольших наборах данных.

Модели на основе плотности

Это неконтролируемый метод кластеризации ML, который обнаруживает закономерности, основываясь исключительно на пространственном расположении и расстояниях между соседями. Он сравнивает значение плотности точки данных с плотностью соседних точек данных. Выброс (аномалия) будет иметь более низкое значение плотности, чем другие совокупности данных.

Машина опорных векторов (SVM)

Это контролируемый алгоритм машинного обучения, который обычно используется для классификации. Однако расширения SVM также могут работать в неконтролируемой среде. Этот метод использует гиперплоскости для разделения точек данных на классы.

Несмотря на то, что SVM обычно работает с двумя или более классами, при обнаружении аномалий он может анализировать проблемы одного класса. Он изучает «норму» для этого класса и определяет, может ли точка данных принадлежать этому классу или это выброс.

Модели гауссовой смеси (GMM)

GMM — это метод вероятностной кластеризации. Этот метод классифицирует данные по различным кластерам на основе распределения вероятностей. Он предполагает, что точки данных принадлежат к смеси гауссовских распределений с неизвестными параметрами, и обнаруживает аномалии, обнаруживая данные в регионах с низкой плотностью.

Основные варианты использования обнаружения аномалий

Теперь, когда вы знаете, как «за кулисами» работает обнаружение аномалий, и на какие методы искусственного интеллекта оно опирается, пришло время изучить некоторые примеры обнаружения аномалий в различных отраслях.

Обнаружение аномалий в здравоохранении

Обнаружение аномалий может принести пользу медицинскому сектору, помогая врачам выявлять любые проблемы со здоровьем пациентов, выявлять обострения у стационарных пациентов, уведомлять медицинский персонал, пока не стало слишком поздно, а также помогать в диагностике и выборе лечения. Все это снижает ручной труд и когнитивную нагрузку, которую испытывают врачи.

Однако обнаружение аномалий имеет свои уникальные проблемы в здравоохранении.

Одна из проблем заключается в том, что может быть сложно установить базовый уровень (т. е. нормальное поведение), когда речь идет о различных медицинских диаграммах. Например, электроэнцефалограмма здорового человека варьируется в зависимости от индивидуальных особенностей. Исследователи выявили значительные различия у детей, а у взрослых существуют различия в зависимости от возрастной группы и пола.

Другой аспект заключается в том, что модели МО должны быть очень точными, поскольку от их эффективности будут зависеть жизни людей.

Алгоритмы обнаружения медицинских аномалий могут анализировать следующую информацию:

  • Жизненные показатели и другие параметры, измеряемые медицинскими устройствами Интернета вещей
  • Медицинские изображения, такие как рентгеновские снимки и компьютерная томография, которые имеют признаки доброкачественных и злокачественных опухолей, инфекций и других состояний здоровья.
  • Заявления о медицинском страховании, помогающие выявить и заблокировать любую мошенническую деятельность. Это может изменить правила игры в сфере медицинского страхования, поскольку до 10% годовых расходов Medicare и Medicaid в настоящее время идут на мошеннические претензии.

Один из примеров обнаружения аномалий принадлежит исследовательской группе из Южной Африки. Они успешно объединили методы автоэнкодера и экстремального повышения градиента для мониторинга физиологических показателей пациентов с COVID-19 и обнаружения любых аномалий, которые могли бы указывать на ухудшение здоровья.

Другая команда сосредоточилась не только на обнаружении аномалий, но и на объяснении того, почему инструмент пометил их как таковые. Итак, сначала они использовали методы обнаружения аномалий для выявления отклонений, а затем применили алгоритмы анализа аспектов, чтобы выделить набор функций, в которых определенная точка данных считается выбросом.

Обнаружение аномалий в сфере развлечений

В спортивных и развлекательных заведениях используется обширный видеомониторинг безопасности с помощью сотен камер. Таким образом, службы безопасности не смогли бы вовремя обнаружить происшествия и отреагировать на них, если бы отснятый материал просматривался вручную. Благодаря МО алгоритмы могут анализировать потоковое видео с каждой камеры на объекте и выявлять нарушения безопасности.

По мере того, как модели машинного обучения продолжают учиться на работе, они могут обнаруживать угрозы и нарушения, которые ваши операторы не могли заметить. Эти алгоритмы могут обнаруживать вандализм, беспорядки среди зрителей, дым, подозрительные объекты и многое другое, а также предупреждать сотрудников службы безопасности, чтобы у них было время принять меры и предотвратить ответственность и репутационный ущерб.

Один из таких проектов прямо из нашего портфолио. Американская развлекательная компания с игровыми залами, расположенными по всей стране, обратилась к ITRex с просьбой создать решение для обнаружения аномалий на основе машинного обучения, которое можно было бы интегрировать в их облачную систему видеонаблюдения. Это приложение отслеживает любое опасное и агрессивное поведение, например взлом игровых автоматов. Это также упростит административный процесс, выявляя забытые предметы и вышедшие из строя машины.

Наша команда создала индивидуальную модель машинного обучения с использованием вариационного автоэнкодера. Мы собрали набор обучающих данных из 150 видеороликов, изображающих физическое насилие и материальный ущерб, и предварительно обработали эти видеоролики с помощью платформы OpenCV. Затем мы воспользовались библиотекой torchvision для нормализации и дополнения данных и использовали ее для обучения алгоритма машинного обучения.

Полученное решение основывалось на перекрестной проверке для выявления аномалий. Например, он мог бы выявить неисправные игровые автоматы, «прочитав» сообщение об ошибке на экране и сверив его с доступными шаблонами экрана. Окончательное решение легко интегрировалось в облачную систему безопасности клиента, осуществляло круглосуточный мониторинг игровых автоматов и уведомляло сотрудников службы безопасности при обнаружении аномалий.

Обнаружение аномалий на производстве

По мере того как производственные процессы становятся все более автоматизированными, оборудование становится более сложным, а производственные мощности увеличиваются. Следовательно, традиционных подходов к мониторингу уже недостаточно.

Методы обнаружения аномалий могут отображать различные отклонения от нормы на вашем предприятии и уведомлять вас до того, как они обострятся, и даже научат различать незначительные проблемы и насущные проблемы.

Существует множество преимуществ обнаружения аномалий для производства. Эти инструменты позволяют обнаружить следующие проблемы:

  • Неисправность оборудования . В сотрудничестве с производителями датчиков Интернета вещей (IoT) алгоритмы искусственного интеллекта могут отслеживать различные параметры устройств, такие как вибрация, температура и т. д., и выявлять любые отклонения от нормы. Подобные изменения могут свидетельствовать о перегрузке оборудования, но могут означать и начало поломки. Алгоритм пометит оборудование для дальнейшей проверки. Это также называется профилактическим обслуживанием.
  • Недоиспользование оборудования . Решения по обнаружению аномалий на основе машинного обучения позволяют определить, какие устройства простаивают в течение длительного периода времени, и побуждают оператора сбалансировать распределение нагрузки.
  • Угрозы безопасности . Контролируя записи с камер видеонаблюдения, программное обеспечение для обнаружения аномалий может обнаружить сотрудников, которые не соблюдают заводские протоколы безопасности, ставя под угрозу их благополучие. Если ваши сотрудники используют носимые устройства для мониторинга безопасности, ML может анализировать данные датчиков, чтобы выявить утомленных и больных сотрудников и побудить их сделать перерыв или выйти из системы на этот день.
  • Инфраструктурные проблемы . Алгоритмы машинного обучения могут обнаружить утечку воды или газа и любые другие повреждения инфраструктуры и уведомить соответствующего менеджера объекта.

Примером решения для обнаружения производственных аномалий является компания Hemlock Semiconductor, американский производитель сверхчистого поликремния. Компания внедрила систему обнаружения аномалий, чтобы получить представление о своих процессах и зафиксировать любые отклонения от оптимальных производственных моделей. Компания сообщила об экономии около 300 000 долларов США в месяц на потреблении ресурсов.

Обнаружение аномалий в розничной торговле

Обнаружение аномалий может помочь ритейлерам выявить необычные модели поведения и использовать эту информацию для улучшения операций и защиты своего бизнеса и клиентов. Алгоритмы искусственного интеллекта могут улавливать изменения в требованиях клиентов и предупреждать ритейлеров о прекращении приобретения продуктов, которые не будут продаваться, и пополнении запасов товаров, пользующихся спросом. Кроме того, аномалии могут представлять возможности для бизнеса на ранних стадиях, позволяя ритейлерам извлечь из них выгоду до появления конкурентов. В случае электронной коммерции владельцы веб-сайтов могут использовать модели обнаружения аномалий для мониторинга трафика и выявления необычного поведения, которое может сигнализировать о мошеннической деятельности.

Кроме того, розничные торговцы могут использовать методы обнаружения аномалий для обеспечения безопасности своих помещений. В ITRex мы провели серию PoC для создания решения, которое может обнаруживать проявления насилия, такие как драки, в видеороликах, передаваемых с камер видеонаблюдения, установленных в торговых центрах и других общественных местах. Решение основано на методе обнаружения аномалий 3D-сверточных нейронных сетей, который был обучен на обширном наборе боевых данных. Известно, что этот тип алгоритма ML хорошо справляется с задачами обнаружения действий. Если вас интересует такое решение, мы можем для начала показать вам полную демо-версию. Затем наша команда доработает алгоритм и скорректирует его настройки в соответствии со спецификой вашего местоположения и бизнеса, а мы органично интегрируем его в существующую систему безопасности.

Начало работы с обнаружением аномалий

Как видите, обучение пользовательских моделей ИИ для точного обнаружения аномалий может оказаться технической проблемой. Вот почему наша команда подготовила руководство из пяти шагов для компаний, присматривающихся к новой технологии. Прокрутите вниз, чтобы получить советы экспертов, и рассмотрите возможность загрузки нашего бизнес-руководства по ИИ, если вы новичок в области ИИ или ищете дополнительную информацию о приложениях ИИ и стоимости проектов.

Шаг 1. Определите свой подход к обнаружению аномалий.

Здесь есть два варианта. Вы либо ищете конкретные аномалии в своих данных, либо хотите пометить все, что отклоняется от стандартного поведения. То, что вы выберете здесь, повлияет на ваши тренировочные данные и ограничит выбор методов искусственного интеллекта.

Если вы хотите отследить каждое событие, отклоняющееся от базового уровня, вы будете обучать модель на большом наборе данных, представляющем нормальное поведение. Например, если вы работаете над вождением и безопасностью дорожного движения, то ваш набор данных будет состоять из видеороликов, демонстрирующих безопасное вождение.

Предположим, вы хотите обнаружить конкретные аномалии — например, автомобильные аварии, а не мелкие нарушения, такие как проезд на красный свет. В этом случае ваш набор обучающих данных будет включать видео или изображения автокатастроф.

Шаг 2. Агрегация и предварительная обработка набора обучающих данных.

Результат предыдущего шага поможет вам решить, какой тип данных вам нужен.

Собирайте данные из внутренних источников вашей компании или используйте общедоступные наборы данных. Затем очистите эти данные, чтобы исключить дубликаты и любые неправильные или несбалансированные записи. После очистки набора данных вы можете использовать масштабирование, нормализацию и другие методы преобразования данных, чтобы сделать набор пригодным для алгоритмов ИИ. Разделите набор данных на три части:

  • Обучающие данные для обучения моделей
  • Данные проверки для оценки производительности модели во время обучения.
  • Данные тестирования для оценки производительности после завершения тренировочного процесса.

Для получения дополнительной информации ознакомьтесь с нашим подробным руководством по подготовке данных для машинного обучения.

Шаг 3. Выберите метод обнаружения аномалий

Этот шаг актуален только в том случае, если вы хотите создать собственное решение. Вы или ваш поставщик технологий выберете наиболее подходящую технологию искусственного интеллекта для решения бизнес-задачи. Здесь следует учитывать три ключевых фактора:

  • Текущая задача (см. Шаг 1 выше). Если вы хотите обнаружить конкретно определенные аномалии, отличным вариантом станет вариационный автоэнкодер (VAE).
  • Технические требования . Это может включать уровень точности и детализации, которого вы стремитесь достичь. Например, если вы хотите обучить модель машинного обучения, которая обнаруживает аномалии в видео, ключевым моментом является выбор оптимальной частоты кадров, поскольку разные алгоритмы анализируют кадры с разной скоростью. Поскольку аномалия, которую вы хотите обнаружить, может возникнуть в течение одной секунды, рекомендуется изучать каждый кадр видеоклипа, а использование более медленных алгоритмов, таких как VAE, становится непрактичным. С другой стороны, разложение по сингулярным значениям (SVD) может выполнить работу значительно быстрее.
  • Размер вашего набора обучающих данных . Некоторые модели, такие как автоэнкодеры, невозможно правильно обучить на небольших наборах данных.

Шаг 4. Создайте/купите и обучите модель

Вы можете приобрести готовое программное обеспечение для обнаружения аномалий или внедрить собственную систему, которая будет соответствовать вашим уникальным потребностям и адаптирована к интересующему вас типу аномалий.

Вы можете выбрать готовую систему обнаружения аномалий, если у вас ограниченные финансовые ресурсы, нет специального набора обучающих данных или нет времени на обучение модели, и вы можете найти поставщика, который уже предлагает решение, способное обнаруживать тип аномалий. вы обеспокоены. Но имейте в виду, что эти решения имеют встроенные предположения относительно характеристик данных, и они будут работать хорошо, пока эти предположения выполняются. Однако если данные вашей компании отклоняются от этого базового уровня, алгоритм может не обнаруживать аномалии с такой же точностью.

Если у вас достаточно данных для обучения алгоритмов ИИ, вы можете нанять компанию-разработчика машинного обучения для создания и обучения специального решения для обнаружения аномалий. Этот вариант будет разработан с учетом потребностей вашего бизнеса и впишется в ваши процессы. Еще одним большим преимуществом является то, что вы можете оптимизировать это решение даже после развертывания. Вы можете настроить его параметры, чтобы он работал быстрее, или сосредоточиться на других параметрах, в зависимости от меняющихся бизнес-требований.

Шаг 5. Развертывание и мониторинг решения

Вы развернете решение для обнаружения аномалий локально или в облаке. Если вы работаете с ITRex, у нас есть два варианта на выбор:

  • Облачное обнаружение аномалий : мы агрегируем данные из ваших программных систем, устройств и сторонних сервисов и передаем их в облако для хранения и обработки, чтобы разгрузить ваши локальные ресурсы.
  • Обнаружение краевых аномалий : алгоритмы ML анализируют ваши данные локально и загружают в облако только часть данных. Этот подход лучше всего подходит для критически важных систем, которые не терпят задержек, таких как автономные транспортные средства и медицинские решения Интернета вещей.

Алгоритмы МО продолжают учиться прямо в процессе работы, что позволяет им адаптироваться к новым типам данных. Но это также означает, что они могут приобрести предвзятость и другие нежелательные тенденции. Чтобы избежать этого сценария, вы можете запланировать аудит для повторной оценки производительности алгоритмов и внесения необходимых корректировок.

Как ITRex может помочь в обнаружении аномалий

В ITRex Group мы имеем обширный опыт работы с моделями машинного обучения, такими как бета-вариационные автоэнкодеры (Beta-VAE) и модели гауссовских смесей (GMM), Интернетом вещей, анализом данных и визуализацией данных. Мы внедрили эти технологии в различных отраслях, поэтому мы осознаем специфику жестко регулируемых секторов, таких как здравоохранение. Мы используем сочетание технологий с открытым исходным кодом и собственных технологий, таких как инструменты интеллектуального анализа данных и платформы машинного обучения, для разработки индивидуальных решений и интеграции их в ваши бизнес-процессы.

Наши специальные решения на основе искусственного интеллекта для обнаружения аномалий могут решать обе задачи: обнаруживать заранее заданные аномалии и выявлять любые отклонения от установленного стандартного поведения. Вы можете выбрать облако, чтобы сэкономить на инфраструктуре, или мы можем заставить систему работать локально для поддержки критически важных приложений, которые не терпят задержек.

Заинтересованы во внедрении системы обнаружения аномалий? Напишите нам ! Мы можем помочь вам создать и обучить собственную модель машинного обучения. Даже если вы выберете готовое решение, если оно с открытым исходным кодом и имеет API, мы все равно можем переобучить его на ваших собственных данных, чтобы оно лучше соответствовало вашей системе!


Первоначально опубликовано на https://itrexgroup.com 1 августа 2023 г.