異常検出とは何ですか?それはあなたの会社にどのようなメリットをもたらしますか?

公開: 2023-08-24

異常検出は、競合他社よりも先に今後の傾向を特定するのに役立ちます。オンラインストアのトラフィックを監視することで不正取引にフラグを立てたり、公共の場所での暴力行為を発見したりできるため、セキュリティチームは人々が怪我をする前に介入する機会を得ることができます。

興味がある？業務分野における動作の逸脱を特定するためにカスタマイズされたカスタムソフトウェアの構築と統合を支援できる、異常検出専門の会社があります。

では、異常検出とは何でしょうか? どのように機能するのでしょうか? そして、それを会社のプロセスやワークフローにどのように組み込むことができるのでしょうか?

コンテンツの概要

異常検知とは何ですか?
異常検出はどのように機能しますか?
主要な異常検出の使用例
異常検出の開始
ITRex が異常検出にどのように役立つか

異常検知とは何ですか?

異常検出は、企業のデータを分析して、確立されたベースライン (データセットの標準動作など) から逸脱するデータポイントを検出するデータマイニングの一種です。これらの異常値は通常、機器の技術的な不具合、顧客の好みの変化、その他の種類の異常などのインシデントを示しており、企業は被害が出る前に行動できるようになります。

異常とは何ですか?

異常とは、よく知られたパターンから逸脱した、一貫性のないデータポイントです。必ずしも重大な懸念を表すわけではありませんが、エスカレーションの可能性を防ぐために調査する価値はあります。たとえば、製品の売上の急増は、マーケティングキャンペーンの成功の結果である場合もあれば、企業が適応する必要があるトレンドや顧客の行動の変化を示している場合もあります。

ビジネスデータの異常は、次の 3 つの外れ値カテゴリに分類されます。

グローバル外れ値は、残りのデータから異常に遠くに位置するデータポイントです。毎月 7,000 ドルが銀行口座に入金されると仮定しましょう。突然 50,000 ドルの送金を受け取った場合、それは世界的に異常値になります。
コンテキスト上の外れ値は、同じコンテキスト内の残りのデータから逸脱します。たとえば、通常冬に雪が降り、夏は暖かい国に住んでいる場合、冬に大雪が降るのは普通のことです。しかし、夏に降雪を経験することは、文脈上異常値になります。
集合的外れ値とは、データポイントのサブセットがデータセット全体から逸脱している場合です。たとえば、一見無関係に見えるいくつかの製品の売上が異常に減少しているのを観察したが、これが何らかの形で関連していることに気づいた場合、その観察は 1 つの集合的な異常値に結合されます。

異常検出に AI が必要なのはなぜですか?

ほとんどの企業は大量の構造化データと非構造化データを扱い、後者は社内で生成される情報の最大 90% を占めます。このすべての情報を手動で処理して、有意義な洞察を生み出すことは不可能です。特に、画像、トランザクション、自由形式のテキストなどで構成される非構造化データについて話す場合はそうです。

研究によると、大規模な非構造化データセットを処理するには、機械学習 (ML) 技術が最適な選択です。この分野には膨大な数のアルゴリズムがあり、最適なものを選択できます。最適な結果を得るために、複数の ML 手法を組み合わせることもできます。

異常検出はどのように機能しますか?

AI および ML ベースの異常検出技術には、主に 3 つのタイプがあります。

監視付き異常検出。ここでは、正常な動作と異常な動作を含む完全にラベル付けされたデータセットで ML モデルがトレーニングされ、テストされます。このアプローチは、トレーニングデータセットの一部である逸脱を検出する場合にはうまく機能しますが、トレーニングでは見られなかった新しい異常に直面すると、テクノロジーはつまずきます。教師付き手法では、誰かがデータにラベルを付ける必要があるため、手作業と専門知識が必要です。
監視されていない異常検出。この方法では、手動でデータにラベルを付ける必要はありません。モデルでは、残りのデータと大きく異なるデータポイントのごく一部だけが異常を構成すると想定しています。教師なし手法は、トレーニング中に学習した内容ではなく、その特性に基づいて外れ値を検出するため、トレーニング中に目撃しなかった新しい異常を特定するのに優れています。ただし、これらのアルゴリズムはかなり複雑で、そのアーキテクチャはブラックボックスであるため、ユーザーはツールがどのように決定を下したかについての説明を受けられません。
半監視型異常検出。これらの手法には、ラベル付きデータとラベルなしデータの両方が含まれるため、手動による注釈のコストが削減されます。また、半教師あり異常検出モデルは、展開後も学習し、トレーニングでは検出できなかった異常を検出できます。教師なし手法と同様に、これらのモデルは非構造化データでも機能します。

AIを活用した異常検知手法

異常検出は、人工知能 (AI) とそのサブタイプ (ML など) に依存しています。このコンテキスト内で頻繁に導入される 5 つの ML テクニックを次に示します。

オートエンコーダー

オートエンコーダーは、データを圧縮し、元の形式にできるだけ近づけるように再構築する、教師なしの人工ニューラルネットワークです。これらのアルゴリズムはノイズを効果的に無視し、テキスト、画像、その他の種類のデータを再構築できます。オートエンコーダーには 2 つの部分があります。

入力データを圧縮するエンコーダー
データを元の形式に近づけて解凍するデコーダー

オートエンコーダを使用する場合は、コードのサイズによって圧縮率が決まるため、コードのサイズに注意してください。もう 1 つの重要なパラメータはレイヤーの数です。レイヤーの数が少ないほどアルゴリズムは高速になりますが、動作できる機能の数は少なくなります。

ベイジアンネットワーク

この手法は、ベイズ推論に基づいて確率を計算する、確率グラフベースのモデルの一種です。グラフ内のノードは確率変数に対応し、エッジはモデルが推論できるようにする条件依存関係を表します。

ベイジアンネットワークは、診断、因果モデリング、推論などに使用されます。異常検出において、この方法は、他の技術では発見するのが難しい微妙な逸脱を検出するのに特に役立ちます。この方法は、トレーニング中にデータの欠落を許容することもでき、小規模なデータセットでトレーニングした場合でも安定したパフォーマンスを維持します。

密度ベースのモデル

これは教師なし ML クラスタリング手法であり、空間的な位置と近隣間の距離のみに基づいてパターンを検出します。データポイントの密度値を隣接するデータポイントの密度と比較します。外れ値 (異常) は、他のデータ母集団よりも低い密度値を持ちます。

サポートベクターマシン (SVM)

これは、分類に一般的に使用される教師あり ML アルゴリズムです。ただし、SVM 拡張機能は監視されていない環境でも動作できます。この手法では、超平面を使用してデータポイントをクラスに分割します。

SVM は通常、2 つ以上のクラスで動作しますが、異常検出では単一クラスの問題を分析できます。この 1 つのクラスの「標準」を学習し、データポイントがこのクラスに属することができるかどうか、または外れ値であるかどうかを判断します。

混合ガウスモデル (GMM)

GMM は確率的クラスタリング手法です。この手法では、確率分布に基づいてデータをさまざまなクラスターに分類します。データポイントが未知のパラメーターを持つガウス分布の混合に属していると想定し、低密度領域にデータをスポットすることで異常を検出します。

主要な異常検出の使用例

異常検出が舞台裏でどのように機能するか、また異常検出が依存する AI 技術について理解できたので、次はさまざまな業界での異常検出の例をいくつか検討してみましょう。

医療における異常検出

異常検出は、医師が患者の健康上の問題を特定し、入院患者のエスカレーションを検出し、手遅れになる前に医療スタッフに通知し、診断と治療の選択を支援することにより、医療分野に利益をもたらします。これらすべてにより、医師の手作業と認知的負荷が軽減されます。

ただし、異常検出には医療分野特有の課題があります。

問題の 1 つは、さまざまな医療図に関しては、ベースライン (通常の動作) を確立するのが難しい場合があることです。たとえば、健康な人の脳波は個人の特性に応じて異なります。研究者らは、子供にはかなりのばらつきがあり、成人には年齢層や性別に応じた違いがあることを確認しました。

もう 1 つの側面は、人々の生活はそのパフォーマンスに依存するため、ML モデルは非常に正確でなければならないということです。

医療異常検出アルゴリズムは、次の情報を分析できます。

医療IoTデバイスによって測定されるバイタルサインおよびその他のパラメータ
良性および悪性の腫瘍、感染症、その他の健康状態の兆候を示す X 線や CT スキャンなどの医療画像
健康保険の請求。不正行為の特定と阻止に役立ちます。現在、メディケアとメディケイドの年間費用の最大 10% が不正請求に充てられているため、これは医療保険の変革となる可能性があります。

異常検出の一例は、南アフリカの研究チームによるものです。彼らは、オートエンコーダーと極端な勾配ブースティング技術をうまく組み合わせて、新型コロナウイルス感染症患者の生理学的変数を監視し、健康状態の悪化を示す異常を検出しました。

別のチームは、異常を検出するだけでなく、ツールが異常としてフラグを立てた理由の説明にも重点を置きました。そこで、まず異常検出技術を使用して逸脱を特定し、次にアスペクトマイニングアルゴリズムを導入して、特定のデータポイントが外れ値と見なされる一連の特徴を概説しました。

エンターテインメントにおける異常検知

スポーツおよびエンターテイメント環境は、数百台のカメラによる広範なビデオベースのセキュリティ監視に依存しています。したがって、映像を手動で確認した場合、セキュリティチームが事故を発見して時間内に対応することは不可能です。 ML のおかげで、アルゴリズムは施設の各カメラからストリーミングされるビデオを分析し、セキュリティ違反を検出できます。

ML モデルは業務中に学習を続けるため、人間のオペレーターでは気づかなかった脅威や違反を発見できる可能性があります。これらのアルゴリズムは、破壊行為、観客間の暴動、煙、不審な物体などを検出し、警備スタッフに警告を発して、責任や風評被害を防止するための行動をとる時間を確保します。

そのようなプロジェクトの 1 つは、私たちのポートフォリオから直接生まれました。全国各地にゲームルームを展開する米国を拠点とするエンターテイメント企業は、クラウドベースのビデオ監視システムに統合する ML ベースの異常検出ソリューションを構築するために ITRex に注目しました。このアプリケーションは、スロットマシンを壊すなどの危険で暴力的な行為を捕捉します。また、忘れ物や故障した機械を見つけて管理プロセスを合理化することもできます。

私たちのチームは、変分オートエンコーダーを使用してカスタマイズされた ML モデルを構築しました。私たちは、身体的暴力と物的損害を描いた 150 個のビデオのトレーニングデータセットを集約し、OpenCV フレームワークでこれらのビデオを前処理しました。次に、torchvision ライブラリを利用してデータを正規化および拡張し、それを使用して ML アルゴリズムをトレーニングしました。

結果として得られたソリューションは、異常を特定するために相互検証に依存していました。たとえば、画面上のエラーメッセージを「読み取り」、利用可能な画面テンプレートと照合して検証することで、故障しているスロットマシンを特定できます。最終的なソリューションはクライアントのクラウドベースのセキュリティシステムにシームレスに統合され、スロットマシンを 24 時間年中無休で監視し、異常を検出した場合はセキュリティ担当者に通知しました。

製造における異常検出

製造プロセスの自動化が進むにつれて、機械はより複雑になり、施設は大型化します。したがって、従来の監視アプローチではもはや十分ではありません。

異常検出技術は、施設の標準からのさまざまな逸脱を検出し、問題がエスカレートする前に通知し、軽微な問題と差し迫った懸念事項を区別する方法を学習することもできます。

製造業にとって、異常検出には多くの利点があります。これらのツールは次の問題を発見できます。

機器の故障。製造用のモノのインターネット (IoT) センサーと連携して、AI アルゴリズムは振動や温度などのさまざまなデバイスパラメーターを監視し、標準からの逸脱を検出できます。このような変化は、機器に過負荷がかかっていることを示している可能性がありますが、故障の始まりを意味していることもあります。アルゴリズムは、さらなる検査のために機器にフラグを立てます。これは予知保全とも呼ばれます。
設備が十分に活用されていない。 ML ベースの異常検出ソリューションは、どのデバイスが長期間アイドル状態になっているかを確認し、オペレータに負荷分散のバランスを取るよう促します。
安全上の危険。異常検出ソフトウェアは、監視カメラのフィードを監視することで、工場の安全プロトコルを遵守せず、健康を危険にさらしている従業員を発見できます。従業員が安全監視にウェアラブルを使用している場合、ML はセンサーデータを分析して疲れ果てた従業員や病気の従業員を特定し、その日は休憩を取るかサインアウトするよう奨励できます。
インフラストラクチャの問題。 ML アルゴリズムは、水漏れやガス漏れ、その他のインフラストラクチャの損傷を検出し、対応するサイト管理者に通知します。

製造異常検出ソリューションの一例は、米国に本拠を置く超高純度ポリシリコンの製造会社である Hemlock Semiconductor から提供されています。同社は異常検出を導入してプロセスを可視化し、最適な生産パターンからの逸脱を記録しました。同社は、リソース消費を毎月約 30 万ドル節約したと報告しました。

小売業における異常検出

異常検出は、小売業者が異常な行動パターンを特定し、これらの洞察を活用して業務を改善し、ビジネスと顧客を保護するのに役立ちます。 AI アルゴリズムは、顧客の需要の変化を捉え、需要のある商品を補充しながら、売れない商品の入手を停止するよう小売業者に警告します。また、異常は初期段階でビジネスチャンスを表す可能性があり、小売業者は競争前にそれを利用できるようになります。 e コマースの場合、Web サイト所有者は異常検出モデルを導入してトラフィックを監視し、不正行為の兆候となる可能性のある異常な動作を特定できます。

さらに、小売業者は異常検出技術を使用して施設を保護できます。 ITRex では、ショッピングモールやその他の公共の場所に設置された監視カメラからストリーミングされたビデオから、喧嘩などの暴力表現を検出できるソリューションを構築するための一連の PoC を実施しました。このソリューションは、広範な戦闘データセットに基づいてトレーニングされた 3D 畳み込みニューラルネットワークの異常検出手法に依存しています。このタイプの ML アルゴリズムは、アクション検出タスクで優れたパフォーマンスを発揮することが知られています。このようなソリューションに興味がある場合は、まず完全なデモをお見せします。その後、当社のチームがアルゴリズムを微調整し、お客様の所在地やビジネスの特性に合わせて設定を調整し、それを既存のセキュリティシステムにシームレスに統合します。

異常検出の開始

ご覧のとおり、異常をスポットオンで検出するためにカスタム AI モデルをトレーニングすることは、技術的な課題となる可能性があります。だからこそ私たちのチームは、新しいテクノロジーに注目している企業向けに 5 段階のガイドを用意しました。下にスクロールして専門家のヒントをご覧ください。AI を初めて使用する場合、または AI アプリケーションとプロジェクトのコストについて詳しく知りたい場合は、AI のビジネスガイドをダウンロードすることを検討してください。

ステップ 1: 異常検出にどのようにアプローチするかを決定する

ここには 2 つのオプションがあります。データ内の特定の異常を探しているか、標準の動作から逸脱しているものすべてにフラグを立てたいと考えています。ここで選択した内容はトレーニングデータに影響を与え、AI 手法の選択を制限します。

ベースラインから逸脱するすべてのイベントを捕捉したい場合は、通常の動作を表す大規模なデータセットでモデルをトレーニングします。たとえば、運転と交通安全に取り組んでいる場合、データセットは安全な運転を示すビデオで構成されます。

特定の異常を検出したいとします。たとえば、自動車事故は検出するが、赤信号無視などの軽微な違反は検出しないとします。この場合、トレーニングデータセットには自動車事故のビデオまたは画像が含まれます。

ステップ 2: トレーニングデータセットを集約して前処理する

前のステップの結果は、必要なデータの種類を決定するのに役立ちます。

社内ソースからデータを収集するか、公開されているデータセットを使用します。次に、このデータをクリーンアップして、重複や不正確または不均衡なエントリを排除します。データセットがクリーンアップされると、スケーリング、正規化、その他のデータ変換手法を使用して、セットを AI アルゴリズムに適したものにすることができます。データセットを 3 つの部分に分割します。

モデルを教えるためのトレーニングデータ
トレーニング中にモデルのパフォーマンスを評価するための検証データ
トレーニングプロセスの完了後にデータをテストしてパフォーマンスをスコアリングする

詳細については、機械学習用にデータを準備する方法に関する詳細ガイドをご覧ください。

ステップ 3: 異常検出手法を選択する

この手順は、カスタムソリューションを構築する場合にのみ関係します。あなたまたはあなたの技術ベンダーは、ビジネス上の問題に取り組むために最適な AI 技術を選択します。ここで考慮すべき重要な要素が 3 つあります。

現在のタスク(上記のステップ 1 を参照)。特別に定義された異常を検出したい場合は、変分オートエンコーダー (VAE) が最適なオプションです。
技術的要件。これには、達成を目指す精度と詳細レベルが含まれる場合があります。たとえば、ビデオ内の異常を検出する ML モデルをトレーニングする場合、アルゴリズムが異なればフレームを異なる速度で分析するため、最適なフレームレートを決定することが重要になります。検出したい異常が 1 秒以内に発生する可能性がある限り、ビデオクリップのすべてのフレームを調査することをお勧めします。VAE などの低速アルゴリズムの使用は現実的ではありません。一方、特異値分解 (SVD) は、作業をかなり高速に実行できます。
トレーニングデータセットのサイズ。オートエンコーダーなどの一部のモデルは、小さなデータセットでは適切にトレーニングできません。

ステップ 4: モデルを構築/購入し、トレーニングする

既製の異常検出ソフトウェアを購入することも、独自のニーズに対応し、関心のある異常の種類に合わせてカスタマイズされたカスタムシステムを実装することもできます。

財務リソースが限られている場合、カスタムトレーニングデータセットがない場合、またはモデルトレーニングに時間がない場合は、既製の異常検出システムを選択できます。また、異常の種類を検出できるソリューションをすでに提供しているベンダーを見つけることができます。あなたは心配しています。ただし、これらのソリューションにはデータ特性に関する前提条件が組み込まれており、これらの前提条件が維持される限り良好に機能することに留意してください。ただし、企業データがそのベースラインから逸脱している場合、アルゴリズムは同じ精度で異常を検出できない可能性があります。

AI アルゴリズムをトレーニングするのに十分なデータがある場合は、ML 開発会社に依頼してカスタムの異常検出ソリューションを構築およびトレーニングできます。このオプションは、ビジネスニーズを満たし、プロセスに適合するように設計されています。もう 1 つの大きな利点は、展開後でもこのソリューションを最適化できることです。変化するビジネス要件に応じて、設定を調整して動作を速くしたり、さまざまなパラメータに重点を置いたりすることができます。

ステップ 5: ソリューションの展開と監視

異常検出ソリューションをローカルまたはクラウドにデプロイします。 ITRex をご利用の場合は、次の 2 つのオプションからお選びいただけます。

クラウドベースの異常検出。ソフトウェアシステム、デバイス、サードパーティサービスからのデータを集約し、保存および処理のためにクラウドに送信し、ローカルリソースの負荷を軽減します。
エッジ異常検出。ML アルゴリズムがデータをローカルで分析し、データの一部のみをクラウドにアップロードします。このアプローチは、自動運転車や医療 IoT ソリューションなど、遅延が許容されないミッションクリティカルなシステムに最適です。

ML アルゴリズムは業務中に学習を続けるため、新しいタイプのデータに適応できます。しかしこれは、彼らが偏見やその他の望ましくない傾向を身につける可能性があることも意味します。このシナリオを回避するには、監査をスケジュールしてアルゴリズムのパフォーマンスを再評価し、必要な調整を実装します。

ITRex が異常検出にどのように役立つか

ITRex Group では、ベータ変分オートエンコーダー (Beta-VAE) やガウス混合モデル (GMM) などの ML モデル、IoT、データ分析、データ視覚化に関する豊富な経験があります。私たちはこれらのテクノロジーをさまざまな業界に導入してきたため、ヘルスケアなどの厳しく規制されたセクターがもたらす特殊性を認識しています。当社は、データマイニングツールや ML フレームワークなどのオープンソースと独自のテクノロジーを組み合わせて使用して、カスタムソリューションを開発し、それらをビジネスプロセスに統合します。

当社の異常検出用のカスタム AI ベースソリューションは、事前定義された異常の検出と、確立された標準動作からの逸脱の特定の両方のタスクで機能します。インフラストラクチャを節約するためにクラウドを選択することも、遅延を許容しない重要なアプリケーションをサポートするためにシステムをローカルで実行することもできます。

異常検出システムの導入に興味がありますか? ぜひご連絡ください。 カスタム ML モデルの構築とトレーニングをお手伝いします。 既製のソリューションを選択した場合でも、それがオープンソースで API を備えている場合は、システムによりよく適合するように独自のデータで再トレーニングできます。

オリジナルは 2023 年 8 月 1 日にhttps://itrexgroup.comで公開されました。