什麼是異常檢測,它能為您的公司帶來什麼好處?

已發表: 2023-08-24

異常檢測可以幫助您先於競爭對手識別即將出現的趨勢。 它可以通過監控在線商店流量來標記欺詐交易,並發現公共場所的暴力行為,讓您的安全團隊有機會在人們受傷之前進行干預。

感興趣的? 有專門的異常檢測公司可以幫助您構建和集成定制軟件,以發現您的運營部門中的行為偏差。

那麼,什麼是異常檢測? 它是如何工作的? 如何將其整合到公司的流程和工作流程中?

內容概述

  • 什麼是異常檢測?
  • 異常檢測如何工作?
  • 關鍵異常檢測用例
  • 異常檢測入門
  • ITRex 如何幫助異常檢測

什麼是異常檢測?

異常檢測是一種數據挖掘,它分析公司的數據以檢測偏離既定基線(例如數據集的標準行為)的數據點。 這些異常值通常表明發生了事件,例如設備的技術故障、客戶偏好的變化以及其他類型的異常,使公司能夠在損害造成之前採取行動。

什麼是異常?

異常是指偏離熟悉模式的不一致數據點。 儘管它並不總是引起重大關注,但值得進行調查以防止可能的升級。 例如,產品銷量的激增可能是營銷活動成功的結果,也可能表明趨勢和客戶行為發生了變化,公司必須適應這種變化。

業務數據異常分為三個異常類別:

  • 全局異常值是與其他數據異常遠離的數據點。 假設您的銀行帳戶每月收到 7,000 美元。 如果你突然收到 50,000 美元的轉賬,那將是一個全球異常值。
  • 上下文異常值偏離同一上下文中的其餘數據。 例如,如果您生活在一個冬天通常下雪而夏天天氣溫暖的國家,那麼冬天下大雪是正常的。 但在夏季經歷降雪將是一個背景異常值。
  • 集體異常值是指數據點子集偏離整個數據集。 例如,如果您觀察到幾種看似不相關的產品的銷量異常下降,但隨後您意識到它們之間存在某種聯繫,那麼您的觀察結果將合併為一個集體異常值。

為什麼我們需要人工智能來進行異常檢測?

大多數公司都會處理大量的結構化和非結構化數據,其中後者占公司內部生成的信息的 90%。 手動處理所有這些信息並生成有意義的見解是不可能的——尤其是當我們談論由圖像、交易、自由格式文本等組成的非結構化數據時。

研究表明,機器學習 (ML) 技術是處理大型非結構化數據集的最佳選擇。 該領域有大量的算法,您可以選擇最適合您的算法。 您還可以結合多種機器學習技術以獲得最佳結果。

異常檢測如何工作?

基於人工智能和機器學習的異常檢測技術主要分為三種類型。

  • 監督異常檢測。 在這裡,機器學習模型使用包含正常和異常行為的完全標記的數據集進行訓練和測試。 該方法在檢測訓練數據集中的偏差時效果很好,但在面對訓練中未見過的新異常時,該技術就會陷入困境。 監督技術需要人工和領域專業知識,因為有人需要標記數據。
  • 無監督的異常檢測。 該方法不需要手動數據標記。 這些模型假設只有一小部分與其餘數據顯著不同的數據點構成異常。 無監督技術仍然可以擅長識別他們在訓練期間沒有目睹的新異常,因為它們根據異常值的特徵而不是根據他們在訓練期間學到的知識來檢測異常值。 然而,這些算法相當複雜,而且它們的架構是一個黑匣子,這意味著用戶不會收到有關該工具如何做出決策的解釋。
  • 半監督異常檢測。 這些技術涉及標記和未標記的數據,這減少了手動註釋的費用。 此外,半監督異常檢測模型在部署後仍然可以學習並檢測在訓練中未見過的異常​​。 與無監督技術一樣,這些模型也可以處理非結構化數據。

基於人工智能的異常檢測方法

異常檢測依賴於人工智能 (AI) 及其子類型,包括 ML。 以下是在此背景下經常部署的五種機器學習技術。

自動編碼器

自動編碼器是無監督的人工神經網絡,它壓縮數據,然後將其重建為盡可能接近原始形式。 這些算法可以有效地忽略噪聲並重建文本、圖像和其他類型的數據。 自動編碼器有兩部分:

  • 編碼器,壓縮輸入數據
  • 解碼器,將數據解壓縮為接近其原始形式

使用自動編碼器時,請注意代碼的大小,因為它將決定壓縮率。 另一個重要參數是層數。 層數越少,算法速度就越快,但它可以處理的特徵也越少。

貝葉斯網絡

該技術是一種基於概率圖的模型,基於貝葉斯推理計算概率。 圖中的節點對應於隨機變量,而邊表示允許模型進行推理的條件依賴關係。

貝葉斯網絡用於診斷、因果建模、推理等。 在異常檢測中,此方法對於檢測使用其他技術難以發現的細微偏差特別有用。 該方法還可以容忍訓練期間丟失數據,並且如果在小型數據集上進行訓練,仍然具有可靠的性能。

基於密度的模型

這是一種無監督的 ML 聚類技術,純粹依賴於空間位置和鄰居之間的距離來檢測模式。 它將數據點的密度值與其相鄰數據點的密度進行比較。 離群值(異常)的密度值低於其他數據群體。

支持向量機(SVM)

這是一種常用於分類的監督機器學習算法。 然而,SVM 擴展也可以在無人監督的環境中運行。 該技術使用超平面將數據點劃分為類別。

儘管 SVM 通常適用於兩個或多個類,但在異常檢測中,它可以分析單類問題。 它學習這一類的“標準”,並確定數據點是否屬於該類或者是否是異常值。

高斯混合模型 (GMM)

GMM 是一種概率聚類技術。 該技術根據概率分佈將數據分類為不同的簇。 它假設數據點屬於參數未知的高斯分佈的混合,並通過在低密度區域中發現數據來檢測異常。

關鍵異常檢測用例

現在您已經了解了異常檢測在幕後的工作原理以及它所依賴的 AI 技術,現在是時候研究不同行業中的一些異常檢測示例了。

醫療保健中的異常檢測

異常檢測可以幫助醫生識別患者健康的任何問題,檢測住院患者的病情升級,在為時已晚之前通知醫務人員,並幫助診斷和治療選擇,從而使醫療部門受益。 所有這些都減少了醫生的體力工作和認知負擔。

然而,異常檢測在醫療保健領域有其獨特的挑戰。

一個問題是,當涉及不同的醫學圖表時,可能很難建立基線(即正常行為)。 例如,健康人的腦電圖會根據個體特徵而變化。 研究人員發現,兒童之間存在相當大的差異,成年人之間也存在差異,具體取決於年齡組和性別。

另一方面是機器學習模型必須高度準確,因為人們的生活將取決於他們的表現。

醫療異常檢測算法可以分析以下信息:

  • 醫療物聯網設備測量的生命體徵和其他參數
  • 帶有良性和惡性腫瘤、感染和其他健康狀況跡象的醫學圖像,例如 X 射線和 CT 掃描
  • 健康保險索賠,幫助識別和阻止任何欺詐活動。 這可能會改變醫療保險領域的遊戲規則,因為目前高達 10% 的年度醫療保險和醫療補助費用用於欺詐性索賠

異常檢測的一個例子來自南非的一個研究團隊。 他們成功地將自動編碼器和極端梯度增強技術結合起來,監測 COVID-19 患者的生理變量,並檢測任何表明健康狀況惡化的異常情況。

另一個團隊不僅專注於檢測異常,還專注於解釋為什麼該工具會如此標記它們。 因此,他們首先使用異常檢測技術來發現偏差,然後部署方面挖掘算法來概述一組特徵,其中某個數據點被視為異常值。

娛樂中的異常檢測

體育和娛樂環境依賴於數百個攝像頭的廣泛視頻安全監控。 因此,如果手動查看錄像,安全團隊就不可能及時發現事故並做出反應。 借助機器學習,算法可以分析來自設施中每個攝像頭的視頻流並檢測安全違規行為。

隨著機器學習模型在工作中不斷學習,它們可以發現人類操作員無法注意到的威脅和違規行為。 這些算法可以檢測破壞行為、觀眾騷亂、煙霧、可疑物體等,並向安全人員發出警報,以便他們有時間採取行動,防止責任和聲譽受損。

其中一個項目直接來自我們的投資組合。 一家美國娛樂公司在全國各地設有遊戲室,他們求助於 ITRex 來構建一個機器學習驅動的異常檢測解決方案,該解決方案將集成到其基於雲的視頻監控系統中。 該應用程序可以捕獲任何危險和暴力行為,例如破壞老虎機。 它還可以通過發現遺忘的物品和故障的機器來簡化管理流程。

我們的團隊使用變分自動編碼器構建了定制的機器學習模型。 我們匯總了包含 150 個描述身體暴力和財產損失的視頻的訓練數據集,並使用 OpenCV 框架對這些視頻進行了預處理。 然後,我們依靠 torchvision 庫對數據進行標準化和增強,並用它來訓練 ML 算法。

最終的解決方案依靠交叉驗證來發現異常情況。 例如,它可以通過“讀取”屏幕上的錯誤消息並根據可用的屏幕模板進行驗證來識別出現故障的老虎機。 最終的解決方案無縫集成到客戶基於雲的安全系統中,24/7 監控老虎機,並在檢測到異常情況時通知安全人員。

製造中的異常檢測

隨著製造過程變得越來越自動化,機械變得越來越複雜,設施也變得越來越大。 因此,傳統的監控方法已經不夠了。

異常檢測技術可以描述您設施中與正常情況的不同偏差,並在問題升級之前通知您,甚至學會區分小問題和緊迫問題。

異常檢測對於製造業有許多好處。 這些工具可以發現以下問題:

  • 設備發生故障。 與製造物聯網 (IoT) 傳感器合作,人工智能算法可以監控各種設備參數,如振動、溫度等,並捕獲任何與正常值的偏差。 這種變化可能表明設備過載,但也可能意味著故障的開始。 該算法將標記設備以供進一步檢查。 這也稱為預測性維護。
  • 設備利用不足。 基於機器學習的異常檢測解決方案可以了解哪些設備長時間閒置,並敦促運營商平衡負載分配。
  • 安全隱患。 通過監控安全攝像頭的反饋,異常檢測軟件可以發現不遵守工廠安全協議、危及他們健康的員工。 如果您的員工使用可穿戴設備進行安全監控,機器學習可以分析傳感器數據來發現疲憊和生病的員工,並鼓勵他們休息或下班。
  • 基礎設施問題。 機器學習算法可以檢測水或煤氣洩漏以及任何其他基礎設施損壞,並通知相應的現場經理。

製造異常檢測解決方案的一個例子來自美國超純多晶矽生產商 Hemlock Semiconductor。 該公司部署了異常檢測,以了解其流程並記錄與最佳生產模式的任何偏差。 該公司報告每月節省約 300,000 美元的資源消耗。

零售業異常檢測

異常檢測可以幫助零售商識別異常行為模式,並利用這些見解來改善運營並保護其業務和客戶。 人工智能算法可以捕捉不斷變化的客戶需求,並提醒零售商停止購買賣不出去的產品,同時補充有需求的商品。 此外,異常現象可以代表早期的商機,使零售商能夠在競爭之前利用它們。 就電子商務而言,網站所有者可以部署異常檢測模型來監控流量,以發現可能表明欺詐活動的異常行為。

此外,零售商可以使用異常檢測技術來保護其場所的安全。 在 ITRex,我們進行了一系列 PoC,以構建一個解決方案,可以檢測購物中心和其他公共場所的安全攝像頭流式傳輸的視頻中的暴力表現,例如打架。 該解決方案依賴於 3D 卷積神經網絡異常檢測方法,該方法是在廣泛的戰斗數據集上進行訓練的。 眾所周知,這種類型的機器學習算法在動作檢測任務上表現良好。 如果您對這樣的解決方案感興趣,我們可以首先向您展示完整的演示。 然後,我們的團隊將微調算法並調整其設置以匹配您的位置和業務的具體情況,並將其無縫集成到您現有的安全系統中。

異常檢測入門

如您所見,訓練自定義 AI 模型以進行現場異常檢測可能是一項技術挑戰。 這就是為什麼我們的團隊為關注這項新技術的公司準備了一份五步指南。 向下滾動查看一些專家提示 - 如果您是人工智能新手或尋求有關人工智能應用和項目成本的更多信息,請考慮下載我們的人工智能業務指南。

第 1 步:確定如何進行異常檢測

這裡有兩個選擇。 您要么正在尋找數據中的特定異常,要么想要標記所有偏離標準行為的內容。 您在此處的選擇將影響您的訓練數據並限制人工智能技術的選擇。

如果您想捕獲偏離基線的每個事件,那麼您將在代表正常行為的大型數據集上訓練模型。 例如,如果您正在研究駕駛和交通安全,那麼您的數據集將由顯示安全駕駛的視頻組成。

假設您想要檢測特定的異常情況 - 例如車禍,但不是輕微的違規行為,例如闖紅燈。 在這種情況下,您的訓練數據集將包括車禍的視頻或圖像。

步驟 2:聚合和預處理訓練數據集

上一步的結果將幫助您決定需要哪種類型的數據。

從公司內部來源收集數據或使用公開可用的數據集。 然後,清理這些數據以消除重複項以及任何不正確或不平衡的條目。 清理數據集後,您可以使用縮放、標準化和其他數據轉換技術來使數據集適合 AI 算法。 將您的數據集分為三個部分:

  • 用於教授模型的訓練數據
  • 用於評估訓練期間模型性能的驗證數據
  • 完成訓練過程後測試數據以對性能進行評分

有關更多信息,請查看我們有關如何為機器學習準備數據的詳細指南。

第 3 步:選擇異常檢測技術

僅當您想要構建自定義解決方案時,此步驟才有意義。 您或您的技術供應商將選擇最適合的人工智能技術來解決業務問題。 這裡需要考慮三個關鍵因素:

  • 手頭的任務(請參閱上面的步驟 1)。 如果您想檢測專門定義的異常,變分自動編碼器 (VAE) 是一個不錯的選擇。
  • 技術要求。 這可能包括您想要達到的準確性和詳細程度。 例如,如果您想訓練一個發現視頻中異常的機器學習模型,那麼決定最佳幀速率是關鍵,因為不同的算法以不同的速度分析幀。 只要您想要檢測的異常在一秒鐘內發生,就建議您研究視頻剪輯中的每一幀,並且使用較慢的算法(例如 VAE)變得不切實際。 另一方面,奇異值分解(SVD)可以更快地完成這項工作。
  • 訓練數據集的大小。 某些模型(例如自動編碼器)無法在小型數據集上進行正確訓練。

第 4 步:構建/購買並訓練模型

您可以購買現成的異常檢測軟件,也可以實施定制系統,以滿足您的獨特需求並根據您感興趣的異常類型進行定制。

當您的財務資源有限、沒有自定義訓練數據集或沒有時間進行模型訓練時,您可以選擇現成的異常檢測系統,並且您可以找到已經提供可以檢測異常類型的解決方案的供應商你所關心的。 但請記住,這些解決方案具有有關數據特徵的內置假設,只要這些假設成立,它們就會表現良好。 但是,如果您的公司數據偏離該基線,算法可能無法以相同的精度檢測異常。

如果您有足夠的數據來訓練 AI 算法,您可以聘請 ML 開發公司來構建和訓練自定義異常檢測解決方案。 該選項旨在滿足您的業務需求並適合您的流程。 另一個巨大的好處是,即使在部署之後,您仍然可以優化該解決方案。 您可以根據不斷變化的業務需求調整其設置以使其運行更快或專注於不同的參數。

步驟 5:部署和監控解決方案

您將在本地或云端部署異常檢測解決方案。 如果您與 ITRex 合作,我們將有兩個選項供您選擇:

  • 基於雲的異常檢測,我們聚合來自您的軟件系統、設備和第三方服務的數據,並將其傳輸到雲進行存儲和處理,以減輕您本地資源的負載。
  • 邊緣異常檢測,機器學習算法在本地分析您的數據,然後僅將部分數據上傳到雲端。 這種方法最適合不能容忍延遲的關鍵任務系統,例如自動駕駛汽車和醫療物聯網解決方案。

機器學習算法在工作中不斷學習,這使它們能夠適應新的數據類型。 但這也意味著他們可能會產生偏見和其他不良傾向。 為了避免這種情況,您可以安排審核以重新評估算法的性能並實施必要的調整。

ITRex 如何幫助異常檢測

在 ITRex Group,我們在 ML 模型方面擁有豐富的經驗,例如 Beta 變分自動編碼器 (Beta-VAE) 和高斯混合模型 (GMM)、物聯網、數據分析和數據可視化。 我們已經在不同行業實施了這些技術,因此我們了解醫療保健等受到嚴格監管的行業帶來的具體情況。 我們結合使用開源和專有技術(例如數據挖掘工具和機器學習框架)來開發自定義解決方案並將其集成到您的業務流程中。

我們基於人工智能的定制異常檢測解決方案可以同時完成這兩項任務——檢測預定義的異常並發現與既定標準行為的任何偏差。 您可以選擇雲來節省基礎設施,或者我們可以讓系統在本地運行以支持不能容忍延遲的關鍵應用程序。

有興趣實施異常檢測系統嗎​​? 請給我們留言 我們可以幫助您構建和訓練自定義 ML 模型。 即使您選擇現成的解決方案,如果它是開源的並且有 API,我們仍然可以根據您自己的數據重新訓練它,使其更好地適合您的系統!


最初於 2023 年 8 月 1 日發佈於https://itrexgroup.com