異常檢測
来自维基百科,自由的百科全书
在數據探勘中,異常檢測(英語:Anomaly detection)對不符合預期模式或數據集中其他專案的專案、事件或觀測值的辨識。[1]通常異常專案會轉變成銀行欺詐、結構缺陷、醫療問題、文字錯誤等類型的問題。異常也被稱為離群值、新奇、噪聲、偏差和例外。[2]
特別是在檢測濫用與網絡入侵時,有趣性對象往往不是罕見對象,但卻是超出預料的突發活動。這種模式不遵循通常統計定義中把異常點看作是罕見對象,於是許多異常檢測方法(特別是無監督的方法)將對此類數據失效,除非進行了合適的聚集。相反,聚類分析演算法可能可以檢測出這些模式形成的微聚類。[3]
有三大類異常檢測方法。[1] 在假設數據集中大多數實例都是正常的前提下,無監督異常檢測方法能通過尋找與其他數據最不匹配的實例來檢測出未標記測試數據的異常。監督式異常檢測方法需要一個已經被標記「正常」與「異常」的數據集,並涉及到訓練分類器(與許多其他的統計分類問題的關鍵區別是異常檢測的內在不均衡性)。半監督式異常檢測方法根據一個給定的正常訓練數據集建立一個表示正常行為的模型,然後檢測由學習模型生成的測試實例的可能性。
應用
異常檢測技術用於各種領域,如入侵檢測、欺詐檢測、故障檢測、系統健康監測、感測器網絡事件檢測和生態系統干擾檢測等。它通常用於在預處理中刪除從數據集的異常數據。在監督式學習中,去除異常數據的數據集往往會在統計上顯著提升準確性。[4][5]
熱門方法
文獻中提出了幾種異常檢測方法。一些熱門方法有:
- 基於密度的方法(最近鄰居法[6][7][8]、局部異常因子[9]及此概念的更多變化[10])。
- 基於子空間[11]與相關性[12]的高維數據的孤立點檢測。[13]
- 一類支持向量機。[14]
- 複製神經網絡。[15]
- 基於聚類分析的孤立點檢測。[16][17]
- 與關聯規則和頻繁項集的偏差。
- 基於模糊邏輯的孤立點檢測。
- 運用特徵袋[18][19]、分數歸一化[20][21]與不同多樣性來源的整合方法。[22][23]
不同方法的效能在很大程度上取決於數據集和參數,比較許多數據集和參數時,各種方法與其他方法相比的系統優勢不大。[24][25]
數據安全方面的應用
多蘿西·丹寧教授在1986年提出了入侵檢測系統(IDS)的異常檢測方法[26]。入侵檢測系統的異常檢測通常是通過閾值和統計完成的,但也可以用軟計算和歸納學習。[27] 在1999年提出的統計類型包括檢測用戶、工作站、網絡、遠端主機與用戶組的設定檔,以及基於頻率、均值、方差、協方差和標準差的程式。[28] 在入侵檢測系統中,與異常檢測模式相對應的還有誤用檢測模式。
軟件
- ELKI是一個包含若干異常檢測演算法及其索引加速的開源Java數據探勘工具箱。
參見
- 統計學中的離群值
- 變化檢測
- 新奇檢測
- 分級暫存記憶
參考文獻
Wikiwand - on
Seamless Wikipedia browsing. On steroids.