Топ питань
Часова шкала
Чат
Перспективи
Виявлення аномалій
З Вікіпедії, вільної енциклопедії
Remove ads
Remove ads
В аналізі даних, ви́явленням анома́лій (або ви́явленням ви́кидів) називається знаходження та ідентифікація елементів, подій або спостережень, що не відповідають очікуваній поведінці (патернам) або іншим елементам набору даних.[1] Інколи аномальні елементи можуть стати причиною багатьох проблем, наприклад: банківське шахрайство[en], медичні проблеми, проблеми пошуку помилок у тексті тощо. Аномалії також називають викидами, нововведеннями, шумами, відхиленнями та винятковими ситуаціями.[2]
Зокрема, в контексті виявлення зловживань або вторгнень до мережі, цікавими об'єктами часто є не рідкісні об'єкти, а несподівані сплески активності. Ця модель (патерн) не дотримується загального статистичного визначення викиду як рідкісного об'єкту, і багато методів виявлення викидів (зокрема методи із некерованим навчанням) не працюватимуть на цих даних, якщо їх не буде відповідно агреговано. Натомість алгоритми кластерного аналізу будуть здатні виявити мікрокластери, утворені цими патернами.[3]
Існують три основні категорії методів виявлення аномалій. Методи ви́явлення анома́лій без на́гляду (неконтрольовані алгоритми) визначають аномалії на непозначеному наборі даних, виходячи з припущення, що більшість зразків у цьому набору є нормальними, і шукаючи зразки, що виглядають якнайменше відповідними решті набору даних. Методи контрольо́ваного ви́явлення анома́лій вимагають набору даних, що позначено як «нормальні» або «аномальні», та включають навчання класифікатора (ключовою відмінністю від інших задач класифікації є притаманно незбалансований характер виявлення викидів). Методи напі́в-контрольо́ваного ви́явлення анома́лій створюють модель, що представляє нормальну поведінку, виходячи із заданого нормального навчального набору даних, і потім перевіряють правдоподібність того, що тестовий екземпляр було породжено вивченою моделлю.[джерело?]
Remove ads
Застосування
Виявлення аномалій може застосовуватися в багатьох галузях, таких як виявлення вторгнень, шахрайств, дефектів, моніторинг справності систем, виявлення подій у давачевих мережах та виявлення порушень екосистем. Його часто застосовують у попередній обробці для усунення аномальних даних з набору. В керованому навчанні усунення аномальних даних з набору призводить до статистично значимого покращення точності.[4][5]
Remove ads
Популярні методи
В літературі було запропоновано різні методи виявлення аномалій. Деякими з популярних методів є:
- Методи на основі щільності (k найближчих сусідів,[6][7][8] фактор локального відхилення,[9] та багато інших варіацій цієї ідеї[10]).
- Підмножинне[11] та кореляційне[12] виявлення викидів для багатовимірних даних.[13]
- Однокласовий метод опорних векторів.[14]
- Ізоляційний ліс[en].[15]
- Відтворювальні штучні нейронні мережі.[16]
- Виявлення викидів на базі кластерного аналізу.[17]
- Відхилення від асоціативних правил та частих наборів даних.
- Виявлення викидів на базі нечіткої логіки.
- Ансамблеві методи з використанням бутстрепової агрегації особливостей[en],[18][19] нормалізації оцінок[20][21] та різних джерел відмінності.[22][23]
Remove ads
Застосування в захисті даних
Використовувати виявлення аномалій в системах виявлення вторгнень було запропоновано Дороті Деннінг[en] у 1986 році.[24] Виявлення аномалій для систем виявлення вторгнень, як правило, здійснюється за допомогою порогових значень та статистики, але також може бути здійснюватися за допомогою м'яких обчислень та індуктивного навчання.[25] Види статистичних даних, запропоновані в 1999 році, включають профілі користувачів, робочих станцій, мереж, віддалених хостів, груп користувачів, програми на базі частот, середніх значень, відхилень, коваріацій та стандартних відхилень.[26] Двійником виявлення аномалій у системі виявлення вторгнень є виявлення зловживань[en].
Програмне забезпечення
- ELKI[en] — це Java-інструментарій з відкритим кодом для аналізу даних, що містить декілька алгоритмів виявлення аномалій, а також прискорення індексу для них.
Див. також
- Викид (статистика)
- Виявлення змін[en]
- Ієрархічна часова пам'ять
Посилання
Література
Посилання
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads