Топ питань
Часова шкала
Чат
Перспективи
Витік (машинне навчання)
З Вікіпедії, вільної енциклопедії
Remove ads
У статистиці та машиннім навчанні ви́тік (також ви́тік да́них або ви́тік ці́лі, англ. leakage, data leakage, target leakage) — це використання в процесі тренування моделі такої інформації, яка не буде очікувано доступною в момент передбачування, що спричинює переоцінювання передбачувальними оцінками (метриками) корисності моделі для виконання її у виробничім середовищі.[1]
Витік часто буває тонким та непрямим, ускладнюючи його виявляння та усування. Витік може спричинювати обрання моделювальником неоптимальної моделі, яку в іншому випадку могла би перевершити безвитокова модель.[1]
Remove ads
Режими витоку
Узагальнити
Перспектива
Витік може траплятися на багатьох етапах процесу машинного навчання. Причини витоку можливо класифікувати за двома можливими джерелами витоку для моделі: ознаки, та тренувальні зразки.[1]
Витік ознак
Стовпчиковий витік спричинюється включенням під час тренування моделі стовпчиків, що є одними з: повторів мітки, посередників для мітки, або самою міткою, які не є доступними в момент передбачування (анахронізми[2]). До них можуть належати витоки, які частково видають мітку.
Наприклад, включення стовпчика «ЩомісячнаЗарплатня» при передбачуванні стовпчика «РічнаЗарплатня», або «ХвилинЗапізнення» при передбачуванні «ЧиБулоЗапізнення», або, тонше, «ЧислоЗатриманихПлатежів» при передбачуванні «ЧиНадатиПозику».
Витік тренувальних зразків
Рядковий витік спричинюється неправильним поділом інформації рядками даних.
Типи витоків даних:
- Передчасне обозначування, витік від передчасного обозначування перед поділом ПЗ/Тренування/Перевірка (мусить допасовуватися MinMax/n-грамів/тощо лише на тренувальній долі, а потім перетворювати перевірний набір).
- Дублювання рядків між тренуванням/затверджуванням/перевіркою (наприклад, перевибирання набору даних, щоби доповнити його розмір, до поділу, наприклад, різними обертаннями/збільшеннями одного зображення, натяжковим вибиранням перед поділом, або дублюванням рядків для довибирання[en] класу меншості)
- Не н. о. р. дані
- Часовий витік (наприклад, розбивання набору даних часового ряду випадковим чином замість новіших даних у перевірному наборі при застосуванні поділу Тренування/Перевірка, або перехресного затверджування з ковзним початком)
- Груповий витік — не включення стовпчика поділу на групи (наприклад, група Ендрю Ина мала 100 тис. рентгенівських знімків 30 тис. пацієнтів, що означає близько 3 знімків на пацієнта. У цій праці використовували випадкове розбивання, замість забезпечувати, щоби всі знімки одного пацієнта були в одній і тій же долі. Тож модель частково запам'ятовувала пацієнтів замість навчатися розпізнавати пневмонію на рентгенівських знімках грудної клітини. Переглянута праця мала падіння в оцінках.[3][4])
Для залежних від часу наборів даних структура досліджуваної системи змінюється з часом (тобто, є «нестаціонарною»). Це може вносити систематичні відмінності між тренувальним та затверджувальним наборами. Наприклад, якщо модель для передбачування цін акцій[en] тренують на певному п'ятирічному періоді, нереалістично розглядати наступний п'ятирічний період як витягнутий з тієї ж генеральної сукупності. Як інший приклад, припустімо, що модель розроблюють для передбачування ризику особи отримати діагноз певної хвороби протягом наступного року.
Remove ads
Виявляння
![]() | Цей розділ потребує доповнення. (листопад 2020) |
Див. також
- АвтоМН
- Перехресне затверджування
- Перенавчання
- Перевибирання (статистика)[en]
- Кероване навчання
- Тренувальний, затверджувальний та випробувальний набори
Примітки
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads