Топ питань
Часова шкала
Чат
Перспективи

Функції втрат для класифікації

З Вікіпедії, вільної енциклопедії

Функції втрат для класифікації
Remove ads

У машинному навчанні та математичній оптимізації функції втрат для класифікації є обчислювальними функціями втрат, що представляють ціну, сплачену за неточність прогнозів у задачах класифікації (потрібно ідентифікувати до якої категорії належить конкретне спостереження).[1]

Thumb
Баєсові функції втрат: функція втрат 0-1 (сірий), функція втрат Севіджа (зелений), логістична функція втрат (помаранчевий), експоненціальна функція втрат (фіолетовий), тангенсна функція втрат (коричневий), квадратична функція втрат (синій).

Дано як простір усіх можливих вхідних даних (зазвичай ), і як набір міток (можливих вихідних даних), типовою метою алгоритмів класифікації є пошук функції , яка найкраще прогнозує значення мітки для заданого входу .[2] Однак, через неповну інформацію, наявність шуму під час вимірювання, або ймовірнісні складові процесу, який досліджується, можливо для одного і того ж самого мати, як передбачення, різні .[3] В результаті, метою навчання є мінімізація очікуваних втрат (також відомих як ризик), визначених як

де  — задана функція втрат і  функція густини ймовірності процесу, яка генерує дані. Еквівалентно цю функцію можна записати як

У рамках класифікації часто використовують функції втрат, трактовані виключно в термінах добутку справжньої мітки на передбачену мітку . Отже, їх можна визначити як функцію лише однієї змінної , таким чином з правильно обраною функцією . Вони називаються функціями втрат на основі маржі (margin-based loss functions). Вибір функції втрат на основі маржі прирівнюється до вибору . Обрання функції втрат у цій структурі впливає на оптимальну , яка мінімізує очікуваний ризик.

У разі бінарної класифікації можна спростити розрахунок очікуваного ризику за допомогою зазначеного вище інтегралу. Зокрема,

Друга рівність випливає з описаних вище властивостей. Третя рівність випливає з того факту, що 1 і −1 є єдино можливими значеннями для , а четверте — за рахунок Вираз у дужках відомий як очікуваний ризик.

Для мінімізатора можна вирішити проблему, взявши функціональну похідну від останньої рівності відносно , при цьому встановити похідну рівною 0. Це призведе до рівняння

що також є еквівалентним встановленню похідної від умовного ризику рівною нулю.

Враховуючи бінарну природу класифікації, природним відбором для функції втрат (припускаючи однакову вартість хибно позитивного та хибно негативного) буде функція втрат 0-1 (характеристична функція 0–1). Вона приймає значення 0, якщо прогнозована класифікація дорівнює класифікації істинного класу або 1, якщо прогнозована класифікація не відповідає істинному класу. Цей вибір моделюється за формулою

де позначає ступінчасту функцію Гевісайда. Однак, ця функція втрат є неопуклою і негладкою, і пошук оптимального рішення є NP-складною комбінаторною задачею оптимізації.[4] Як результат, краще розглянути сурогатні функції втрат, які підходять для часто вживаних алгоритмів навчання, оскільки вони мають і опуклі, і гладкі властивості. На додаток до їх обчислювальної керованості, можна показати, що вирішення проблеми навчання з використанням цих сурогатних функцій втрат дозволяють відновити фактичне вирішення вихідної проблеми класифікації.[5] Деякі з цих сурогатів описані нижче.

На практиці, розподіл ймовірностей є невідомим. Отже, використовуючи навчальний набір з незалежних та однаково розподілених точок вибірки

взятих з простору елементарних подій, ми прагнемо мінімізувати емпіричний ризик

як непрямий показник очікуваного ризику.[3] (Див. статистичну теорію навчання для більш детального опису.)

Remove ads

Узгодженість Баєса

Використовуючи теорему Баєса, можна показати, що оптимальне , тобто те, що мінімізує очікуваний ризик пов'язаний із 0-1 втратою, реалізує правило оптимального рішення Байєса для проблеми бінарної класифікації та має форму

.

Кажуть, що функція втрат є каліброваною за класифікацією або узгодженою за Баєсом, якщо її оптимальне є таким, що і, таким чином, є оптимальним за правилом Баєса. Узгоджена функція втрат Баєса дозволяє нам знайти функцію оптимального рішення Баєса шляхом безпосередньої мінімізації очікуваного ризику і без необхідності явного моделювання функцій густини ймовірності.

Для опуклої функції втрат маржі , можна показати, що є узгодженою за Баєсом тоді і тільки тоді, коли вона диференційована в 0 і .[6][1] Проте цей результат не виключає існування неопуклих та узгоджених за Байєсом функцій втрат. Більш загальний результат стверджує, що узгоджені функції втрат Баєса можна створити за допомогою наступної формулювання [7]

,

де — будь-яка інвертована функція така, що і — будь-яка диференційована строго угнута функція така, що . Таблиця-I демонструє створені узгоджені функції втрат Баєса для деяких прикладів і . Зверніть увагу, що функції втрат Savage і Tangent не є опуклими. Виявилося, що такі неопуклі функції втрат корисні для боротьби з промахами в класифікації.[7][8] Для всіх функцій втрат, породжених з (2), апостеріорну ймовірність можна знайти за допомогою функції зворотного звʼязку як . Функції втрат, де апостеріорна ймовірність може бути відновлена за допомогою інветнованого зв'язку, називаються власними функціями втрат.

Більше інформації , ...

Єдиний мінімізатор очікуваного ризику, , пов'язаний з вищезгаданими функціями втрат, можна безпосередньо знайти з рівняння (1) і показати, що він дорівнює відповідній . Це справедливо навіть для неопуклих функцій втрат і означає, що алгоритми на основі градієнтного спуску, такі як бустер градієнта[en], можна використовувати для побудови мінімізатора.

Remove ads

Власні функції втрат, маржа втрат та регуляризація

Thumb
(Червоний) стандартна логістична втрата () і (Синій) підвищена маржа у логістичній втраті ().

Для власних функцій втрат маржу можна визначити як і показати, що вона безпосередньо пов'язана з властивостями регуляризації класифікатора.[9] Зокрема, функція втрат з більшою маржою збільшує регуляризацію і дає кращі оцінки апостеріорної ймовірності. Наприклад, маржа втрат може бути збільшена для логістичних функцій втрат шляхом введення параметра і визначення функції як , де менший збільшує маржу втрат. Показано, що це прямо еквівалентно зменшенню швидкості навчання при градієнтному бустері[en] де зменшення параметру покращує регуляризацію посиленого класифікатора. Теорія чітко дає зрозуміти, що використання швидкості навчання зумовлює появу корректної формули для отримання апостеріорної ймовірності .

На закінчення, обравши функцію втрат з більшою маржою (меншим ), ми збільшуємо регуляризацію та покращуємо наші оцінки апостеріорної ймовірності, що, у свою чергу, покращує криву ROC кінцевого класифікатора.

Remove ads

Квадратична функція втрат

Узагальнити
Перспектива

Хоча квадратична функція втрат частіше використовується в регресії, її можна переписати як функцію і використовувати для класифікації. Квадратичну функцію можна створити за допомогою (2) і Таблиці-I наступним чином

Функція квадратичних втрат є як опуклою, так і гладкою. Однак, квадратична функція втрат має тенденцію надмірно штрафувати промахи, що призводить до повільніших показників збіжності (що стосується складності вибірки) порівняно з функціями логістичних або шарнірних втрат.[1] Крім того, функції, які дають високі значення для деяких будуть погано працювати з функцією квадратичних втрат, оскільки високі значення будуть суворо каратися, незалежно від того, чи співпадають ознаки у і .

Перевага функції квадратичних втрат полягає в тому, що її структура піддається легкій перехресній перевірці параметрів регуляризації. Спеціально для регуляризації Тихонова можна вирішити задачу для параметра регуляризації, використовуючи перехресну перевірку без виключення, за той самий час, що й для вирішення однієї проблеми.[10]

Мінімізатор для квадратичної функції втрат можна знайти безпосередньо з рівняння (1) як

Remove ads

Логістична функція втрат

Узагальнити
Перспектива

Логістична функція втрат може бути отримана за допомогою (2) та таблиці-I наступним чином

Логістична функція втрат є опуклою і зростає лінійно для від'ємних значень, що робить її менш чутливою до викидів. Логістичні втрати використовуються в LogitBoost алгоритмі[en].

Мінімізатор для логістичної функції втрат можна знайти безпосередньо з рівняння (1) як

Ця функція не визначена, коли або (що прямує до ∞ і −∞ відповідно), але передбачає плавну криву, яка зростає, коли росте і дорівнює 0, коли [3]

Легко перевірити, що логістична функція втрат та функція втрат від двійково перехресної ентропії (Log втрата) насправді однакові (до множення на константу ). Функція втрат від перехресної ентропії тісно пов'язана з розходженням Кульбака–Лейблера між емпіричним і прогнозованим розподілом. Перехресні втрати ентропії є широко розповсюдженими у сучасних глибоких нейронних мережах.

Remove ads

Експоненціальна функція втрат

Узагальнити
Перспектива

Експоненціальну функцію втрат можна згенерувати за допомогою (2) та таблиці-I наступним чином

Експоненціальна функція втрат є опуклою і зростає експоненціально для негативних значень, що робить її більш чутливою до викидів. Експоненціальна функція втрат використовується в AdaBoost алгоритмі[en].

Мінімізатор для експоненціальної функції втрат можна безпосередньо знайти з рівняння (1) як

Remove ads

Функція втрат Savage

Узагальнити
Перспектива

Функцію втрат Savage[7] можна отримати за допомогою (2) та таблиці-I наступним чином

Функція втрат Savage є квазіопуклою і обмеженою для великих від'ємних значень, що робить її менш чутливою до викидів. Функція втрат Savage була використана для градієнтного бустера[en] та в алгоритмі SavageBoost.

Мінімізатор для функції втрат Savage можна безпосередньо знайти з рівняння (1) як

Remove ads

Функція втрат Tangent

Узагальнити
Перспектива

Тангенсну функцію втрат[11] можна отримати за допомогою (2) та таблиці-I наступним чином

Тангенсна функція втрат є квазіопуклою і обмеженою для великих від'ємних значень, що робить її менш чутливою до викидів. Цікаво, що тангенсна функція втрат також накладає обмежене покарання на точки, які були класифіковані як «занадто правильні». Це може допомогти у запобіганні перенавчанню набору даних. Тангенсна функція втрат використовується для градієнтного бустера[en], алгоритму TangentBoost та Alternating Decision Forests[12].

Мінімізатор для тангенсної функції втрат можна безпосередньо знайти з рівняння (1) як

Remove ads

Завісна функція втрат

Докладніше: Завісні втрати

Завісна функція втрат визначається за допомогою , де додатня частина[en] функції.

Завісна функція втрат забезпечує відносно жорстку, опуклу верхню межу для характеристичної функції 0–1. Зокрема, завісна функція втрат дорівнює характеристичній функції 0–1, коли і . Крім того, емпірична мінімізація ризику цієї втрати еквівалентна класичному формулюванню для методу опорного вектора (SVM). Правильно класифіковані точки, що лежать за межами мержі опорних векторів, не штрафуються, тоді як точки в межах границь або на неправильній стороні гіперплощини штрафуються лінійно порівняно з їх відстанню до правильної межі.[4]

Хоча завісна функція втрат є як опуклою, так і безперервною, вона не є гладкою (не диференційованою) при . Отже, вона не може використовуватися з методами градієнтного спуску або методами стохастичного градієнтного спуску, які покладаються на диференційованість по всій області. Проте завісна функція втрат має субградієнт на , що дозволяє використовувати субградієнтні методи спуску.[4] SVM, які використовують завісну функцію втрат, також можна вирішити за допомогою квадратичного програмування.

Мінімізатор для завісної функції втрат визначається як

коли , що відповідає характеристичній функції 0–1. Цей висновок робить завісну функція втрат досить привабливою, оскільки можна встановити межі як різницю між очікуваним ризиком та знаком завісної функції втрат.[1] Завісну функція втрат не можна отримати з (2), оскільки не є оберненою.

Remove ads

Узагальнена плавна завісна функція втрат

Узагальнити
Перспектива

Узагальнена плавна завісна функція втрат з параметром визначається як

де

Вона монотонно зростає і досягає 0, коли .

Remove ads

Див. також

  • Диференційоване програмування[en]

Примітки

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads