Функції втрат для класифікації

У машинному навчанні та математичній оптимізації функції втрат для класифікації є обчислювальними функціями втрат, що представляють ціну, сплачену за неточність прогнозів у задачах класифікації (потрібно ідентифікувати до якої категорії належить конкретне спостереження).^[1]

Thumb — Баєсові функції втрат: функція втрат 0-1 (сірий), функція втрат Севіджа (зелений), логістична функція втрат (помаранчевий), експоненціальна функція втрат (фіолетовий), тангенсна функція втрат (коричневий), квадратична функція втрат (синій).

Дано ${\mathcal {X}}$ як простір усіх можливих вхідних даних (зазвичай ${\mathcal {X}}\subset \mathbb {R} ^{d}$ ), і ${\mathcal {Y}}=\{-1,1\}$ як набір міток (можливих вихідних даних), типовою метою алгоритмів класифікації є пошук функції $f:{\mathcal {X}}\mapsto \mathbb {R}$ , яка найкраще прогнозує значення мітки $y$ для заданого входу ${\vec {x}}$ .^[2] Однак, через неповну інформацію, наявність шуму під час вимірювання, або ймовірнісні складові процесу, який досліджується, можливо для одного і того ж самого ${\vec {x}}$ мати, як передбачення, різні $y$ .^[3] В результаті, метою навчання є мінімізація очікуваних втрат (також відомих як ризик), визначених як

I[f]=\displaystyle \int _{{\mathcal {X}}\times {\mathcal {Y}}}V(f({\vec {x}}),y)p({\vec {x}},y)\,d{\vec {x}}\,dy

де $V(f({\vec {x}}),y)$ — задана функція втрат і $p({\vec {x}},y)$ — функція густини ймовірності процесу, яка генерує дані. Еквівалентно цю функцію можна записати як

p({\vec {x}},y)=p(y\mid {\vec {x}})p({\vec {x}}).

У рамках класифікації часто використовують функції втрат, трактовані виключно в термінах добутку справжньої мітки $y$ на передбачену мітку $f({\vec {x}})$ . Отже, їх можна визначити як функцію лише однієї змінної $\upsilon =yf({\vec {x}})$ , таким чином $V(f({\vec {x}}),y)=\phi (yf({\vec {x}}))=\phi (\upsilon )$ з правильно обраною функцією ${\displaystyle \phi$ . Вони називаються функціями втрат на основі маржі (margin-based loss functions). Вибір функції втрат на основі маржі прирівнюється до вибору $\phi$ . Обрання функції втрат у цій структурі впливає на оптимальну $f_{\phi }^{*}$ , яка мінімізує очікуваний ризик.

У разі бінарної класифікації можна спростити розрахунок очікуваного ризику за допомогою зазначеного вище інтегралу. Зокрема,

{\begin{aligned}I[f]&=\int _{{\mathcal {X}}\times {\mathcal {Y}}}V(f({\vec {x}}),y)p({\vec {x}},y)\,d{\vec {x}}\,dy\\[6pt]&=\int _{\mathcal {X}}\int _{\mathcal {Y}}\phi (yf({\vec {x}}))p(y\mid {\vec {x}})p({\vec {x}})\,dy\,d{\vec {x}}\\[6pt]&=\int _{\mathcal {X}}[\phi (f({\vec {x}}))p(1\mid {\vec {x}})+\phi (-f({\vec {x}}))p(-1\mid {\vec {x}})]p({\vec {x}})\,d{\vec {x}}\\[6pt]&=\int _{\mathcal {X}}[\phi (f({\vec {x}}))p(1\mid {\vec {x}})+\phi (-f({\vec {x}}))(1-p(1\mid {\vec {x}}))]p({\vec {x}})\,d{\vec {x}}\end{aligned}}

Друга рівність випливає з описаних вище властивостей. Третя рівність випливає з того факту, що 1 і −1 є єдино можливими значеннями для $y$ , а четверте — за рахунок $p(-1\mid x)=1-p(1\mid x).$ Вираз у дужках $[\phi (f({\vec {x}}))p(1\mid {\vec {x}})+\phi (-f({\vec {x}}))(1-p(1\mid {\vec {x}}))]$ відомий як очікуваний ризик.

Для мінімізатора $I[f]$ можна вирішити проблему, взявши функціональну похідну від останньої рівності відносно $f$ , при цьому встановити похідну рівною 0. Це призведе до рівняння

{\frac {\partial \phi (f)}{\partial f}}\eta +{\frac {\partial \phi (-f)}{\partial f}}(1-\eta )=0\;\;\;\;\;(1)

що також є еквівалентним встановленню похідної від умовного ризику рівною нулю.

Враховуючи бінарну природу класифікації, природним відбором для функції втрат (припускаючи однакову вартість хибно позитивного та хибно негативного) буде функція втрат 0-1 (характеристична функція 0–1). Вона приймає значення 0, якщо прогнозована класифікація дорівнює класифікації істинного класу або 1, якщо прогнозована класифікація не відповідає істинному класу. Цей вибір моделюється за формулою

V(f({\vec {x}}),y)=H(-yf({\vec {x}}))

де $H$ позначає ступінчасту функцію Гевісайда. Однак, ця функція втрат є неопуклою і негладкою, і пошук оптимального рішення є NP-складною комбінаторною задачею оптимізації.^[4] Як результат, краще розглянути сурогатні функції втрат, які підходять для часто вживаних алгоритмів навчання, оскільки вони мають і опуклі, і гладкі властивості. На додаток до їх обчислювальної керованості, можна показати, що вирішення проблеми навчання з використанням цих сурогатних функцій втрат дозволяють відновити фактичне вирішення вихідної проблеми класифікації.^[5] Деякі з цих сурогатів описані нижче.

На практиці, розподіл ймовірностей $p({\vec {x}},y)$ є невідомим. Отже, використовуючи навчальний набір з $n$ незалежних та однаково розподілених точок вибірки

S=\{({\vec {x}}_{1},y_{1}),\dots ,({\vec {x}}_{n},y_{n})\}

взятих з простору елементарних подій, ми прагнемо мінімізувати емпіричний ризик

I_{S}[f]={\frac {1}{n}}\sum _{i=1}^{n}V(f({\vec {x}}_{i}),y_{i})

як непрямий показник очікуваного ризику.^[3] (Див. статистичну теорію навчання для більш детального опису.)

[1]

[2]

[3]

[4]

[5]

Назва функції втрат	$\phi (v)$	$C(\eta )$	$f^{-1}(v)$	$f(\eta )$
Експоненціальна	$e^{-v}$	$2{\sqrt {\eta (1-\eta )}}$	${\frac {e^{2v}}{1+e^{2v}}}$	${\frac {1}{2}}\log({\frac {\eta }{1-\eta }})$
Логістична	${\frac {1}{\log(2)}}\log(1+e^{-v})$	${\frac {1}{\log(2)}}[-\eta \log(\eta )-(1-\eta )\log(1-\eta )]$	${\frac {e^{v}}{1+e^{v}}}$	$\log({\frac {\eta }{1-\eta }})$
Квадратна	$(1-v)^{2}$	$4\eta (1-\eta )$	${\frac {1}{2}}(v+1)$	$2\eta -1$
Savage	${\frac {1}{(1+e^{v})^{2}}}$	$\eta (1-\eta )$	${\frac {e^{v}}{1+e^{v}}}$	$\log({\frac {\eta }{1-\eta }})$
Tangent	$(2\arctan(v)-1)^{2}$	$4\eta (1-\eta )$	$\arctan(v)+{\frac {1}{2}}$	$\tan(\eta -{\frac {1}{2}})$

Функції втрат для класифікації

Узгодженість Баєса

Власні функції втрат, маржа втрат та регуляризація

Квадратична функція втрат

Логістична функція втрат

Експоненціальна функція втрат

Функція втрат Savage

Функція втрат Tangent

Завісна функція втрат

Узагальнена плавна завісна функція втрат

Див. також

Примітки

Wikiwand - on