Слабке керування

Слабке́ керува́ння (англ. weak supervision) або слабокеро́ване навча́ння,^[1]^[2] яке також називають напівкеро́ваним навча́нням (англ. semi-supervised learning),^[3]^[4] — це одна з парадигм машинного навчання, актуальність і помітність якої зросли з появою великих мовних моделей через велику кількість даних, необхідних для того, щоби їх тренувати. Вона характеризується використанням поєднання невеликої кількості даних, мічених^[en] людьми (лише які й використовують у дорожчій та часовитратнішій парадигмі керованого навчання), разом із великою кількістю немічених даних (лише які й використовують у парадигмі некерованого навчання). Іншими словами, бажані значення виходу надають лише для підмножини тренувальних даних. Решта даних не мічені, або мічені неточно. Інтуїтивно це можливо розглядати як іспит, а мічені дані — як приклади задач, які вчитель розв'язує для класу як допомогу у розв'язанні іншого набору задач. У трансдуктивній постановці ці нерозв'язані задачі діють як питання іспиту. В індуктивній постановці вони стають практичними задачами такого вигляду, які складатимуть іспит. Технічно це можливо розглядати як виконання кластерування з наступним міченням кластерів за допомогою мічених даних, відсуванням меж рішень від областей із високою густиною, або навчання одновимірного многовида в основі даних, на якому вони перебувають.

Remove ads

Задача

Отримання мічених даних для задачі навчання часто вимагає кваліфікованого агента-людини (наприклад, для транскрибування аудіосегменту) або фізичного експерименту (наприклад, визначення тривимірної структури білка або визначення наявності нафти в певному місці). Таким чином, витрати, пов'язані з процесом мічення, можуть виявитися величезними, повністю мічені тренувальні набори — неможливими, в той час як отримання немічених даних відносно невитратне. В таких ситуаціях напівкероване навчання може мати велике практичне значення. Напівкероване навчання також становить теоретичний інтерес для машинного навчання та як модель людського навчання.

Remove ads

Методика

Узагальнити

Перспектива

Див. також: Активне навчання (машинне навчання)^[en]

Формальніше, напівкероване навчання розглядає обробку набору $l$ незалежних однаково розподілених прикладів $x_{1},\dots ,x_{l}\in X$ з відповідними мітками $y_{1},\dots ,y_{l}\in Y$ , та $u$ немічених прикладів $x_{l+1},\dots ,x_{l+u}\in X$ . Напівкероване навчання поєднує цю інформацію, щоби перевершити якість класифікації, яку можливо було би отримати, відкинувши немічені дані й виконавши кероване навчання, або відкинувши мітки й виконавши некероване навчання.

Напівкероване навчання може стосуватися або трансдуктивного^[en], або індуктивного навчання.^[5] Мета трансдуктивного навчання полягає у висновуванні правильних міток лише для наданих немічених даних $x_{l+1},\dots ,x_{l+u}$ . Метою індуктивного навчання є висновування правильного відображення $X$ в $Y$ .

Непотрібно (і, відповідно до принципу Вапника, необачно) виконувати трансдуктивне навчання шляхом висновування правила класифікації над усім простором входу; проте на практиці алгоритми, формально розроблені для трансдукції або індукції, часто використовують як взаємозамінні.

Remove ads

Припущення

Узагальнити

Перспектива

Щоб отримати з немічених даних хоч якусь користь, має існувати певний зв'язок із розподілом в їхній основі. Алгоритми напівкерованого навчання використовують принаймні одне з наступних припущень:^[6]

Припущення неперервності/гладкості

Точки, близькі одна до одної, швидше за все, мають спільну мітку. Це також зазвичай припускають у керованім навчанні, воно віддає перевагу геометрично простим межам рішень^[en]. У випадку напівкерованого навчання припущення про плавність додатково дає перевагу межам рішень в областях із низькою густиною, тож менше точок знаходяться близько одна до одної, але в різних класах.^{[джерело?]}

Припущення кластерованості

Дані схильні утворювати окремі кластери, й точки в одному кластері, швидше за все, мають спільну мітку (хоча дані, які мають спільну мітку, можуть поширюватися на декілька кластерів). Це особливий випадок припущення про плавність, він дає початок навчанню ознак за допомогою алгоритмів кластерування.

Многовидне припущення

Докладніше: Гіпотеза многовидів^[en]

Дані приблизно лежать на многовиді набагато меншої розмірності, ніж простір входу. В цьому випадку навчання цього многовида з використанням як мічених, так і немічених даних може уникати прокляття розмірності. Тоді навчання можливо здійснювати з використанням відстаней і густин, визначених на цьому многовиді.

Многовидне припущення практичне, коли багатовимірні дані породжуються деяким процесом, який може бути важко змоделювати безпосередньо, але який має лише кілька ступенів вільності. Наприклад, людський голос контролюється декількома голосовими зв'я́зками,^[7] а зображення різних виразів обличчя — кількома м'язами. У цих випадках краще розглядати відстані та гладкість у природному просторі породжувальної задачі, а не в просторі всіх можливих акустичних хвиль чи зображень відповідно.

Історія

Евристичний підхід самотренування (англ. self-training, відомий також як самонавчання, англ. self-learning, та самомічення, англ. self-labeling) — історично найстаріший підхід напівкерованого навчання,^[6] приклади застосування якого починаються з 1960-х років.^[8]

Концепцію трансдуктивного навчання офіційно представив Володимир Вапник у 1970-х роках.^[9] Інтерес до індуктивного навчання з використанням породжувальних моделей також виник у 1970-х роках. Імовірно приблизно коректне навчання для напівкерованого навчання суміші гауссіанів продемонстровали Рацабі та Венкатеш 1995 року.^[10]

Remove ads

Методи

Узагальнити

Перспектива

Породжувальні моделі

Породжувальні підходи до статистичного навчання спочатку спрямовані на оцінку $p(x|y)$ ,^{[сумнівно — обговорити]} розподілу точок даних, що належать кожному класові. Ймовірність $p(y|x)$ що дана точка $x$ має мітку $y$ відтак пропорційна $p(x|y)p(y)$ за правилом Баєса. Напівкероване навчання з породжувальними моделями можливо розглядати або як розширення керованого навчання (класифікування плюс інформація про $p(x)$ ), або як розширення некерованого навчання (кластерування плюс трохи міток).

Породжувальні моделі виходять із припущення, що розподіли мають певний вигляд $p(x|y,\theta )$ , параметрований вектором $\theta$ . Якщо ці припущення неправильні, немічені дані можуть насправді знизити точність розв'язку порівняно з тим, що було б отримано лише з мічених даних.^[11] Проте якщо вони правильні, то немічені дані обов'язково покращать продуктивність.^[10]

Немічені дані розподілено відповідно до суміші розподілів окремих класів. Щоби навчитися цієї суміші розподілів із немічених даних, вона повинна бути ідентифіковною, тобто різні параметри повинні давати різні сумарні розподіли. Гауссові сумішеві розподіли ідентифіковні, і їх часто використовують для породжувальних моделей.

Параметрований спільний розподіл за допомогою ланцюгового правила можливо записати як $p(x,y|\theta )=p(y|\theta )p(x|y,\theta )$ . Кожен вектор параметрів $\theta$ пов'язується з функцією рішення $f_{\theta }(x)={\underset {y}{\operatorname {argmax} }}\ p(y|x,\theta )$ . Потім цей параметр обирають на основі допасованості як до мічених, так і до немічених даних, зважених $\lambda$ :

{\underset {\Theta }{\operatorname {argmax} }}\left(\log p(\{x_{i},y_{i}\}_{i=1}^{l}|\theta )+\lambda \log p(\{x_{i}\}_{i=l+1}^{l+u}|\theta )\right)

^[12]

Низькогустинне розділення

Інший важливий клас методів намагається встановлювати межі в областях із невеликою кількістю точок даних (мічених чи немічених). Один із найчастіше вживаних алгоритмів — трансдуктивна опорновекторна машина, або ТОВМ (англ. TSVM, яку, незважаючи на її назву, можна використовувати й для індуктивного навчання). У той час як опорновекторні машини для керованого навчання шукають межу рішення з максимальним розділенням над міченими даними, мета ТОВМ — мічення немічених даних так, щоби межа рішення мала максимальне розділення над усіма даними. На додачу до стандартних заві́сних втрат $(1-yf(x))_{+}$ для мічених даних запроваджують функцію втрат $(1-|f(x)|)_{+}$ над неміченими даними, покладаючи $y=\operatorname {sign} {f(x)}$ . ТОВМ відтак обирає $f^{*}(x)=h^{*}(x)+b$ із гільбертового простору з відтворювальним ядром^[en] ${\mathcal {H}}$ мінімізуванням регуляризованого емпіричного ризику:

f^{*}={\underset {f}{\operatorname {argmin} }}\left(\displaystyle \sum _{i=1}^{l}(1-y_{i}f(x_{i}))_{+}+\lambda _{1}\|h\|_{\mathcal {H}}^{2}+\lambda _{2}\sum _{i=l+1}^{l+u}(1-|f(x_{i})|)_{+}\right)

Точне розв'язання непіддатливе через неопуклість члена $(1-|f(x)|)_{+}$ , тож дослідження зосереджуються на корисних наближеннях.^[12]

До інших підходів, які втілюють низькогустинне розділення (англ. low-density separation), належать моделі гауссових процесів, регуляризація інформації, та мінімізація ентропії (окремим випадком якої є ТОВМ).

Лапласова регуляризація

До лапласової регулярізації (англ. laplacian regularization) історично підходили через матрицю Лапласа (Кірхгофа). Методи на основі графів для напівкерованого навчання використовують графове подання даних із вузлами для кожного з мічених і немічених прикладів. Граф можна побудувати, використовуючи знання предметної області, або схожість прикладів; двома поширеними методами є з'єднувати кожну точку даних з її $k$ найближчими сусідами, або з прикладами на деякій відстані $\epsilon$ . Вагу $W_{ij}$ ребра між $x_{i}$ та $x_{j}$ відтак встановлюють в $e^{\frac {-\|x_{i}-x_{j}\|^{2}}{\epsilon }}$ .

В системі многовидної регуляризації^[en]^[13]^[14] цей граф слугує посередником для многовида. До стандартної задачі регуляризації Тихонова додають додатковий член, щоби забезпечити гладкість розв'язку відносно многовиду (у внутрішньому просторі задачі), а також відносно навколишнього простору входу. Задача мінімізації набуває вигляду

{\underset {f\in {\mathcal {H}}}{\operatorname {argmin} }}\left({\frac {1}{l}}\displaystyle \sum _{i=1}^{l}V(f(x_{i}),y_{i})+\lambda _{A}\|f\|_{\mathcal {H}}^{2}+\lambda _{I}\int _{\mathcal {M}}\|\nabla _{\mathcal {M}}f(x)\|^{2}dp(x)\right)

^[12]

де ${\mathcal {H}}$ — гільбертів простір із відтворювальним ядром, а ${\mathcal {M}}$ — многовид, на якому лежать дані. Параметри регуляризації $\lambda _{A}$ та $\lambda _{I}$ контролюють гладкість у навколишньому (англ. ambient) та внутрішньому (англ. intrinsic) просторах відповідно. Цей граф використовують для наближення члена внутрішньої регуляризації. Визначивши матрицю Лапласа (Кірхгофа) $L=D-W$ , де $D_{ii}=\sum _{j=1}^{l+u}W_{ij}$ , а $\mathbf {f}$ це вектор $[f(x_{1})\dots f(x_{l+u})]$ , ми отримуємо

\mathbf {f} ^{T}L\mathbf {f} =\displaystyle \sum _{i,j=1}^{l+u}W_{ij}(f_{i}-f_{j})^{2}\approx \int _{\mathcal {M}}\|\nabla _{\mathcal {M}}f(x)\|^{2}dp(x)

Графовий підхід до лапласової регулярізації пов'язують із методом скінченних різниць.^{[прояснити]}^{[джерело?]}

Матрицю Лапласа (Кірхгофа) також можливо використовувати для розширення алгоритмів керованого навчання: регуляризованих найменших квадратів^[en] та опорновекторних машин (ОВМ) до напівкерованих версій лапласових регуляризованих найменших квадратів (англ. Laplacian regularized least squares) та лапласових ОВМ (англ. Laplacian SVM).

Евристичні підходи

Деякі методи напівкерованого навчання за своєю суттю не орієнтовані на навчання як із немічених, так і з мічених даних, а натомість використовують немічені дані в рамках керованого навчання. Наприклад, мічені та немічені приклади $x_{1},\dots ,x_{l+u}$ на некерованому першому кроці можуть інформувати вибір подання, міри відстані, або ядра для даних. Потім продовжується кероване навчання лише з мічених прикладів. У цьому ключі деякі методи навчаються низьковимірного подання, використовуючи керовані дані, а потім застосовують до навченого подання або низькогустинне розділення, або графові методи.^[15]^[16] Ітеративне вдосконалення подання з наступним виконанням напівкерованого навчання на цьому поданні можуть ще далі підвищувати продуктивність.

Самотренування (англ. self-training) — це обгортковий метод напівкерованого навчання.^[17] Спершу тренують алгоритм керованого навчання лише на мічених даних. Відтак цей класифікатор застосовують до немічених даних для породження більшої кількості мічених прикладів як даних входу для алгоритму керованого навчання. Зазвичай на кожному кроці додають лише ті мітки, в яких класифікатор найупевненіший.^[18]

Співтренування^[en] (англ. co-training) — це розширення самотренування, в якому декілька класифікаторів тренуються на різних (в ідеалі неперетинних) наборах ознак і породжують мічені приклади один для одного.^[19]

Remove ads

У людському пізнанні

Реакції людей на формальні задачі напівкерованого навчання дали мінливі висновки щодо ступеню впливу немічених даних.^[20] Природніші задачі навчання також можна розглядати як зразки напівкерованого навчання. Значна частина людського навчання понять^[en] передбачає невелику кількість прямих інструкцій (як-то позначення об'єктів батьками у дитинстві) у поєднанні з великою кількістю неміченого досвіду (як-то спостереження за об'єктами без їхніх назв чи кількостей, або принаймні без зворотного зв'язку).

Людські немовлята чутливі до структури немічених природних категорій, таких як зображення собак чи котів, та чоловічих чи жіночих облич.^[21] Немовлята та діти враховують не лише немічені приклади, але й процес вибирання зразків, у результаті якого виникають мічені приклади.^[22]^[23]

Remove ads

Див. також

ПН-навчання^[en]

Примітки

Loading content...

Джерела

Loading content...

Посилання

Loading content...

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads