Топ питань
Часова шкала
Чат
Перспективи
Некероване навчання
один зі способів машинного навчання, за которого випробовувана система спонтанно навчається виконувати поставлене завдання без втручанн З Вікіпедії, вільної енциклопедії
Remove ads
Некеро́ване навча́ння,[1][2][3][4] неконтрольо́ване навча́ння,[5][6] навча́ння без на́гляду,[7] навча́ння без учи́теля[8] (англ. unsupervised learning) — це парадигма машинного навчання, в якій, на відміну від керованого та напівкерованого навчання, алгоритми навчаються образів виключно з немічених даних.
Нейронні мережі
Узагальнити
Перспектива
Завдання й методи

Завдання нейронних мереж часто класифікують як розрізнювальні (англ. discriminative, розпізнавання) та породжувальні (англ. generative, уявляння). Часто, але не завжди, розрізнювальні завдання використовують керовані методи, а породжувальні — некеровані (див. діаграму Венна); проте цей поділ дуже розмитий. Наприклад, розпізнавання об'єктів надає перевагу керованому навчанню, але некероване навчання також може кластерувати об'єкти в групи. Крім того, в міру прогресу деякі завдання застосовують обидва методи, а деякі переходять від одного до іншого. Наприклад, розпізнавання зображень розпочалося як сильно кероване, але стало гібридним, застосувавши некероване попереднє навчання, а потім знову перейшло до керованості з появою виключення, випрямляча та адаптивних темпів навчання.
Тренування
Під час фази тренування некерована мережа намагається імітувати дані, які їй дають, і використовує похибку у своєму імітованому виході, щоб виправляти себе (себто виправляти свої ваги та зміщення). Іноді похибку виражають як низьку ймовірність видавання помилкового виходу, або це може бути виражено як нестабільний високоенергетичний стан у мережі.
На відміну до переважного використання в керованих методах зворотного поширення, некероване навчання також використовує й інші методи, зокрема: гопфілдове правило навчання, больцманове правило навчання, контрастове розходження, неспання — сон[en], варіаційне висновування[en], максимальну правдоподібність, максимальне апостеріорне, ґіббзове вибирання[en] та зворотне поширення похибок відтворення або перепараметрування прихованого стану. Докладніше див. таблицю нижче.
Енергія
Функція енергії (англ. energy function) — це макроскопічна міра стану збудження мережі. У машинах Больцмана вона виконує роль функції витрат (англ. cost function). Ця аналогія з фізикою натхнена аналізом макроскопічної енергії газу Людвіга Больцмана на основі мікроскопічних імовірностей руху частинок. , де k — стала Больцмана, а T — температура. У мережі ОМБ цим відношенням є ,[9] де та пробігають всі можливі схеми (англ. pattern) збудження, а . Якщо точніше, , де — схема збудження всіх нейронів (видимих і прихованих). Тому ранні нейронні мережі носять назву «машина Больцмана» (англ. Boltzmann machine). Пол Смоленський називає гармонією (англ. Harmony). Мережа шукає низьку енергію, що є високою гармонією.
Мережі
У цій таблиці наведено схеми зв'язності різних некерованих мереж, деталі яких буде наведено в розділі Порівняння мереж. Кола — це нейрони, а ребра між ними — це ваги з'єднань. Зі зміною конструкції мереж функції додаються, щоби відкрити нові можливості, або усуваються, щоби пришвидшити навчання. Наприклад, нейрони змінюються між детермінованими (Гопфілда) та стохастичними (Больцмана), щоби забезпечити робастний вихід, ваги усуваються в межах шару (ОМБ), щоби прискорити навчання, або з'єднанням дозволяється стати асиметричними (Гельмгольца).
З-поміж людей, чиїми іменами названо ці мережі, безпосередньо з нейронними мережами працював лише Гопфілд. Больцман та Гельмгольц були раніше за створення штучних нейронних мереж, але їхні роботи в галузі фізики та фізіології надихнули використані аналітичні методи.
Історія
1969 рік | Книга «Перцептрони[en]» Мінського та Пейперта показує, що перцептрон без прихованих шарів неспроможний на виключне «або» |
1970-ті роки | (дати приблизні) Перша зима ШІ |
1974 рік | Магнітна модель Ізінга запропонована В. А. Літлом[de] для пізнавання |
1980 рік | Фукусіма представляє неокогнітрон, який пізніше назвали згортковою нейронною мережею. Його переважно використовують у керованім навчанні, але він заслуговує на згадку й тут. |
1982 рік | Видозміну Ізінга, мережу Гопфілда, описано Джоном Гопфілдом як асоціативну пам'ять і класифікатори. |
1983 рік | Видозміну Ізінга, машину Больцмана з імовірнісними нейронами, описано Гінтоном і Сейновським[en] по слідах праці Шерінгтона та Кіркпатріка 1975 року. |
1986 рік | Пол Смоленський[en] публікує «Теорію гармонії», яка є ОМБ з практично тією ж больцмановою функцією енергії. Смоленський не надав практичної схеми тренування. Гінтон зробив це в середині 2000-х. |
1995 рік | Шмідхубер представляє нейрон ДКЧП для мов. |
1995 рік | Даян та Гінтон представляють машину Гельмгольца |
1995-2005 роки | (дати приблизні) Дуга зима ШІ |
2013 рік | Кінгма, Резенде й інші представили варіаційні автокодувальники як баєсову графову ймовірнісну мережу з нейронними мережами як складовими. |
Конкретні мережі
Тут ми висвітлюємо деякі характеристики обраних мереж. Подробиці щодо кожної наведено в порівняльній таблиці нижче.
- Мережа Гопфілда
- Мережі Гопфілда надихнув феромагнетизм. Нейрон відповідає домену заліза з бінарними магнітними моментами Вгору та Донизу, а з'єднання нейронів відповідають впливам доменів один на одного. Симетричні з’єднання уможливлюють формулювання глобальної енергії. Під час висновування мережа уточнює кожен стан використовуючи стандартну функцію кроку збудження. Симетричні ваги та правильні функції енергії гарантують збіжність до стабільного візерунку збудження. Асиметричні ваги аналізувати складно. Мережі Гопфілда використовують як асоціативну пам’ять.
- Машина Больцмана
- Це стохастичні мережі Гопфілда. Значення їхнього стану вибирається з цієї функції густини ймовірності таким чином: припустімо, що бінарний нейрон спрацьовує з імовірністю Бернуллі p(1) = 1/3 і зупиняється з p(0) = 2/3. З цього роблять вибірку, беручи рівномірно розподілене випадкове число y та підставляючи його до оберненої функції розподілу ймовірності, що в даному випадку є відтинково сталою функцією з порогом 2/3. Обернена функція = { 0 якщо x <= 2/3, 1 якщо x > 2/3 }.
- Сигмоїдна мережа переконань
- Представлена Редфордом Нілом 1992 року, ця мережа застосовує ідеї ймовірнісних графових моделей до нейронних мереж. Ключова відмінність полягає в тому, що вузли в графових моделях мають заздалегідь призначені значення, тоді як ознаки нейронів мережі переконань визначаються після тренування. Мережа являє собою розріджено зв’язаний орієнтований ациклічний граф, що складається з бінарних стохастичних нейронів. Правило навчання походить від максимальної правдоподібності на p(X): Δwij sj * (si - pi), де pi = 1 / ( 1 + eзважені входи до нейрону i). sj це збудження з незміщеної вибірки апостеріорного розподілу, і це проблематично через проблему редукції причини (англ. Explaining Away), порушену Джудою Перлом. Варіаційні баєсові методи[en] використовують сурогатне апостеріорне й відверто ігнорують цю складність.
- Глибока мережа переконань
- Ця мережа, представлена Гінтоном, є гібридом ОМБ та сигмоїдної мережі переконань. Верхні 2 шари — це ОМБ, а другий шар униз утворює сигмоїдну мережу переконань. Її тренують методом складеної ОМБ, а потім відкидають ваги розпізнавання під верхньою ОМБ. Станом на 2009 рік оптимальною глибиною видавалися 3—4 шари.[10]
- Машина Гельмгольца
- Це перші джерела натхнення варіаційних автокодувальників. Це 2 мережі, об’єднані в одну: прямі ваги забезпечують розпізнавання, а зворотні втілюють уявляння. Можливо, це перша мережа, яка робила і те, й інше. Гельмгольц не працював у сфері машинного навчання, але він надихнув думку про «механізм статистичного висновування, функцією якого є висновувати ймовірні причини сенсо́рного входу».[11] Стохастичний бінарний нейрон видає ймовірність того, що його стан дорівнює 0 або 1. Вхідні дані зазвичай не вважають шаром, але в породжувальному режимі машини Гельмгольца шар даних отримує вхідні дані від середнього шару й має для цієї мети окремі ваги, тож його вважають шаром. Отже, ця мережа має 3 шари.
- Варіаційний автокодувальник
- Вони натхнені машинами Гельмгольца та поєднують імовірнісну мережу з нейронними мережами. Автокодувальник — це 3-шарова мережа асоціативної пам'яті, де середній шар має бути деяким внутрішнім поданням образів входу. Нейронна мережа кодувальника — це розподіл імовірностей qφ(z коли x), а мережа декодувальника — pθ(x коли z). Ваги називають фі та тета, а не W та V, як у Гельмгольца, — косметична відмінність. Ці 2 мережі тут можуть бути повністю з’єднаними, або використовувати іншу нейромережну схему.
Порівняння мереж
Геббове навчання, ТАР, СОК
Класичним прикладом некерованого навчання у дослідженні нейронних мереж є принцип Дональда Гебба, а саме, що нейрони, які спрацьовують разом, з'єднуються докупи.[12] У геббовім навчанні з'єднання зміцнюється незалежно від помилки, і є виключно функцією збігу потенціалів дії двох нейронів.[13] Подібна версія, яка змінює синаптичні ваги, враховує час між потенціалами дії (спайкова час-залежна пластичність[en],[14][15] або англ. STDP). За припущеннями, геббове навчання лежить в основі низки когнітивних функцій, таких як розпізнавання образів та експериментальне навчання.
Серед нейромережних моделей, в алгоритмах некерованого навчання широко використовують самоорганізаційну карту (СОК, англ. SOM) та теорію адаптивного резонансу[en] (ТАР, англ. ART). СОК — це топографічне впорядкування, в якому сусідні місця на карті подають входи з подібними властивостями. Модель ТАР дозволяє кількості кластерів змінюватися з розміром задачі та дозволяє користувачеві контролювати ступінь подібності між членами одних і тих же кластерів за допомогою визначаної користувачем сталої, званої параметром пильності (англ. vigilance parameter). Мережі ТАР використовують для багатьох завдань розпізнавання образів, таких як автоматичне розпізнавання цілей та обробка сейсмічних сигналів.[16]
Remove ads
Імовірнісні методи
Узагальнити
Перспектива
Двома основними методами, які використовують у некерованім навчанні, є метод головних компонент і кластерний аналіз. Кластерний аналіз використовують у некерованім навчанні для групування, або сегментування, наборів даних зі спільними атрибутами з метою екстраполювання алгоритмічних зв'язків.[17] Кластерний аналіз — це розділ машинного навчання, який групує дані, які не було мічено[en], класифіковано чи категоризовано. Замість того, щоби реагувати на зворотний зв'язок, кластерний аналіз встановлює спільні риси в даних і реагує залежно від наявності або відсутності таких спільних рис у кожному новому примірнику даних. Цей підхід допомагає виявляти аномальні точки даних, які не допасовуються до жодної з груп.
Основним застосуванням некерованого навчання є оцінювання густини у статистиці,[18] хоча некероване навчання охоплює багато інших областей, включно з узагальнюванням та пояснюванням ознак даних. Його можливо порівняти з керованим навчанням, сказавши, що тоді як кероване навчання має на меті виснувати умовний розподіл імовірності, обумовлений міткою вхідних даних; некероване навчання має на меті виснувати апріорний розподіл імовірності.
Підходи
До деяких із найпоширеніших алгоритмів, які використовують у некерованім навчанні, належать: (1) кластерування, (2) виявляння аномалій, (3) підходи до навчання моделей з латентними змінними. Кожен підхід використовує декілька методів, а саме:
- До методів кластерування належать: ієрархічне кластерування,[19] k-середні,[20] сумішеві моделі[en], алгоритми DBSCAN та OPTICS
- До методів виявляння аномалій належать коефіцієнт локального відхилення та ізоляційний ліс[en]
- Підходи до навчання моделей з латентними змінними[en] такі як алгоритм очікування-максимізації (англ. EM), метод моментів і методи сліпого виокремлювання сигналу[en] (метод головних компонент, аналіз незалежних компонент[en], розклад невід'ємних матриць, сингулярний розклад матриць)
Метод моментів
Одним зі статистичних підходів до некерованого навчання є метод моментів. У ньому невідомі (цільові) параметри в моделі пов'язані з моментами однієї або кількох випадкових величин, і відтак, ці невідомі параметри можливо оцінювати, виходячи з цих моментів. Моменти зазвичай оцінюють з вибірок емпірично. Основними моментами є моменти першого та другого порядків. Для випадкового вектора моментом першого порядку є вектор середнього значення, а моментом другого порядку є коваріаційна матриця (коли середнє нульове). Моменти вищих порядків зазвичай подають за допомогою тензорів, які є узагальненням матриць до вищих порядків як багатовимірних масивів.
Зокрема, показано ефективність методу моментів у навчанні параметрів моделей з латентними змінними[en]. Це статистичні моделі, де на додачу до спостережуваних змінних також існує набір латентних змінних, що не спостерігаються. Дуже практичним прикладом моделей з латентними змінними у машинному навчанні є тематичне моделювання, яке є статистичною моделлю для породжування слів (спостережуваних змінних) у документі на основі теми (латентної змінної) документа. У тематичному моделюванні слова в документі породжуються відповідно до відмінних статистичних параметрів, коли змінюється тема документа. Показано, що метод моментів (методики тензорного розкладу) дозволяє послідовно отримувати параметри великого класу моделей з латентними змінними за деяких припущень.[21]
Алгоритм очікування-максимізації (англ. EM) також є одним із найпрактичніших методів навчання моделей з латентними змінними. Проте він може застрягати в локальних оптимумах, і немає гарантії, що алгоритм збігатиметься до справжніх невідомих параметрів моделі. На відміну від нього, для методу моментів глобальна збіжність за певних умов гарантована.
Remove ads
Див. також
Примітки
Література
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads