Топ питань
Часова шкала
Чат
Перспективи
Глибока мережа переконань
З Вікіпедії, вільної енциклопедії
Remove ads
У машинному навчанні глибо́ка мере́жа перекона́нь[1] (ГМП, англ. deep belief network, DBN, також іноді глиби́нна мере́жа перекона́нь) — це породжувальна графова модель або, інакше, клас глибоких нейронних мереж, що складено з кількох шарів латентних змінних («прихованих вузлів»), зі з'єднаннями між шарами, але не між вузлами всередині кожного шару.[2]

При тренуванні на наборі прикладів без керування ГМП може навчатися ймовірнісно відбудовувати свої входи. Шари тоді діють як виявлячі ознак.[2] Після цього етапу навчання ГМП можливо тренувати далі з керуванням для виконання класифікування.[3]
ГМП можливо розглядати як композицію простих некерованих мереж, таких як обмежені машини Больцмана (ОМБ)[2] або автокодувальники,[4] в якій прихований шар кожної підмережі слугує видимим шаром для наступної. ОМБ — це неорієнтована породжувальна модель на основі енергії з «видимим» шаром входу та прихованим шаром і зв'язками між шарами, але не всередині них. Така композиція веде до швидкої пошарової процедури некерованого тренування, де контрастове розходження застосовують по черзі до кожної підмережі, починаючи з «найнижчої» пари шарів (найнижчий видимий шар — це тренувальний набір).
Спостереження[3] щодо того, що ГМП можливо тренувати жадібно, по одному шару за раз, привело до створення одного з перших дієвих алгоритмів глибокого навчання.[5]:6 Загалом існує багато привабливих втілень та використань ГМП у реальних застосуваннях та сценаріях (наприклад, електроенцефалографії,[6] пошуку нових ліків[en][7][8][9]).
Remove ads
Тренування
Узагальнити
Перспектива

Метод тренування ОМБ, запропонований Джефрі Гінтоном для використання в тренуванні моделей «добуток експертів[en]», називають контрастовим розходженням (КР, англ. contrastive divergence, CD).[10] КР забезпечує наближення методу максимальної правдоподібності, застосовувати який для навчання ваг було би ідеально.[11][12] Під час тренування однієї ОМБ уточнювання ваг виконують градієнтним спуском за таким рівнянням:
де — ймовірність видимого вектора, задана як . це статистична сума[en] (яку використовують для нормування), а — функція енергії, приписаної станові мережі. Нижча енергія вказує на те, що мережа має «бажанішу» конфігурацію. Градієнт має простий вигляд , де подають усереднення відносно розподілу . Проблема виникає у вибиранні , оскільки воно вимагає розширеного навперемінного ґіббзового вибирання[en]. КР замінює цей крок виконанням альтернативного ґіббзового вибирання для кроків (значення працюють добре). Після кроків дані вибирають, і цю вибірку використовують замість . Процедура КР працює наступним чином:[11]
- Встановити видимі вузли у значення тренувального вектора.
- Уточнити приховані вузли паралельним чином, враховуючи видимі вузли: . — сигмоїдна функція, а — зміщення .
- Уточнити видимі вузли паралельним чином, враховуючи приховані вузли: . — зміщення . Це називають етапом «відбудовування».
- Переуточнити приховані вузли паралельним чином, враховуючи відбудовані видимі вузли, використовуючи те саме рівняння, що й у кроці 2.
- Виконати уточнення ваг: .
Щойно ОМБ натреновано, поверх неї «накладають» іншу ОМБ, беручи її вхід з останнього натренованого рівня. Новий видимий шар встановлюють у значення тренувального вектора, а значення для вузлів у вже навчених шарах встановлюють з використанням поточних ваг і зміщень. Потім нову ОМБ тренують за описаною вище процедурою. Весь цей процес повторюють, доки не буде досягнуто бажаного критерію зупинки.[13]
Хоч наближення КР до максимальної правдоподібності й грубе (не слідує градієнтові жодної функції), воно емпірично ефективне.[11]
Remove ads
Див. також
- Складена обмежена машина Больцмана
- Баєсова мережа
- Глибоке навчання
- Згорткова глибока мережа переконань[en]
- Модель на основі енергії[en]
Примітки
Посилання
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads