Навчання з підкріпленням людським зворотним зв'язком

У машинному навчанні підкріплене навчання на основі людського зворотного зв'язку (RLHF) — це техніка, що використовується для вирівнювання інтелектуального агента з людськими уподобаннями. Вона передбачає навчання моделі винагороди для відображення цих уподобань, яку потім можна використовувати для навчання інших моделей через підкріплене навчання.

У класичному підкріпленому навчанні метою інтелектуального агента є вивчення функції, що визначає його поведінку, званої політикою. Ця функція ітеративно оновлюється для максимізації винагороди на основі результатів виконання завдання агентом.^[1] Однак явно визначити функцію винагороди, яка б точно відображала людські уподобання, складно. Тому RLHF прагне навчити «модель винагороди» безпосередньо на основі людського зворотного зв'язку.^[2] Модель винагороди спочатку навчається у режимі з учителем, щоб передбачати, чи є відповідь на певний запит доброю (висока винагорода) чи поганою (низька винагорода) на основі даних ранжування, зібраних від людських анотаторів. Потім ця модель використовується як функція винагороди для покращення політики агента через алгоритм оптимізації, наприклад, proximal policy optimization.^[3] ^[4] ^[5]

RLHF має застосування в різних галузях машинного навчання, зокрема у завданнях обробки природної мови — таких як текстова сумаризація й розмовні агенти, у комп'ютерному зорі — наприклад, у моделях текст-у-зображення, а також у створенні ботів для відеоігор. Хоч RLHF є ефективним методом навчання моделей для кращої відповідності людським уподобанням, він стикається з труднощами через спосіб збору даних про людські переваги. Хоча RLHF не потребує величезних обсягів даних для підвищення ефективності, отримання високоякісних даних уподобань залишається дорогим процесом. Більше того, якщо дані зібрані недбало або з нерепрезентативної вибірки, отримана модель може проявляти небажані упередження.

RLHF не був першою успішною методикою використання людського зворотного зв'язку для підкріпленого навчання, але є однією з найпоширеніших. Основи RLHF були закладені як спроба створити загальний алгоритм навчання на основі практично досяжної кількості людського зворотного зв'язку.^[6]^[3] Сучасний алгоритм було представлено компанією OpenAI у статті про покращення генерації тексту та його узагальнення на основі людського зворотного зв'язку, і він набув популярності після повторного використання цього ж методу у статті про InstructGPT.^[2]^[7]^[8] RLHF також продемонстрував покращення робастності агентів підкріпленого навчання та їхньої здатності до дослідження, що призводить до процесу оптимізації, краще пристосованого до роботи з невизначеністю та ефективнішого вивчення середовища для пошуку максимальної винагороди.^[9]

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

Навчання з підкріпленням людським зворотним зв'язком

Збір людського зворотного зв'язку

Застосування

Навчання

Модель винагороди

Політика

Проксимальна оптимізація політики

Змішування градієнтів попереднього навчання

Обмеження

Альтернативи

Підкріплене навчання зі зворотним зв'язком від ШІ

Алгоритми прямого вирівнювання

Пряме оптимізування переваг

Оптимізація ідентичних переваг

Оптимізація за Канеманом — Тверскі

Примітки

Див. також

Додаткова література

Wikiwand - on