Топ питань
Часова шкала
Чат
Перспективи

Навчання з підкріпленням людським зворотним зв'язком

З Вікіпедії, вільної енциклопедії

Remove ads

У машинному навчанні підкріплене навчання на основі людського зворотного зв'язку (RLHF) — це техніка, що використовується для вирівнювання інтелектуального агента з людськими уподобаннями. Вона передбачає навчання моделі винагороди для відображення цих уподобань, яку потім можна використовувати для навчання інших моделей через підкріплене навчання.

У класичному підкріпленому навчанні метою інтелектуального агента є вивчення функції, що визначає його поведінку, званої політикою. Ця функція ітеративно оновлюється для максимізації винагороди на основі результатів виконання завдання агентом.[1] Однак явно визначити функцію винагороди, яка б точно відображала людські уподобання, складно. Тому RLHF прагне навчити «модель винагороди» безпосередньо на основі людського зворотного зв'язку.[2] Модель винагороди спочатку навчається у режимі з учителем, щоб передбачати, чи є відповідь на певний запит доброю (висока винагорода) чи поганою (низька винагорода) на основі даних ранжування, зібраних від людських анотаторів. Потім ця модель використовується як функція винагороди для покращення політики агента через алгоритм оптимізації, наприклад, proximal policy optimization.[3] [4] [5]

RLHF має застосування в різних галузях машинного навчання, зокрема у завданнях обробки природної мови — таких як текстова сумаризація й розмовні агенти, у комп'ютерному зорі — наприклад, у моделях текст-у-зображення, а також у створенні ботів для відеоігор. Хоч RLHF є ефективним методом навчання моделей для кращої відповідності людським уподобанням, він стикається з труднощами через спосіб збору даних про людські переваги. Хоча RLHF не потребує величезних обсягів даних для підвищення ефективності, отримання високоякісних даних уподобань залишається дорогим процесом. Більше того, якщо дані зібрані недбало або з нерепрезентативної вибірки, отримана модель може проявляти небажані упередження.

RLHF не був першою успішною методикою використання людського зворотного зв'язку для підкріпленого навчання, але є однією з найпоширеніших. Основи RLHF були закладені як спроба створити загальний алгоритм навчання на основі практично досяжної кількості людського зворотного зв'язку.[6][3] Сучасний алгоритм було представлено компанією OpenAI у статті про покращення генерації тексту та його узагальнення на основі людського зворотного зв'язку, і він набув популярності після повторного використання цього ж методу у статті про InstructGPT.[2][7][8] RLHF також продемонстрував покращення робастності агентів підкріпленого навчання та їхньої здатності до дослідження, що призводить до процесу оптимізації, краще пристосованого до роботи з невизначеністю та ефективнішого вивчення середовища для пошуку максимальної винагороди.[9]

Remove ads

Збір людського зворотного зв'язку

Узагальнити
Перспектива
Thumb
Загальний огляд підкріпленого навчання на основі людського зворотного зв'язку

Людський зворотний зв'язок зазвичай збирають, пропонуючи людям оцінювати або ранжувати приклади поведінки агента.[8][10][11] Такі ранжування потім можна використовувати для оцінювання результатів, наприклад, за допомогою системи рейтингу Ело, яка є алгоритмом для обчислення відносного рівня майстерності гравців у грі, ґрунтуючись лише на результатах партій.[3] Хоча ранжування результатів є найпоширенішою формою зворотного зв'язку, нещодавні дослідження розглядають інші підходи — такі як числовий зворотний зв'язок, зворотний зв'язок у природній мові або пропозиція безпосереднього редагування виходу моделі.[12]

Одним із початкових мотивів RLHF було те, що для його ефективності потрібно відносно мало даних для порівняння.[6] Було показано, що невелика кількість даних може давати результати, порівнянні з більшими обсягами. Крім того, збільшення кількості даних часто менш ефективне, ніж пропорційне збільшення розміру моделі винагороди.[7] Однак більший і різноманітніший набір даних може бути критично важливим для завдань, у яких необхідно уникнути упередження через частково репрезентативну групу анотаторів.[8]

Під час навчання на основі людського зворотного зв'язку через парне порівняння у межах моделі Бредлі — Террі — Люс (або моделі Плаккета — Люса для K-порівнянь, коли кількість варіантів перевищує два) було показано, що оцінка максимальної правдоподібності (ОМП) для лінійних функцій винагороди збігається, якщо дані порівнянь згенеровано в межах добре визначеної лінійної моделі. Це означає, що за певних умов, якщо модель навчається визначати, які варіанти люди віддають перевагу між парами (або групами) виборів, вона обов'язково покращуватиме свої прогнози майбутніх уподобань. Таке покращення очікується, якщо порівняння, на яких вона навчається, ґрунтуються на узгодженому й простому правилі.[13][14]

І моделі збору даних у офлайн-режимі, де модель навчається, взаємодіючи зі статичним набором даних і оновлює політику пакетно, і моделі онлайн-режиму, де модель безпосередньо взаємодіє з динамічним середовищем і оновлює політику негайно, були математично досліджені, що дозволило довести межі складності вибірки для RLHF у різних моделях зворотного зв'язку.[13][15]

В офлайн-моделі збору даних, коли метою є навчання політики, найбільш ефективною виявилася песимістична ОМП, яка враховує нижню довірчу межу як оцінку винагороди. Ба більше, коли це можливо, показано, що безпосередній розгляд K-порівнянь є асимптотично ефективнішим, ніж перетворення їх у парні порівняння для цілей прогнозування.[15][16][8]

В онлайн-сценарії, коли людський зворотний зв'язок збирається через парні порівняння за моделлю Бредлі — Террі — Люса, і метою є мінімізація жалю алгоритму (тобто різниці між продуктивністю й оптимальним агентом), показано, що оптимістична ОМП, яка враховує верхню довірчу межу як оцінку винагороди, може бути використана для створення зразково ефективних алгоритмів (тобто таких, що потребують відносно мало навчальних даних). Ключова проблема RLHF під час навчання на основі парних (або змагальних) порівнянь пов'язана з немарковською природою оптимальних політик. На відміну від простіших сценаріїв, де оптимальна стратегія не потребує пам'яті про попередні дії, у RLHF найкраща стратегія часто залежить від попередніх подій і рішень, що робить її по суті залежною від історії.[14]

Remove ads

Застосування

RLHF було застосовано в різних галузях обробки природної мови (NLP), таких як розмовні агенти, текстова сумаризація та розуміння природної мови.[17][7] Звичайне підкріплене навчання, у якому агенти навчаються на основі своїх дій за заздалегідь визначеною «функцією винагороди», важко застосувати до завдань NLP, оскільки винагороди часто складно визначити або виміряти, особливо коли йдеться про складні завдання, що охоплюють людські цінності чи уподобання.[6] RLHF може спрямовувати NLP-моделі, зокрема мовні моделі, надання відповідей, що відповідають людським уподобанням у подібних завданнях, заздалегідь відобразивши ці уподобання у моделі винагороди. У результаті отримується модель, здатна генерувати більш доречні відповіді та відхиляти недоречні чи небажані запити.[8][18] Серед помітних прикладів мовних моделей, навчених за допомогою RLHF, OpenAI ChatGPT (чатбот) (і його попередник InstructGPT (модель)[en]),[10][19][20] Sparrow (чатбот DeepMind)[en] від DeepMind,[21][22][23] Gemini (модель Google) від Google[24] та Claude (модель Anthropic) від Anthropic.[25]

У сфері комп'ютерного зору RLHF також використовувався для узгодження моделей текст-у-зображення[en]. Дослідження, які успішно застосували RLHF для цієї мети, відзначили, що використання регуляризації KL у RLHF, яка запобігає надто сильному відхиленню навченої політики від неузгодженої моделі, допомогло стабілізувати процес навчання, зменшуючи перенавчання на моделі винагороди. Фінальні зображення, отримані з моделей, навчених із використанням регуляризації KL, мали значно вищу якість, ніж у тих, що навчалися без неї.[26][27] Інші методи намагалися врахувати людський зворотний зв'язок більш безпосередньо — шляхом максимізації винагороди без застосування підкріпленого навчання, — однак визнавали, що підхід на основі RLHF, ймовірно, працюватиме краще завдяки онлайн-генерації вибірок під час оновлень, а також завдяки згаданій регуляризації KL, яка зменшує перенавчання на функції винагороди.[28]

RLHF спочатку застосовувався в інших сферах, таких як розробка відеоігрових ботів і завдання в симульованій робототехніці[en]. Наприклад, компанії OpenAI і DeepMind навчали агентів грати в ігри Atari на основі людських уподобань. У класичному підкріпленому навчанні таких ботів функція винагороди зазвичай корелює з тим, наскільки добре агент виконує завдання в грі — часто через метрики, як-от внутрішньоігровий рахунок. На відміну від цього, у RLHF людині періодично показують два відеокліпи поведінки агента в грі, і вона повинна вибрати, який із них «виглядає» кращим. Такий підхід дозволяє навчити агентів грати на конкурентному рівні, навіть не маючи доступу до рахунку. Фактично, було показано, що RLHF іноді може забезпечувати кращі результати, ніж класичне RL з використанням метрик рахунку, оскільки людські уподобання містять більше корисної інформації, ніж показники ефективності.[6][29] Агенти досягли високих результатів у багатьох протестованих середовищах, часто перевершуючи людей.[30]

Remove ads

Навчання

Узагальнити
Перспектива

У RLHF тренуються дві різні моделі: модель винагороди та політика підкріпленого навчання (RL). Модель винагороди навчається визначати, яка поведінка є бажаною, на основі людського зворотного зв'язку, тоді як політика керується моделлю винагороди для визначення дій агента. Обидві моделі зазвичай ініціалізуються попередньо натренованою авторегресійною мовною моделлю. Цю модель потім додатково навчають у контрольований спосіб на відносно невеликому наборі даних пар запитів до асистента та відповідей, написаних людськими анотаторами.

Модель винагороди

Модель винагороди зазвичай ініціалізується попередньо натренованою моделлю, що надає їй початкове розуміння мови та дозволяє зосередити подальше навчання безпосередньо на засвоєнні людських уподобань. Окрім використання для ініціалізації моделі винагороди та RL-політики, ця модель також використовується для створення даних, які порівнюватимуть анотатори.[8][7]

Потім модель винагороди навчають, замінюючи фінальний шар попередньої моделі випадково ініціалізованою регресійною головою. Ця зміна переводить модель із первісного завдання класифікації над словником до завдання виведення числа, яке відповідає оцінці будь-якого заданого запиту та відповіді. Модель тренується на даних порівнянь людських уподобань, зібраних раніше на етапі контрольованого навчання. Зокрема, її навчають мінімізувати таку функцію втрат перехресної ентропії:

де  — це кількість відповідей, ранжованих анотаторами,  — вихід моделі винагороди для запиту і відповіді ,  — обрана (краща) відповідь порівняно з , позначає сигмоїдну функцію, а  математичне сподівання.[8] Це можна розглядати як форму логістичної регресії, де модель прогнозує ймовірність того, що відповідь буде віддана перевага над .

Ця функція втрат фактично вимірює різницю між передбаченнями моделі винагороди та рішеннями, ухваленими людьми. Мета полягає в тому, щоб зробити оцінки моделі якомога ближчими до людських уподобань, мінімізуючи різницю, виміряну цим рівнянням. У випадку лише парних порівнянь , тому множник .[7] Загалом усі порівняння з кожного запиту використовуються для навчання як один пакет.[8]

Після навчання виходи моделі нормалізуються так, щоб еталонні відповіді мали середнє значення 0. Тобто, для кожної пари запитів і відповідей виконується:[7] , де середнє значення винагороди обчислюється по всьому навчальному набору даних і встановлюється як зсув (bias) у голові винагороди.

Політика

Подібно до моделі винагороди, політика людського зворотного зв'язку також ініціалізується з попередньо натренованої моделі.[7]

Ключовий момент полягає в тому, щоб розуміти генерацію тексту як гру, яку потрібно опанувати за допомогою RL. У підкріпленому навчанні політика — це функція, що відображає стан гри у дію. У RLHF «гра» — це процес відповіді на запити: запит є станом гри, а відповідь — дією. Це доволі тривіальна гра, оскільки кожна гра триває рівно один хід. Проте, формально це також гра, тож до неї можна застосовувати алгоритми RL.

Першим кроком у навчанні є контрольоване донавчання (контрольоване тонке налаштування[en], SFT). Цей етап не потребує моделі винагороди. Натомість попередньо натреновану модель навчають на наборі даних , який містить пари запитів і відповідей . Під час SFT модель навчається авторегресійно генерувати відповідь у відповідь на випадковий запит . Оригінальна стаття рекомендує виконувати SFT лише один епох, оскільки більше призводить до перенавчання.

Набір даних зазвичай створюється людськими анотаторами, які пишуть як запити, так і відповіді.

Другий етап використовує метод градієнта політики для роботи з моделлю винагороди. Він використовує набір даних , який містить запити, але не відповіді. Як і більшість методів градієнта політики, цей алгоритм має зовнішній цикл і два внутрішні:

  • Ініціалізувати політику як  — політику, отриману після SFT.
  • Повторювати багато кроків:
    • Ініціалізувати новий порожній набір даних .
    • Повторювати багато кроків:
      • Вибрати випадковий запит із .
      • Згенерувати відповідь за допомогою політики .
      • Обчислити сигнал винагороди з моделі винагороди .
      • Додати потрійку до .
    • Оновити за допомогою методу градієнта політики, щоб максимізувати цільову функцію:

Зверніть увагу, що еквівалентне , що означає «вибрати запит із , потім згенерувати відповідь із політики».

Цільова функція складається з двох частин. Перша частина — це просто очікувана винагорода , що є стандартною для будь-якого алгоритму підкріпленого навчання. Друга частина — це «штрафний термін», який містить дивергенцію Кульбака — Лейблера. Сила цього штрафного терміну визначається гіперпараметром .

Цей термін KL працює шляхом штрафування дивергенції Кульбака — Лейблера (міри статистичної відстані між розподілами) між моделлю, що донавчається, та початковою контрольованою моделлю. Обираючи відповідне значення , можна збалансувати навчання на нових даних і збереження корисної інформації з початкової моделі, підвищуючи здатність до узагальнення і запобігаючи занадто тісному пристосуванню до нових даних. Окрім запобігання тому, щоб нова модель генерувала результати надто відмінні від початкової, другою метою включення терміну KL є стимулювання моделі до виведення тексту з високою ентропією, аби запобігти колапсу мод[en], тобто звуженню до невеликої кількості шаблонних відповідей.[7]

Простими словами, цільова функція обчислює, наскільки добре відповіді політики узгоджуються з людським зворотним зв'язком. Політика генерує відповіді на запити, і кожна відповідь оцінюється як за тим, наскільки вона відповідає людським уподобанням (через модель винагороди), так і за тим, наскільки вона схожа на відповіді, які модель генерувала б природно. Мета — збалансувати покращення відповідності людським очікуванням і водночас зберегти різноманітність відповідей, не відхиляючись надто від базових знань моделі. Це допомагає моделі не лише надавати корисні та приємні для користувачів відповіді, а й підтримувати широкий світогляд, уникаючи надмірної вузькості чи повторень.

Проксимальна оптимізація політики

Докладніше: Policy gradient method#Proximal Policy Optimization

Функція політики зазвичай тренується за допомогою алгоритму проксимальної оптимізації політики[en] (PPO). Тобто параметр навчається шляхом підйому за градієнтом на «обрізаній» сурогатній функції.[8][7]

Класично алгоритм PPO використовує генералізовану оцінку переваги[en], що означає наявність додаткового «оцінювача цінності» , який оновлюється одночасно з політикою під час тренування PPO: . Оцінювач цінності використовується лише під час тренування.

PPO використовує градієнтний спуск на так званій «обрізаній сурогатній перевазі»:

де термін переваги визначається як . Тобто перевага обчислюється як різниця між винагородою (очікуваним результатом) і оцінкою цінності (очікуваним результатом за політикою). Це використовується для навчання політики шляхом градієнтного «підйому», зазвичай із використанням стандартного оптимізатора на основі моментуму, такого як оптимізатор Adam.

В оригінальній роботі оцінювач цінності ініціалізувався з натренованої моделі винагороди.[7] Оскільки PPO є алгоритмом актор-критик[en], оцінювач цінності оновлюється одночасно з політикою шляхом мінімізації квадратичної TD-помилки, яка в цьому випадку дорівнює квадрату терміну переваги:

яка мінімізується шляхом градієнтного «спуску». Можуть застосовуватися й інші методи, відмінні від квадратичної TD-помилки. Детальніше дивіться у статті актор-критик алгоритм[en].

Змішування градієнтів попереднього навчання

Третій термін зазвичай додається до цільової функції, щоб запобігти катастрофічному забуванню[en]. Наприклад, якщо модель навчається лише на клієнтському сервісі, вона може «забути» загальні знання, наприклад, із географії. Щоб цього уникнути, процес RLHF включає початкову цільову функцію мовного моделювання. Тобто деякі випадкові тексти вибираються з початкового набору даних попереднього навчання , і модель навчається максимізувати логарифм правдоподібності тексту . Підсумкова цільова функція записується як:

де визначає вагу цього терміну попереднього навчання.[8] Ця комбінована цільова функція називається PPO-ptx, де «ptx» означає «змішування градієнтів попереднього навчання[en]».[31] Її вперше застосували в статті про InstructGPT (модель)[en].[8]

У підсумку ця цільова функція визначає метод коригування політики RL, поєднуючи прагнення узгодження з людським зворотним зв'язком і збереження початкового розуміння мови моделлю.

Отже, повна форма цільової функції PPO-ptx виглядає так:

яка оптимізується шляхом градієнтного «підйому» на ній.

Remove ads

Обмеження

RLHF стикається з труднощами, пов'язаними зі збором людського зворотного зв'язку, навчанням моделі винагороди та оптимізацією політики.[32] Порівняно зі збором даних для таких технік, як неконтрольоване чи самоконтрольоване навчання, збір даних для RLHF є менш масштабованим і дорожчим. Його якість і послідовність можуть варіюватися залежно від завдання, інтерфейсу, а також від уподобань і упереджень конкретних людей.[8][33]

Ефективність RLHF залежить від якості людського зворотного зв'язку. Наприклад, модель може стати упередженою, надаючи перевагу певним групам над іншими, якщо зворотний зв'язок не є неупередженим, є непослідовним або помилковим.[3][34] Існує ризик перенавчання, коли модель запам'ятовує окремі приклади зворотного зв'язку замість того, щоб навчитися узагальнювати. Наприклад, якщо зворотний зв'язок походить переважно від певної демографічної групи, модель може засвоїти її особливості чи «шум» разом із бажаним вирівнюванням. Надмірне узгодження з конкретним набором відгуків (тобто з його упередженням) може призвести до того, що модель працюватиме гірше в нових контекстах або при використанні іншими групами.[35] Є й інша проблема: одна функція винагороди не може повністю відображати думки різних груп людей. Навіть за наявності репрезентативної вибірки суперечливі погляди та уподобання можуть призвести до того, що модель винагороди віддаватиме перевагу думці більшості, що потенційно ставить у невигідне становище менш представлені групи.[32]

У деяких випадках, як і у звичайному підкріпленому навчанні, існує ризик, що модель навчиться маніпулювати процесом зворотного зв'язку або грати в систему[en], щоб отримати вищі винагороди, а не справді покращити свою роботу.[36] У випадку RLHF модель може навчитися використовувати той факт, що її винагороджують за позитивно оцінені дії, а не за справді корисні, що може призвести до навчання переконувати та маніпулювати. Наприклад, моделі можуть зрозуміти, що впевненість у тоні (навіть якщо інформація неправильна) приносить вищу винагороду. Така поведінка, якщо її не контролювати, не лише заохочується, а й може спричинити серйозні проблеми при розгортанні моделі, оскільки вона здатна вводити користувачів в оману. Дослідження показали, що люди не дуже добре розпізнають помилки у виходах LLM під час складних завдань; тому моделі, які навчаються генерувати впевнено сформульований, але хибний текст, можуть створити значні ризики при практичному використанні.[32]

Remove ads

Альтернативи

Узагальнити
Перспектива

Підкріплене навчання зі зворотним зв'язком від ШІ

Подібно до RLHF, підкріплене навчання зі зворотним зв’язком від ШІ[en] (RLAIF) ґрунтується на тренуванні моделі переваг, але зворотний зв'язок генерується автоматично.[37] Цей підхід активно використовується в Anthropic[en], у межах системи конституційний ШІ[en], де зворотний зв'язок ШІ базується на відповідності принципам «конституції».[38]

Алгоритми прямого вирівнювання

Алгоритми прямого вирівнювання[en] (DAA) було запропоновано як новий клас алгоритмів,[39][40] які націлені на пряме налаштування великих мовних моделей (LLMs) на людський зворотний зв'язок у контрольований спосіб, без використання класичних методів градієнта політики.

Такі алгоритми прагнуть узгодити моделі з людськими намірами прозоріше, усуваючи проміжний етап навчання окремої моделі винагороди. Замість того, щоб спершу передбачати людські вподобання, а потім оптимізувати модель за їхніми оцінками, методи прямого вирівнювання навчають моделі «від початку до кінця» на людських анотованих або кураційних даних. Це зменшує ризики неправильного вирівнювання, які виникають через проміжні цілі чи злам винагороди[en].

Оптимізуючи поведінку безпосередньо згідно з людськими уподобаннями, такі підходи забезпечують тісніше узгодження з людськими цінностями, кращу інтерпретованість і спрощеніші навчальні конвеєри порівняно з RLHF.

Пряме оптимізування переваг

Пряме оптимізування переваг[en] (DPO) — це техніка навчання людських уподобань. Як і RLHF, вона використовується для вирівнювання ШІ[en] попередньо натренованих великих мовних моделей на основі людських оцінок. Однак, на відміну від RLHF, який спочатку тренує окрему проміжну модель, що розуміє «що є хорошим результатом», а потім навчає основну модель досягати цього, DPO спрощує процес — вона безпосередньо коригує головну модель відповідно до людських переваг. Вона використовує зміну змінних[en], щоб визначити «втрату переваг» як функцію політики, і застосовує цю функцію втрат для тонкого налаштування[en] моделі. Таким чином, вона допомагає моделі краще розуміти й пріоритезувати людські вподобання без необхідності додаткового етапу.

Послідовність RLHF виглядає так:

  • Спочатку збирається набір даних людських переваг .
  • Потім підганяється модель винагороди за допомогою максимізації правдоподібності за моделлю Плакетта — Люса[en]:

  • Нарешті тренується оптимальна політика , що максимізує цільову функцію:

Однак замість проміжного етапу з моделлю винагороди DPO безпосередньо оптимізує фінальну політику.

Спочатку розв'язується задача безпосередньо для оптимальної політики, що може бути зроблено за допомогою множників Лагранжа, як це зазвичай робиться у статистичній механіці:

де  — це функція розподілу[en]. На жаль, вона не є обчислюваною напряму, оскільки вимагає підсумовування по всіх можливих відповідях:

Далі цей зв'язок інвертується, щоб виразити винагороду неявно через оптимальну політику:

Після підстановки цього рівняння назад у оцінювач максимальної правдоподібності[en], отримуємо:[41]Шаблон:Pg

Зазвичай DPO застосовується для моделювання людських переваг у парних порівняннях, тобто . У такому разі маємо:

DPO усуває потребу в окремій моделі винагороди чи циклі підкріпленого навчання, розглядаючи узгодження як задачу контрольованого навчання на основі даних переваг. Це простіше в реалізації та навчанні, ніж RLHF, і показало результати, порівнянні або навіть кращі.[41] Втім, RLHF перевершує DPO на деяких наборах даних, наприклад, на тестах, що оцінюють правдивість. Отже, вибір методу залежить від характеристик людських даних переваг і специфіки завдання.[42]

Оптимізація ідентичних переваг

Оптимізація ідентичних переваг[en] (IPO)[43] є модифікацією оригінальної цільової функції DPO, яка вводить регуляризаційний термін для зменшення ймовірності перенавчання. Вона залишається стійкою до надмірного тренування, враховуючи наявність шуму у даних переваг.

Насамперед IPO застосовує нелінійне відображення на розподіл ймовірностей переваг замість моделі Бредлі — Террі[en], щоб «пом'якшити» ймовірність переваг і згладити мітки. Тут позначає цільову функцію переваги , відмінну від цільової функції політики. Це допомагає уникнути проблеми перенавчання, пов'язаної з припущенням, що парні переваги можна замінити на покомпонентні винагороди, що послаблює регуляризацію KL[en] через сильне викривлення розподілу переваг.

Як і DPO, оптимізація ідентичних переваг[en] (IPO) також формулюється як офлайн-завдання навчання на основі набору людських переваг . Зокрема, IPO вводить нову цільову функцію, застосовуючи відображення до розподілу ймовірностей переваг. На практиці береться як тотожне відображення, що й дає IPO. Таким чином, IPO також безпосередньо оптимізує фінальну політику за набором переваг і оминає етап моделювання винагороди за такою цільовою функцією:

де  — це розподіл переваг обраних відповідей над відхиленими . Оскільки ж безпосередньо не спостерігається, ми вибірково беремо дані з розподілу Бернуллі з офлайн-набору переваг як:

Для розв'язання цього завдання IPO мінімізує квадратичну функцію втрат:

де , а  — це функція, вибрана з розподілу Бернуллі, побудованого за даними переваг. Тут дорівнює 1, якщо має перевагу над (що трапляється з ймовірністю ), і 0 — інакше. Спрощення виразу напряму випливає з використання симетрії між та у розподілі Бернуллі, тобто для кожного елемента . Ця симетрія задається як і , де і .

Підсумовуючи, IPO контролює різницю між логарифмічними співвідношеннями правдоподібності[en] політики та еталонної моделі, постійно регуляризуючи розв'язок у напрямку до останньої. Це дозволяє навчатись безпосередньо на перевагах без моделювання винагород і без використання припущення моделі Бредлі — Террі[en], яке вважає, що парні переваги можна замінити точковими винагородами.[43] Таким чином, IPO уникає перенавчання на даних переваг, особливо коли переваги майже детерміновані й термін KL-регуляризації стає неефективним.

Оптимізація за Канеманом — Тверскі

Оптимізація за Канеманом — Тверскі[en] (KTO)[44] є ще одним алгоритмом прямого узгодження, який базується на теорії перспектив для моделювання невизначеності в людських рішеннях, що не завжди максимізують очікуване значення.

Загалом KTO прагне оптимізувати клас нових функцій втрат, запропонованих як «людиноорієнтовані втрати» (HALO), сформульованих у межах теорії перспектив для моделювання «людських цінностей» пари запит–відповідь як . Функція визначається як людиноорієнтована втрата для значення, описаного загальною цільовою функцією HALO:

де  — набір даних переваг,  — константа, що залежить від набору, а  — розподіл, який представляє базову або «еталонну» поведінку. Кожному прикладу надається мітка , що показує, чи є він бажаним (потрібно збільшити його винагороду) або небажаним (зменшити її). На відміну від попередніх визначень винагороди, KTO визначає як «неявну винагороду», що обчислюється через логарифмічне співвідношення правдоподібності[en] між політикою та еталоном:

.

Функція значення є нелінійною (зазвичай увігнутою) і моделює людську відразу до втрат[en] та відразу до ризику[en]. На відміну від попередніх алгоритмів оптимізації переваг, мотивація KTO полягає у максимізації корисності виходів моделі з людської точки зору, а не у збільшенні ймовірності отримання «кращої» мітки (обрані проти відхилених відповідей). Таким чином, він будує більш гнучке узагальнення розподілу переваг, вимагаючи лише бінарного сигналу зворотного зв'язку замість явних пар переваг. Для кожного прикладу із набору KTO явно оптимізує цільову функцію HALO як:

,

де  — класова константа (наприклад, або ), що визначає, наскільки сильно модель має «підштовхувати» хороші виходи вгору та «погані» вниз. Функція значення задається покроково залежно від того, чи є бажаним () чи небажаним ().

Неможливо розібрати вираз (невідома функція '\begin{cases}'): {\displaystyle v(x,y) \;=\; \begin{cases} \lambda_D \,\sigma\!\bigl(\,\beta\,\bigl(r_\theta(x, y) \;-\; z_0\bigr)\bigr), & \quad \text{якщо } y \sim y_{\mathrm{бажаний}\mid x},\\[6pt] \lambda_U \,\sigma\!\bigl(\,\beta\,\bigl(z_0 \;-\; r_\theta(x, y)\bigr)\bigr), & \quad \text{якщо } y \sim y_{\mathrm{небажаний}\mid x} \end{cases} }

а  — це базова лінія, визначена через дивергенцію Кульбака — Лейблера. Параметр контролює, наскільки «ризико-уникливою» є функція значення (чим більше , тим швидше насичується логістична функція ). Інтуїтивно, бажані виходи штовхають модель до збільшення , щоб став більш позитивним. Небажані, навпаки, зменшують винагороду порівняно з еталонною моделлю. Оскільки у багатьох реальних сценаріях зворотний зв'язок у формі «подобається/не подобається» збирається простіше, ніж парні порівняння, оптимізація за Канеманом — Тверскі[en] (KTO) створена так, щоб бути економною щодо даних і відображати «відразу до втрат[en]» безпосередньо, використовуючи просте поняття «хороше проти поганого» на рівні окремого прикладу. товуючи просте поняття «хороше проти поганого» на рівні окремого прикладу.

Remove ads

Примітки

Див. також

Додаткова література

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads