Учење поткрепљењем

У машинском учењу и оптималној контроли, учење поткрепљењем (RL; reinforcement learning) бави се тиме како интелигентни агент треба да предузима акције у динамичком окружењу како би максимизовао сигнал награде. Учење поткрепљењем је једна од три основне парадигме машинског учења, поред надгледаног учења и ненадгледаног учења.

Док алгоритми надгледаног учења и ненадгледаног учења покушавају да открију обрасце у означеним и неозначеним подацима, учење поткрепљењем подразумева обуку агента кроз интеракције са његовим окружењем. Да би научио да максимизује награде из ових интеракција, агент доноси одлуке између испробавања нових акција како би сазнао више о окружењу (истраживање) или коришћења тренутног знања о окружењу за предузимање најбоље акције (искоришћавање).^[1] Потрага за оптималном равнотежом између ове две стратегије позната је као дилема истраживања и искоришћавања.

Окружење се обично наводи у облику Марковљевог процеса одлучивања (MDP), јер многи алгоритми учења поткрепљењем користе технике динамичког програмирања.^[2] Главна разлика између класичних метода динамичког програмирања и алгоритама учења поткрепљењем је у томе што ови други не претпостављају познавање тачног математичког модела Марковљевог процеса одлучивања и циљају на велике Марковљеве процесе одлучивања где тачне методе постају неизводљиве.^[3]

Remove ads

Принципи

Због своје општости, учење поткрепљењем се проучава у многим дисциплинама, као што су теорија игара, теорија контроле, операциона истраживања, теорија информације, оптимизација заснована на симулацији, мултиагентни системи, интелигенција роја и статистика. У литератури о операционим истраживањима и контроли, RL се назива апроксимативно динамичко програмирање или неуро-динамичко програмирање. Проблеми од интереса у RL-у су такође проучавани у теорији оптималне контроле, која се углавном бави постојањем и карактеризацијом оптималних решења и алгоритмима за њихово тачно израчунавање, а мање учењем или апроксимацијом (посебно у одсуству математичког модела окружења).

Основно учење поткрепљењем се моделује као Марковљев процес одлучивања:

Скуп стања окружења и агента (простор стања), ${\mathcal {S}}$ ;
Скуп акција (простор акција), ${\mathcal {A}}$ , агента;
$P_{a}(s,s')=\Pr(S_{t+1}{=}s'\mid S_{t}{=}s,A_{t}{=}a)$ , вероватноћа прелаза (у времену $t$ ) из стања $s$ у стање $s'$ под акцијом $a$ .
$R_{a}(s,s')$ , тренутна награда након преласка из $s$ у $s'$ под акцијом $a$ .

Сврха учења поткрепљењем је да агент научи оптималну (или скоро оптималну) политику која максимизује функцију награђивања или други кориснички дефинисан сигнал поткрепљења који се акумулира из тренутних награда. Ово је слично процесима који се јављају у психологији животиња. На пример, биолошки мозгови су ожичени да тумаче сигнале као што су бол и глад као негативна поткрепљења, а задовољство и унос хране као позитивна поткрепљења. У неким околностима, животиње уче да усвоје понашања која оптимизују ове награде. Ово сугерише да су животиње способне за учење поткрепљењем.^[4]^[5]

Основни агент учења поткрепљењем комуницира са својим окружењем у дискретним временским корацима. У сваком временском кораку $t$ , агент прима тренутно стање $S_{t}$ и награду $R_{t}$ . Затим бира акцију $A_{t}$ из скупа доступних акција, која се потом шаље окружењу. Окружење прелази у ново стање $S_{t+1}$ и одређује се награда $R_{t+1}$ повезана са прелазом $(S_{t},A_{t},S_{t+1})$ . Циљ агента учења поткрепљењем је да научи политику:

${\displaystyle {\begin{aligned}&\pi$

која максимизује очекивану кумулативну награду.

Формулисање проблема као Марковљевог процеса одлучивања претпоставља да агент директно посматра тренутно стање окружења; у овом случају, каже се да проблем има пуну опсервабилност. Ако агент има приступ само подскупу стања, или ако су посматрана стања оштећена шумом, каже се да агент има делимичну опсервабилност, и формално се проблем мора формулисати као делимично опсервабилни Марковљев процес одлучивања. У оба случаја, скуп акција доступних агенту може бити ограничен. На пример, стање стања на рачуну може бити ограничено да буде позитивно; ако је тренутна вредност стања 3, а прелаз стања покушава да смањи вредност за 4, прелаз неће бити дозвољен.

Када се перформансе агента пореде са перформансама агента који делује оптимално, разлика у перформансама даје појам жаљења. Да би деловао скоро оптимално, агент мора размишљати о дугорочним последицама својих акција (тј. максимизовати будуће награде), иако тренутна награда повезана са тим може бити негативна. Дакле, учење поткрепљењем је посебно погодно за проблеме који укључују компромис између дугорочне и краткорочне награде. Успешно је примењено на различите проблеме, укључујући складиштење енергије,^[6] контролу робота,^[7] фотонапонске генераторе,^[8] бекгемон, даму,^[9] го (AlphaGo) и аутономне системе вожње.^[10]

Два елемента чине учење поткрепљењем моћним: употреба узорака за оптимизацију перформанси и употреба апроксимације функција за рад са великим окружењима. Захваљујући овим двема кључним компонентама, RL се може користити у великим окружењима у следећим ситуацијама:

Модел окружења је познат, али аналитичко решење није доступно;
Дат је само симулациони модел окружења (предмет оптимизације засноване на симулацији);^[11]
Једини начин за прикупљање информација о окружењу је интеракција са њим.

Прва два проблема могу се сматрати проблемима планирања (пошто је неки облик модела доступан), док се последњи може сматрати правим проблемом учења. Међутим, учење поткрепљењем претвара оба проблема планирања у проблеме машинског учења.

Remove ads

Истраживање

Компромис између истраживања и искоришћавања најтемељније је проучен кроз проблем вишероруког бандита и за Марковљеве процесе одлучивања са коначним простором стања у раду Бурнетаса и Катехакиса (1997).^[12]

Учење поткрепљењем захтева паметне механизме истраживања; насумично бирање акција, без позивања на процењену расподелу вероватноће, показује лоше перформансе. Случај (малих) коначних Марковљевих процеса одлучивања је релативно добро схваћен. Међутим, због недостатка алгоритама који се добро скалирају са бројем стања (или скалирају на проблеме са бесконачним просторима стања), једноставне методе истраживања су најпрактичније.

Једна таква метода је $\varepsilon$ -похлепна (енгл. $\varepsilon$ -greedy), где је $0<\varepsilon <1$ параметар који контролише количину истраживања наспрам искоришћавања. Са вероватноћом $1-\varepsilon$ , бира се искоришћавање, и агент бира акцију за коју верује да има најбољи дугорочни ефекат (нерешени резултати између акција се прекидају равномерно насумично). Алтернативно, са вероватноћом $\varepsilon$ , бира се истраживање, и акција се бира равномерно насумично. $\varepsilon$ је обично фиксни параметар, али се може прилагођавати или према распореду (чинећи да агент истражује прогресивно мање), или адаптивно на основу хеуристике.^[13]

Remove ads

Алгоритми за учење контроле

Чак и ако се занемари питање истраживања и чак и ако је стање било опсервабилно (претпостављено у даљем тексту), проблем остаје да се искористи прошло искуство како би се открило које акције воде до већих кумулативних награда.

Критеријум оптималности

Политика

Избор акције агента се моделује као мапа која се назива политика: ${\displaystyle {\begin{aligned}&\pi$

Мапа политике даје вероватноћу предузимања акције $a$ када је у стању $s$ .^[14]^‍:{{{1}}} Постоје и детерминистичке политике $\pi$ за које $\pi (s)$ означава акцију коју треба одиграти у стању $s$ .

Функција вредности стања

Функција вредности стања $V_{\pi }(s)$ се дефинише као очекивани дисконтовани повраћај почевши од стања $s$ , тј. $S_{0}=s$ , и сукцесивно пратећи политику $\pi$ . Дакле, грубо говорећи, функција вредности процењује „колико је добро” бити у датом стању.^[14]^‍:{{{1}}}

$V_{\pi }(s)=\operatorname {\mathbb {E} } [G\mid S_{0}{=}s]=\operatorname {\mathbb {E} } \left[\sum _{t=0}^{\infty }\gamma ^{t}R_{t+1}\mid S_{0}{=}s\right],$

где случајна променљива $G$ означава дисконтовани повраћај, и дефинисана је као збир будућих дисконтованих награда: $G=\sum _{t=0}^{\infty }\gamma ^{t}R_{t+1}=R_{1}+\gamma R_{2}+\gamma ^{2}R_{3}+\cdots ,$

где је $R_{t+1}$ награда за прелазак из стања $S_{t}$ у $S_{t+1}$ , $0\leq \gamma <1$ је стопа дисконта. $\gamma$ је мање од 1, тако да се награде у далекој будућности вреднују мање од награда у непосредној будућности.

Алгоритам мора пронаћи политику са максималним очекиваним дисконтованим повраћајем. Из теорије Марковљевих процеса одлучивања познато је да се, без губитка општости, претрага може ограничити на скуп стационарних политика. Политика је стационарна ако расподела акција коју враћа зависи само од последњег посећеног стања (из историје посматрања агента). Претрага се може даље ограничити на детерминистичке стационарне политике. Детерминистичка стационарна политика детерминистички бира акције на основу тренутног стања. Пошто се свака таква политика може идентификовати са мапирањем из скупа стања у скуп акција, ове политике се могу идентификовати са таквим мапирањима без губитка општости.

Груба сила

Приступ грубе силе подразумева два корака:

За сваку могућу политику, узорковати повраћаје док се она прати
Одабрати политику са највећим очекиваним дисконтованим повраћајем

Један проблем са овим је тај што број политика може бити велики, или чак бесконачан. Други је тај што варијанса повраћаја може бити велика, што захтева много узорака да би се тачно проценио дисконтовани повраћај сваке политике.

Ови проблеми се могу ублажити ако претпоставимо неку структуру и дозволимо узорцима генерисаним из једне политике да утичу на процене направљене за друге. Два главна приступа за постизање овога су процена функције вредности и директна претрага политике.

Функција вредности

Приступи функције вредности покушавају да пронађу политику која максимизује дисконтовани повраћај одржавањем скупа процена очекиваних дисконтованих повраћаја $\operatorname {\mathbb {E} } [G]$ за неку политику (обично или „тренутну” [на политици / on-policy] или оптималну [ван политике / off-policy]).

Ове методе се ослањају на теорију Марковљевих процеса одлучивања, где је оптималност дефинисана у смислу јачем од оног изнад: Политика је оптимална ако постиже најбољи очекивани дисконтовани повраћај из било ког почетног стања (тј. почетне расподеле не играју никакву улогу у овој дефиницији). Опет, оптимална политика се увек може наћи међу стационарним политикама.

Да би се оптималност дефинисала на формалан начин, дефинишите вредност стања политике $\pi$ помоћу

$V^{\pi }(s)=\operatorname {\mathbb {E} } [G\mid s,\pi ],$

где $G$ представља дисконтовани повраћај повезан са праћењем $\pi$ из почетног стања $s$ . Дефинисањем $V^{*}(s)$ као максималне могуће вредности стања $V^{\pi }(s)$ , где је $\pi$ дозвољено да се мења,

$V^{*}(s)=\max _{\pi }V^{\pi }(s).$

Политика која постиже ове оптималне вредности стања у сваком стању назива се оптимална. Јасно је да је политика која је оптимална у овом смислу такође оптимална у смислу да максимизује очекивани дисконтовани повраћај, пошто $V^{*}(s)=\max _{\pi }\mathbb {E} [G\mid s,\pi ]$ , где је $s$ стање насумично узорковано из расподеле $\mu$ почетних стања (тако да $\mu (s)=\Pr(S_{0}=s)$ ).

Иако су вредности стања довољне за дефинисање оптималности, корисно је дефинисати вредности акција. За дато стање $s$ , акцију $a$ и политику $\pi$ , вредност акције пара $(s,a)$ под $\pi$ дефинисана је помоћу

$Q^{\pi }(s,a)=\operatorname {\mathbb {E} } [G\mid s,a,\pi ],$

где $G$ сада представља насумични дисконтовани повраћај повезан са првим предузимањем акције $a$ у стању $s$ и праћењем $\pi$ након тога.

Теорија Марковљевих процеса одлучивања каже да ако је $\pi ^{*}$ оптимална политика, делујемо оптимално (предузимамо оптималну акцију) бирањем акције из $Q^{\pi ^{*}}(s,\cdot )$ са највишом вредношћу акције у сваком стању, $s$ . Функција вредности акције такве оптималне политике ( $Q^{\pi ^{*}}$ ) назива се оптимална функција вредности акције и обично се означава са $Q^{*}$ . Укратко, познавање оптималне функције вредности акције само по себи је довољно да се зна како деловати оптимално. Под претпоставком потпуног познавања Марковљевог процеса одлучивања, два основна приступа за израчунавање оптималне функције вредности акције су итерација вредности и итерација политике. Оба алгоритма израчунавају низ функција $Q_{k}$ ( $k=0,1,2,\ldots$ ) које конвергирају ка $Q^{*}$ . Израчунавање ових функција подразумева израчунавање очекивања преко целог простора стања, што је непрактично за све осим за најмање (коначне) Марковљеве процесе одлучивања. У методама учења поткрепљењем, очекивања се апроксимирају усредњавањем преко узорака и коришћењем техника апроксимације функција како би се носило са потребом за представљањем функција вредности преко великих простора стања-акција.

Монте Карло методе

Монте Карло методе^[15] се користе за решавање проблема учења поткрепљењем усредњавањем повраћаја узорака. За разлику од метода које захтевају потпуно познавање динамике окружења, Монте Карло методе се ослањају искључиво на стварно или симулирано искуство — низове стања, акција и награда добијених интеракцијом са окружењем. Ово их чини применљивим у ситуацијама где је комплетна динамика непозната. Учење из стварног искуства не захтева претходно знање о окружењу и и даље може довести до оптималног понашања. Када се користи симулирано искуство, потребан је само модел способан да генерише прелазе узорака, уместо потпуне спецификације вероватноћа прелаза, што је неопходно за методе динамичког програмирања.

Монте Карло методе се примењују на епизодне задатке, где је искуство подељено на епизоде које се на крају завршавају. Ажурирања политике и функције вредности се дешавају тек након завршетка епизоде, чинећи ове методе инкременталним на бази епизоде, иако не на бази корака (онлајн). Термин „Монте Карло” се генерално односи на било коју методу која укључује насумично узорковање; међутим, у овом контексту, конкретно се односи на методе које израчунавају просеке из комплетних повраћаја, уместо делимичних повраћаја.

Ове методе функционишу слично алгоритмима бандита, у којима се повраћаји усредњавају за сваки пар стање-акција. Кључна разлика је у томе што акције предузете у једном стању утичу на повраћаје наредних стања унутар исте епизоде, чинећи проблем нестационарним. Да би се решила ова нестационарност, Монте Карло методе користе оквир опште итерације политике (GPI). Док динамичко програмирање израчунава функције вредности користећи потпуно знање о Марковљевом процесу одлучивања, Монте Карло методе уче ове функције кроз повраћаје узорака. Функције вредности и политике комуницирају слично као код динамичког програмирања како би постигле оптималност, прво решавајући проблем предвиђања, а затим проширујући на побољшање политике и контролу, све на основу узоркованог искуства.^[14]

Методе временске разлике

Први проблем се исправља дозвољавањем процедури да промени политику (у неким или свим стањима) пре него што се вредности устале. Ово такође може бити проблематично јер може спречити конвергенцију. Већина тренутних алгоритама то ради, што доводи до класе алгоритама генерализоване итерације политике. Многе глумац-критичар методе припадају овој категорији. Други проблем се може исправити дозвољавањем путањама да допринесу било ком пару стање-акција у њима. Ово такође може помоћи у одређеној мери са трећим проблемом, иако је боље решење када повраћаји имају велику варијансу Сатонова метода временске разлике (TD) која се заснива на рекурзивној Белменој једначини.^[16]^[17] Израчунавање у TD методама може бити инкрементално (када се након сваког прелаза меморија мења и прелаз одбацује), или групно (када се прелази групишу и процене се израчунавају једном на основу групе). Групне методе, као што је метода временске разлике најмањих квадрата,^[18] могу боље искористити информације у узорцима, док су инкременталне методе једини избор када су групне методе неизводљиве због њихове високе рачунарске или меморијске сложености. Неке методе покушавају да комбинују ова два приступа. Методе засноване на временским разликама такође превазилазе четврти проблем.

Други проблем специфичан за TD долази од њиховог ослањања на рекурзивну Белменову једначину. Већина TD метода има $\lambda$ параметар $(0\leq \lambda \leq 1)$ који може континуирано интерполирати између Монте Карло метода које се не ослањају на Белменове једначине и основних TD метода које се у потпуности ослањају на Белменове једначине. Ово може бити ефикасно у ублажавању овог проблема.

Методе апроксимације функција

Да би се решио пети проблем, користе се методе апроксимације функција. Линеарна апроксимација функција почиње са мапирањем $\phi$ које додељује коначно-димензионални вектор сваком пару стање-акција. Затим се вредности акција пара стање-акција $(s,a)$ добијају линеарним комбиновањем компоненти $\phi (s,a)$ са неким тежинама $\theta$ :

$Q(s,a)=\sum _{i=1}^{d}\theta _{i}\phi _{i}(s,a).$

Алгоритми затим прилагођавају тежине, уместо прилагођавања вредности повезаних са појединачним паровима стање-акција. Истражене су методе засноване на идејама из непараметарске статистике (за које се може видети да конструишу сопствене карактеристике).

Итерација вредности се такође може користити као почетна тачка, што доводи до Q-учења (Q-learning) алгоритма и његових многих варијанти.^[19] Укључујући методе дубоког Q-учења када се неуронска мрежа користи за представљање Q, са различитим применама у проблемима стохастичке претраге.^[20]

Проблем са коришћењем вредности акција је тај што им могу бити потребне веома прецизне процене конкурентских вредности акција које може бити тешко добити када су повраћаји бучни, иако је овај проблем у одређеној мери ублажен методама временске разлике. Коришћење методе апроксимације компатибилних функција компромитује општост и ефикасност.

Директна претрага политике

Алтернативна метода је директна претрага у (неком подскупу) простора политика, у ком случају проблем постаје случај стохастичке оптимизације. Два доступна приступа су методе засноване на градијенту и методе без градијента.

Методе засноване на градијенту (методе градијента политике) почињу са мапирањем из коначно-димензионалног (параметарског) простора у простор политика: дат је вектор параметара $\theta$ , нека $\pi _{\theta }$ означава политику повезану са $\theta$ . Дефинисањем функције перформанси помоћу $\rho (\theta )=\rho ^{\pi _{\theta }}$ , под благим условима ова функција ће бити диференцијабилна као функција вектора параметара $\theta$ . Ако би градијент $\rho$ био познат, могао би се користити градијентни успон. Пошто аналитички израз за градијент није доступан, доступна је само бучна процена. Таква процена се може конструисати на много начина, што доводи до алгоритама као што је Вилијамсова REINFORCE метода^[21] (која је позната као метода односа веродостојности у литератури о оптимизацији заснованој на симулацији^[22]).

Велика класа метода избегава ослањање на информације о градијенту. Оне укључују симуловано каљење, претрагу унакрсне ентропије или методе еволуционарног израчунавања. Многе методе без градијента могу постићи (у теорији и у лимесу) глобални оптимум.

Методе претраге политике могу споро конвергирати с обзиром на бучне податке. На пример, ово се дешава у епизодним проблемима када су путање дуге, а варијанса повраћаја велика. Методе засноване на функцији вредности које се ослањају на временске разлике могу помоћи у овом случају. Последњих година предложене су методе глумац-критичар које су се добро показале на различитим проблемима.^[23]

Методе претраге политике су коришћене у контексту роботике.^[24] Многе методе претраге политике могу се заглавити у локалним оптимумима (пошто су засноване на локалној претрази).

Алгоритми засновани на моделу

Коначно, све горе наведене методе могу се комбиновати са алгоритмима који прво уче модел Марковљевог процеса одлучивања, вероватноћу сваког следећег стања с обзиром на акцију предузету из постојећег стања. На пример, Dyna алгоритам учи модел из искуства и користи га да обезбеди више моделованих прелаза за функцију вредности, поред стварних прелаза.^[25] Такве методе се понекад могу проширити на употребу непараметарских модела, као што је када се прелази једноставно чувају и „поново пуштају” алгоритму учења.^[26]

Методе засноване на моделу могу бити рачунарски захтевније од метода без модела, а њихова корисност може бити ограничена мером у којој се Марковљев процес одлучивања може научити.^[27]

Постоје и други начини коришћења модела осим ажурирања функције вредности.^[28] На пример, у контроли предвиђања модела модел се користи за директно ажурирање понашања.

Remove ads

Теорија

И асимптотска и понашања коначних узорака већине алгоритама су добро схваћена. Познати су алгоритми са доказиво добрим онлајн перформансама (који решавају питање истраживања).

Ефикасно истраживање Марковљевих процеса одлучивања дато је у раду Бурнетаса и Катехакиса (1997).^[12] Границе перформанси за коначно време су се такође појавиле за многе алгоритме, али се очекује да ће ове границе бити прилично лабаве и стога је потребно више рада да би се боље разумеле релативне предности и ограничења.

За инкременталне алгоритме, питања асимптотске конвергенције су решена. Алгоритми засновани на временској разлици конвергирају под ширим скупом услова него што је то раније било могуће (на пример, када се користе са произвољном, глатком апроксимацијом функција).

Remove ads

Истраживање

Истраживачке теме укључују:

архитектуру глумац-критичар^[29]
архитектуру глумац-критичар-сценографија^[3]
адаптивне методе које раде са мање (или без) параметара под великим бројем услова
откривање грешака у софтверским пројектима^[30]
континуирано учење
комбинације са оквирима заснованим на логици (нпр. спецификације временске логике,^[31] машине за награђивање,^[32] и пробабилистичка аргументација).^[33]
истраживање у великим Марковљевим процесима одлучивања
учење поткрепљењем засновано на ентитетима^[34]^[35]^[36]
људске повратне информације^[37]
интеракција између имплицитног и експлицитног учења у стицању вештина
унутрашња мотивација која разликује понашања тражења информација и радозналости од циљно усмерених понашања зависних од задатка велике емпиријске процене
велики (или континуирани) простори акција
модуларно и хијерархијско учење поткрепљењем^[38]
мултиагентно/дистрибуирано учење поткрепљењем је тема од интереса. Примене се шире.^[39]
контрола усмерена на корисника
оптимизација рачунарских ресурса^[40]^[41]^[42]
делимичне информације (нпр. коришћењем предиктивне репрезентације стања)
функција награђивања заснована на максимизирању нових информација^[43]^[44]^[45]
планирање засновано на узорцима (нпр. засновано на Монте Карло претрази стабла).
трговина хартијама од вредности^[46]
трансферно учење^[47]
TD учење које моделује учење засновано на допамину у мозгу. Допаминергички путеви од супстанције нигре до базалних ганглија функционишу као грешка предвиђања.
методе функције вредности и претраге политике

Remove ads

Поређење кључних алгоритама

Следећа табела наводи кључне алгоритме за учење политике у зависности од неколико критеријума:

Алгоритам може бити на политици (енгл. on-policy; врши ажурирање политике користећи путање узорковане путем тренутне политике)^[48] или ван политике (енгл. off-policy).
Простор акција може бити дискретан (нпр. простор акција може бити "иди горе", "иди лево", "иди десно", "иди доле", "остани") или континуиран (нпр. померање руке под датим углом).
Простор стања може бити дискретан (нпр. агент би могао бити у ћелији у мрежи) или континуиран (нпр. агент би могао бити лоциран на датој позицији у равни).

Више информација Алгоритам, Опис ...

Алгоритам	Опис	Политика	Простор акција	Простор стања	Оператор
Монте Карло	Свака посета Монте Карлу	Било која	Дискретан	Дискретан	Узорак-средње вредности стања или вредности акција
TD учење	Стање–акција–награда–стање	Ван политике	Дискретан	Дискретан	Вредност стања
Q-учење	Стање–акција–награда–стање	Ван политике	Дискретан	Дискретан	Вредност акције
SARSA	Стање–акција–награда–стање–акција	На политици	Дискретан	Дискретан	Вредност акције
DQN	Дубока Q мрежа	Ван политике	Дискретан	Континуиран	Вредност акције
DDPG	Дубоки детерминистички градијент политике	Ван политике	Континуиран	Континуиран	Вредност акције
A3C	Асинхрони алгоритам глумац-критичар предности	На политици	Дискретан	Континуиран	Предност (=вредност акције - вредност стања)
TRPO	Оптимизација политике региона поверења	На политици	Континуиран или Дискретан	Континуиран	Предност
PPO	Проксимална оптимизација политике	На политици	Континуиран или Дискретан	Континуиран	Предност
TD3	Двоструки одложени дубоки детерминистички градијент политике	Ван политике	Континуиран	Континуиран	Вредност акције
SAC	Меки глумац-критичар	Ван политике	Континуиран	Континуиран	Предност
DSAC^[49]^[50]^[51]	Дистрибутивни меки глумац критичар	Ван политике	Континуиран	Континуиран	Дистрибуција вредности акције

Асоцијативно учење поткрепљењем

Задаци асоцијативног учења поткрепљењем комбинују аспекте задатака стохастичких аутомата учења и задатака класификације образаца надгледаног учења. У задацима асоцијативног учења поткрепљењем, систем учења комуницира у затвореној петљи са својим окружењем.^[52]

Дубоко учење поткрепљењем

Овај приступ проширује учење поткрепљењем коришћењем дубоке неуронске мреже и без експлицитног дизајнирања простора стања.^[53] Рад на учењу ATARI игара од стране Google DeepMind-а повећао је пажњу на дубоко учење поткрепљењем или енд-ту-енд учење поткрепљењем.^[54]

Адверзаријално дубоко учење поткрепљењем

Адверзаријално дубоко учење поткрепљењем је активна област истраживања у учењу поткрепљењем која се фокусира на рањивости научених политика. У овој области истраживања неке студије су првобитно показале да су политике учења поткрепљењем подложне неприметним адверзаријалним манипулацијама.^[55]^[56]^[57] Иако су предложене неке методе за превазилажење ових осетљивости, у најновијим студијама је показано да су ова предложена решења далеко од пружања тачне репрезентације тренутних рањивости политика дубоког учења поткрепљењем.^[58]

Фази учење поткрепљењем

Увођењем фази закључивања у учење поткрепљењем,^[59] постаје могуће апроксимирати функцију вредности стање-акција са фази правилима у континуираном простору. IF - THEN облик фази правила чини овај приступ погодним за изражавање резултата у облику блиском природном језику. Проширење FRL са интерполацијом фази правила^[60] омогућава коришћење ретких база фази правила смањене величине како би се нагласила кардинална правила (најважније вредности стање-акција).

Инверзно учење поткрепљењем

У инверзном учењу поткрепљењем (IRL), функција награђивања није дата. Уместо тога, функција награђивања се изводи на основу посматраног понашања стручњака. Идеја је да се опонаша посматрано понашање, које је често оптимално или близу оптималног.^[61] Једна популарна IRL парадигма назива се инверзно учење поткрепљењем максималне ентропије (MaxEnt IRL).^[62] MaxEnt IRL процењује параметре линеарног модела функције награђивања максимизирањем ентропије расподеле вероватноће посматраних путања подложно ограничењима која се односе на подударање очекиваних бројева карактеристика. Недавно је показано да је MaxEnt IRL посебан случај општијег оквира названог инверзно учење поткрепљењем случајне корисности (RU-IRL).^[63] RU-IRL се заснива на теорији случајне корисности и Марковљевим процесима одлучивања. Док претходни IRL приступи претпостављају да је привидно насумично понашање посматраног агента последица тога што он прати насумичну политику, RU-IRL претпоставља да посматрани агент прати детерминистичку политику, али је насумичност у посматраном понашању последица чињенице да посматрач има само делимичан приступ карактеристикама које посматрани агент користи у доношењу одлука. Функција корисности се моделује као случајна променљива како би се урачунало незнање посматрача у вези са карактеристикама које посматрани агент заправо разматра у својој функцији корисности.

Вишециљно учење поткрепљењем

Вишециљно учење поткрепљењем (MORL) је облик учења поткрепљењем који се бави супротстављеним алтернативама. Разликује се од вишециљне оптимизације по томе што се бави агентима који делују у окружењима.^[64]^[65]

Безбедно учење поткрепљењем

Безбедно учење поткрепљењем (SRL) може се дефинисати као процес учења политика које максимизују очекивање повраћаја у проблемима у којима је важно осигурати разумне перформансе система и/или поштовати безбедносна ограничења током процеса учења и/или примене.^[66]^[67] Алтернативни приступ је учење поткрепљењем склоно избегавању ризика, где се уместо очекиваног повраћаја оптимизује мера ризика повраћаја, као што је условна вредност под ризиком (CVaR).^[68] Поред ублажавања ризика, CVaR циљ повећава робусност на несигурности модела.^[69]^[70] Међутим, CVaR оптимизација у RL-у склоном избегавању ризика захтева посебну пажњу како би се спречила пристрасност градијента^[71] и слепило за успех.^[72]

Само-поткрепљујуће учење

Само-поткрепљујуће учење (или само-учење) је парадигма учења која не користи концепт тренутне награде $R_{a}(s,s')$ након преласка из $s$ у $s'$ акцијом $a$ . Не користи спољашње поткрепљење, већ само унутрашње само-поткрепљење агента. Унутрашње само-поткрепљење обезбеђује механизам осећања и емоција. У процесу учења емоције се пропагирају уназад механизмом секундарног поткрепљења. Једначина учења не укључује тренутну награду, већ само евалуацију стања.

Алгоритам само-поткрепљења ажурира меморијску матрицу $W=\|w(a,s)\|$ тако да у свакој итерацији извршава следећу рутину машинског учења:

У ситуацији $s$ изврши акцију $a$ .
Прими последичну ситуацију $s'$ .
Израчунај евалуацију стања $v(s')$ о томе колико је добро бити у последичној ситуацији $s'$ .
Ажурирај кросбар меморију $w'(a,s)=w(a,s)+v(s')$ .

Почетни услови меморије се примају као улаз из генетског окружења. То је систем са само једним улазом (ситуација) и само једним излазом (акција, или понашање).

Само-поткрепљење (само-учење) је уведено 1982. године заједно са неуронском мрежом способном за само-поткрепљујуће учење, названом Crossbar Adaptive Array (CAA).^[73]^[74] CAA израчунава, на кросбар начин, и одлуке о акцијама и емоције (осећања) о последичним стањима. Систем је вођен интеракцијом између когниције и емоције.^[75]

Учење поткрепљењем у обради природног језика

У новије време, учење поткрепљењем постало је значајан концепт у обради природног језика (NLP), где су задаци често секвенцијално доношење одлука, а не статичка класификација. Учење поткрепљењем је процес где агент предузима акције у окружењу како би максимизовао акумулацију награда. Овај оквир је најбољи за многе NLP задатке, укључујући генерисање дијалога, сажимање текста и машинско превођење, где квалитет излаза зависи од оптимизације дугорочних или људски усмерених циљева, а не од предвиђања једне тачне ознаке.

Рана примена RL-а у NLP-у појавила се у системима дијалога, где је разговор био одређен као низ акција оптимизованих за течност и кохерентност. Ови рани покушаји, укључујући технике градијента политике и обуке на нивоу секвенце, поставили су темељ за ширу примену учења поткрепљењем у другим областима NLP-а.

Велики пробој догодио се увођењем учења поткрепљењем из људских повратних информација (RLHF), методе у којој се оцене људских повратних информација користе за обуку модела награђивања који води RL агента. За разлику од традиционалних система заснованих на правилима или надгледаним системима, RLHF омогућава моделима да ускладе своје понашање са људским судовима о сложеним и субјективним задацима. Ова техника је првобитно коришћена у развоју InstructGPT-а, ефикасног језичког модела обученог да прати људска упутства, а касније и у ChatGPT-у који укључује RLHF за побољшање излазних одговора и осигуравање безбедности.

У новије време (новембар 2025), истраживачи су истраживали употребу офлајн RL-а у NLP-у за побољшање система дијалога без потребе за интеракцијом са људима уживо. Ове методе оптимизују ангажовање корисника, кохерентност и разноврсност на основу прошлих записа разговора и претходно обучених модела награђивања.^[76] Један пример је DeepSeek-R1, који укључује вишефазну обуку и податке хладног старта пре RL-а. DeepSeek-R1 постиже перформансе упоредиве са OpenAI-o1-1217 на задацима резоновања. Овај модел је обучен путем великог учења поткрепљењем (RL) без надгледаног финог подешавања (SFT) као прелиминарног корака. ^[77]

Remove ads

Статистичко поређење алгоритама учења поткрепљењем

Ефикасно поређење RL алгоритама је од суштинског значаја за истраживање, примену и праћење RL система. Да би се упоредили различити алгоритми на датом окружењу, агент се може обучити за сваки алгоритам. Пошто су перформансе осетљиве на детаље имплементације, сви алгоритми треба да буду имплементирани што је могуће сличније један другом.^[78] Након што се обука заврши, агенти се могу покренути на узорку тест епизода, а њихови резултати (повраћаји) се могу упоредити. Пошто се обично претпоставља да су епизоде i.i.d., могу се користити стандардни статистички алати за тестирање хипотеза, као што су T-тест и тест пермутације.^[79] Ово захтева акумулирање свих награда унутар једне епизоде у један број — епизодни повраћај. Међутим, ово изазива губитак информација, јер се различити временски кораци усредњавају заједно, вероватно са различитим нивоима шума. Кад год ниво шума варира током епизоде, статистичка моћ се може значајно побољшати пондерисањем награда према њиховом процењеном шуму.^[80]

Remove ads

Изазови и ограничења

Упркос значајном напретку, учење поткрепљењем (RL) и даље се суочава са неколико изазова и ограничења која ометају његову широку примену у сценаријима из стварног света.

Неефикасност узорака

RL алгоритми често захтевају велики број интеракција са окружењем да би научили ефикасне политике, што доводи до високих рачунарских трошкова и временски интензивне обуке агента. На пример, OpenAI-јев бот за играње Dota-е користио је хиљаде година симулираног играња да би постигао перформансе на људском нивоу. Предложене су технике попут понављања искуства и учења по плану и програму како би се ублажила неефикасност узорака, али ове технике додају већу сложеност и нису увек довољне за примене у стварном свету.

Проблеми стабилности и конвергенције

Обука RL модела, посебно за моделе засноване на дубоким неуронским мрежама, може бити нестабилна и склона дивергенцији. Мала промена у политици или окружењу може довести до екстремних флуктуација у перформансама, што отежава постизање доследних резултата. Ова нестабилност је додатно појачана у случају континуираног или високодимензионалног простора акција, где корак учења постаје сложенији и мање предвидљив.

Генерализација и преносивост

RL агенти обучени у специфичним окружењима често се боре да генерализују своје научене политике на нове, невиђене сценарије. Ово је главна препрека која спречава примену RL-а на динамичка окружења у стварном свету где је прилагодљивост кључна. Изазов је развити такве алгоритме који могу пренети знање кроз задатке и окружења без опсежне поновне обуке.

Пристрасност и проблеми функције награђивања

Дизајнирање одговарајућих функција награђивања је критично у RL-у јер лоше дизајниране функције награђивања могу довести до ненамерних понашања. Поред тога, RL системи обучени на пристрасним подацима могу одржавати постојеће пристрасности и довести до дискриминаторних или неправедних исхода. Оба ова проблема захтевају пажљиво разматрање структура награђивања и извора података како би се осигурала праведност и жељена понашања.

Remove ads

Види још

Активно учење (машинско учење)
Учење шегртовањем
Учење вођено грешком
Без модела (учење поткрепљењем)
Мултиагентно учење поткрепљењем
Оптимална контрола
Q-учење
Учење поткрепљењем из људских повратних информација
Стање–акција–награда–стање–акција (SARSA)
Учење временске разлике

Референце

Loading content...

Литература

Loading content...

Спољашње везе

Loading content...

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads