Podržano učenje iz ljudskih povratnih informacija

From Wikipedia, the free encyclopedia

Podržano učenje iz ljudskih povratnih informacija
Remove ads
Remove ads

U mašinskom učenju, podržano učenje iz ljudskih povratnih informacija (енгл. ), takođe poznato kao učenje uz pomoć ljudskih preferencija, tehnika je usklađivanja inteligentnog agenta sa ljudskim preferencijama. U klasičnom podržanom učenju, cilj takvog agenta je da nauči funkciju koja se naziva politika koja maksimizira nagradu koju dobija na osnovu toga koliko dobro obavlja svoj zadatak.[1] U slučaju ljudskih preferencija, međutim, obično je teško eksplicitno definisati funkciju nagrađivanja koja se približava ljudskim preferencijama. Stoga, RLHF nastoji da obuči „model nagrađivanja「 direktno iz povratnih informacija ljudi.[2] Model nagrađivanja se prvo obučava na nadzirani način — nezavisno od politike koja se optimizuje — da bi se predvidelo da li je odgovor na dati upit dobar (visoka nagrada) ili loš (niska nagrada) na osnovu podataka o rangiranju prikupljenih od ljudskih anotatora. Ovaj model se zatim koristi kao funkcija nagrađivanja za poboljšanje politike agenta kroz algoritam optimizacije kao što je proksimalna optimizacija politike.[3]

RLHF se može primeniti na različite domene u mašinskom učenju, uključujući zadatke obrade prirodnog jezika kao što su sumiranje teksta i konverzacijski agenti, zadatke kompjuterskog vida kao što su modeli teksta u sliku i razvoj robota za video igre. Dok je RLHF efikasan metod obučavanja modela da bolje deluju u skladu sa ljudskim preferencijama, on se takođe suočava sa izazovima zbog načina na koji se prikupljaju podaci o ljudskim preferencijama. Iako RLHF ne zahteva ogromne količine podataka za poboljšanje performansi, pronalaženje visokokvalitetnih podataka o preferencijama je i dalje skup proces. Štaviše, ako podaci nisu pažljivo prikupljeni iz reprezentativnog uzorka, rezultujući model može pokazati neželjene pristrasnosti.

Thumb
Pregled visokog nivoa podržanog učenja iz ljudskih povratnih informacija.
Remove ads

Motivacija

Optimizacija modela zasnovanog na ljuskim povratnim informacijama je poželjna kada je zadatak teško specificirati, ali lako proceniti.[4][5] Na primer, za zadatak generisanja ubedljive priče, dok bi nastojanje da se od ljudi generišu primeri dobrih i loših priča bilo teško i dugotrajno, ljudi mogu lako i brzo da procene kvalitet različitih priča generisanih veštačkom inteligencijom. Cilj bi tada bio da model koristi ove ljudske povratne informacije kako bi poboljšao svoje generisanje priča.

Bilo je različitih prethodnih pokušaja korišćenja povratnih informacija od ljudi za optimizaciju izlaznih rezultata modela, uključujući podržano učenje, ali većina pokušaja je bila ili uska i teško ih je generalizovati, razložiti na kompleksne zadatke,[6][7][8][9] ili su se suočili sa poteškoćama u učenju iz oskudne ili bučne funkcije nagrađivanja.[10][11] RLHF je bio pokušaj da se stvori opšti algoritam za učenje iz praktične količine povratnih informacija ljudi.[4][3] Takođe se pokazalo da RLHF poboljšava robusnost i istraživanje RL agenasa.[12]

Remove ads

Reference

Loading content...
Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads