Podržano učenje iz ljudskih povratnih informacija

U mašinskom učenju, podržano učenje iz ljudskih povratnih informacija (енгл. ), takođe poznato kao učenje uz pomoć ljudskih preferencija, tehnika je usklađivanja inteligentnog agenta sa ljudskim preferencijama. U klasičnom podržanom učenju, cilj takvog agenta je da nauči funkciju koja se naziva politika koja maksimizira nagradu koju dobija na osnovu toga koliko dobro obavlja svoj zadatak.^[1] U slučaju ljudskih preferencija, međutim, obično je teško eksplicitno definisati funkciju nagrađivanja koja se približava ljudskim preferencijama. Stoga, RLHF nastoji da obuči „model nagrađivanja“ direktno iz povratnih informacija ljudi.^[2] Model nagrađivanja se prvo obučava na nadzirani način — nezavisno od politike koja se optimizuje — da bi se predvidelo da li je odgovor na dati upit dobar (visoka nagrada) ili loš (niska nagrada) na osnovu podataka o rangiranju prikupljenih od ljudskih anotatora. Ovaj model se zatim koristi kao funkcija nagrađivanja za poboljšanje politike agenta kroz algoritam optimizacije kao što je proksimalna optimizacija politike.^[3]

RLHF se može primeniti na različite domene u mašinskom učenju, uključujući zadatke obrade prirodnog jezika kao što su sumiranje teksta i konverzacijski agenti, zadatke kompjuterskog vida kao što su modeli teksta u sliku i razvoj robota za video igre. Dok je RLHF efikasan metod obučavanja modela da bolje deluju u skladu sa ljudskim preferencijama, on se takođe suočava sa izazovima zbog načina na koji se prikupljaju podaci o ljudskim preferencijama. Iako RLHF ne zahteva ogromne količine podataka za poboljšanje performansi, pronalaženje visokokvalitetnih podataka o preferencijama je i dalje skup proces. Štaviše, ako podaci nisu pažljivo prikupljeni iz reprezentativnog uzorka, rezultujući model može pokazati neželjene pristrasnosti.

[1]

[2]

[3]

Podržano učenje iz ljudskih povratnih informacija

Motivacija

Reference

Wikiwand - on