Podržano učenje

Podržano učenje (енгл. ) područje je mašinskog učenja i optimalne kontrole koje se bavi time kako bi inteligentni agenti trebali odabrati akcije u okruženju kako bi maksimizovali pojam kumulativne nagrade. Podržano učenje jedno je od tri osnovne paradigme mašinskog učenja, uz nadzirano učenje i nenadzirano učenje.

Podržano učenje se razlikuje od nadziranog učenja po tome što ne zahteva prikazivanje označenih ulazno/izlaznih parova, kao ni obavezno ispravljanje suboptimalnih akcija. Umesto toga, fokus je na pronalaženju ravnoteže između istraživanja (nepoznatih područja) i iskorištavanja (trenutnog znanja).^[1] Okruženje se obično izražava u obliku Markovljevog procesa odlučivanja (MDP) jer mnogi algoritmi podržanog učenja u ovom kontekstu koriste tehnike dinamičkog programiranja.^[2]

Glavna razlika između klasičnih metoda dinamičkog programiranja i algoritama podržanog učenja je da podržano učenje ne pretpostavlja poznavanje tačnog matematičkog modela MDP-a i da cilja na velike MDP-ove za koje tačne metode postaju nemoguće.^[3]

[1]

[2]

[3]

Podržano učenje

Formalizacija problema

Zaleđina

Strategija

Vrednost funkcije

Vidi još

Reference

Literatura

Spoljašnje veze

Wikiwand - on