Transformator (model mašinskog učenja)

From Wikipedia, the free encyclopedia

Remove ads
Remove ads

Transformator je arhitektura dubokog učenja koju je razvio Gugl i zasnovana na algoritmu mehanizma višestruke pažnje, predloženom u radu objavljenom 2017. godine, pod naslovom „Pažnja je sve što vam je potrebno“.[1] On nema rekurentne jedinice i stoga zahteva manje vremena za obuku od prethodnih rekurentnih neuronskih arhitektura, kao što je dugotrajna kratkoročna memorija (LSTM),[2] i njegova kasnija varijacija je pretežno usvojena za obuku velikih jezičkih modela (LLM) na velikim (jezičkim) skupovima podataka, kao što su korpus Vikipedije i Komon Krol.[3] Tekst se konvertuje u numeričke reprezentacije koje se nazivaju tokeni, a svaki token se konvertuje u vektor traženjem iz tabele ugrađinih reči.[1] Na svakom sloju, svaki token se zatim kontekstualizuje unutar okvira kontekstnog prozora sa drugim (nemaskiranim) tokenima preko paralelnog mehanizma pažnje sa više glava koji omogućava da se pojača signal za ključne tokene i umanji značaj manje važnih tokena. Publikacija o transformatoru, objavljena 2017. godine, zasnovana je na softmaks mehanizmu pažnje koji su predložili Bahdanau et. al. 2014. za mašinsko prevođenje,[4][5] i brzom kontroleru težine, sličnom transformatoru, predloženom 1992. godine.[6][7][8]

Ova arhitektura se sada koristi ne samo u obradi prirodnog jezika i kompjuterskoj viziji,[9] već i u audio[10] i multimodalnoj obradi. To je takođe dovelo do razvoja unapred obučenih sistema, kao što su generativni prethodno obučeni transformatori (GPT)[11] i BERT[12] (bidirekciona inkoderska reprezentacija za transformatore).

Remove ads

Reference

Loading content...

Literatura

Loading content...
Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads