Pažnja (mašinsko učenje)
From Wikipedia, the free encyclopedia
Remove ads
Pažnja zasnovana na mašinskom učenju je mehanizam koji intuitivno oponaša kognitivnu pažnju. On izračunava „meke「 težine za svaku reč, tačnije za njeno ugrađivanje, u prozoru konteksta. Ove težine se mogu izračunati paralelno (kao što je u transformatorima) ili sekvencijalno (kao u rekurentnim neuronskim mrežama). „Meke「 težine mogu da se menjaju tokom svakog rada, za razliku od „tvrdih「 pondera, koji su (pre-)uvežbani i fino podešeni i ostaju zamrznuti nakon toga.
Pažnja je usmerena na rešavanje slabosti u korišćenju informacija iz skrivenih izlaza rekurentnih neuronskih mreža. Rekurentne neuronske mreže favorizuju novije informacije sadržane u rečima na kraju rečenice, dok se očekuje da će informacije ranije u rečenici biti oslabljene. Pažnja omogućava izračunavanje skrivene reprezentacije leksema jednakog pristupa bilo kom delu rečenice direktno, a ne samo preko prethodnog skrivenog stanja.
Ranije upotrebe povezale su ovaj mehanizam sa sistemom za prevođenje jezika serijske rekurentne neuronske mreže (ispod), ali kasnije korišćenje u Transformerima velikih jezičkih modela uklonilo je rekurentnu neuronsku mrežu i u velikoj meri se oslanjalo na bržu paralelnu šemu pažnje.
Remove ads
Prethodnici
Prethodnici mehanizma su korišćeni u rekurentnim neuronskim mrežama koje su, međutim, sekvencijalno izračunavale „meke「 težine i, na svakom koraku, razmatrale trenutnu reč i druge reči unutar kontekstnog prozora. Oni su bili poznati kao multiplikativni moduli, sigma pi jedinice[1] i hiper-mreže.[2] Oni su korišćeni u mrežama dugotrajne kratkoročne memorije (LSTM), multi-senzornoj obradi podataka (zvuk, slike, video i tekst) u perceptorima, brzoj memoriji kontrolora težine,[3] zadacima rasuđivanja u diferencibilnim neuronskim računarima i neuronskim Tjuringovim mašinama.[4][5][6][7][8]
Remove ads
Reference
Spoljašnje veze
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads