Razjašnjavanje smisla reči

Postoje dva glavna pristupa VSD-u – duboki pristupi i plitki pristupi.

Duboki pristupi pretpostavljaju pristup sveobuhvatnom korpusu svetskog znanja. Ovi pristupi se generalno ne smatraju veoma uspešnim u praksi, uglavnom zato što takav korpus znanja ne postoji u kompjuterski čitljivom formatu, izvan veoma ograničenih domena.^[1] Pored toga, zbog duge tradicije u računarskoj lingvistici, pokušaja takvih pristupa u smislu kodiranog znanja i u nekim slučajevima, može biti teško napraviti razliku između znanja uključenog u lingvističko ili svetsko znanje. Prvi pokušaj je bio od strane Margaret Masterman i njenih kolega, u jedinici za istraživanje jezika u Kembridžu u Engleskoj tokom 1950-ih. Ovaj pokušaj je kao podatke koristio verziju Rogetovog tezaurusa na bušenim karticama i njegove numerisane „glave「, kao indikator tema i tražio je ponavljanja u tekstu, koristeći postavljeni algoritam preseka. To nije bilo veoma uspešno,^[2] ali je imalo snažne veze sa kasnijim radom, posebno sa Jarovskijevom optimizacijom mašinskog učenja tezaurusnim metodom tokom 1990-ih.

Plitki pristupi ne pokušavaju da razumeju tekst, već uzimaju u obzir okolne reči. Kompjuter može automatski da izvede ova pravila, koristeći korpus reči za obuku označenih njihovim osetnim reči. Ovaj pristup, iako teoretski nije jednako moćan kao duboki pristupi, daje superiorne rezultate u praksi, zbog ograničenog znanja računara o svetu.

Postoje četiri konvencionalna pristupa VSD-u:

Metode zasnovane na rečnicima i znanju: One se prvenstveno oslanjaju na rečnike, tezauruse i leksičke baze znanja, bez upotrebe bilo kakvog korpusa dokaza.
Polu-nadzirane ili minimalno nadgledane metode: One koriste sekundarni izvor znanja kao što je mali anotirani korpus kao početni podaci u procesu pokretanja, ili dvojezični prilagođeni korpus.
Nadzirane metode: One koriste smisaono obeležene korpuse za obuku.
Metode bez nadzora: Ove metode izbegavaju (skoro) potpuno spoljne informacije i rade direktno iz neobrađenih korpusa bez komentara. Ove metode su takođe poznate pod nazivom diskriminacija po smislu reči.

Skoro svi ovi pristupi funkcionišu tako što definišu prozor od n reči sadržaja oko svake reči koja treba da se razjasni u korpusu i statistički analiziraju tih n okolnih reči. Dva plitka pristupa koja se koriste za obučavanje, a zatim razjašnjavanje su naivni Bajesovi klasifikatori i stabla odlučivanja. U nedavnim istraživanjima, metode zasnovane na kernelu, kao što su metode potpornih vektora, pokazale su superiorne performanse u nadgledanom učenju. Pristupi zasnovani na grafovima takođe su privukli veliku pažnju istraživačke zajednice i trenutno postižu performanse bliske poslednjoj reči tehnologije.

Metode zasnovane na rečniku i znanju

Leskov algoritam^[3] je seminalni metod baziran na rečniku. Zasniva se na hipotezi da su reči koje se koriste zajedno u tekstu povezane jedna sa drugom i da se odnos može uočiti u definicijama reči i njihovom smislu. Smisao dve (ili više) reči se može razjasniti pronalaženjem para značenja u rečniku sa najvećim preklapanjem reči u njihovim rečničkim definicijama. Na primer, kada se razdvoje reči „borova šišarka」, definicije odgovarajućih značenja uključuju reči zimzeleno i drvo (barem u jednom rečniku). Sličan pristup^[4] traži najkraći put između dve reči: druga reč se iterativno pretražuje među definicijama svake semantičke varijante prve reči, zatim među definicijama svake semantičke varijante svake reči u prethodnim definicijama i tako dalje. Konačno, prva reč je razdvojena izborom semantičke varijante koja minimizira rastojanje od prve do druge reči.

Alternativa upotrebi definicija je razmatranje opšte srodnosti reči-smisla i izračunavanje semantičke sličnosti svakog para značenja reči na osnovu date leksičke baze znanja kao što je WordNet. Metode zasnovane na grafikonima, koje podsećaju na istraživanja šireće aktivacije iz ranih dana istraživanja veštačke inteligencije, primenjene su sa određenim uspehom. Pokazalo se da složeniji pristupi zasnovani na grafovima rade skoro jednako dobro kao i nadgledane metode^[5] ili ih čak nadmašuju u pojedinim domenima.^[6]^[7] Nedavno je objavljeno da jednostavne mere povezivanja grafova, kao što je stepen, obavljaju najsavremeniji WSD u prisustvu dovoljno bogate baze leksičkog znanja.^[8] Takođe, pokazalo se da automatski prenos znanja u obliku semantičkih odnosa sa Vikipedije na WordNet podstiče jednostavne metode zasnovane na znanju, omogućavajući im da se takmiče sa najboljim nadgledanim sistemima, te čak i da ih nadmašuju u specifičnim domenskim okruženjima.^[9]

Upotreba preferencija za izbor (ili ograničenja izbora) je takođe korisna, na primer, znajući da se obično kuva hrana, reč bas se može razdvojiti u „Ja kuvam grgeča「.

Nadzirane metode

Nadzirane metode su zasnovane na pretpostavci da kontekst može sam po sebi pružiti dovoljno dokaza da se razaznaju značenja reči (dakle, zdrav razum i rezonovanje se smatraju nepotrebnim). Verovatno je svaki algoritam mašinskog učenja primenjen na WSD, uključujući povezane tehnike kao što su izbor karakteristika, optimizacija parametara i ansambalsko učenje. Metode potpornih vektora i učenje zasnovano na memoriji su se pokazali kao najuspešniji pristupi do sada, verovatno zato što mogu da se nose sa visokodimenzionalnošću prostora karakteristika. Međutim, ove nadgledane metode su podložne novom uskom grlu u sticanju znanja jer se za obuku oslanjaju na znatne količine ručno označenih korpusa, čije je kreiranje naporno i skupo.

Polunadzirane metode

Zbog nedostatka podataka za obuku, mnogi algoritmi za razaznačavanje smisla reči koriste polunadgledano učenje, koje omogućava i označene i neoznačene podatke. Algoritam Jarovskog je bio rani primer takvog algoritma.^[10] On koristi svojstva „Jedan smisao po kolokaciji「 i „Jedan smisao po diskursu「 ljudskih jezika za razjašnjavanje smisla reči. Iz posmatranja proizilazi da reči imaju tendenciju da ispoljavaju samo jedno značenje u većini datog diskursa i na datoj kolokaciji.^[11]

Butstraping pristup počinje od male količine početnih podataka za svaku reč: bilo ručno označenih primera za trening ili malog broja pouzdanih pravila odlučivanja (npr. 'sviranje' u kontekstu 'basa' skoro uvek ukazuje na muzički instrument). Seme se koristi za obuku početnog klasifikatora, koristeći bilo koju nadziranu metodu. Ovaj klasifikator se zatim koristi na neoznačenom delu korpusa za izdvajanje većeg skupa za obuku, u koji su uključene samo najpouzdanije klasifikacije. Proces se ponavlja, svaki novi klasifikator se obučava na sukcesivno većem korpusu obuke, sve dok se ceo korpus ne obuhvati ili dok se ne dostigne dati maksimalni broj iteracija.

Metode bez nadzora

Učenje bez nadzora je najveći izazov za WSD istraživače. Osnovna pretpostavka je da se slična značenja javljaju u sličnim kontekstima, i da se smislovi mogu indukovati iz teksta grupisanjem pojavljivanja reči koristeći neku meru sličnosti konteksta,^[12] zadatak koji se naziva indukcija smisla reči ili diskriminacija. Zatim se nove pojave reči mogu klasifikovati u najbliže indukovane klastere/čula. Performanse su bile niže nego kod drugih metoda opisanih iznad, mada su poređenja teška pošto indukovani smislovi moraju biti mapirani u poznati rečnik značenja reči. Ako mapiranje na skup rečničkih značenja nije poželjno, mogu se izvršiti evaluacije zasnovane na klasterima (uključujući mere entropije i čistoće). Alternativno, metode indukcije smisla reči mogu se testirati i porediti u okviru aplikacije. Na primer, pokazalo se da indukcija smisla reči poboljšava grupisanje rezultata veb pretrage povećanjem kvaliteta klastera rezultata i stepena diversifikacije lista rezultata.^[13]^[14] Očekuje se da će učenje bez nadzora prevazići usko grlo u sticanju znanja jer ono ne zavisi od manuelnog doprinosa.

Predstavljanje reči uzimajući u obzir njihov kontekst kroz guste vektore fiksne veličine (ugrađivanje reči) postalo je jedan od najosnovnijih blokova u nekoliko NLP sistema.^[15]^[16]^[17] Iako većina tradicionalnih tehnika ugrađivanja reči spaja reči sa više značenja u jedan vektorski prikaz, one se i dalje mogu koristiti za poboljšanje WSD-a.^[18] Jednostavan pristup korišćenju unapred izračunatih ugradnji reči za predstavljanje smisla reči je izračunavanje centoida klastera značenja.^[19]^[20] Pored tehnika ugrađivanja reči, leksičke baze podataka (npr. WordNet, ConceptNet, BabelNet) takođe mogu pomoći sistemima bez nadzora u mapiranju reči i njihovih značenja u rečnike. Neke tehnike koje kombinuju leksičke baze podataka i ugrađivanje reči predstavljene su u AutoExtend-u^[21]^[22] i Anotaciji najprikladnijeg smisla (MSSA).^[23] U AutoExtend-u,^[22] oni predstavljaju metod koji razdvaja ulaznu reprezentaciju objekta u njegova svojstva, kao što su reči i njihova značenja reči. AutoExtend koristi strukturu grafa za mapiranje objekata reči (npr. tekst) i nereči (npr. sinsetovi u WordNet-u) kao čvorove i odnos između čvorova kao ivice. Relacije (ivice) u AutoExtend-u mogu ili da izraze dodavanje ili sličnost između njegovih čvorova. Prvi obuhvata intuiciju iza računa ofseta,^[15] dok drugi definiše sličnost između dva čvora. U MSSA,^[23] sistem razjašnjavanja bez nadzora koristi sličnost između značenja reči u prozoru fiksnog konteksta da bi odabrao najprikladniji smisao reči koristeći unapred obučeni model za ugrađivanje reči i WordNet. Za svaki prozor konteksta, MSSA izračunava težište svake definicije smisla reči usrednjavanjem vektora reči u WordNet-ovim glosama (tj. kratko definisanje glosa i jedan ili više primera upotrebe) koristeći unapred obučeni model za ugrađivanje reči. Ovi centri se kasnije koriste za odabir smisla reči sa najvećom sličnošću ciljne reči sa njenim neposredno susednim susedima (tj. prethodnim i sledećim rečima). Nakon što su sve reči označene i razdvojene, mogu se koristiti kao korpus za obuku u bilo kojoj standardnoj tehnici ugrađivanja reči. U svojoj poboljšanoj verziji, MSSA može da koristi ugradnju smisla reči da bi ponovio svoj proces razjašnjavanja iterativno.

Drugi pristupi

Drugi pristupi se mogu razlikovati u svojim metodama:

Višeznačnost vođena domenom;^[24]^[25]
Identifikacija dominantnih značenja reči;^[26]^[27]^[28]
WSD koristeći višejezične dokaze.^[29]^[30]
WSD rešenje u jezički nezavisnom NLU Džona Bala, kombinujući Patom teoriju i RRG (uloga i referentna gramatika)
Tipsko zaključivanje u gramatikama zasnovanim na ograničenjima.^[31]

Drugi jezici

Hindi: Nedostatak leksičkih resursa na hindskom je ometao performanse nadgledanih modela WSD-a, dok nenadgledani modeli pate zbog obimne morfologije. Moguće rešenje ovog problema je projektovanje WSD modela pomoću paralelnih korpusa.^[32]^[33] Stvaranje Hindi WordNet-a^[34] utrlo je put za nekoliko nadgledanih metoda za koje je dokazano da proizvode veću preciznost u razjašnjavanju imenica.^[35]

Razjašnjavanje smisla reči

Pristupi i metode

Metode zasnovane na rečniku i znanju

Nadzirane metode

Polunadzirane metode

Metode bez nadzora

Drugi pristupi

Drugi jezici

Softver

Reference

Literatura

Spoljašnje veze

Wikiwand - on