Veliki jezički modeli

From Wikipedia, the free encyclopedia

Remove ads
Remove ads

Veliki jezički modeli (енгл. ) je jezički model poznat po svojoj sposobnosti da postigne generisanje jezika opšte namene i druge zadatke obrade prirodnog jezika kao što je klasifikacija. LLM stiču ove sposobnosti učeći statističke odnose iz tekstualnih dokumenata tokom računarski intenzivnog samonadgledanog i polu-nadgledanog procesa obuke.[1] LLM se mogu koristiti za generisanje teksta, oblik generativne VI, uzimanjem ulaznog teksta i uzastopnim predviđanjem sledećeg tokena ili reči.[2]

LLM su veštačke neuronske mreže. Prema podacima iz 2024. godine, najveći i najsposobniji modeli, izgrađeni su sa dekoderskom transformatorskom arhitekturom, dok su neke skorije implementacije zasnovane na drugim arhitekturama, kao što su varijante rekurentne neuronske mreže i Mambe (model prostora stanja).[3][4][5]

Sve do 2020. godine, fino podešavanje je bilo jedini način na koji je model mogao da se prilagodi da bi mogao da izvrši određene zadatke. Međutim, modeli većih dimenzija, kao što je GPT-3, mogu se brzo konstruisati da bi se postigli slični rezultati.[6] Smatra se da oni stiču znanja o sintaksi, semantici i „ontologiji“ svojstvenim korpusima ljudskog jezika, ali i netačnostima i pristrasnostima prisutnim u korpusu.[7]

Neki značajni LLM-ovi su OpenAI GPT serija modela (npr. GPT-3.5 i GPT-4, koji se koriste u ChatGPT-u i Majkrosoftovom Kopilotu), Guglov PaLM i Gemini (od kojih se poslednji trenutno koristi u istoimenom čatbotu), xAI-ov Grok, Metina LLaMA porodica modela otvorenog koda, Antropikovi Klaud modeli i Mistral AI modeli otvorenog koda.

Remove ads

Reference

Loading content...

Literatura

Loading content...
Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads