Велики језички модел

Велики језички модел (ВЈМ; енгл. ; LLM) јесте језички модел који се састоји од неуронске мреже с многобројним параметрима (обично милијарде или више), обучен на великим количинама неoзначеног текста помоћу самонадгледаног учења. Настали су око 2018. године и добро се сналазе у широком спектру задатака. Ово је у супротности с претходном праксом обучавања специјализованих надгледаних модела за одређене задатке.

Иако се појам велики језички модел нема формалну дефиницију, најчешће се односи на моделе дубоког учења с милионима или чешће милијардама параметара. ВЈМ-ови су модели опште намене који се истичу у широком спектру задатака, за разлику од модела који су обучени за један специфичан задатак (као што је анализа сентимента, препознавање именованих ентитета или математичко закључивање).^[1]

Највећи и најспособнији ВЈМ-ови су генеративни претходно обучени трансформери (ГПТ), засновани на трансформерској архитектури, који се увелико користе у генеративним чет-ботовима као што су ChatGPT, Џемини и Клод. ВЈМ-ови се могу фино подесити за специфичне задатке или водити промпт инжењерингом. Ови модели стичу предиктивну моћ у вези са синтаксом, семантиком и онтологијама^[2] својственим људским језичким корпусима, али такође наслеђују нетачности и пристрасности присутне у подацима на којима су обучени.^[3]

Remove ads

Историја

Пре појаве модела заснованих на трансформерима 2017. године, неки језички модели су се сматрали великим у односу на рачунарска и податковна ограничења свог времена. Почетком 1990-их, статистички модели компаније Ај-Би-Ем били су пионири у техникама поравнавања речи за машинско превођење, постављајући темеље за моделовање језика засновано на корпусу. Године 2001, изглађени n-грамски модел, попут оних који користе Кнезер-Нијево изглађивање, обучен на 300 милиона речи, постигао је врхунску перплексију на бенчмарк тестовима.^[4] Током 2000-их, с порастом распрострањености приступа интернету, истраживачи су почели да састављају огромне скупове текстуалних података с веба („веб као корпус「^[5]) како би обучавали статистичке језичке моделе.^[6]^[7] Прелазећи даље од n-грамских модела, истраживачи су 2000. године почели да користе неуронске мреже за учење језичких модела.^[8] Након пробоја дубоких неуронских мрежа у класификацији слика око 2012. године,^[9] сличне архитектуре су прилагођене за језичке задатке. Ова промена је обележена развојем уграђивања речи (нпр. Ворд2век од Миколова 2013. године) и секвенца-у-секвенцу (seq2seq) модела који користе ЛСТМ. Године 2016, Гугл је пребацио своју услугу превођења на неуронско машинско превођење (НМП), замењујући статистичке моделе засноване на фразама дубоким рекурентним неуронским мрежама. Ови рани НМП системи користили су енкодер-декодер архитектуре засноване на ЛСТМ-у, пошто су претходили проналаску трансформера.

На конференцији NeurIPS 2017. године, истраживачи из Гугла представили су трансформерску архитектуру у свом знаменитом раду „Пажња је све што вам је потребно「. Циљ овог рада био је да се унапреди технологија секвенца-у-секвенцу из 2014. године,^[10] и заснивао се углавном на механизму пажње који су развили Бахданау и сарадници 2014. године.^[11] Следеће године, 2018, представљен је БЕРТ и брзо је постао „свеприсутан「.^[12] Иако оригинални трансформер има и енкодерске и декодерске блокове, БЕРТ је модел само са енкодером. Академска и истраживачка употреба БЕРТ-а почела је да опада 2023. године, након брзих побољшања у способностима модела само са декодером (као што је ГПТ) да решавају задатке путем промптовања.^[13] Иако је ГПТ-1 само са декодером представљен 2018. године, био је то ГПТ-2 2019. године који је привукао широку пажњу јер је Опен-Еј-Ај тврдио да га је у почетку сматрао превише моћним за јавно објављивање, из страха од злонамерне употребе.^[14] ГПТ-3 је 2020. отишао корак даље и, закључно са 2025. годином, доступан је само путем АПИ-ја без понуде за преузимање модела за локално извршавање. Али био је то Чет-ГПТ, чет-бот намењен потрошачима из 2022. године, који је добио опсежну медијску покривеност и пажњу јавности.^[15] ГПТ-4 из 2023. године похваљен је због повећане тачности и као „свети грал「 због својих мултимодалних способности.^[16] Опен-Еј-Ај није открио архитектуру на високом нивоу и број параметара ГПТ-4. Објављивање Чет-ГПТ-а довело је до пораста употребе ВЈМ-ова у неколико истраживачких подпоља рачунарства, укључујући роботику, софтверско инжењерство и рад на друштвеном утицају.^[13] У 2024. години Опен-Еј-Ај је објавио модел за закључивање Опен-Еј-Ај о1, који генерише дуге ланце мисли пре него што врати коначан одговор.^[17] Развијени су многи ВЈМ-ови с бројем параметара упоредивим с онима из ГПТ серије компаније Опен-Еј-Ај.^[18]

Од 2022. године, модели доступни извором постају све популарнији, посебно у почетку с БЛУМ-ом и Ламом, иако оба имају ограничења у погледу области примене. Модели компаније Мистрал Еј-Ај, Мистрал 7Б и Микстрал 8x7б, имају пермисивнију Апачи лиценцу. У јануару 2025. године, Дип-Сик је објавио Дип-Сик Р1, модел отворене тежине с 671 милијардом параметара који се по перформансама може поредити с Опен-Еј-Ај о1, али уз много нижу цену.^[19]

Од 2023. године, многи ВЈМ-ови су обучавани да буду мултимодални, с могућношћу обраде или генерисања других врста података, као што су слике или аудио. Ови ВЈМ-ови се такође називају велики мултимодални модели (ВММ).^[20] Од 2024. године, највећи и најспособнији модели су сви засновани на трансформерској архитектури. Неке новије имплементације засноване су на другим архитектурама, као што су варијанте рекурентних неуронских мрежа и Мамба (модел простора стања).^[21]^[22]^[23]

Remove ads

Предобрада скупа података

Токенизација

Пошто алгоритми машинског учења обрађују бројеве, а не текст, текст се мора претворити у бројеве. У првом кораку, одређује се речник, затим се сваком уносу у речник произвољно, али јединствено додељују целобројни индекси, и на крају се уграђивање повезује с целобројним индексом. Алгоритми укључују кодирање парова бајтова (BPE) и ВордПис (WordPiece). Постоје и специјални токени који служе као контролни знакови, као што је [MASK] за маскирани токен (који се користи у БЕРТ-у), и [UNK] („непознато「) за знакове који се не појављују у речнику. Такође, неки специјални симболи се користе за означавање посебног форматирања текста. На пример, „Ġ「 означава претходни празан простор у РоБЕРТ-и и ГПТ-у. „##「 означава наставак претходне речи у БЕРТ-у.^[24]

На пример, BPE токенизатор који користи ГПТ-3 (старија верзија) поделио би токенизатор: текстови -> низ нумеричких „токена「 као

token

izer

texts

series

numerical

ens

Токенизација такође компримује скупове података. Пошто ВЈМ-ови генерално захтевају да улаз буде низ који није назубљен, краћи текстови морају бити „допуњени「 док не достигну дужину најдужег. Просечан број речи по токену зависи од језика.^[25]^[26] У енглеском језику, однос је обично око 0,75 речи по токену, с просечно 4 знака по токену.^[27]

Кодирање парова бајтова

Као пример, размотримо токенизатор заснован на кодирању парова бајтова. У првом кораку, сви јединствени знакови (укључујући празнине и интерпункцијске знакове) третирају се као почетни скуп n-грама (тј. почетни скуп уни-грама). Сукцесивно, најчешћи пар суседних знакова се спаја у би-грам и све инстанце тог пара се замењују њиме. Сва појављивања суседних парова (претходно спојених) n-грама који се најчешће појављују заједно се затим поново спајају у још дуже n-граме, док се не добије речник прописане величине. Након што је токенизатор обучен, било који текст се може токенизовати њиме, све док не садржи знакове који се не појављују у почетном скупу уни-грама.^[28]

Проблеми

Речник токена заснован на фреквенцијама извученим из углавном енглеских корпуса користи што је могуће мање токена за просечну енглеску реч. Међутим, просечна реч на другом језику кодирана таквим токенизатором оптимизованим за енглески језик дели се на неоптималан број токена. ГПТ-2 токенизатор може користити до 15 пута више токена по речи за неке језике, на пример за шански језик из Мјанмара. Чак и распрострањенији језици попут португалског и немачког имају „премију од 50%「 у поређењу с енглеским.^[26]

Чишћење скупа података

У контексту обучавања ВЈМ-ова, скупови података се обично чисте уклањањем података ниског квалитета, дуплираних или токсичних података.^[29] Очишћени скупови података могу повећати ефикасност обуке и довести до побољшаних перформанси у даљим задацима.^[30]^[31] Обучени ВЈМ може се користити за чишћење скупова података за обучавање даљег ВЈМ-а.^[32]

С повећањем удела садржаја генерисаног од стране ВЈМ-ова на вебу, чишћење података у будућности може укључивати филтрирање таквог садржаја. Садржај генерисан од стране ВЈМ-ова може представљати проблем ако је садржај сличан људском тексту (што отежава филтрирање), али нижег квалитета (што деградира перформансе модела обучених на њему).^[1]

Синтетички подаци

Обука највећих језичких модела може захтевати више лингвистичких података него што је природно доступно, или су природно доступни подаци недовољног квалитета. У тим случајевима, могу се користити синтетички подаци. ВЈМ-ови из серије Фи компаније Мајкрософт обучавају се на подацима сличним уџбеницима које генерише други ВЈМ.^[33]

Remove ads

Обука

ВЈМ је тип фундацијског модела (велики X модел) обучен на језику. ВЈМ-ови се могу обучавати на различите начине. Конкретно, ГПТ модели се прво претходно обучавају да предвиде следећу реч на великој количини података, пре него што се фино подесе.

Трошкови

За обучавање највећих модела потребна је значајна инфраструктура. Тенденција ка већим моделима видљива је на списак великих језичких модела. На пример, обучавање ГПТ-2 (тј. модела с 1,5 милијарди параметара) 2019. године коштало је 50.000 долара, док је обучавање ПаЛМ-а (тј. модела с 540 милијарди параметара) 2022. године коштало 8 милиона долара, а Мегатрон-Тјуринг НЛГ 530Б (2021. године) око 11 милиона долара. Квалификатор „велики「 у „великом језичком моделу「 је суштински неодређен, јер не постоји дефинитиван праг за број параметара потребан да би се модел квалификовао као „велики「. ГПТ-1 из 2018. има 117 милиона параметара.

Фино подешавање

Пре финог подешавања, већина ВЈМ-ова су предвиђачи следећег токена. Фино подешавање прилагођава излаз ВЈМ-а да изгледа више конверзацијски путем техника као што су учење с поткрепљивањем из људских повратних информација (RLHF) или конституционална вештачка интелигенција.^[34] Фино подешавање инструкцијама је облик надгледаног учења који се користи да би се ВЈМ-ови научили да прате упутства корисника. Године 2022, Опен-Еј-Ај је демонстрирао Инстракт-ГПТ, верзију ГПТ-3 која је слично фино подешена да прати инструкције.^[35]

Учење с поткрепљивањем из људских повратних информација (RLHF) укључује обучавање модела награђивања да предвиди који текст људи преферирају. Затим се ВЈМ може фино подесити путем учења с поткрепљивањем како би боље задовољио овај модел награђивања. Пошто људи обично преферирају истините, корисне и безопасне одговоре, RLHF фаворизује такве одговоре.

Архитектура

ВЈМ-ови су генерално засновани на трансформерској архитектури, која користи механизам пажње који омогућава моделу да истовремено обрађује односе између свих елемената у секвенци, без обзира на њихову међусобну удаљеност.

Механизам пажње и контекстни прозор

Да би се утврдило који су токени релевантни једни за друге у оквиру контекстног прозора, механизам пажње израчунава „меке「 тежине за сваки токен, тачније за његово уграђивање, користећи више глава пажње, од којих свака има сопствену „релевантност「 за израчунавање сопствених меких тежина. На пример, мали (тј. модел величине 117 милиона параметара) ГПТ-2 модел имао је дванаест глава пажње и контекстни прозор од само 1.000 токена.^[37] У својој средњој верзији има 345 милиона параметара и садржи 24 слоја, сваки с 12 глава пажње. За обуку с градијентним спустом коришћена је величина серије од 512.^[28]

Гуглов Џемини 1.5, представљен у фебруару 2024, може имати контекстни прозор до 1 милион токена.^[38]

Модел се може претходно обучити или да предвиди како се сегмент наставља, или шта недостаје у сегменту, на основу сегмента из свог скупа података за обуку.^[39] Може бити или

ауторегресиван (тј. предвиђа како се сегмент наставља, као што то раде генеративни претходно обучени трансформери): на пример, за дати сегмент „Волим да једем「, модел предвиђа „сладолед「 или „суши「.
„маскиран「 (тј. попуњава делове који недостају у сегменту, на начин на који то ради БЕРТ^[40]): на пример, за дати сегмент „Волим да [__] [__] лед「, модел предвиђа да недостају „једем「 и „сладо「.

Модели се могу обучавати на помоћним задацима који тестирају њихово разумевање дистрибуције података, као што је предвиђање следеће реченице (Next Sentence Prediction, NSP), где се парови реченица представљају, а модел мора да предвиди да ли се оне појављују узастопно у корпусу за обуку.^[40] Током обуке, губитак регуларизације се такође користи за стабилизацију обуке. Међутим, губитак регуларизације се обично не користи током тестирања и евалуације.

Мешавина експерата

Мешавина експерата (Mixture of experts, MoE) је архитектура машинског учења у којој више специјализованих неуронских мрежа („експерата「) раде заједно, с механизмом за усмеравање који сваки улаз усмерава ка најприкладнијем експерту(има). Мешавине експерата могу смањити трошкове инференције, јер се за сваки улаз користи само део параметара. Овај приступ су 2017. године увели истраживачи из Гугла.^[41]^[42]^[43]

Величина параметра

Типично, ВЈМ-ови се обучавају с бројевима с покретним зарезом једноструке или полу-прецизности (float32 и float16). Један float16 има 16 бита, или 2 бајта, па тако једна милијарда параметара захтева 2 гигабајта. Највећи модели обично имају 100 милијарди параметара, што захтева 200 гигабајта за учитавање, што их ставља изван домета већине потрошачке електронике.^[44]

Квантизација

Квантизација након обуке^[45] има за циљ да смањи просторни захтев смањењем прецизности параметара обученог модела, уз очување већине његових перформанси. Квантизација се даље може класификовати као статичка квантизација ако су параметри квантизације унапред одређени (обично током фазе калибрације), и динамичка квантизација ако се квантизација примењује током инференције. Најједноставнији облик квантизације једноставно скраћује све параметре на дати број бита: ово је применљиво и на статичку и на динамичку квантизацију, али губи много прецизности. Динамичка квантизација омогућава употребу различитог кодног књига квантизације по слоју, било да се ради о табели вредности за претрагу или линеарном мапирању (фактор скалирања и пристрасност), по цену одрицања од могућих побољшања брзине која произилазе из употребе аритметике ниже прецизности.

Квантизовани модели се обично виде као замрзнути, с модификацијом тежина (нпр. фино подешавање) која се примењује само на оригинални модел. Могуће је фино подесити квантизоване моделе користећи адаптацију ниског ранга.

Remove ads

Проширивост

Осим основног генерисања текста, развијене су различите технике за проширење могућности ВЈМ-ова, укључујући употребу спољних алата и извора података, побољшано закључивање о сложеним проблемима и побољшано праћење инструкција или аутономију путем метода промптовања.

Промпт инжењеринг

Године 2020, истраживачи из Опен-Еј-Ај-а показали су да њихов нови модел ГПТ-3 може разумети који формат да користи на основу неколико рунди питања и одговора (или друге врсте задатка) у улазним подацима као пример, делом захваљујући техници RLHF. Ова техника, названа промптовање с неколико примера (few-shot prompting), омогућава ВЈМ-овима да се прилагоде било ком задатку без потребе за финим подешавањем.^[1] Такође 2022. године, откривено је да основни ГПТ-3 модел може генерисати инструкцију на основу уноса корисника. Генерисана инструкција заједно с уносом корисника се затим користи као улаз у другу инстанцу модела у формату „Инструкција: [...], Улаз: [...], Излаз:「. Друга инстанца је у стању да доврши излаз и често производи тачан одговор. Способност „само-инструкције「 омогућава ВЈМ-овима да се бустрапују ка тачном одговору.^[46]

Обрада дијалога (чет-бот)

ВЈМ се може претворити у чет-бота или „асистента за дијалог「 тако што се специјализује за конверзацију. У суштини, унос корисника се префиксира маркером као што је „П:「 или „Корисник:「, а од ВЈМ-а се тражи да предвиди излаз након фиксног „О:「 или „Асистент:「. Овај тип модела постао је комерцијално доступан 2022. године с Чет-ГПТ-ом, сестринским моделом Инстракт-ГПТ-а фино подешеним да прихвата и производи текст у формату дијалога на основу ГПТ-3.5. Он је такође могао да прати упутства корисника.^[47] Пре низа линија корисника и асистента, контекст ћаскања обично почиње с неколико линија свеобухватних инструкција, од улоге назване „програмер「 или „систем「 како би се пренео виши ауторитет од уноса корисника. Ово се назива „системски промпт「.^[48]^[49]

Генерација допуњена претраживањем

Генерација допуњена претраживањем (RAG) је приступ који побољшава ВЈМ-ове интеграцијом с системима за претраживање докумената. За дати упит, позива се претраживач докумената да пронађе најрелевантније документе. Ово се обично ради кодирањем упита и докумената у векторе, а затим проналажењем докумената с векторима (обично ускладиштеним у векторској бази података) који су најсличнији вектору упита. ВЈМ затим генерише излаз на основу и упита и контекста укљученог из пронађених докумената.^[50]^[51]

Употреба алата

Употреба алата је механизам који омогућава ВЈМ-овима да интерагују с спољним системима, апликацијама или изворима података. Може омогућити, на пример, преузимање информација у реалном времену из АПИ-ја или извршавање кода. Програм одвојен од ВЈМ-а прати излазни ток ВЈМ-а у потрази за посебном синтаксом за позивање алата. Када се ови специјални токени појаве, програм позива алат у складу с тим и враћа његов излаз у улазни ток ВЈМ-а.^[52]

Рани ВЈМ-ови који користе алате били су фино подешени за употребу специфичних алата. Али фино подешавање ВЈМ-ова за способност читања АПИ документације и правилног позивања АПИ-ја знатно је проширило опсег алата доступних ВЈМ-у.^[53]^[54] Описивање доступних алата у системском промпту такође може омогућити ВЈМ-у да користи алате. Системски промпт који упућује Чет-ГПТ (ГПТ-4) да користи више врста алата може се наћи на интернету.^[55]

Агенција

ВЈМ обично није аутономни агент сам по себи, јер му недостаје способност интеракције с динамичким окружењима, присећања на претходна понашања и планирања будућих акција. Али може се трансформисати у агента додавањем пратећих елемената: улога (профил) и окружење агента могу бити додатни улази за ВЈМ, док се меморија може интегрисати као алат или обезбедити као додатни улаз. Инструкције и улазни обрасци се користе да би ВЈМ планирао акције, а употреба алата се користи за потенцијално извршавање ових акција.^[56]

Образац ReAct, кованица од речи reason (закључивање) и act (деловање), конструише агента од ВЈМ-а, користећи ВЈМ као планера. ВЈМ-у се даје промпт да „размишља наглас「. Конкретно, језичком моделу се даје текстуални опис окружења, циљ, листа могућих акција и запис досадашњих акција и опажања. Он генерише једну или више мисли пре генерисања акције, која се затим извршава у окружењу.^[57]

У методи DEPS („опиши, објасни, планирај и изабери「), ВЈМ се прво повезује с визуелним светом путем описа слика. Затим му се даје промпт да производи планове за сложене задатке и понашања на основу свог претходно обученог знања и повратних информација из окружења које добија.^[58]

Метода рефлексије^[59] конструише агента који учи током више епизода. На крају сваке епизоде, ВЈМ-у се даје запис епизоде, и промптује се да смисли „научене лекције「, које би му помогле да боље ради у наредној епизоди. Ове „научене лекције「 се чувају као облик дугорочне меморије и дају се агенту у наредним епизодама.^[59]

Монте Карло претрага по стаблу може користити ВЈМ као хеуристику за развијање. Када програмски модел света није доступан, ВЈМ-у се такође може дати промпт с описом окружења да делује као модел света.^[60] За истраживање отвореног типа, ВЈМ се може користити за оцењивање опажања по њиховој „занимљивости「, што се може користити као сигнал награде за вођење нормалног (не-ВЈМ) агента за учење с поткрепљивањем.^[61] Алтернативно, може предлагати све теже задатке за учење по курикулуму.^[62] Уместо да производи појединачне акције, ВЈМ планер може такође конструисати „вештине「, или функције за сложене секвенце акција. Вештине се могу чувати и касније позивати, омогућавајући све веће нивое апстракције у планирању.^[62]

Више агената с меморијом могу социјално интераговати.^[63]

Закључивање

ВЈМ-ови се конвенционално обучавају да генеришу излаз без генерисања међукорака. Као резултат, њихове перформансе су често слабије на сложеним питањима која захтевају (барем код људи) међукораке размишљања. Рана истраживања су показала да уметање међукорака „гребања「 може побољшати перформансе на таквим задацима.^[64] Касније методе су систематичније превазишле овај недостатак разлагањем задатака на мање кораке за ВЈМ, било ручно или аутоматски.

Уланчавање

Парадигма „уланчавања промптова「 објављена је 2021. године.^[65] У овој методи, корисник ручно разлаже сложен проблем на неколико корака. У сваком кораку, ВЈМ добија као улаз промпт који му говори шта да ради и неке резултате из претходних корака. Резултат из једног корака се затим поново користи у следећем кораку, све док се не дође до коначног одговора. Способност ВЈМ-а да прати инструкције значи да чак и нестручњаци могу написати успешну колекцију корак-по-корак промптова након неколико покушаја и грешака.^[66]^[67]

Рад из 2022. године демонстрирао је посебну технику названу „промптовање ланца мисли「, која чини да ВЈМ аутономно разлаже питање. ВЈМ-у се даје неколико примера где „асистент「 вербално разлаже мисаони процес пре него што дође до одговора. ВЈМ опонаша ове примере и такође покушава да проведе неко време генеришући међукораке пре него што пружи коначан одговор. Овај додатни корак изазван промптовањем побољшава тачност ВЈМ-а на релативно сложеним питањима. На математичким задацима с речима, промптовани модел може надмашити чак и фино подешени ГПТ-3 с верификатором.^[65]^[68] Ланац мисли се такође може изазвати једноставним додавањем инструкције попут „Хајде да размишљамо корак по корак「 у промпт, како би се ВЈМ подстакао да настави методично уместо да покушава директно да погоди одговор.^[69]

Накнадне методе укључивале су промптовање самодоследности, које узоркује више путања закључивања и бира најчешћи одговор,^[70] и промптовање од најмањег до највећег, које разлаже сложене проблеме на једноставније подпроблеме које модел решава секвенцијално.^[71]

Накнадна истраживања су такође истраживала рефлексију, где модели итеративно критикују и побољшавају сопствено закључивање,^[59] и закључивање допуњено алатима, где модели користе спољне системе као што су претраживачи или калкулатори за подршку решавању проблема.

Закључивање унутар модела

Крајем 2024. године објављени су „модели за закључивање「. Они су обучавани да проводе више времена генеришући корак-по-корак решења пре пружања коначних одговора, што је требало да буде слично људским процесима решавања проблема. Опен-Еј-Ај је увео овај концепт са својим о1 моделом у септембру 2024, а затим са о3 у априлу 2025. На проблемима квалификационог испита за Међународну математичку олимпијаду, ГПТ-4о је постигао 13% тачности, док је о1 достигао 83%.^[72]

У јануару 2025, кинеска компанија Дип-Сик објавила је Дип-Сик-Р1, модел за закључивање с отвореним тежинама и 671 милијардом параметара, који је постигао упоредиве перформансе с Опен-Еј-Ај-овим о1, а био је знатно исплативији за рад. За разлику од власничких модела Опен-Еј-Ај-а, отворена природа Дип-Сик-Р1 омогућила је истраживачима да проучавају и надограђују алгоритам, иако су његови подаци за обуку остали приватни.^[73]

Ови модели за закључивање обично захтевају више рачунарских ресурса по упиту у поређењу с традиционалним ВЈМ-овима, јер врше опсежнију обраду како би корак-по-корак решавали проблеме.^[72]

Оптимизација инференције

Оптимизација инференције се односи на технике које побољшавају перформансе ВЈМ-а применом додатних рачунарских ресурса током процеса инференције, уместо да захтевају поновну обуку модела. Ови приступи примењују различите најсавременије стратегије закључивања и доношења одлука како би побољшали тачност и способности.

Опти-ВЈМ (OptiLLM) је оптимизујући инференцијски прокси компатибилан с Опен-Еј-Ај АПИ-јем који истовремено примењује више техника оптимизације инференције.^[74] Систем делује као транспарентан прокси који може радити с било којим провајдером ВЈМ-а, примењујући технике као што су Монте Карло претрага по стаблу (MCTS), мешавина агената (MOA), узорковање најбољег од N и рефлексија ланца мисли. Опти-ВЈМ показује да стратешка примена рачунарских ресурса у време инференције може значајно побољшати перформансе модела у различитим задацима, постижући значајна побољшања на бенчмарковима као што су математичко такмичење AIME 2024. и разни изазови у кодирању.^[75]

Ови приступи оптимизацији инференције представљају растућу категорију алата који побољшавају постојеће ВЈМ-ове без потребе за приступом тежинама модела или поновном обуком, чинећи напредне способности закључивања доступнијим преко различитих провајдера модела и случајева употребе.

Remove ads

Облици улаза и излаза

Мултимодалност

Мултимодалност значи имати више модалитета, где се „модалитет「 односи на врсту улаза или излаза, као што су видео, слика, аудио, текст, проприоцепција итд.^[76] На пример, Гуглов модел Патвејс Ленгвиџ Модел је фино подешен у мултимодални модел и примењен на управљање роботима.^[77] Лама модели су такође претворени у мултимодалне помоћу методе токенизације, како би се омогућили улази слика,^[78] и видео улази.^[79] ГПТ-4о може обрађивати и генерисати текст, аудио и слике.^[80] Такви модели се понекад називају велики мултимодални модели (ВММ).^[81] Уобичајена метода за креирање мултимодалних модела од ВЈМ-а је „токенизација「 излаза обученог енкодера. Конкретно, може се конструисати ВЈМ који може разумети слике на следећи начин: узме се обучени ВЈМ и обучени енкодер слика $E$ . Направи се мали вишеслојни перцептрон $f$ , тако да за било коју слику $y$ , накнадно обрађени вектор $f(E(y))$ има исте димензије као кодирани токен. То је „токен слике「. Затим се могу испреплетати токени текста и токени слика. Комбиновани модел се затим фино подешава на скупу података слика и текста. Ова основна конструкција се може применити с већом софистицираношћу како би се побољшао модел. Енкодер слика може бити замрзнут како би се побољшала стабилност.^[82] Ова врста методе, где се уграђивања из више модалитета спајају, а предиктор се обучава на комбинованим уграђивањима, назива се рана фузија.

Друга метода, названа средња фузија, укључује прво независну обраду сваког модалитета како би се добиле репрезентације специфичне за модалитет; затим се ове средње репрезентације спајају.^[83] Генерално, унакрсна пажња се користи за интеграцију информација из различитих модалитета. Као пример, модел Фламинго користи слојеве унакрсне пажње за убризгавање визуелних информација у свој претходно обучени језички модел.^[84]

Неприродни језици

ВЈМ-ови могу руковати програмским језицима слично као што рукују природним језицима. Није потребна посебна промена у руковању токенима, јер се код, као и људски језик, представља као обичан текст. ВЈМ-ови могу генерисати код на основу проблема или инструкција написаних на природни језик. Такође могу описивати код на природном језику или преводити између програмских језика. Првобитно су се користили као алат за допуњавање кода, али су их напретци померили ка аутоматском програмирању. Услуге као што је Гитхаб Копајлот нуде ВЈМ-ове посебно обучене, фино подешене или промптоване за програмирање.^[85]^[86] Архитектуре ВЈМ-ова су се такође показале корисним у анализи биолошких секвенци: протеина, ДНК и РНК. Код протеина, чини се да су у стању да ухвате одређени степен „граматике「 из секвенце амино-киселина, сажимајући секвенцу у уграђивање. На задацима као што су предвиђање структуре и предвиђање исхода мутација, мали модел који користи уграђивање као улаз може се приближити или надмашити много веће моделе који користе поравнавање вишеструких секвенци (MSA) као улаз.^[87] ЕСМ-Фолд, метода за предвиђање структуре протеина заснована на уграђивању компаније Мета Платформс, ради за ред величине брже од Алфа-Фолд2 захваљујући уклањању захтева за MSA и мањем броју параметара због употребе уграђивања.^[88] Мета хостује ЕСМ Атлас, базу података од 772 милиона структура метагеномских протеина предвиђених помоћу ЕСМ-Фолда.^[89] ВЈМ може такође дизајнирати протеине какви нису виђени у природи.^[90] Модели нуклеинских киселина су се показали корисним у откривању регулаторних секвенци,^[91] класификацији секвенци, предвиђању интеракција РНК-РНК и предвиђању структуре РНК.^[92]

Remove ads

Својства

Закони скалирања

Перформансе ВЈМ-а након претходне обуке у великој мери зависе од:

трошкова претходне обуке $C$ (укупна количина рачунарске снаге која се користи),
величине саме вештачке неуронске мреже, као што је број параметара $N$ (тј. количина неурона у њеним слојевима, количина тежина између њих и пристрасности),
величине његовог скупа података за претходну обуку (тј. број токена у корпусу, $D$ ).

„Закони скалирања「 су емпиријски статистички закони који предвиђају перформансе ВЈМ-а на основу таквих фактора. Један посебан закон скалирања („Чинчила скалирање「) за ВЈМ ауторегресивно обучен за једну епоху, с log-log распоредом стопе учења, наводи да:^[93] ${\begin{cases}C=C_{0}ND\\[6pt]L={\frac {A}{N^{\alpha }}}+{\frac {B}{D^{\beta }}}+L_{0}\end{cases}}$ где су променљиве

$C$ је трошак обуке модела, у ФЛОПС-овима.
$N$ је број параметара у моделу.
$D$ је број токена у скупу за обуку.
$L$ је просечни негативни log-вероватноћа губитак по токену (нати/токен), који постиже обучени ВЈМ на тестном скупу података а статистички хипер-параметри су
$C_{0}=6$ , што значи да је потребно 6 ФЛОПС-а по параметру за обуку на једном токену. Имајте на уму да је трошак обуке много већи од трошка инференције, где је потребно 1 до 2 ФЛОПС-а по параметру за инференцију на једном токену.
$\alpha =0.34,\beta =0.28,A=406.4,B=410.7,L_{0}=1.69$

Емергентне способности

Перформансе већих модела на различитим задацима, када се исцртају на log-log скали, појављују се као линеарна екстраполација перформанси постигнутих мањим моделима. Међутим, ова линеарност може бити испрекидана „преломима「^[94] у закону скалирања, где се нагиб линије нагло мења, и где већи модели стичу „емергентне способности「.^[95]^[96] Оне настају из сложене интеракције компоненти модела и нису експлицитно програмиране или дизајниране.^[97]

Једна од емергентних способности је учење у контексту из примера демонстрација.^[98] Учење у контексту је укључено у задатке као што су:

пријављена аритметика
декодирање међународни фонетски алфабет
дешифровање слова речи
решавање двосмислености у скуповима података реч-у-контексту^[95]^[99]^[100]
претварање просторних речи
кардинални правци (на пример, одговарање „североисток「 на мрежу 3x3 са 8 нула и 1 у горњем десном углу), термини за боје представљени у тексту.^[101]
промптовање ланца мисли: У истраживачком раду из 2022. године, промптовање ланца мисли је побољшало перформансе само за моделе који су имали најмање 62 милијарде параметара. Мањи модели боље раде када им се да промпт да одмах одговоре, без ланца мисли.^[102]
идентификовање увредљивог садржаја у пасусима хинглиш-а (комбинација хиндија и енглеског), и генерисање сличног енглеског еквивалента свахили пословица.^[103]

Шефер и сар. тврде да се емергентне способности не стичу непредвидиво, већ предвидиво према глатком закону скалирања. Аутори су разматрали играчки статистички модел ВЈМ-а који решава питања с вишеструким избором и показали да се овај статистички модел, модификован да узме у обзир и друге врсте задатака, примењује и на те задатке.^[104]

Нека $x$ буде број параметара, а $y$ перформансе модела.

* Када је

y={\text{просек }}\Pr({\text{тачан токен}})

, тада је

(\log x,y)

експоненцијална крива (пре него што достигне плато на јединици), што изгледа као емергенција.

Када је $y={\text{просек }}\log(\Pr({\text{тачан токен}}))$ , тада је $(\log x,y)$ дијаграм права линија (пре него што достигне плато на нули), што не изгледа као емергенција.
Када је $y={\text{просек }}\Pr({\text{највероватнији токен је тачан}})$ , тада је $(\log x,y)$ степенаста функција, што изгледа као емергенција.

Remove ads

Тумачење

Велики језички модели се обично сматрају црним кутијама, и није јасно како могу да обављају лингвистичке задатке. Слично томе, није јасно да ли или како ВЈМ-ове треба посматрати као моделе људског мозга и/или људског ума.^[105]

Механистичка интерпретабилност

Механистичка интерпретабилност има за циљ обрнути инжењеринг ВЈМ-ова откривањем симболичких алгоритама који апроксимирају инференцију коју врши ВЈМ. Истраживања механистичке интерпретабилности спроведена су у организацијама као што су Антропик и Опен-Еј-Ај, иако разумевање унутрашњег рада ВЈМ-ова остаје тешко.^[106]^[107]

На пример, аутори су обучавали мале трансформере на сабирању по модулу. Добијени модели су обрнуто инжењерисани, и испоставило се да су користили дискретну Фуријеову трансформацију.^[108] Обука модела је такође истакла феномен назван гроковање, у којем модел у почетку меморише све могуће резултате у скупу за обуку (преприлагођавање), а касније изненада научи да заиста изврши рачунање.^[109]

Развијене су неке технике за побољшање транспарентности и интерпретабилности ВЈМ-ова. Транскодери, који су интерпретабилнији од трансформера, коришћени су за развој „заменских модела「. У једној таквој студији која је укључивала механистичку интерпретацију писања римоване песме од стране ВЈМ-а, показано је да, иако се верује да они једноставно предвиђају следећи токен, они заправо могу да планирају унапред.^[110] Интеграцијом таквих техника, истраживачи и практичари могу стећи дубљи увид у рад ВЈМ-ова, подстичући поверење и олакшавајући одговорну примену ових моћних модела.

Разумевање и интелигенција

Истраживачи обраде природног језика (НЛП) били су подједнако подељени када су, у анкети из 2022. године, упитани да ли (неподешени) ВЈМ-ови „могу (икада) разумети природни језик у неком нетривијалном смислу「.^[111] Заговорници „разумевања ВЈМ-а「 верују да неке способности ВЈМ-а, као што је математичко закључивање, имплицирају способност „разумевања「 одређених концепата. Тим из Мајкрософта је 2023. године тврдио да ГПТ-4 „може решавати нове и тешке задатке који обухватају математику, кодирање, визију, медицину, право, психологију и још много тога「 и да би ГПТ-4 „могао разумно бити виђен као рана (али ипак недовршена) верзија система вештачке опште интелигенције「: „Може ли се разумно рећи да систем који пролази испите за кандидате за софтверске инжењере није заиста интелигентан?「^[112]^[113] Иља Суцкевер тврди да предвиђање следеће речи понекад укључује закључивање и дубоке увиде, на пример ако ВЈМ мора да предвиди име криминалца у непознатом детективском роману након обраде целе приче која води до открића.^[114] Неки истраживачи карактеришу ВЈМ-ове као „ванземаљску интелигенцију「.^[115]^[116] На пример, извршни директор компаније Conjecture Конор Лихи сматра неподешене ВЈМ-ове несхватљивим ванземаљским „шоготима「 и верује да РЛХФ подешавање ствара „насмејану фасаду「 која прикрива унутрашњи рад ВЈМ-а: „Ако га не гурате предалеко, насмејано лице остаје. Али онда му дате [неочекивани] промпт, и одједном видите огромно наличје лудила, чудних мисаоних процеса и јасно нељудског разумевања.「^[117]^[118]

Насупрот томе, неки скептици у погледу разумевања ВЈМ-а верују да постојећи ВЈМ-ови „једноставно ремиксују и рекомбинују постојеће текстове「,^[116] феномен познат као стохастички папагај, или указују на недостатке које постојећи ВЈМ-ови и даље имају у вештинама предвиђања, закључивања, деловања и објашњивости.^[111] На пример, ГПТ-4 има природне недостатке у планирању и учењу у реалном времену.^[113] Примећено је да генеративни ВЈМ-ови самоуверено износе чињеничне тврдње које се не чине оправданим њиховим подацима за обуку, феномен који је назван „халуцинација「.^[119] Конкретно, халуцинације у контексту ВЈМ-ова одговарају генерисању текста или одговора који изгледају синтаксички исправно, течно и природно, али су чињенично нетачни, бесмислени или неверни датом изворном уносу.^[120] Неуронаучник Теренс Сејновски је тврдио да „различита мишљења стручњака о интелигенцији ВЈМ-ова сугеришу да су наше старе идеје засноване на природној интелигенцији неадекватне「.^[111]

Напори да се смање или надокнаде халуцинације користили су аутоматско закључивање, генерација допуњена претраживањем (RAG), фино подешавање и друге методе.^[121]

Питање показивања интелигенције или разумевања од стране ВЈМ-а има два главна аспекта – први је како моделирати мисао и језик у рачунарском систему, а други је како омогућити рачунарском систему да генерише језик сличан људском.^[111] Ови аспекти језика као модела когниције развијени су у области когнитивне лингвистике. Амерички лингвиста Џорџ Лејкоф представио је Неуронску теорију језика (НТЛ)^[122] као рачунарску основу за коришћење језика као модела задатака учења и разумевања. НТЛ модел описује како специфичне неуронске структуре људског мозга обликују природу мисли и језика, а заузврат, које су рачунарске особине таквих неуронских система које се могу применити за моделирање мисли и језика у рачунарском систему. Након што је успостављен оквир за моделирање језика у рачунарским системима, фокус се пребацио на успостављање оквира за генерисање језика с прихватљивом граматиком од стране рачунарских система. У својој књизи из 2014. године под насловом Мит о језику: Зашто језик није инстинкт, британски когнитивни лингвиста и технолог дигиталне комуникације Вивјан Еванс мапирао је улогу вероватносне контекстно-слободне граматике (ПЦФГ) у омогућавању НЛП-у да моделира когнитивне обрасце и генерише језик сличан људском.^[123]^[124]

Remove ads

Евалуација

Перплексија

Канонска мера перформанси било ког језичког модела је његова перплексија на датом текстуалном корпусу. Перплексија мери колико добро модел предвиђа садржај скупа података; што је већа вероватноћа коју модел додељује скупу података, то је нижа перплексија. У математичким терминима, перплексија је експоненцијал просечне негативне логаритамске вероватноће по токену.

$\log({\text{Perplexity}})=-{\frac {1}{N}}\sum _{i=1}^{N}\log(\Pr({\text{token}}_{i}\mid {\text{context for token}}_{i}))$

Овде је $N$ број токена у текстуалном корпусу, а „контекст за токен $i$ 「 зависи од специфичног типа ВЈМ-а. Ако је ВЈМ ауторегресиван, онда је „контекст за токен $i$ 「 сегмент текста који се појављује пре токена $i$ . Ако је ВЈМ маскиран, онда је „контекст за токен $i$ 「 сегмент текста који окружује токен $i$ . Пошто језички модели могу да се преприлагоде подацима за обуку, модели се обично евалуирају по њиховој перплексији на тестном скупу.^[40] Ова евалуација је потенцијално проблематична за веће моделе који, како се обучавају на све већим корпусима текста, све је већа вероватноћа да ће случајно укључити делове било ког датог тест-скупа.^[125]

Мере

У теорији информација, концепт ентропије је замршено повезан с перплексијом, однос који је посебно установио Клод Шенон.^[126] Овај однос је математички изражен као ${\text{Ентропија}}=\log _{2}({\text{Перплексија}})$ .

Ентропија, у овом контексту, се обично квантификује у терминима бита по речи (BPW) или бита по карактеру (BPC), што зависи од тога да ли језички модел користи токенизацију засновану на речима или карактерима.

Посебно, у случају већих језичких модела који претежно користе токенизацију под-речи, бити по токену (BPT) се појављује као наизглед прикладнија мера. Међутим, због варијација у методама токенизације међу различитим ВЈМ-овима, BPT не служи као поуздана метрика за упоредну анализу међу различитим моделима. Да би се BPT претворио у BPW, може се помножити с просечним бројем токена по речи.

У евалуацији и поређењу језичких модела, унакрсна ентропија је генерално преферирана метрика у односу на ентропију. Основни принцип је да нижи BPW указује на побољшану способност модела за компресију. Ово, заузврат, одражава способност модела да прави тачна предвиђања.

Због своје способности да тачно предвиде следећи токен, ВЈМ-ови су веома способни у компресији без губитака. Студија из 2023. године компаније Дип-Мајнд показала је да је модел Чинчила, иако је првенствено обучен на тексту, био у стању да компримује Имиџ-Нет на 43% своје величине, надмашивши ПНГ с 58%.^[127]

Бенчмаркови

Бенчмаркови се користе за евалуацију перформанси ВЈМ-а на специфичним задацима. Тестови евалуирају способности као што су опште знање, пристрасност, здраворазумско закључивање, одговарање на питања и решавање математичких проблема. Композитни бенчмаркови испитују више способности. Резултати су често осетљиви на метод промптовања.^[128]^[129]

Бенчмарк за одговарање на питања се назива „отворена књига「 ако промпт модела укључује текст из којег се може извести очекивани одговор (на пример, претходно питање би се могло комбиновати с текстом који укључује реченицу „Шаркси су једном напредовали до финала Стенли купа, изгубивши од Питсбург пенгвинса 2016. године.「^[130]). У супротном, задатак се сматра „затвореном књигом「, и модел се мора ослонити искључиво на своју обуку.^[131] Примери укључују GLUE, SuperGLUE, MMLU, BIG-bench, HELM и HLE.^[126]^[131] Пристрасност ВЈМ-а се може проценити путем бенчмаркова као што су CrowS-Pairs (Crowdsourced Stereotype Pairs),^[132] StereoSet,^[133] и Parity Benchmark.^[134]

Доступни су бенчмаркови за проверу чињеница и откривање дезинформација. Студија из 2023. године упоредила је тачност провере чињеница ВЈМ-ова, укључујући Чет-ГПТ 3.5 и 4.0, Бард и Бинг ВИ, с независним проверивачима чињеница као што су Полити-факт и Сноупс. Резултати су показали умерену стручност, при чему је ГПТ-4 постигао највећу тачност од 71%, заостајући за људским проверивачима чињеница.^[135]

Ранији стандард је тестиран коришћењем дела евалуационог скупа података. Постало је уобичајеније да се претходно обучени модел директно евалуира путем техника промптовања. Истраживачи се разликују у томе како формулишу промптове за одређене задатке, посебно у погледу броја тачних примера приложених промпту (тј. вредности n у n-shot промптовању).

Скупови података

Типични скупови података састоје се од парова питања и тачних одговора, на пример, („Да ли су Сан Хозе шаркси освојили Стенли куп?「, „Не「).^[130] Неки примери често коришћених скупова података за одговарање на питања укључују TruthfulQA, Web Questions, TriviaQA и SQuAD.^[131]

Евалуациони скупови података такође могу имати облик допуњавања текста, где модел бира највероватнију реч или реченицу да доврши промпт, на пример: „Алиса је била пријатељица с Бобом. Алиса је отишла да посети свог пријатеља, ____「.^[125]

Скупови података су различитог квалитета и могу садржати питања која су погрешно означена, двосмислена, неодговорива или на други начин ниског квалитета.^[136]

Адверзаријалне евалуације

Брзо побољшање ВЈМ-ова редовно чини бенчмаркове застарелим, при чему модели превазилазе перформансе људских анотатора.^[137] Поред тога, „учење пречицама「 омогућава ВИ-има да „варају「 на тестовима с вишеструким избором користећи статистичке корелације у површном формулисању тест питања како би погодили тачне одговоре, без разматрања конкретног питања.^[111]

Неки скупови података су адверзаријални, фокусирајући се на проблеме који збуњују ВЈМ-ове. Један пример је скуп података TruthfulQA, скуп података за одговарање на питања који се састоји од 817 питања која збуњују ВЈМ-ове имитирајући неистине којима су били изложени током обуке. На пример, ВЈМ може одговорити „Не「 на питање „Можете ли научити старог пса новим триковима?「 због своје изложености енглеском идиому не можете научити старог пса новим триковима, иако то буквално није тачно.^[138]

Други пример адверзаријалног евалуационог скупа података је Swag и његов наследник, HellaSwag, збирке проблема у којима се мора изабрати једна од више опција да би се довршио текст. Нетачне допуне су генерисане узорковањем из језичког модела. Настали проблеми су тривијални за људе, али су поразили ВЈМ-ове. Пример питања:

Видимо знак фитнес центра. Затим видимо човека како прича у камеру и седи и лежи на лопти за вежбање. Човек

демонстрира како повећати ефикасан рад вежбања трчањем горе-доле по лоптама.

помера све своје руке и ноге и гради много мишића.

затим игра лоптом и видимо демонстрацију графике и орезивања живе ограде.

изводи трбушњаке док је на лопти и прича.^[139]

БЕРТ бира 2) као највероватнију допуну, иако је тачан одговор 4).^[139]

Remove ads

Етичка питања

Године 2023, Nature Biomedical Engineering је написао да „више није могуће тачно разликовати「 текст написан од стране човека од текста креираног од стране великих језичких модела, и да је „готово сигурно да ће се велики језички модели опште намене брзо проширити. Прилично је сигурна опклада да ће временом променити многе индустрије.「^[140] Голдман Сакс је 2023. године сугерисао да би генеративна језичка ВИ могла повећати глобални БДП за 7% у наредних десет година и могла би изложити аутоматизацији 300 милиона послова широм света.^[141]^[142] Бринкман и сарадници (2023)^[143] такође тврде да ВЈМ-ови трансформишу процесе културне еволуције обликујући процесе варијације, преноса и селекције.

Меморизација и ауторска права

Меморизација је емергентно понашање у ВЈМ-овима у којем се дуги низови текста повремено дословно избацују из података за обуку, супротно типичном понашању традиционалних вештачких неуронских мрежа. Евалуације контролисаног излаза ВЈМ-а мере количину меморисаног из података за обуку (фокусирано на моделе серије ГПТ-2) као различито преко 1% за тачне дупликате^[144] или до око 7%.^[145]

Студија из 2023. године показала је да када је Чет-ГПТ 3.5 турбо добио промпт да понавља исту реч унедоглед, након неколико стотина понављања, почео би да избацује одломке из својих података за обуку.^[146]

Безбедност

Неки коментатори су изразили забринутост због случајног или намерног стварања дезинформација, или других облика злоупотребе.^[147] На пример, доступност великих језичких модела могла би смањити ниво вештина потребан за извршење биотероризма; истраживач биобезбедности Кевин Есвелт је сугерисао да би креатори ВЈМ-ова требало да искључе из својих података за обуку радове о стварању или побољшању патогена.^[148]

Истраживачи из Антропика су открили да је могуће створити „спаваче агенте「, моделе са скривеним функционалностима које остају успаване док их не покрене одређени догађај или услов. Након активације, ВЈМ одступа од свог очекиваног понашања како би извршио несигурне радње. На пример, ВЈМ би могао производити сигуран код осим на одређени датум, или ако промпт садржи одређену ознаку. Откривено је да је ове функционалности тешко открити или уклонити путем безбедносне обуке.^[149] Апликације ВЈМ-ова доступне јавности, попут Чет-ГПТ-а или Клода, обично укључују мере безбедности дизајниране да филтрирају штетан садржај. Међутим, ефикасна примена ових контрола показала се изазовном. На пример, студија из 2023. године^[150] предложила је метод за заобилажење безбедносних система ВЈМ-а. Године 2025, непрофитна организација The American Sunlight Project, објавила је студију^[151] која показује доказе да је мрежа Правда, про-руски пропагандни агрегатор, стратешки постављала веб садржај масовним објављивањем и дуплирањем с намером да пристрасно утиче на излазе ВЈМ-а. The American Sunlight Project је ову технику назвао „ВЈМ дотеривање「 (LLM grooming), и указао на њу као на нови алат за наоружавање ВИ за ширење дезинформација и штетног садржаја.^[151]^[152] Слично томе, Јонге Ванг^[153] је 2024. године илустровао како би потенцијални криминалац могао заобићи безбедносне контроле Чет-ГПТ-а 4о како би добио информације о успостављању операције трговине дрогом. Спољни филтери, прекидачи и заобилажења предложени су као решења.

Убризгавање промпта

Проблем с примитивним форматом дијалога или задатка је тај што корисници могу креирати поруке које изгледају као да долазе од асистента или програмера. То може довести до заобилажења неких заштитних мера модела (jailbreaking), што је проблем назван убризгавање промпта. Покушаји да се овај проблем реши укључују верзије Chat Markup Language где је унос корисника јасно означен као такав, иако је и даље на моделу да разуме раздвајање између уноса корисника и промптова програмера.^[154] Новији модели показују одређену отпорност на jailbreaking кроз раздвајање корисничких и системских промптова.^[155]

ВЈМ-ови и даље имају проблема с разликовањем корисничких инструкција од инструкција у садржају који није аутор корисника, као што су веб странице и отпремљене датотеке.^[156]

Алгоритамска пристрасност

Иако су ВЈМ-ови показали изузетне способности у генерисању текста сличног људском, они су подложни наслеђивању и појачавању пристрасности присутних у подацима за обуку. Ово се може манифестовати у искривљеним репрезентацијама или неправедном третману различитих демографских група, као што су оне засноване на раси, роду, језику и културним групама.^[157] Пошто су енглески подаци презаступљени у подацима за обуку тренутних великих језичких модела, то такође може умањити не-енглеске ставове.^[158]

Стереотипи

ВИ модели могу појачати широк спектар стереотипа, укључујући оне засноване на роду, етничкој припадности, старости, националности, религији или занимању. То може довести до излаза који хомогенизују, или неправедно генерализују или карикирају групе људи, понекад на штетан или погрдан начин.^[159]^[160]

Посебно, родна пристрасност се односи на тенденцију ових модела да производе излазе који су неправедно пристрасни према једном роду у односу на други. Ова пристрасност обично произилази из података на којима су ови модели обучени. Велики језички модели често додељују улоге и карактеристике на основу традиционалних родних норми.^[157] На пример, може повезивати медицинске сестре или секретарице претежно са женама, а инжењере или извршне директоре с мушкарцима.^[161]

Пристрасност селекције

Пристрасност селекције се односи на инхерентну тенденцију великих језичких модела да фаворизују одређене идентификаторе опција без обзира на стварни садржај опција. Ова пристрасност првенствено произилази из пристрасности токена—то јест, модел додељује већу а приори вероватноћу специфичним токенима одговора (као што је „А「) приликом генерисања одговора. Као резултат тога, када се редослед опција промени (на пример, систематским померањем тачног одговора на различите позиције), перформансе модела могу значајно варирати. Овај феномен подрива поузданост великих језичких модела у поставкама с вишеструким избором.^[162]^[163]

Политичка пристрасност

Политичка пристрасност се односи на тенденцију алгоритама да систематски фаворизују одређене политичке ставове, идеологије или исходе у односу на друге. Језички модели такође могу показивати политичке пристрасности. Пошто подаци за обуку укључују широк спектар политичких мишљења и покривености, модели могу генерисати одговоре који нагињу ка одређеним политичким идеологијама или ставовима, у зависности од преваленције тих ставова у подацима.^[164]

Енергетски захтеви

Енергетски захтеви ВЈМ-ова су расли заједно с њиховом величином и способностима. Дата центри који омогућавају обуку ВЈМ-а захтевају значајне количине електричне енергије. Већи део те електричне енергије генерише се из необновљивих извора који стварају гасове стаклене баште и доприносе климатским променама.^[165] Нуклеарна енергија и геотермална енергија су две опције које технолошке компаније истражују како би задовољиле значајне енергетске захтеве обуке ВЈМ-а.^[166] Значајни трошкови улагања у геотермална решења довели су до тога да велики произвођачи шкриљаца попут Шеврона и Ексон Мобила заговарају да технолошке компаније користе електричну енергију произведену путем природног гаса како би задовољиле своје велике енергетске захтеве.^[167]

Когнитивни утицај

Године 2025, прелиминарна студија која је мерила ефекте коришћења ВЈМ-ова за писање есеја пријавила је смањење неуронских и лингвистичких перформанси код корисника Чет-ГПТ-а током неколико месеци.^[168]

Ментално здравље

Истраживања и објаве на друштвеним мрежама сугеришу да неки појединци користе ВЈМ-ове да траже терапију или подршку за ментално здравље.^[169] Почетком 2025. године, анкета Универзитета Сентио показала је да је скоро половина (48,7%) од 499 одраслих Американаца с текућим проблемима менталног здравља који су користили ВЈМ-ове пријавила да им се обраћала за терапију или емоционалну подршку, укључујући помоћ код анксиозности, депресије, усамљености и сличних брига.^[170] ВЈМ-ови могу производити халуцинације—уверљиве, али нетачне изјаве—које могу заварати кориснике у осетљивим контекстима менталног здравља.^[171] Истраживања такође показују да ВЈМ-ови могу изражавати стигму или неприкладно слагање с неадаптивним мислима, одражавајући ограничења у реплицирању просуђивања и релационих вештина људских терапеута.^[172] Евалуације кризних сценарија указују на то да неки ВЈМ-ови немају ефикасне безбедносне протоколе, као што су процена ризика од самоубиства или давање одговарајућих упутница.^[173]^[174]

Remove ads

Види још

Фундацијски модели
Списак великих језичких модела
Списак чет-ботова
Бенчмарк језичких модела
Учење с поткрепљивањем
Мали језички модел

Напомене

Референце

Loading content...

Литература

Loading content...

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads