Mësimi i thellë
From Wikipedia, the free encyclopedia
Remove ads
Mësimi i thellë (ang. Deep Learning) është një nëngrup i mësimit të makinerive që fokusohet në përdorimin e rrjeteve nervore për të kryer detyra të tilla si klasifikimi, regresioni dhe mësimi i përfaqësimit. Fusha merr frymëzim nga neuroshkenca biologjike dhe përqendrohet rreth grumbullimit të neuroneve artificiale në shtresa dhe "trajnimit" të tyre për të përpunuar të dhënat. Mbiemri "thellë" i referohet arkitekturës së rrjetit, e cila përfshin përdorimin e shtresave të shumta, që variojnë nga tre deri në disa qindra apo mijëra shtresa. Metodat e mësimit të aplikuarë mund të jenë të mbikëqyrura, gjysmë të mbikëqyrura ose të pambikëqyrura, në varësi të natyrës së detyrës dhe të dhënave në dispozicion.[2]

Disa struktura të zakonshme të rrjeteve në mësimin e thellë përfshijnë rrjete plotësisht të lidhura, rrjete të besimi të thellë, rrjete nervore periodike, rrjete nervore konvolucionale, rrjete kundërshtare gjeneruese, transformatorë dhe fusha nervore të rrezatimit, të cilat përfaqësojnë arkitektura të ndryshme të rrjeteve nervore me aplikime specifike dhe të fuqishme në të mësuarit e makinerive. Këto arkitektura janë aplikuar në fusha duke përfshirë vizionin kompjuterik, njohjen e të folurit, përpunimin e gjuhës natyrore, përkthimin me makinë, bioinformatikën, dizajnin e ilaçeve, analizën e imazheve mjekësore, shkencën e klimës, Metodat e të mësuarit të thellë janë aplikuar në inspektimin e materialeve dhe në programet e lojërave me tabela, ku ato kanë arritur rezultate ku në disa raste tejkalojnë, performancën e ekspertëve njerëzorë.[3][4][5]
Format e hershme të rrjeteve nervore ishin të frymëzuara nga mënyra se si sistemi biologjik, veçanërisht truri i njeriut, përpunon informacionin dhe organizon nyjet e komunikimit. Megjithatë, rrjetet nervore moderne nuk kanë për qëllim të imitojnë funksionimin e trurit të organizmave dhe shpesh konsiderohen modele me saktësi të kufizuar për këtë qëllim.[6]
Remove ads
Vështrim i përgjithshëm
Shumica e modeleve moderne të të mësuarit të thellë janë të ndërtuara mbi rrjete nervore me shumë shtresa, si rrjetet nervore konvolucionale dhe transformatorët. Përveç tyre, ato mund të përfshijnë formula propozuese ose variabla latente të organizuara sipas shtresave në modelet gjeneruese të thella, si nyjet në rrjetet e besimit të thellë dhe arkitektura të ngjashme si makina Boltzman[7]
Në thelb, mësimi i thellë i referohet një klase të algoritmeve të mësimit të makinerive në të cilat përdoret një hierarki shtresash për të transformuar të dhënat hyrëse në një paraqitje pak më abstrakte dhe të përbërë. Për shembull, në një model të njohjes së imazhit, hyrja e papërpunuar mund të jetë një imazh (i përfaqësuar si një tensor pikselësh ). Shtresa e parë përfaqësuese në një rrjet nervor mund të identifikojë forma bazë, si vijat dhe rrathët. Shtresa e dytë mund të përpunojë dhe kodojë kombinime më komplekse të skajeve, ndërsa shtresa e tretë mund të përqendrohet në njohjen e tipareve specifike, si hunda dhe sytë. Më në fund, shtresa e katërt mund të interpretojë këto të dhëna për të përcaktuar se imazhi përmban një fytyrë.
Një aspekt i rëndësishëm i të mësuarit të thellë është aftësia për të përcaktuar në mënyrë optimale se cilat veçori duhen përzgjedhur në secilin nivel të modelit. Para zhvillimit të metodave të të mësuarit të thellë, teknikat tradicionale të mësimit të makinerive kërkonin krijimin manual të veçorive për të transformuar të dhënat në një format të përshtatshëm për algoritmet klasifikuese. Në të kundërt, qasja e të mësuarit të thellë zbulon automatikisht paraqitjet më të dobishme të veçorive direkt nga të dhënat, pa pasur nevojë për ndërhyrje manuale. Megjithatë, kjo qasje nuk eliminon plotësisht nevojën për akordim manual; për shembull, përcaktimi i numrit dhe madhësive të shtresave mund të ndikojë në nivelin e abstraksionit të arritur nga modeli.[8][2] Termi "thellë" në "të mësuarit e thellë" i referohet numrit të shtresave që të dhënat kalojnë gjatë transformimit të tyre. Në mënyrë specifike, sistemet e të mësuarit të thellë karakterizohen nga një thellësi e madhe e rrugës së caktimit të kredisë (CAP), që përfaqëson zinxhirin e transformimeve midis hyrjes dhe daljes. CAP-të përshkruajnë lidhjet e mundshme që lidhin inputin me outputin. Për rrjetet nervore të tipit përpara, thellësia e CAP-ve përkon me numrin e shtresave të fshehura, plus një, duke përfshirë edhe shtresën e daljes që është gjithashtu e parametrizuar. Në rrjetet nervore të përsëritura, ku një sinjal mund të kalojë disa herë nëpër të njëjtën shtresë, thellësia e CAP-ve mund të jetë potencialisht më e madhe.[9] Nuk ka një prag të përcaktuar universalisht që ndan të mësuarit e cekët nga të mësuarit e thellë, por shumica e studiuesve janë të një mendimi se të mësuarit e thellë karakterizohet nga një thellësi CAP më e madhe se dy. Është provuar se një CAP me thellësi dy mund të shërbejë si përafrues universal, duke qenë i aftë të imitojë çdo funksion.[10] Përtej këtij niveli, shtimi i më shumë shtresave nuk përmirëson aftësinë e rrjetit për të përafruar funksionet. Megjithatë, modelet e thella (CAP > 2) kanë avantazhin e nxjerrjes së veçorive më cilësore krahasuar me modelet e cekëta, duke bërë që shtresat shtesë të kontribuojnë në mënyrë efektive në procesin e mësimit të veçorive.
Arkitekturat e të mësuarit të thellë mund të ndërtohen në mënyrë të kujdesshme, shtresë pas shtrese, duke lejuar një qasje të strukturuar në zhvillimin e modeleve. Të mësuarit e thellë ndihmon në zbërthimin e abstraksioneve komplekse dhe në identifikimin e veçorive që kontribuojnë më shumë në përmirësimin e performancës së modelit.[8]
Algoritmet e të mësuarit të thellë mund të përdoren për detyra të të mësuarit të pambikëqyrura, gjë që është një avantazh i madh duke pasur parasysh se të dhënat e paetiketuara janë zakonisht më të shumta dhe më të lehta për t'u aksesuar sesa të dhënat e etiketuara. Një shembull i strukturave të thella që mund të trajnohen në mënyrë të pambikëqyrur janë rrjetet e besimit të thellë, të cilat ofrojnë mundësi të fuqishme për nxjerrjen e veçorive dhe modelimin e të dhënave komplekse.[8]
Termi "Deep Learning" u prezantua për herë të parë në komunitetin e të mësuarit të makinerive nga Rina Dechter në vitin 1986, dhe më vonë në kontekstin e rrjeteve nervore artificiale nga Igor Aizenberg dhe kolegët e tij në vitin 2000, duke u fokusuar në neuronet e pragut Boolean.[11] Edhe pse historia e paraqitjes së saj është me sa duket më e ndërlikuar.[12]
Remove ads
Interpretimet
Rrjetet nervore të thella interpretohen përgjithësisht në termat e teoremës universale të përafrimit [13][14][15][16] ose për funksione që lidhen me përfundime probabilistike, duke zgjeruar më tej zbatueshmërinë e teoremës në kontekste që përfshijnë interpretimin dhe modelimin probabilistik në rrjetet nervore.[17][18][8][9][19]
Teorema klasike e përafrimit universal përshkruan aftësinë e rrjeteve nervore me një shtresë të fshehur dhe një numër të fundmë njësish për të përafruar çdo funksion të vazhdueshëm me një saktësi të dëshiruar, duke e bërë atë një rezultat themelor në teorinë e rrjeteve nervore.[13][14][15][16] Në 1989, prova e parë u botua nga George Cybenko për funksionet e aktivizimit të sigmoidit [13] dhe u gjeneralizua në arkitekturat me shumë shtresa në 1991 nga Kurt Hornik.[14] Studime të fundit kanë treguar se teorema e përafrimit universal zbatohet gjithashtu për funksionet e aktivizimit të pakufishëm, si njësia lineare e korrigjuar (ReLU), e cila u propozua fillimisht nga Kunihiko Fukushima. Kjo zgjeron qëndrueshmërinë e teoremës për përdorimin e aktivizimeve moderne në rrjetet nervore.[20][21]
Teorema universale e përafrimit për rrjetet nervore të thella lidhet me kapacitetin e rrjeteve që kanë gjerësi të kufizuar, ndërsa thellësia mund të zgjerohet. Lu et al. [1] vërtetuan se një rrjet nervor i thellë me aktivizimin ReLU mund të përafrojë çdo funksion të integrueshëm të Lebesgue nëse gjerësia e tij është rreptësisht më e madhe se dimensioni i hyrjes. Në të kundërt, nëse gjerësia është më e vogël ose baraz me dimensionin e hyrjes, rrjeti nuk është në gjendje të veprojë si një përafrues universal. Kjo thekson rëndësinë e balancimit midis gjerësisë dhe thellësisë për të arritur një kapacitet të lartë përafrimi. Për më tepër, shtimi i thellësisë lejon rrjetet të kapin struktura më komplekse dhe varësi hierarkike në të dhëna.
Interpretimi probabilistik[19] rrjedh nga fusha e mësimit të makinerive . Ai përmban konkluzionet,[18][7][8][9][22][19] si dhe konceptet e optimizimit të trajnimit dhe testimit, të lidhura me përshtatjen dhe përgjithësimin, përkatësisht. Më konkretisht, interpretimi probabilistik e konsideron jolinearitetin e aktivizimit si një funksion të shpërndarjes kumulative.[19] Interpretimi probabilistik luajti një rol të rëndësishëm në zhvillimin e metodave të rregullimit për rrjetet nervore, si braktisja (dropout), që ndihmon në parandalimin e mbipërshtatjes. Ky interpretim u prezantua nga studiues si Hopfield, Widrow dhe Narendra, dhe më vonë u popullarizua përmes punimeve dhe sondazheve gjithëpërfshirëse, si ai i Bishop.[23]
Remove ads
Historia
Para vitit 1980
Ekzistojnë dy lloje kryesore të rrjeteve nervore artificiale (ANN): rrjetet nervore të përshpejtuara (FNN), të njohura gjithashtu si perceptron shumështresor (MLP) dhe rrjetet nervore të përsëritura (RNN). Ndërsa FNN-të kanë një strukturë lidhjeje pa cikle, ku të dhënat rrjedhin në mënyrë të njëanshme nga hyrja te dalja, RNN-të përfshijnë cikle në strukturën e tyre, duke mundësuar përpunimin e të dhënave sekuenciale dhe ruajtjen e informacionit nëpër kohë. Në vitet 1920, Wilhelm Lenz dhe Ernst Ising krijuan modelin Ising [24][25] i cili në thelb është një arkitekturë RNN jo-mësimore e përbërë nga elementë të pragut të ngjashëm me neuronet. Në vitin 1972, Shun'ichi Amari e bëri këtë arkitekturë të adaptueshme.[26][27] RNN e tij mësimore u ribotua nga John Hopfield në 1982.[28] Rrjete të tjera nervore të hershme të përsëritura u publikuan nga Kaoru Nakano në 1971.[29][30] Tashmë në vitin 1948, Alan Turing prodhoi një punë mbi "Makineri inteligjente" që nuk u botua gjatë jetës së tij,[31] që përmbante "ide që lidhen me evolucionin artificial dhe të mësuarit e RNN".[27]
Frank Rosenblatt (1958) [1] prezantoi perceptronin, një rrjet me shumë shtresa (MLP) i përbërë nga tre shtresa: një shtresë hyrëse, një shtresë e fshehur me pesha të rastësishme që nuk përditësoheshin gjatë mësimit, dhe një shtresë dalëse. Në vitin 1962, ai botoi një libër ku prezantoi variante të perceptronit dhe eksperimente kompjuterike, duke përfshirë një version me katër shtresa të quajtura "rrjete paraterminale adaptive," ku dy shtresat e fundit kishin pesha që mësoheshin. Në këtë punim, ai vlerësonte gjithashtu kontributin e HD Block dhe BW Knight.[32] : section 16 Libri citon një rrjet të mëparshëm nga RD Joseph (1960) [33] "funksionalisht ekuivalent me një variacion të" këtij sistemi me katër shtresa (libri përmend Jozefin mbi 30 herë). Prandaj, a mund të konsiderohet Jozefi krijuesi i perceptroneve adaptive shumështresore me njësitë e fshehura që mësojnë? Fatkeqësisht, algoritmi i propozuar për mësimin nuk ishte funksional dhe përfundoi duke u harruar.
Algoritmi i parë funksional për mësimin e thellë ishte metoda e grupit të trajtimit të të dhënave (Group Method of Data Handling – GMDH), e zhvilluar nga Alexey Ivakhnenko dhe Valentin Lapa në vitin 1965. Kjo metodë u përdor për të trajnuar rrjete nervore me një thellësi arbitrare dhe u konceptua si një formë e regresionit polinomial.[34] ose një përgjithësim të perceptronit të Rosenblatt.[35] Një punim i vitit 1971 përshkroi një rrjet të thellë me tetë shtresa të trajnuar nga kjo metodë,[36] e cila bazohet në një proces trajnimi shtresë pas shtrese duke përdorur analizën e regresionit. Njësitë e fshehura të tepërta eliminohen duke u mbështetur në një grup të veçantë vërtetimi. Meqenëse funksionet e aktivizimit të nyjeve përfaqësohen nga polinomet Kolmogorov-Gabor, këto rrjete ishin gjithashtu të parat që përfshinin njësi shumëzuese ose "porta".
Perceptroni i parë shumështresor i të mësuarit të thellë i trajnuar nga zbritja stokastike e gradientit [37] u publikua në vitin 1967, nga Shun'ichi Amari algoritmi kontribuoi në zhvillimin e mëtejshëm të metodave të mësimit të thellë, duke përfshirë konceptet e avancuara për trajnimin e rrjeteve nervore.[38] Në eksperimentet kompjuterike të kryera nga studenti i Amari, Saito, një MLP me pesë shtresa me dy shtresa të modifikueshme mësoi përfaqësime të brendshme për të klasifikuar klasat e modeleve jolinearisht të ndashme. Zhvillimet e mëvonshme në akordimet harduerike dhe hiperparametrash e kanë bërë zbritjen e gradientit stokastik nga fundi në fund teknikën dominuese të stërvitjes.
Në vitin 1969, Kunihiko Fukushima prezantoi një variant të funksionit të aktivizimit të njohur si ReLU (Rectified Linear Unit). Ky funksion, i cili është aktiv vetëm për vlera pozitive, u bë një komponent thelbësor në rrjetet nervore moderne, falë thjeshtësisë dhe efektivitetit të tij në trajnimet e thella.[20][27] Ndreqësi është bërë funksioni më i popullarizuar i aktivizimit për të mësuarit e thellë.[39]
Arkitekturat e të mësuarit të thellë për rrjetet nervore konvolucionale (CNN), të përbëra nga shtresa konvolucionale dhe shtresa për pakësimin e mostrave, filluan me Neocognitron, i prezantuar nga Kunihiko Fukushima në vitin 1979. Megjithëse ishte një model novator, ai nuk përdorte përhapjen prapa për trajnim.[40][41]
Përhapja prapa është një aplikim efikas i rregullit të zinxhirit të nxjerrë nga Gottfried Wilhelm Leibniz në 1673 [42] në rrjetet e nyjeve të diferencueshme. Terminologjia "gabimet e përhapjes së prapme" u prezantua fillimisht nga Frank Rosenblatt në vitin 1962, duke përshkruar një proces të korrigjimit të gabimeve në rrjetet nervore. Megjithatë, metoda e plotë dhe efektive për përhapjen prapa si algoritëm trajnimi u zhvillua dhe u bë e njohur më vonë, në vitet 1980 [32] por ai nuk dinte si ta zbatonte këtë, megjithëse Henry J. Kelley kishte një pararendës të vazhdueshëm të përhapjes së pasme në 1960 në kontekstin e teorisë së kontrollit.[43] Forma moderne e algoritmit të përhapjes së pasme u paraqit për herë të parë në vitin 1970 në tezën e masterit të Seppo Linnainmaa. Ai prezantoi një metodë të përgjithshme për llogaritjen e derivatëve të funksioneve të përbëra, e njohur si diferencimi automatik, që përbën bazën e algoritmit të përhapjes së pasme të përdorur sot në trajnimin e rrjeteve nervore.[44][45] GM Ostrovski etj. e ribotoi në vitin 1971.[46] Paul Werbos aplikoi përhapjen e pasme në rrjetet nervore në vitin 1982 [47] (teza e doktoraturës së vitit 1974, ribotuar në një libër të vitit 1994,[48] nuk e përshkruan ende algoritmin [46]). Në vitin 1986, David E. Rumelhart et al. popullarizoi përhapjen e pasme, por nuk citoi veprën origjinale.[49]
1980–2000
Rrjeti nervor i vonesës kohore (Time-Delay Neural Network – TDNN) u prezantua nga Alex Waibel në vitin 1987 si një aplikim i CNN-ve për njohjen e fonemave në të dhënat audio. TDNN përdorte shtresa konvolucionale, ndarje të peshave dhe algoritmin e përhapjes së pasme për trajnimin e modelit, duke u bërë një nga aplikimet e para të CNN-ve në përpunimin e sinjaleve kohore. Në vitin 1988, Wei Zhang aplikoi një CNN të trajnuar pas përhapjes për njohjen e alfabetit.[50] Në 1989, Yann LeCun et al. krijoi një CNN të quajtur LeNet për njohjen e kodeve ZIP të shkruara me dorë në postë. Trajnimi kërkohet 3 ditë. Në vitin 1990, Wei Zhang zbatoi një CNN mbi pajisjet kompjuterike optike.[51] Në vitin 1991, një CNN u aplikua për segmentimin e objekteve të imazhit mjekësor [52] dhe zbulimin e kancerit të gjirit në mamografi.[53] LeNet -5 (1998), një CNN me 7 nivele nga Yann LeCun et al., që klasifikon shifrat, u aplikua nga disa banka për të njohur numrat e shkruar me dorë në çeqet e dixhitalizuara në imazhe 32x32 pixel.[54]
Rrjetet nervore të përsëritura (RNN)[24][26] u zhvilluan më tej në vitet 1980. Përsëritja përdoret për përpunimin e sekuencave dhe, kur një rrjet i përsëritur hapet, ai matematikisht shndërrohet në një rrjet të thellë feedforward, ku çdo hap kohor përfaqëson një shtresë të veçantë në rrjet. Kjo strukturë lejon përpunimin e informacionit që shtrihet mbi një varg kohor. Rrjedhimisht, ata kanë prona dhe çështje të ngjashme dhe zhvillimet e tyre patën ndikime të ndërsjella. Në RNN, dy vepra të hershme me ndikim ishin rrjeti Jordan (1986) [55] dhe rrjeti Elman (1990),[56] i cili aplikoi RNN për të studiuar problemet në psikologjinë konjitive.
Në vitet 1980, përhapja e pasme hasi vështirësi në trajtimin e problemeve të mësimit të thellë me shtigje të gjata të caktimit të kredisë, duke çuar në vështirësi në trajtimin e varësive afatgjata. Për të adresuar këtë sfidë, në vitin 1991, Jürgen Schmidhuber propozoi një qasje inovative që përfshinte një hierarki të rrjeteve nervore të përsëritura (RNN), të trajnuar paraprakisht një nivel në një kohë përmes mësimit të vetë-mbikëqyrur. Në këtë hierarki, secili RNN përpiqet të parashikojë hyrjen e tij të ardhshme, e cila përfaqëson informacionin e papritur të gjeneruar nga RNN i nivelit më të ulët.[57][58] Ky "kompresor i historisë nervore" përdor kodimin parashikues për të mësuar përfaqësime të brendshme që vetë-organizohen në shkallë të ndryshme kohore. Kjo qasje i lejon rrjetit të kapë struktura dhe varësi afatgjata në të dhëna, duke kompresuar historinë e hyrjeve në mënyrë efikase përmes hierarkive të thelluara dhe të përsëritura. Kjo mund të lehtësojë ndjeshëm të mësuarit e thellë në rrjedhën e poshtme. Hierarkia RNN mund të shembet në një RNN të vetëm, duke distiluar një rrjet chunker të nivelit më të lartë në një rrjet automatizues të nivelit më të ulët.[57][58] Në vitin 1993, një kompresor i historisë nervore zgjidhi një detyrë "Mësimi shumë i thellë" që kërkonte më shumë se 1000 shtresa pasuese në një RNN të shpalosur në kohë. "P" në ChatGPT i referohet një trajnimi të tillë paraprak.
Teza e diplomës e Sepp Hochreiter (1991) zbatoi kompresorin e historisë nervore,[57] dhe identifikoi dhe analizoi problemin e gradientit në zhdukje.[59][60] Hochreiter propozoi lidhje të mbetura të përsëritura si një zgjidhje për problemin e gradientit që zhduket, i cili ishte një pengesë kryesore në trajnimin e rrjeteve të përsëritura nervore (RNN). Kjo punë çoi në zhvillimin e arkitekturës së Kujtesës Afatgjatë të Shkurtër (LSTM), e cila u publikua në vitin 1995. LSTM përdor një sistem të veçantë të qelizave dhe mekanizmave të portave për të ruajtur dhe menaxhuar informacionin në mënyrë efektive mbi periudha të gjata kohore, duke zbutur problemin e gradientit që zhduket. LSTM mund të mësojë detyra "të mësuarit shumë të thellë" [9] me shtigje të gjata të caktimit të kredisë që kërkojnë kujtime të ngjarjeve që kanë ndodhur mijëra hapa kohorë diskrete më parë. Ajo LSTM nuk ishte ende arkitektura moderne, e cila kërkonte një "portë harrese", e prezantuar në 1999,[61] e cila u bë arkitektura standarde RNN.
Në vitin 1991, Jürgen Schmidhuber publikoi një model të rrjeteve nervore kundërshtare, ku rrjetet konkurrojnë me njëra-tjetrën në një kornizë të ngjashme me një lojë me shumën zero. Në këtë konfigurim, fitimi i një rrjeti përfaqëson humbjen e rrjetit tjetër, duke krijuar një dinamikë kundërshtare që synon të përmirësojë performancën e të dy rrjeteve përmes konkurrencës.[62] Rrjeti i parë është një model gjenerues që modelon një shpërndarje probabiliteti mbi modelet e prodhimit. Rrjeti i dytë mëson nga zbritja e gradientit të parashikojë reagimet e mjedisit ndaj këtyre modeleve. Kjo u quajt "kuriozitet artificial". Në vitin 2014, ky parim u përdor në rrjetet kundërshtare gjeneruese (GAN).[63]
Gjatë viteve 1985–1995, të frymëzuara nga mekanika statistikore, u zhvilluan disa arkitektura dhe metoda nga Terry Sejnowski, Peter Dayan, Geoffrey Hinton, etj., duke përfshirë makinën Boltzman,[64] makinën Boltzman të kufizuar,[65] makinën Helmholtz,[66] dhe algoritmi zgjim-gjumë.[67] Këto u zhvilluan për të mësuar modele gjeneruese të thella në mënyrë të pambikëqyrur. Megjithatë, ato kërkonin më shumë burime llogaritëse krahasuar me algoritmin e përhapjes së pasme. Algoritmi i mësimit të makinës Boltzman, i prezantuar në vitin 1985, pati një periudhë të shkurtër popullariteti përpara se të zëvendësohej nga algoritmi më efikas i përhapjes së pasme në vitin 1986. (fq. 112 [68] ). Një rrjet nervor i zhvilluar në vitin 1988 arriti të bëhej gjendja e artit në parashikimin e strukturës së proteinave, duke përfaqësuar një nga aplikimet e para të suksesshme të të mësuarit të thellë në fushën e bioinformatikës.[69]
Të mësuarit e cekët dhe të thellë, përfshirë përdorimin e rrjeteve nervore të përsëritura (RNN), kanë qenë objekt studimi për një periudhë të gjatë në fushën e njohjes së të folurit.[70][71][72] Këto metoda nuk arritën të tejkalojnë performancën e teknologjisë së modelit të fshehur Markov (GMM-HMM), e cila përdorte një përzierje Gaussianësh jo-uniforme dhe modele të brendshme të prodhuara manualisht. GMM-HMM, i bazuar në modele gjeneruese të të folurit të trajnuara në mënyrë diskriminuese, mbeti standardi kryesor për shumë vite në njohjen e të folurit.[73] Vështirësitë kryesore janë analizuar, duke përfshirë zvogëlimin e gradientit dhe strukturën e dobët të korrelacionit kohor në modelet parashikuese nervore.[74][75] Vështirësi shtesë ishin mungesa e të dhënave të trajnimit dhe fuqia e kufizuar llogaritëse.
Shumica e studiuesve në fushën e njohjes së të folurit braktisën përdorimin e rrjeteve nervore për një kohë dhe iu drejtuan modelimit gjenerues, siç janë modelet Gaussian dhe modelet e fshehura Markov (HMM), të cilat ofronin një qasje më praktike dhe të besueshme në atë periudhë. Një përjashtim ishte në SRI International në fund të viteve 1990. Financuar nga NSA dhe DARPA e qeverisë së SHBA-së, SRI hulumtoi në njohjen e të folurit dhe folësit . Ekipi i njohjes së altoparlantëve i udhëhequr nga Larry Heck raportoi sukses të rëndësishëm me rrjetet nervore të thella në përpunimin e të folurit në standardin NIST Speaker Recognition të vitit 1998.[76][77] Ai u vendos në Verifikuesin e Nuances, që përfaqëson aplikacionin e parë të madh industrial të të mësuarit të thellë.
Parimi i ngritjes së tipareve "të papërpunuara" mbi optimizimin e punuar me dorë u eksplorua për herë të parë me sukses në fund të viteve 1990, duke përdorur arkitekturën e autoenkoderit të thellë. Kjo qasje u aplikua në spektrogramet "të papërpunuara" ose në tiparet lineare të bankës së filtrave, duke treguar potencialin për të mësuar përfaqësime komplekse drejtpërdrejt nga të dhënat fillestare.[77] Duke treguar epërsinë e tij ndaj Mel- Veçoritë cepstrale që përmbajnë faza të transformimit fiks nga spektrogramet. Karakteristikat e papërpunuara të të folurit, format e valës, më vonë dhanë rezultate të shkëlqyera në shkallë më të gjerë.[78]
vitet 2000
Në vitet 1990 dhe 2000, rrjetet nervore ranë në një periudhë të pavlefshmërisë, ndërsa modelet më të thjeshta që përdornin veçori të punuara me dorë, të përshtatura për detyra specifike, si filtrat Gabor dhe makinat vektoriale mbështetëse (SVM), u bënë zgjedhjet e preferuara. Kjo ndodhi për shkak të kostos së lartë llogaritëse të rrjeteve nervore artificiale dhe mungesës së të kuptuarit të mënyrës se si truri lidh rrjetet e tij biologjike, gjë që kufizonte përparimet në projektimin e rrjeteve nervore artificiale.[ citim i nevojshëm ]
Në vitin 2003, LSTM filloi të tregonte rezultate konkurruese në krahasim me metodat tradicionale të njohjes së të folurit për detyra të caktuara.[1] Më pas, në vitin 2006, Alex Graves, Santiago Fernández, Faustino Gomez, dhe Jürgen Schmidhuber e përmirësuan këtë qasje duke e kombinuar LSTM me Klasifikimin Kohor të Lidhjes (CTC), një algoritëm që mundëson trajtimin e detyrave sekuenciale si njohja e të folurit pa pasur nevojë për përafrime fikse ndërmjet hyrjes dhe daljes.[79] në pirgjet e LSTM-ve. Në vitin 2009, ai u bë RNN i parë që fitoi një konkurs për njohjen e modeleve, në njohjen e ndërlidhur të shkrimit të dorës.[9]
Në vitin 2006, botimet nga Geoff Hinton, Ruslan Salakhutdinov, Osindero dhe Teh[80][81] u zhvilluan rrjete të thella besimi për modelimin gjenerues. Ata trajnohen duke përdorur një proces hierarkik, ku fillimisht stërvitet një makinë Boltzman e kufizuar (RBM). Pasi kjo RBM ngrin parametrat e saj, trajnohet një RBM tjetër mbi të, dhe procesi përsëritet në shtresa të njëpasnjëshme. Në fund, rrjeti mund të rregullohet opsionalisht duke përdorur përhapjen e mbikëqyrur prapa, për të përmirësuar performancën për detyrat specifike. Ata mund të modelonin shpërndarje të probabilitetit me dimensione të larta, të tilla si shpërndarja e imazheve MNIST, por konvergjenca ishte e ngadaltë.[82][83][84]
Ndikimi i të mësuarit të thellë në industri filloi të bëhej i dukshëm në fillim të viteve 2000, kur rrjetet nervore konvolucionale (CNN) filluan të përpunonin midis 10% dhe 20% të të gjitha çeqeve bankare të shkruara në SHBA. Sipas Yann LeCun, kjo përfaqësonte një nga aplikimet e hershme praktike dhe të shkallëzuara të të mësuarit të thellë në zgjidhjen e problemeve reale industriale. Aplikimet industriale të të mësuarit të thellë për njohjen e të folurit në shkallë të gjerë filluan rreth vitit 2010.
Punëtoria NIPS 2009 mbi të mësuarit e thellë për njohjen e të folurit u zhvillua si përgjigje ndaj kufizimeve të modeleve gjeneruese të thella të të folurit. Ajo u motivua nga mundësia që, me përmirësimet në harduerin llogaritës dhe disponueshmërinë e grupeve të mëdha të të dhënave, rrjetet e thella nervore të bëheshin një qasje praktike dhe më efikase për zgjidhjen e detyrave komplekse të njohjes së të folurit. Besohej se DNN-të para-trajnuese duke përdorur modele gjeneruese të rrjetave të besimit të thellë (DBN) do të kapërcenin vështirësitë kryesore të rrjetave nervore. Megjithatë, u zbulua se zëvendësimi i trajnimit paraprak me sasi të mëdha të të dhënave stërvitore për përhapje të drejtpërdrejtë në prapavijë kur përdorni DNN me shtresa të mëdha dalëse të varura nga konteksti, prodhoi shkallë gabimi në mënyrë dramatike më të ulët se modeli i përzierjes Gaussian i atëhershëm më i fundit (GMM )/Hidden Markov Model (HMM) dhe gjithashtu se sistemet më të avancuara gjeneruese të bazuara në modele.[85] Natyra e gabimeve të njohjes të prodhuara nga dy llojet e sistemeve ishte karakteristikisht e ndryshme,[86] duke ofruar njohuri teknike se si të integrohet mësimi i thellë në sistemin ekzistues shumë efikas të dekodimit të të folurit në kohë ekzekutimi të vendosur nga të gjitha sistemet kryesore të njohjes së të folurit.[18][87][88] Rreth viteve 2009–2010, analiza që krahasonte modelet GMM (dhe modelet e tjera gjeneruese të të folurit) me modelet e rrjeteve nervore të thella (DNN) nxiti një diskutim të gjerë mbi avantazhet dhe kufizimet e të dyja qasjeve. Rezultatet premtuese të DNN-ve në tejkalimin e kufizimeve të GMM-ve stimuluan investimet e hershme industriale në të mësuarit e thellë për aplikime të njohjes së të folurit, duke shënuar një moment kyç në evoluimin e kësaj fushe.[86] Kjo analizë tregoi se modelet e rrjeteve nervore të thella (DNN) diskriminuese arritën një performancë të krahasueshme me modelet gjeneruese, me një diferencë prej më pak se 1.5% në shkallën e gabimit. Ky rezultat nënvizoi potencialin e DNN-ve për të zëvendësuar modelet gjeneruese në aplikime komplekse, duke i bërë ato më tërheqëse për zhvillime të mëtejshme dhe investime industriale.[85][86][89] Në vitin 2010, studiuesit zgjeruan mësimin e thellë nga TIMIT në njohjen e madhe të fjalorit të të folurit, duke adoptuar shtresa të mëdha dalëse të DNN bazuar në gjendjet HMM të varura nga konteksti, të ndërtuara nga pemët e vendimmarrëse.[90][91][92][87]
Revolucion i të mësuarit të thellë

Revolucioni i të mësuarit të thellë nisi rreth fushës së vizionit kompjuterik, me avancimet në rrjetet nervore konvolucionale (CNN) dhe përdorimin e GPU-ve për përpunim paralel. Këto teknologji mundësuan trajnim më të shpejtë dhe më efikas të modeleve komplekse, duke çuar në përmirësime të mëdha në detyrat e njohjes së imazheve dhe të vizionit kompjuterik.
Edhe pse CNN-të e trajnuar nga prapashfaqja kishin qenë rreth e rrotull për dekada dhe implementimet GPU të NN-ve për vite,[93] duke përfshirë CNN-të,[94] nevojiteshin zbatime më të shpejta të CNN-ve në GPU për të përparuar në vizionin kompjuterik. Më vonë, me zgjerimin e aplikimeve të të mësuarit të thellë, u krijuan optimizime të specializuara në harduer dhe algoritme të përshtatura posaçërisht për kërkesat e tij. Këto përfshijnë procesorë të specializuar si TPU-të (Tensor Processing Units) dhe teknika algoritmike të avancuara për të përmirësuar efikasitetin e trajnimit dhe performancën e rrjeteve nervore.
Një nga përparimet kyçe që nxiti revolucionin e të mësuarit të thellë ishte zhvillimi i harduerit të avancuar, veçanërisht përdorimi i GPU-ve për trajnimet e rrjeteve nervore. GPU-të ofruan përpunim paralel të fuqishëm, duke përshpejtuar ndjeshëm trajnimet e modeleve komplekse. Disa nga punët e hershme që demonstruan potencialin e GPU-ve në këtë fushë datojnë që nga viti 2004, duke hedhur bazat për përhapjen e tyre në të mësuarit e thellë.[93][94] Në vitin 2009, Raina, Madhavan dhe Andrew Ng raportuan një rrjet besimi të thellë 100 milion të trajnuar në 30 GPU Nvidia GeForce GTX 280, një demonstrim i hershëm i të mësuarit të thellë të bazuar në GPU. Ata raportuan trajnime deri në 70 herë më të shpejta.[95]
Në vitin 2011, një CNN i quajtur DanNet,[96][97] i zhvilluar nga Dan Ciresan, Ueli Meier, Jonathan Masci, Luca Maria Gambardella, dhe Jürgen Schmidhuber, arriti për herë të parë një performancë mbinjerëzore në një konkurs vizual të njohjes së modeleve. Ai tejkaloi metodat tradicionale me një faktor prej 3, duke shënuar një moment historik në fushën e të mësuarit të thellë dhe aplikimeve të tij në vizionin kompjuterik.[9] Më pas fitoi më shumë konkurse.[98][99] Ata treguan gjithashtu se si CNN -të me grumbullim maksimal në GPU përmirësonin performancën në mënyrë të konsiderueshme.[3]
Në vitin 2012, Andrew Ng dhe Jeff Dean zhvilluan një rrjet nervor të përparuar ushqyes (FNN) që ishte në gjendje të mësonte koncepte të nivelit të lartë, si macet, duke analizuar imazhe të paetiketuara të nxjerra nga videot në YouTube.[100]
Në tetor 2012, AlexNet, i krijuar nga Alex Krizhevsky, Ilya Sutskever, dhe Geoffrey Hinton[4] fitoi konkursin në shkallë të gjerë ImageNet, duke arritur një performancë që tejkaloi ndjeshëm metodat tradicionale të cekëta të mësimit të makinerive. Ky sukses shënoi një pikë kthese në të mësuarit e thellë, duke treguar fuqinë e rrjeteve nervore të thella për detyra komplekse në vizionin kompjuterik. Përmirësime të mëtejshme në rritje përfshinin rrjetin VGG-16 nga Karen Simonyan dhe Andrew Zisserman[101] dhe Inceptionv3 të Google.[102]
Suksesi i rrjeteve nervore të thella në klasifikimin e imazheve u zgjerua më tej në detyrën më komplekse të gjenerimit të përshkrimeve (titrave) për imazhet. Ky avancim u arrit shpesh duke kombinuar CNN-të për nxjerrjen e veçorive vizuale nga imazhet me LSTM-të për të gjeneruar përshkrime të bazuara në veçoritë e nxjerra, duke krijuar një qasje të fuqishme për integrimin e vizionit kompjuterik dhe përpunimit të gjuhës natyrore.[103][104][105]
Në vitin 2014, gjendja e artit në të mësuarit e thellë përfshinte trajnimin e rrjeteve nervore shumë të thella me 20 deri në 30 shtresa.[106] Megjithatë, rritja e numrit të shtresave hasi një pengesë të madhe: problemi i "degradimit", ku grumbullimi i shumë shtresave çonte në një ulje të konsiderueshme të saktësisë gjatë trajnimit, edhe kur rrjeti kishte kapacitet të mjaftueshëm për të mësuar modelin. Në vitin 2015, u zhvilluan dy teknika për të trajnuar rrjete shumë të thella: Rrjeti i Autostradave u publikua në maj 2015 dhe rrjeti nervor i mbetur (ResNet) në dhjetor 2015. ResNet sillet si një rrjet autostrade me portë të hapur.
Në të njëjtën periudhë, të mësuarit e thellë filloi të ndikonte edhe në fushën e artit. Shembuj të hershëm të kësaj përfshijnë Google DeepDream (2015), i cili krijonte imazhe të gjeneruara nga rrjete nervore përmes amplifikimit të modeleve të mësuara nga rrjeti, dhe transferimi i stilit nervor (2015), një teknikë që përdorte rrjete nervore për të kombinuar stilin vizual të një pikture me përmbajtjen e një imazhi tjetër, duke prodhuar art unik dhe krijues.[107] që të dyja bazoheshin në rrjetet nervore të klasifikimit të imazheve të paratrajnuara, si VGG-19.
Rrjeti i kundërshtarëve gjenerues (GAN) nga ( Ian Goodfellow et al., 2014) (bazuar në parimin e kuriozitetit artificial të Jürgen Schmidhuber [63] ) u bë më i fundit në modelimin gjenerues gjatë periudhës 2014–2018 . Cilësia e shkëlqyer e imazhit arrihet nga Nvidia 's StyleGAN (2018)[108] bazuar në Progressive GAN nga Tero Karras et al.[109] Në këtë rast, gjeneratori i rrjeteve nervore gjeneruese kundërshtare (GAN) është zgjeruar nga një shkallë e vogël në një shkallë të madhe përmes një qasjeje piramidale. Kjo teknikë ndihmon në ndërtimin gradual të detajeve, duke filluar nga rezolutat e ulëta dhe duke shtuar informacione të hollësishme ndërsa rritet shkalla, duke përmirësuar ndjeshëm cilësinë e gjenerimit të imazheve ose të dhënave të tjera komplekse. Gjenerimi i imazheve nga GAN arriti sukses popullor dhe provokoi diskutime në lidhje me falsifikimet e thella.[110] Modelet e difuzionit (2015)[111] eklipsuan GAN-et në modelimin gjenerues që atëherë, me sisteme të tilla si DALL·E 2 (2022) dhe Stable Diffusion (2022).
Në vitin 2015, Google arriti një përmirësim prej 49% në njohjen e të folurit duke përdorur një model të bazuar në LSTM. Ky avancim u bë një pjesë integrale e Google Voice Search, duke sjellë një përvojë më të saktë dhe të shpejtë për përdoruesit e smartphone. Ky zhvillim shënoi një hap të madh përpara në aplikimet praktike të rrjeteve nervore të thella në teknologjitë e përditshme.[112]
Të mësuarit e thellë është një komponent thelbësor i sistemeve më të avancuara në disiplina të ndryshme, me ndikim të veçantë në fusha si vizioni kompjuterik dhe njohja automatike e të folurit (ASR). Këto teknika kanë revolucionarizuar aftësinë për të analizuar, kuptuar dhe interpretuar të dhëna komplekse, duke çuar në përmirësime të mëdha në detyra si njohja e imazheve, përshkrimi i objekteve dhe përpunimi i të folurit njerëzor. Rezultatet në grupet e vlerësimit të përdorura zakonisht si TIMIT (ASR) dhe MNIST ( klasifikimi i imazheve ), si dhe një sërë detyrash me fjalor të gjerë për njohjen e të folurit janë përmirësuar në mënyrë të qëndrueshme.[85][113] Rrjetet nervore konvolucionale u zëvendësuan për ASR nga LSTM.[112][114][115][116] por janë më të suksesshëm në vizionin kompjuterik.
Yoshua Bengio, Geoffrey Hinton dhe Yann LeCun iu dha Çmimi Turing shpesh të quajtur "Nobel-i i Informatikës," për kontributet e tyre të jashtëzakonshme në fushën e të mësuarit të thellë. Çmimi u dha për "përparime konceptuale dhe inxhinierike që i kanë bërë rrjetet e thella nervore një komponent kritik të informatikës", duke theksuar ndikimin e tyre në zhvillimin dhe aplikimin e këtyre teknologjive në shumë disiplina.[117]
Remove ads
Rrjetet nervore
Rrjetet nervore artificiale (ANN), të njohura edhe si sisteme lidhëse, janë sisteme kompjuterike të frymëzuara nga rrjetet nervore biologjike që përbëjnë trurin e kafshëve. Këto sisteme mësojnë të kryejnë detyra duke analizuar shembuj, zakonisht pa pasur nevojë për programim specifik për secilën detyrë. Për shembull, në rastin e njohjes së imazheve, ato mund të mësojnë të dallojnë imazhet që përmbajnë mace duke analizuar imazhe shembull të etiketuar manualisht si "mace" ose "pa mace" dhe duke përdorur rezultatet për të identifikuar macet në imazhe të reja. Këto rrjete kanë gjetur përdorim të gjerë në aplikacione ku është e vështirë të formulohet një algoritëm tradicional kompjuterik bazuar në rregulla.
Një ANN bazohet në një koleksion të njësive të lidhura të quajtura neurone artificiale, (analoge me neuronet biologjike në një tru biologjik ). Çdo lidhje ( sinapsë ) ndërmjet neuroneve mund të transmetojë një sinjal në një neuron tjetër. Neuroni marrës (postinaptik) mund të përpunojë sinjalin(et) dhe më pas të sinjalizojë neuronet në rrjedhën e poshtme të lidhur me të. Neuronet mund të kenë gjendje, të përfaqësuar përgjithësisht nga numra realë, zakonisht midis 0 dhe 1. Neuronet dhe sinapset mund të kenë peshë variabile, e cila ndryshon gjatë procesit të mësimit. Këto ndryshime në peshë përcaktojnë fuqinë e sinjalit që transmetohet te neuronet në rrjedhën e poshtme, duke e rritur ose zvogëluar atë në bazë të rregullimeve të bëra për të optimizuar performancën e rrjetit. Ky mekanizëm është thelbësor për adaptimin dhe përmirësimin e rrjeteve nervore gjatë trajnimit.
Në mënyrë tipike, neuronet organizohen në shtresa, ku secila shtresë kryen lloje të ndryshme transformimesh mbi hyrjet që merr. Sinjalet kalojnë nga shtresa e parë (hyrje) drejt shtresës së fundit (dalëse), shpesh duke kaluar përmes shtresave të ndërmjetme një ose disa herë. Ky proces i shtresëzuar lejon rrjetet nervore të mësojnë përfaqësime të ndërlikuara dhe hierarkike të të dhënave.
Qëllimi fillestar i qasjes së rrjeteve nervore ishte të adresonte problemet në mënyrë të ngjashme me mënyrën se si funksionon truri i njeriut. Me kalimin e kohës, fokusi u zhvendos drejt përshtatjes së aftësive specifike njohëse, gjë që çoi në largime nga struktura biologjike, siç është përhapja e pasme – një proces ku informacioni rrjedh në drejtim të kundërt për të rregulluar rrjetin në bazë të atij informacioni.
Rrjetet nervore kanë gjetur përdorim në një gamë të gjerë detyrash, duke përfshirë: vizionin kompjuterik, njohjen e të folurit, përkthimin me makinë, filtrimin e rrjeteve sociale, luajtjen e lojërave në tabelë dhe video, si dhe diagnozën mjekësore. Aplikimet e tyre kanë transformuar mënyrën se si zgjidhen probleme komplekse në këto fusha, duke ofruar zgjidhje të automatizuara dhe shpeshherë më të sakta sesa qasjet tradicionale.
Deri në vitin 2017, rrjetet nervore zakonisht përmbanin nga disa mijëra deri në disa milionë njësi dhe miliona lidhje. Edhe pse ky numër është shumë më i vogël në krahasim me miliardat e neuroneve në trurin e njeriut, këto rrjete janë dëshmuar të afta të kryejnë shumë detyra me një performancë që shpesh tejkalon atë të njerëzve. Shembuj të tillë përfshijnë njohjen e fytyrave dhe luajtjen e lojës "Go", ku rrjetet nervore kanë arritur suksese të jashtëzakonshme.[118]
Rrjetet nervore të thella
Një rrjet nervor i thellë (DNN) është një rrjet nervor artificial që përmban disa shtresa midis shtresës hyrëse dhe asaj dalëse.[7][9] Ekzistojnë lloje të ndryshme të rrjeteve nervore, por ato gjithmonë përbëhen nga të njëjtët komponentë: neuronet, sinapset, peshat, paragjykimet dhe funksionet.[119] Këta komponentë punojnë së bashku duke imituar funksionet e trurit të njeriut dhe mund të trajnohen në mënyrë të ngjashme me çdo algoritëm tjetër të mësimit të makinerive (ML).[ citim i nevojshëm ]
Për shembull, një DNN i trajnuar për të identifikuar racat e qenve do të analizojë imazhin e dhënë dhe do të llogarisë probabilitetet për secilën racë të mundshme. Përdoruesi mund të shqyrtojë rezultatet dhe të vendosë cilat probabilitete të pranojë, bazuar në një prag të caktuar, për të përcaktuar racën e propozuar. Çdo manipulim matematikor gjatë këtij procesi konsiderohet si një shtresë në rrjetin nervor.[120] dhe DNN kompleks ka shumë shtresa, prandaj emri i rrjeteve "të thella".
Rrjetet nervore të thella (DNN) janë të afta të modelojnë marrëdhënie komplekse jolineare. Arkitekturat e tyre krijojnë modele kompozicionale, ku një objekt përfaqësohet si një përbërje hierarkike e primitivëve të shtresuar. Kjo strukturë i lejon DNN-të të mësojnë përfaqësime të ndërlikuara dhe të ndajnë veçori në nivele të ndryshme abstraksioni, duke i bërë ato veçanërisht të fuqishme për detyra komplekse si vizioni kompjuterik dhe përpunimi i gjuhës natyrore.[121] Shtresat shtesë lejojnë kombinimin dhe ndërtimin e veçorive nga ato të niveleve më të ulëta, duke bërë të mundur modelimin e të dhënave komplekse me më pak njësi krahasuar me një rrjet të cekët që ofron performancë të ngjashme.[7] Për shembull, u vërtetua se polinomet e pakta shumëvariate janë në mënyrë eksponenciale më të lehtë për t'u përafruar me DNN-të sesa me rrjetet e cekëta.
Arkitekturat e thella përfshijnë variante të shumta të disa qasjeve themelore, ku secila ka treguar sukses në fusha specifike. Megjithatë, krahasimi i performancës midis këtyre arkitekturave është i vështirë, përveç rasteve kur ato testohen mbi të njëjtat grupe të dhënash.[120]
DNN-të zakonisht funksionojnë si rrjete të të dhënave ku informacioni rrjedh në mënyrë të njëanshme, nga shtresa hyrëse deri te shtresa dalëse, pa kthim prapa. Fillimisht, DNN krijon një hartë të neuroneve virtuale dhe cakton vlera numerike të rastësishme, të quajtura "pesha", për lidhjet midis tyre. Këto pesha shumëzohen me hyrjet dhe gjenerojnë një dalje, zakonisht një vlerë midis 0 dhe 1. Në rastet kur rrjeti nuk arrin të njohë saktë një model, një algoritëm rregullon peshat për të përmirësuar performancën.[122] Në këtë mënyrë algoritmi mund të bëjë disa parametra më me ndikim, derisa të përcaktojë manipulimin e saktë matematikor për të përpunuar plotësisht të dhënat.
Rrjetet nervore të përsëritura (RNN), të cilat lejojnë rrjedhjen e të dhënave në çdo drejtim, janë veçanërisht të përshtatshme për detyra që përfshijnë të dhëna sekuenciale. Ato përdoren gjerësisht në aplikacione si modelimi i gjuhës ku rrjetet duhet të analizojnë dhe kuptojnë varësitë ndërmjet fjalëve ose frazave në një sekuencë për të parashikuar ose gjeneruar tekst.[123][124][125][126][127] Kujtesa afatshkurtër është veçanërisht e efektshme për këtë përdorim.[128][129]
Rrjetet nervore konvolucionale (CNN) janë të specializuara për detyra në fushën e vizionit kompjuterik. Ato janë të dizajnuara për të përpunuar dhe analizuar të dhëna të strukturuara si imazhet, duke nxjerrë automatikisht veçori të rëndësishme për klasifikim, zbulim objektesh, segmentim të imazheve dhe detyra të tjera vizuale.[130] CNN-të janë aplikuar gjithashtu në modelimin akustik për njohjen automatike të të folurit (ASR).[131]
Sfidat
Ashtu si me rrjetet nervore artificiale (ANN), DNN-të që trajnohen në mënyrë naive mund të hasin disa sfida. Dy nga problemet më të zakonshme janë përshtatja e tepërt, ku modeli mëson tepër nga të dhënat e trajnimit dhe humb aftësinë për të përgjithësuar, dhe koha e llogaritjes, e cila mund të jetë e gjatë për shkak të kompleksitetit të modelit dhe numrit të madh të parametrave.
DNN-të janë të prirur për t'u mbipërshtatur për shkak të shtresave të shtuara të abstraksionit, të cilat i lejojnë ata të modelojnë varësi të rralla në të dhënat e trajnimit. Metodat e rregullimit të tilla si krasitja e njësisë së Ivakhnenko[36] ose zvogëlimi i peshës ( -rregullim) ose rrallësi ( -rregullimi) mund të aplikohet gjatë stërvitjes për të luftuar mbipërshtatjen.[132] Përndryshe, rregullimi i braktisjes së shkollës heq rastësisht njësitë nga shtresat e fshehura gjatë trajnimit. Kjo ndihmon për të përjashtuar varësitë e rralla.[133] Një zhvillim i fundit dhe interesant është kërkimi mbi modelet që përputhen me kompleksitetin e detyrës së modeluar, bazuar në vlerësimin e kompleksitetit të brendshëm të saj. Kjo metodë është aplikuar me sukses në detyra të ndryshme, si parashikimi i serive kohore, duke përfshirë raste me variacione të shumta, si parashikimi i trafikut.[134] Së fundi, të dhënat mund të zmadhohen duke përdorur teknika si prerja dhe rrotullimi, duke e bërë të mundur zgjerimin e grupeve të vogla të trajnimit. Kjo qasje ndihmon në reduktimin e mundësisë së përshtatjes së tepërt duke ofruar më shumë shembuj për modelin gjatë trajnimit.[135]
DNN-të duhet të marrin parasysh një sërë parametrash trajnimi, si madhësia e rrjetit (numri i shtresave dhe njësive për shtresë), shpejtësia e të mësuarit dhe peshat fillestare. Gjetja e parametrave optimalë duke eksploruar të gjithë hapësirën e mundshme shpesh nuk është e realizueshme për shkak të kostove të larta në kohë dhe burimeve llogaritëse. Për të adresuar këtë sfidë, përdoren truke të ndryshme, si grumbullimi, ku gradientët llogariten për disa shembuj trajnimi njëkohësisht, në vend që të trajtohen shembuj individualë.[136] përshpejtojnë llogaritjen. Aftësitë e mëdha të përpunimit të arkitekturave me shumë bërthama (të tilla si GPU ose Intel Xeon Phi) kanë prodhuar përshpejtime të konsiderueshme në trajnim, për shkak të përshtatshmërisë së arkitekturave të tilla përpunuese për llogaritjet e matricës dhe vektorit.[137][138]
Si alternativë, inxhinierët mund të shqyrtojnë përdorimin e llojeve të tjera të rrjeteve nervore që ofrojnë algoritme trajnimi më të thjeshta dhe më të qëndrueshme. Një shembull i tillë është CMAC (Kontrolluesi i Artikulatorit të Modelit Cerebellar), një rrjet nervor që nuk kërkon norma të mësimit apo vlera të rastësishme për peshat fillestare. Ky rrjet garanton konvergimin në një hap të vetëm me një grup të ri të dhënash, dhe kompleksiteti llogaritës i algoritmit të trajnimit rritet në mënyrë lineare në raport me numrin e neuroneve të përdorur.
Remove ads
Paisjet
Që nga vitet 2010, përparimet në algoritmet e mësimit të makinerive dhe në harduerin kompjuterik kanë bërë të mundur trajtimin më efikas të rrjeteve nervore të thella. Këto rrjete përmbajnë shumë shtresa të njësive të fshehura jolineare dhe shpesh një shtresë dalëse shumë të madhe, duke u mundësuar atyre të mësojnë përfaqësime të ndërlikuara dhe të zgjidhin detyra komplekse në mënyrë më të shpejtë dhe të saktë. Këto zhvillime kanë revolucionarizuar aplikimet në fusha si vizioni kompjuterik, njohja e të folurit dhe përpunimi i gjuhës natyrore.[139] Deri në vitin 2019, njësitë e përpunimit grafik (GPU), shpesh të pajisura me optimizime specifike për inteligjencën artificiale, kishin zëvendësuar CPU-të si teknologjinë kryesore për trajnimin e AI komerciale në shkallë të gjerë.[140] OpenAI vlerësoi llogaritjen e harduerit të përdorur në projektet më të mëdha të të mësuarit të thellë nga AlexNet (2012) deri në AlphaZero (2017) dhe gjeti një rritje 300,000 herë në sasinë e llogaritjes së kërkuar, me një prirje kohore të dyfishuar prej 3.4 muajsh.[141][142]
Qarqet e veçanta elektronike të quajtura procesorë të mësimit të thellë u zhvilluan për të përshpejtuar ekzekutimin e algoritmeve të të mësuarit të thellë. Këto procesorë, si TPU-të (Tensor Processing Units) dhe GPU-të të avancuara, janë të dizajnuara për të trajtuar llogaritje intensive dhe të dhëna masive në mënyrë efikase, duke mundësuar trajnim më të shpejtë dhe inferencë më të efektshme të modeleve të thella nervore. Procesorët e mësimit të thellë përfshijnë njësitë e përpunimit nervor (NPU) në telefonat celularë Huawei[143] dhe serverët e informatikës cloud, siç janë njësitë e përpunimit të tensoreve (TPU) në platformën e resë kompjuterike të Google.[144] Cerebras Systems ka zhvilluar gjithashtu një sistem të specializuar për trajtimin e modeleve të mëdha të të mësuarit të thellë, të quajtur CS-2. Ky sistem bazohet në procesorin më të madh të industrisë, gjeneratën e dytë Wafer Scale Engine (WSE-2).[145][146]
Gjysmëpërçuesit atomikisht të hollë po konsiderohen si një zgjidhje premtuese për ndërtimin e harduerit të të mësuarit të thellë me efikasitet të lartë energjie. Këto materiale të avancuara lejojnë krijimin e pajisjeve ku e njëjta strukturë bazë mund të shërbejë njëkohësisht për operacione logjike dhe ruajtjen e të dhënave, duke reduktuar ndjeshëm konsumin e energjisë dhe kompleksitetin e sistemit. Ky zhvillim përfaqëson një hap të rëndësishëm drejt integrimit të operacioneve të përllogaritjes dhe memorjes në harduerin e të mësuarit të thellë. Në vitin 2020, Marega et al. botoi eksperimente me një material kanal aktiv me sipërfaqe të madhe për zhvillimin e pajisjeve dhe qarqeve logjike në memorie të bazuara në transistorë me efekt të fushës me portë lundruese (FGFET).[147]
Në vitin 2021, J. Feldmann et al. propozuan një përshpejtues të integruar të harduerit fotonik të projektuar për përpunim paralel konvolucionar. Ky përshpejtues përdor teknologjinë fotonike për të kryer operacione matematikore intensive të rrjeteve konvolucionale në mënyrë më të shpejtë dhe me efikasitet të lartë energjie, duke ofruar një alternativë premtuese ndaj harduerit elektronik tradicional për aplikime në të mësuarit e thellë.[148] Autorët identifikojnë dy avantazhe kryesore të fotonikës së integruar ndaj homologëve të saj elektronikë: (1) transferimi masiv paralel i të dhënave përmes multipleksimit të ndarjes së gjatësisë valore në lidhje me krehjet e frekuencës dhe (2) shpejtësi jashtëzakonisht të larta të modulimit të të dhënave.[148] Sistemi i tyre është i aftë të kryejë triliona operacione të akumulimit dhe shumëzimit për sekondë, duke demonstruar potencialin e fotonikës së integruar për aplikacione të inteligjencës artificiale që përpunojnë sasi të mëdha të dhënash.[148]
Remove ads
Aplikacionet
Njohja automatike e të folurit
Stampa:Artificial intelligence navboxNjohja automatike e të folurit në shkallë të gjerë përfaqëson një nga rastet e para dhe më bindëse të suksesit të të mësuarit të thellë. RRN-të LSTM (Long Short-Term Memory) kanë aftësinë të mësojnë detyra që përfshijnë "të mësuar shumë të thellë"[9] që përfshijnë intervale shumë sekondash që përmbajnë ngjarje të të folurit të ndara nga mijëra hapa kohorë diskrete, ku një hap kohor korrespondon me rreth 10 ms. LSTM me porta harrese [129] është konkurruese me njohësit tradicionalë të të folurit për detyra të caktuara.[149]
Suksesi fillestar në njohjen e të folurit u bazua në detyrat e njohjes në shkallë të vogël bazuar në TIMIT. Grupi i të dhënave përmban 630 folës nga tetë dialekte kryesore të anglishtes amerikane, ku secili folës lexon 10 fjali.[150] Madhësia e vogël e detyrës TIMIT e bën atë të përshtatshme për testimin e shumë konfigurimeve. Për më tepër, TIMIT fokusohet në njohjen e sekuencave të fonemave, e cila, ndryshe nga njohja e sekuencave të fjalëve, përdor modele më të thjeshta të gjuhës bigram të fonemave. Kjo e bën më të lehtë analizimin e aspektit akustik të njohjes së të folurit. Normat e gabimeve të raportuara, të matur si përqindje e gabimeve të fonemave (PER), përfshijnë rezultate të hershme dhe janë përmbledhur që nga viti 1991.
Debutimi i DNN-ve për njohjen e altoparlantëve në fund të viteve 1990, përdorimi i tyre për njohjen e të folurit gjatë viteve 2009–2011, dhe aplikimi i RRN-ve LSTM midis viteve 2003–2007, shënuan një përparim të madh që përshpejtoi zhvillimet në tetë fusha kryesore: [18][89][87]
- Rritje/shkallëzim dhe trajnim dhe dekodim i përshpejtuar i DNN
- Sekuenca e trajnimit diskriminues
- Përpunimi i veçorive nga modele të thella me kuptim të fortë të mekanizmave themelorë
- Përshtatja e DNN-ve dhe modeleve të thella përkatëse
- Mësimi me shumë detyra dhe transferim nga DNN dhe modele të thella përkatëse
- CNN dhe si t'i dizajnoni ato për të shfrytëzuar më së miri njohuritë e domenit të fjalës
- RNN dhe variantet e tij të pasura LSTM
- Llojet e tjera të modeleve të thella, duke përfshirë modelet e bazuara në tensor dhe modelet e integruara gjeneruese/diskriminuese të thella.
Të gjitha sistemet kryesore komerciale të njohjes së të folurit (p.sh. Microsoft Cortana, Xbox, Skype Translator, Amazon Alexa, Google Now, Apple Siri, Baidu dhe iFlyTek kërkimi zanor dhe një sërë produktesh të të folurit Nuance, etj.) bazohen në të mësuarit e thellë. Këto rrjete nervore të avancuara janë thelbësore për përmirësimin e saktësisë dhe efikasitetit të sistemeve të njohjes dhe përpunimit të të folurit në kohë reale.[18]
Njohja e imazhit
Një grup i njohur për vlerësimin e klasifikimit të imazheve është grupi i të dhënave MNIST, i cili përmban shifra të shkruara me dorë. Ai përfshin 60,000 shembuj trajnimi dhe 10,000 shembuj testimi, duke e bërë atë të përshtatshëm për testimin dhe krahasimin e konfigurimeve të ndryshme të modeleve. Ngjashëm me grupin TIMIT për njohjen e të folurit, madhësia e vogël e MNIST lejon testimin e shpejtë të konfigurimeve të shumta. Për më tepër, ekziston një listë gjithëpërfshirëse e rezultateve të arritura në këtë grup të dhënash, e cila shërben si pikë referimi për performancën e modeleve të ndryshme.[155]
Image recognition based on deep learning has reached a "superhuman" level, delivering results that surpass the accuracy of human participants. This milestone demonstrates the capability of deep neural networks to analyze and interpret visual data with precision beyond human limitations, especially in large-scale challenges such as the ImageNet competition. This first occurred in 2011 in recognition of traffic signs, and in 2014, with recognition of human faces.[156][157]
Automjetet e pajisura me teknologji të të mësuarit të thellë tani janë në gjendje të interpretojnë pamjet 360° të kapura nga kamerat. [1] Një tjetër shembull është Facial Dismorphology Novel Analysis (FDNA), e cila përdoret për të analizuar keqformimet njerëzore duke i lidhur ato me një bazë të dhënash të madhe të sindromave gjenetike.
Përpunimi i artit pamor

I lidhur ngushtë me përparimet në njohjen e imazheve është përdorimi në rritje i teknikave të të mësuarit të thellë në detyra të ndryshme të artit pamor. Rrjetet nervore të thella (DNN) kanë dëshmuar aftësinë e tyre për të kryer detyra si:
- identifikimi i periudhës së stilit të një pikture të caktuar [158][159]
- Transferimi i stilit nervor – kapja e stilit të një vepre arti të caktuar dhe zbatimi i tij në një mënyrë të këndshme vizualisht në një fotografi ose video arbitrare [158][159]
- duke gjeneruar imazhe mahnitëse bazuar në fushat e rastësishme të hyrjes vizuale.[158][159]
Përpunimi i gjuhës natyrore
Rrjetet nervore kanë qenë në përdorim për zbatimin e modeleve gjuhësore që nga fillimi i viteve 2000. Fillimisht, ato u përdorën për detyra si modelimi i gjuhës, përkthimi me makinë, dhe njohja e të folurit, duke hapur rrugën për zhvillimin e modeleve më të avancuara. Me kalimin e kohës, përparimet në arkitekturat si RNN dhe më vonë Transformer, kanë përmirësuar ndjeshëm aftësitë e këtyre modeleve për të kuptuar, analizuar dhe gjeneruar tekst në mënyrë të natyrshme dhe efikase.[123] LSTM ndihmoi në përmirësimin e përkthimit të makinës dhe modelimit të gjuhës.[124]
Teknika të tjera të rëndësishme në këtë fushë përfshijnë kampionimin negativ [1] dhe futjen e fjalëve. Futja e fjalëve, si word2vec, mund të shihet si një shtresë përfaqësuese në një arkitekturë të të mësuarit të thellë, e cila transformon një fjalë atomike në një përfaqësim pozicional që lidhet me fjalët e tjera në grupin e të dhënave. Ky pozicion përfaqësohet si një pikë në një hapësirë vektoriale , duke kapur kuptimin kontekstual dhe semantik të fjalëve. Kjo qasje përmirëson ndjeshëm aftësinë e modeleve për të kuptuar dhe gjeneruar gjuhë natyrore në mënyrë më të sofistikuar. Përdorimi i futjes së fjalëve si një shtresë hyrëse në një RNN i mundëson rrjetit të analizojë fjalitë dhe frazat duke përdorur një gramatikë vektoriale kompozicionale efektive. Kjo gramatikë mund të shihet si një zbatim i një gramatike probabilistike pa kontekst (PCFG), ku struktura e saj realizohet dhe mësohet nga RNN. Kjo i jep rrjetit aftësinë për të kuptuar marrëdhëniet semantike dhe sintaksore midis fjalëve, duke i përfaqësuar ato si kombinime të kuptimit të fjalëve individuale në një hapësirë vektoriale.[160] Koduesit automatikë rekurzivë të ndërtuar mbi futjet e fjalëve mund të vlerësojnë ngjashmërinë e fjalive dhe të zbulojnë parafrazimin.[160] Arkitekturat nervore të thella ofrojnë rezultatet më të mira për analizimin e konstituencës,[161] analizën e ndjenjave,[162] rikthimin e informacionit,[163][164] kuptimin e gjuhës së folur,[165] përkthimin në makinë,[124][166] lidhjen e entitetit kontekstual,[166][166] njohja e stilit të shkrimit,[167] njohja e entitetit të emërtuar (klasifikimi i tokenit),[168] klasifikimi i tekstit dhe të tjerë.[169]
Zhvillimet e fundit në të mësuarit e thellë kanë zgjeruar konceptin e futjes së fjalëve në futjen e fjalive. Në vend që të përfaqësojnë vetëm fjalë individuale në një hapësirë vektoriale, këto teknika përfshijnë të gjithë fjalinë, duke kapur kontekste më të gjera dhe marrëdhëniet ndërmjet fjalëve në mënyrë më komplekse. Këto përfaqësime, të gjeneruara nga modele si BERT, GPT, dhe InferSent, ndihmojnë në detyra të avancuara si përpunimi i gjuhës natyrore (NLP), përkthimi i saktë kontekstual dhe analizimi i kuptimeve komplekse në tekst.
Google Translate (GT) përdor një rrjet të madh memorie afatshkurtër (LSTM) nga fundi në fund për të trajtuar përkthimin e gjuhës në mënyrë më efikase dhe të saktë. [1][2][3][4] Ndërkohë, Google Neural Machine Translation (GNMT), që është motori bazë i GT, përdor një metodë të përkthimit makinerie të bazuar në shembuj, ku sistemi "mëson nga miliona shembuj" për të kuptuar dhe përkthyer tekstin në mënyrë më natyrale. Kjo qasje mbështetet te fuqia e të mësuarit të thellë për të kuptuar kontekstin dhe nuancat e gjuhës në nivel të thellë dhe kompleks.[170] Ai përkthen "fjali të tëra në një kohë, në vend të pjesëve". Google Translate mbështet mbi njëqind gjuhë.[170] Rrjeti kodon "semantikën e fjalisë në vend që thjesht të mësojë përmendësh përkthime nga fraza në frazë".[170][171] GT përdor anglishten si një ndërmjetës midis shumicës së çifteve gjuhësore.[171]
Zbulimi i barnave dhe toksikologjia
Një përqindje e konsiderueshme e barnave kandidate nuk arrijnë të fitojnë miratimin rregullator. Këto dështime zakonisht ndodhin për shkak të: Efikasitetit të pamjaftueshëm (ku ilaçi nuk arrin të prodhojë efektin e dëshiruar në objektivin biologjik), Ndërveprimeve të padëshiruara (që përfshijnë efektet jashtë objektivit të synuar, duke çuar në ndikime të padëshirueshme në proceset e tjera biologjike), efektet toksike të paparashikuara.[172][173] Hulumtimet kanë eksploruar përdorimin e të mësuarit të thellë për të parashikuar objektivat biomolekulare,[174][175] jashtë objektivave dhe efektet toksike të kimikateve mjedisore në lëndë ushqyese, produkte shtëpiake dhe ilaçe.[176][177]
AtomNet është një sistem i mësimit të thellë i krijuar për dizajnin racional të barnave të bazuara në strukturën molekulare. Duke përdorur arkitektura të avancuara si rrjetet nervore konvolucionale (CNN), AtomNet analizon strukturat tredimensionale të molekulave dhe objektivave biologjikë për të identifikuar potencialin e lidhjes dhe efektivitetin e barnave kandidate. Ky sistem është përdorur për të zbuluar molekula me potencial terapeutik, duke përshpejtuar procesin e zhvillimit të barnave dhe duke reduktuar kostot dhe kohën e nevojshme për kërkim.[178] AtomNet u përdor për të parashikuar biomolekulat e reja kandidate për objektivat e sëmundjeve si virusi Ebola [179] dhe skleroza e shumëfishtë.[180][179]
Në vitin 2017, rrjetet nervore grafike (GNN) u aplikuan për herë të parë për të parashikuar vetitë e ndryshme të molekulave në një grup të madh të dhënash toksikologjike. Ky qasje inovative përdori struktura grafike për të përfaqësuar molekulat, ku atomet konsideroheshin si nyje dhe lidhjet kimike si skaje. GNN-të mundësuan kapjen e marrëdhënieve komplekse midis atomeve dhe përmirësuan ndjeshëm saktësinë në parashikimin e toksicitetit dhe vetive të tjera kimike, duke shënuar një hap të rëndësishëm në zbatimin e mësimit të thellë në kimi dhe farmaceutikë.[181] Në vitin 2019, rrjetet nervore gjeneruese u përdorën për të prodhuar molekula që u vërtetuan eksperimentalisht deri në minj.[182]
Menaxhimi i marrëdhënieve me klientët
Mësimi i përforcimit të thellë është aplikuar për të përafruar vlerën e veprimeve të mundshme në marketingun e drejtpërdrejtë, të bazuara në variablat RFM (Recency, Frequency, Monetary). Funksioni i vlerës së vlerësuar u interpretua natyrshëm si një masë e vlerës së jetës së klientit.
Sistemet e rekomandimit
Sistemet e rekomandimeve kanë zbatuar të mësuarit e thellë për të nxjerrë veçori të rëndësishme që mbështesin modelet e faktorëve latentë, duke përmirësuar rekomandimet e bazuara në përmbajtjen e muzikës dhe sugjerimet e ditarit personal.[183][184] Mësimi i thellë me shumë pamje është aplikuar për të mësuar preferencat e përdoruesve nga fusha të shumta.[185] Modeli përdor një qasje hibride bashkëpunuese dhe të bazuar në përmbajtje dhe rrit rekomandimet në detyra të shumta.
Bioinformatika
Një autoenkoder ANN u përdor me sukses në bioinformatikë, për të parashikuar shënimet e ontologjisë së gjeneve dhe për të identifikuar marrëdhëniet midis gjeneve dhe funksioneve të tyre. Duke përdorur arkitekturën e autoenkoderit, modeli mësoi përfaqësime të ngjeshura dhe të rëndësishme të të dhënave biologjike, duke përmirësuar saktësinë në parashikimin e lidhjeve komplekse midis gjeneve dhe funksioneve të tyre në baza të dhënash me shkallë të gjerë. Kjo qasje ndihmoi në zbërthimin e marrëdhënieve biologjike që mund të mos ishin evidente me metodat tradicionale.[186]
Në informatikën mjekësore, mësimi i thellë u përdor për Parashikimin e cilësisë së gjumit duke analizuar të dhënat e mbledhura nga pajisjet e veshura [1], si orët inteligjente dhe sensorët, për të vlerësuar modelet dhe anomalitë e gjumit.[187] dhe parashikimet e komplikimeve shëndetësore nga të dhënat elektronike të të dhënave shëndetësore.[188]
Rrjetet nervore të thella kanë arritur rezultate të jashtëzakonshme në parashikimin e strukturës së proteinave bazuar në sekuencën e aminoacideve të tyre. Në vitin 2020, AlphaFold, një sistem i bazuar në mësimin e thellë, shënoi një nivel saktësie shumë më të lartë se të gjitha metodat llogaritëse të mëparshme.[189][190]
Vlerësimet e Rrjetit Neural të Thellë
Rrjetet nervore të thella mund të përdoren për të vlerësuar entropinë e një procesi stokastik dhe të quajtur Vlerësuesi i Entropisë së Përbashkët Neural (NJEE).[191] Një vlerësim i tillë ofron njohuri mbi efektet e variablave të rastësishme hyrëse në një variabël të rastësishëm të pavarur. Praktikisht, DNN është trajnuar si një klasifikues që harton një vektor hyrës ose matricë X në një shpërndarje probabiliteti të daljes mbi klasat e mundshme të ndryshores së rastësishme Y, duke pasur parasysh hyrjen X. Për shembull, në detyrat e klasifikimit të imazheve, NJEE harton një vektor pikselësh ' vlerat e ngjyrave ndaj probabiliteteve mbi klasat e mundshme të imazhit. Në praktikë, shpërndarja e probabilitetit të Y merret nga një shtresë Softmax me numër nyjesh që është i barabartë me madhësinë e alfabetit të Y. NJEE përdor funksione aktivizimi vazhdimisht të diferencueshme, duke përmbushur kushtet e kërkuara nga teorema e përafrimit universal. Kjo qasje ka treguar se siguron një vlerësues shumë të qëndrueshëm, duke ofruar performancë të shkëlqyer edhe kur alfabeti ka një madhësi të madhe. Në këto raste, NJEE ka tejkaluar ndjeshëm metodat e tjera, duke e bërë atë një zgjedhje të preferuar për aplikime ku përmasat e alfabetit janë të mëdha dhe kërkohet saktësi e lartë.[191]
Analiza e imazhit mjekësor
Të mësuarit e thellë ka demonstruar rezultate konkurruese në aplikime mjekësore, duke përfshirë klasifikimin e qelizave kancerogjene, zbulimin e lezioneve, segmentimin e organeve dhe përmirësimin e cilësisë së imazheve mjekësore.[192][193] Mjetet bashkëkohore të të mësuarit të thellë kanë treguar saktësi të lartë në zbulimin e sëmundjeve të ndryshme dhe janë dëshmuar si mjete të dobishme për specialistët, duke ndihmuar në përmirësimin e efikasitetit të procesit të diagnostikimit.[194][195]
Reklamimi celular
Identifikimi i audiencës së duhur për reklamimin celular është një sfidë e vazhdueshme, pasi kërkon analizimin dhe vlerësimin e një sërë pikash të dhënash përpara krijimit dhe përdorimit të një segmenti të synuar në shërbimin e reklamave nga serverët e reklamave.[196] Mësimi i thellë është zbatuar për të analizuar dhe interpretuar grupe të dhënash të mëdha dhe komplekse nga fushatat reklamuese në internet. Gjatë ciklit të reklamimit, që përfshin kërkesën, shërbimin dhe klikimin, mblidhen pika të shumta të dhënash. Ky informacion mund të përdoret si bazë për algoritmet e mësimit të makinerive për të optimizuar përzgjedhjen dhe shfaqjen e reklamave.
Rivendosja e imazhit
Mësimi i thellë është përdorur me sukses për të adresuar probleme të anasjellta në përpunimin e imazheve dhe videove, si denoising, ku modelet heqin zhurmat nga imazhet ose videot për të rikuperuar detaje më të qarta. Gjithashtu, është aplikuar në super-rezolucion, duke përmirësuar imazhet me rezolucion të ulët për t'i bërë ato më të mprehta dhe më të detajuara. Një tjetër përdorim i rëndësishëm është inlying, ku identifikohen objekte ose elemente të rëndësishme brenda një imazhi, dhe colorization i filmave, që përfshin shtimin automatik të ngjyrave në filma bardhezi, duke i rikthyer ato në gjendjen e tyre origjinale ose duke u dhënë një pamje të re artistike. Këto zgjidhje kanë përmirësuar ndjeshëm efikasitetin dhe cilësinë e rezultateve në këto fusha.[197] Këto aplikacione përfshijnë metoda të të mësuarit, si "Fushat e tkurrjes për restaurimin efektiv të imazhit" [1], që trajnohen në një grup të dhënash të imazheve, dhe Deep Image Prior, që trajnohet specifikisht mbi imazhin që kërkon restaurim.
Zbulimi i mashtrimit financiar
Mësimi i thellë po zbatohet me sukses në fusha të ndryshme të financave dhe sigurisë, duke përfshirë: zbulimin e mashtrimit financiar ku modelet analizojnë sjelljet transaksionale për të identifikuar modele të pazakonta që sinjalizojnë mashtrime, Zbulimin e evazionit fiskal, duke përdorur të dhëna komplekse për të monitoruar dhe analizuar sjellje që shmangin detyrimet tatimore,[198] dhe Kundër pastrimit të parave, ku rrjetet nervore të thella ndihmojnë në identifikimin e aktiviteteve të dyshimta brenda transaksioneve financiare duke kapur modele të fshehura dhe varësi komplekse. Këto aplikime po përmirësojnë ndjeshëm aftësitë e institucioneve financiare dhe autoriteteve rregullatore për të zbuluar dhe parandaluar aktivitetet e paligjshme.[199]
Shkenca e materialeve
Në nëntor 2023, studiuesit në Google DeepMind dhe Lawrence Berkeley National Laboratory prezantuan një sistem të avancuar të inteligjencës artificiale të quajtur GNoME. Ky sistem është krijuar për të trajtuar detyra komplekse në mënyrë efikase, duke kombinuar teknologjitë më të fundit në të mësuarit e thellë dhe modelimin e të dhënave shkencore. GNoME shënon një hap përpara në aplikimin e AI-së për problemet shkencore dhe inxhinierike, duke ofruar mundësi të reja për analizimin e të dhënave të mëdha dhe për nxjerrjen e përfundimeve të bazuara në modele komplekse. Ky sistem ka kontribuar në shkencën e materialeve duke zbuluar mbi 2 milionë materiale të reja brenda një afati kohor relativisht të shkurtër. GNoME përdor teknika të të mësuarit të thellë për të eksploruar në mënyrë efikase strukturat e mundshme materiale, duke arritur një rritje të konsiderueshme në identifikimin e strukturave të qëndrueshme kristal inorganike. Parashikimet e sistemit u vërtetuan përmes eksperimenteve autonome robotike, duke demonstruar një normë të dukshme suksesi prej 71%. Të dhënat e materialeve të zbuluara rishtazi janë bërë publike përmes bazës së të dhënave të Projektit Materiale, duke u mundësuar studiuesve të identifikojnë materialet me vetitë e kërkuara për aplikime të ndryshme. Ky zhvillim hap rrugën për përparime të reja në kërkimin shkencor dhe integrimin e AI në shkencën e materialeve, duke përshpejtuar procesin e inovacionit dhe ulur ndjeshëm kostot e zhvillimit të produkteve. Përdorimi i AI dhe mësimi i thellë ofron potencialin për të minimizuar ose eliminuar nevojën për eksperimente manuale laboratorike, duke i lejuar shkencëtarët të përqendrohen në hartimin dhe analizën e përbërjeve inovative.[200][201][202]
Ushtarake
Departamenti i Mbrojtjes i Shteteve të Bashkuara ka përdorur mësimin e thellë për të trajnuar robotët që të mësojnë dhe kryejnë detyra të reja duke përdorur teknika të bazuara në vëzhgim.[203]
Ekuacionet diferenciale të pjesshme
Rrjetet nervore të informuara nga fizika janë përdorur për të zgjidhur ekuacionet diferenciale të pjesshme si në problemet e përparme ashtu edhe në ato të anasjellta në një mënyrë të drejtuar nga të dhënat.[204] Një shembull është rindërtimi i rrjedhës së lëngjeve duke përdorur ekuacionet Navier-Stokes. Rrjetet nervore të informuara nga fizika eliminojnë nevojën për gjenerimin e rrjeteve të shtrenjta, të cilat janë zakonisht të domosdoshme në metodat konvencionale të Dinamikës Llogaritëse të Lëngjeve (CFD).[205][206]
Metoda e ekuacionit diferencial stokastik të prapambetur të thellë
Metoda e ekuacionit diferencial stokastik të prapambetur të thellë është një qasje numerike që integron të mësuarit e thellë me ekuacionet diferenciale stokastike të prapambetura (BSDE). Kjo metodë është veçanërisht e efektshme për zgjidhjen e problemeve me dimensione të larta, duke gjetur aplikim të gjerë në fushën e matematikës financiare. Duke shfrytëzuar aftësitë e fuqishme të përafrimit të funksioneve të rrjeteve nervore të thella, BSDE e thellë adreson sfidat llogaritëse me të cilat përballen metodat tradicionale numerike në mjedise me dimensione të larta. Metodat tradicionale, si metodat e diferencës së fundme apo simulimet Monte Carlo, shpesh përballen me sfidën e mallkimit të dimensionalitetit, ku kostoja llogaritëse rritet eksponencialisht me numrin e dimensioneve. Në kontrast, metodat e thella BSDE përdorin rrjete nervore të thella për të përafruar zgjidhjet e ekuacioneve diferenciale të pjesshme (PDE) me dimensione të larta, duke reduktuar në mënyrë efektive kompleksitetin dhe barrën llogaritëse.[207]
Integrimi i rrjeteve nervore të informuara nga fizika (PINN) në kuadrin e thellë BSDE përmirëson ndjeshëm aftësitë e tij, duke inkorporuar ligjet fizike themelore drejtpërdrejt në arkitekturën e rrjetit nervor. Kjo qasje siguron që zgjidhjet jo vetëm që përshtaten me të dhënat, por gjithashtu respektojnë ekuacionet diferenciale stokastike. PINN-të kombinojnë fuqinë e të mësuarit të thellë me kufizimet e përcaktuara nga modelet fizike, duke rezultuar në zgjidhje më të sakta dhe më të besueshme për problemet komplekse në matematikën financiare.
Rindërtimi i imazhit
Rindërtimi i imazhit përfshin rikrijimin e imazheve origjinale nga matjet që lidhen me to. Studime të ndryshme kanë treguar se metodat e të mësuarit të thellë ofrojnë performancë më të lartë dhe superiore krahasuar me metodat analitike, veçanërisht në aplikime të ndryshme si rindërtimi i imazheve spektrale[208] dhe imazhet me ultratinguj.[209]
Parashikimi i motit
Sistemet tradicionale të parashikimit të motit përdorin zgjidhjen e sistemeve komplekse të ekuacioneve diferenciale të pjesshme për të modeluar ndryshimet atmosferike. GraphCast, një model i bazuar në të mësuarit e thellë, është trajnuar mbi një sasi të madhe të dhënash historike të motit për të parashikuar ndryshimet në modelet e motit me kalimin e kohës. Ky model mund të parashikojë kushtet e motit deri në 10 ditë në nivel global, duke ofruar një nivel shumë të detajuar brenda më pak se një minute, me një saktësi të krahasueshme me sistemet tradicionale moderne.[210][211]
Ora epigjenetike
Një orë epigjenetike është një test biokimik që mat moshën biologjike bazuar në ndryshimet epigjenetike. Galkin et al. përdorën rrjete nervore të thella për të trajnuar një orë epigjenetike për matjen e plakjes, duke arritur një nivel të lartë saktësie duke analizuar mbi 6,000 mostra gjaku.[212] Ora përdor informacion nga 1000 faqe CpG dhe parashikon njerëz me kushte të caktuara më të vjetër se kontrollet e shëndetshme: IBD, demencë frontotemporale, kancer ovarian, obezitet . Ora e vjetërimit ishte planifikuar të lëshohej për përdorim publik në vitin Ora e plakjes ishte planifikuar për t'u bërë publike në vitin 2021 nga Deep Longevity, një kompani spinoff e Insilico Medicine.
Remove ads
Lidhja me zhvillimin kognitiv dhe trurin e njeriut
Të mësuarit e thellë është i lidhur ngushtë me një klasë të teorive të zhvillimit të trurit (veçanërisht, zhvillimin neokortikal) të propozuara nga neuroshkencëtarët kognitiv në fillim të viteve 1990.[213][214][215][216] Këto teori zhvillimore u përkthyen në modele llogaritëse, duke i bërë ato pararendëse të sistemeve moderne të të mësuarit të thellë. Modelet e zhvillimit ndajnë një tipar kryesor: dinamikat e të mësuarit në tru, të tilla si valët e faktorit të rritjes nervore, mbështesin procese të vetëorganizimit, të ngjashme me mekanizmat e rrjeteve nervore të përdorura në të mësuarin e thellë. Ashtu si neokorteksi, rrjetet nervore operojnë përmes një hierarkie filtrash me shumë shtresa, ku secila shtresë përpunon informacionin nga shtresa e mëparshme (ose mjedisi hyrës) dhe më pas dërgon daljen e saj, ndonjëherë së bashku me hyrjen fillestare, në shtresat pasuese. Ky proces krijon një sistem të vetë-organizuar të transduktorëve, i cili është i mirëpërshtatur për mjedisin e tij operativ. Një përshkrim nga viti 1995 shpjegonte: "... truri i foshnjës duket se organizohet nën ndikimin e valëve të faktorëve trofikë, ku rajonet e ndryshme të trurit lidhen dhe maturohen në mënyrë sekuenciale, me secilën shtresë që piqet para tjetrës, derisa i gjithë truri të arrijë maturimin."
Një gamë e gjerë qasjesh është përdorur për të eksploruar besueshmërinë e modeleve të të mësuarit të thellë nga një perspektivë neurobiologjike. Nga njëra anë, janë zhvilluar disa variante të algoritmit të përhapjes së pasme për të rritur përputhshmërinë e tij me proceset reale të përpunimit në tru.[217][218] Disa studiues kanë sugjeruar që format e pambikëqyrura të të mësuarit të thellë, si ato të bazuara në modele gjeneruese hierarkike dhe rrjetet e besimit të thellë, mund të reflektojnë më saktë realitetin biologjik.[219][220] Në këtë kontekst, modelet gjeneruese të rrjeteve nervore janë lidhur me provat neurobiologjike që sugjerojnë se korteksi cerebral përdor një proces përpunimi të bazuar në kampionim për të analizuar dhe interpretuar informacionin.[221]
Edhe pse një krahasim i plotë dhe sistematik midis organizimit të trurit të njeriut dhe kodimit neuronal në rrjetet e thella ende nuk është realizuar, disa analogji janë raportuar. Për shembull, funksionet llogaritëse të njësive në rrjetet e thella nervore shpesh krahasohen me proceset që kryhen nga neuronet biologjike, duke sugjeruar ngjashmëri konceptuale midis tyre[222] dhe popullatave nervore.[223] Në mënyrë të ngjashme, përfaqësimet e zhvilluara nga modelet e të mësuarit të thellë janë të ngjashme me ato të matura në sistemin vizual të primatit [224] si në nivelet me një njësi [225] dhe në nivelet e popullsisë.[226]
Remove ads
Veprimtaria tregtare
Laboratori i AI i Facebook është i përfshirë në zhvillimin e teknologjive të avancuara, si etiketimi automatik i fotografive të ngarkuara, duke përdorur algoritme të të mësuarit të thellë për të identifikuar dhe etiketuar emrat e njerëzve që shfaqen në to. Kjo teknologji bazohet në njohjen e fytyrës dhe vizionin kompjuterik, duke e bërë më të lehtë për përdoruesit organizimin dhe ndarjen e përmbajtjes së tyre vizuale.
DeepMind Technologies pjesë e Google, zhvilloi një sistem inovativ të inteligjencës artificiale të aftë për të mësuar të luajë videolojëra Atari duke përdorur vetëm pikselët e ekranit si hyrje të të dhënave. Ky sistem, i bazuar në teknika të të mësuarit të thellë përforcues (Deep Reinforcement Learning), mësoi të optimizojë strategjitë e lojës për të maksimizuar pikët, duke demonstruar aftësinë për të mësuar sjellje komplekse vetëm nga informacioni vizual dhe shpërblimet e lojës. Ky projekt hapi rrugën për aplikime të avancuara në të mësuarit autonom. Në vitin 2015 ata demonstruan sistemin e tyre AlphaGo, i cili e mësoi lojën e Go mjaft mirë për të mposhtur një lojtar profesionist të Go.[227][228][229] Google Translate përdor një rrjet nervor për të përkthyer midis më shumë se 100 gjuhëve.
Në vitin 2017, u themelua Covariant.ai, një kompani që përqendrohet në përdorimin e teknologjisë së të mësuarit të thellë për të integruar inteligjencën artificiale në proceset e fabrikave, duke synuar të përmirësojë automatizimin dhe efikasitetin operacional.[230]
Që nga viti 2008,[231] kërkuesit në Universitetin e Teksasit në Austin (UT) zhvilluan një kornizë të mësimit të makinerive të quajtur Trajnimi i një agjenti manualisht nëpërmjet përforcimit vlerësues, ose TAMER, i cili propozoi metoda të reja për robotët ose programet kompjuterike për të mësuar se si të kryejnë detyrat. duke ndërvepruar me një instruktor njerëzor.[203] Fillimisht i zhvilluar si TAMER, një algoritëm i përmirësuar i quajtur Deep TAMER u prezantua në vitin 2018 në kuadër të një bashkëpunimi midis Laboratorit Kërkimor të Ushtrisë Amerikane (ARL) dhe studiuesve nga Universiteti i Teksasit (UT). Deep TAMER shfrytëzoi mësimin e thellë për t'i mundësuar një roboti të mësojë detyra të reja përmes vëzhgimit të sjelljeve dhe udhëzimeve njerëzore.[203] Me përdorimin e Deep TAMER, një robot mësoi një detyrë duke vëzhguar një trajner njerëzor, qoftë përmes transmetimeve video apo duke ndjekur një njeri që kryente detyrën në mënyrë direkte. Pas kësaj, roboti praktikoi detyrën, duke marrë reagime nga trajneri gjatë stërvitjes, si p.sh., vlerësime të tilla si "punë e mirë" ose "punë e keqe," për të përmirësuar performancën e tij.[232]
Remove ads
Kritika dhe komente
Të mësuarit e thellë ka qenë subjekt i kritikave dhe komenteve, shpeshherë edhe nga ekspertë jashtë fushës së shkencës kompjuterike, të cilët kanë vënë në dukje kufizimet, kompleksitetin dhe ndikimet e tij në fusha të ndryshme.
Teoria
Një kritikë kryesore ka të bëjë me mungesën e teorisë që rrethon disa metoda.[233] Mësimi në arkitekturat më të zakonshme të thella zakonisht zbatohet përmes zbritjes së gradientit, një metodë e mirëstudiuar dhe e kuptuar. Megjithatë, teoria që mbështet algoritme alternative, si divergjenca kontrastive, është ende më pak e zhvilluar dhe kuptohet më pak në krahasim.[ citim i nevojshëm ] (P.sh., A konvergohet algoritmi? Nëse po, me çfarë shpejtësie? Dhe çfarë përafrimi siguron?) Metodat e të mësuarit të thellë shpesh perceptohen si një "kuti e zezë," ku shumica e rezultateve dhe konfirmimeve bazohen kryesisht në prova empirike, ndërsa kuptimi teorik mbetet i kufizuar.[234]
Disa ekspertë argumentojnë se mësimi i thellë duhet të konsiderohet si një hap drejt arritjes së Inteligjencës Artificiale të fortë, por jo si një zgjidhje gjithëpërfshirëse. Megjithëse metodat e të mësuarit të thellë janë jashtëzakonisht të fuqishme, ato ende nuk përfshijnë shumë nga funksionalitetet e nevojshme për të realizuar plotësisht këtë qëllim. Psikologu hulumtues Gary Marcus theksoi:
Realisht, mësimi i thellë është vetëm një pjesë e sfidës më të madhe të ndërtimit të makinave inteligjente. Teknikave të tilla u mungojnë mënyrat e paraqitjes së marrëdhënieve shkakësore (…) nuk kanë mënyra të dukshme për të kryer konkluzionet logjike, dhe ato janë gjithashtu ende shumë larg nga integrimi i njohurive abstrakte, të tilla si informacioni se çfarë janë objektet, për çfarë shërbejnë dhe si ato përdoren zakonisht. Sistemet më të fuqishme të AI, si Watson (…) përdorin teknika si të mësuarit e thellë si vetëm një element në një grup teknikash shumë të komplikuar, duke filluar nga teknika statistikore e konkluzioneve Bayesian deri te arsyetimi deduktiv .
Në përputhje me idenë se ndjeshmëria artistike mund të shfaqet në nivele të ulëta të hierarkisë njohëse, është publikuar një seri grafikësh që tregojnë gjendjet e brendshme të rrjeteve nervore të thella me 20-30 shtresa. Këto grafikë ilustrojnë përpjekjet e rrjeteve për të identifikuar, brenda të dhënave kryesisht të rastësishme, imazhet për të cilat ishin trajnuar.[1] Ky vizualizim i krijoi një tërheqje të madhe vizuale: njoftimi i kërkimit mori mbi 1000 komente dhe për një kohë ishte artikulli më i vizituar në faqen e internetit të The Guardian.[235]
Gabimet
Disa arkitektura të mësimit të thellë shfaqin sjellje problematike që sfidojnë besueshmërinë dhe performancën e tyre. Një nga këto sjellje është klasifikimi i gabuar dhe i sigurt i imazheve të panjohura, duke i përfshirë ato gabimisht në një kategori të njohur imazhesh të zakonshme. Ky fenomen u identifikua në vitin 2014 dhe tregon se modelet e të mësuarit të thellë mund të mbështeten në modele sipërfaqësore të të dhënave, duke mos kuptuar thellësisht natyrën e tyre. Po ashtu, një tjetër problem i rëndësishëm, i raportuar në vitin 2013, është ndjeshmëria ndaj shqetësimeve të vogla në imazhe. Edhe modifikime të papërfillshme, shpesh të padukshme për syrin e njeriut, mund të çojnë në klasifikime të gabuara, duke nxjerrë në pah cenueshmërinë e këtyre sistemeve ndaj ndryshimeve të qëllimshme ose aksidentale. Këto probleme tregojnë nevojën për qasje më të qëndrueshme dhe të sigurta në trajnimin dhe dizajnimin e rrjeteve nervore.[236] Goertzel hipotezoi se këto sjellje janë për shkak të kufizimeve në paraqitjet e tyre të brendshme dhe se këto kufizime do të pengonin integrimin në arkitekturat heterogjene me shumë komponentë të inteligjencës së përgjithshme artificiale (AGI).[237] Këto sfida mund të trajtohen nga arkitekturat e të mësuarit të thellë, të cilat krijojnë brenda vetes gjendje që homologohen me zbërthimet gramatikore të imazheve, duke mundësuar një përfaqësim më të sofistikuar dhe të strukturuar të të dhënave vizuale.[238] të entiteteve dhe ngjarjeve të vëzhguara.[237] Mësimi i një gramatike (vizuale ose gjuhësore) nga të dhënat e trajnimit do të ishte ekuivalente me kufizimin e sistemit në arsyetimin e logjikshëm që funksionon mbi konceptet për sa i përket rregullave të prodhimit gramatikor dhe është një qëllim themelor i përvetësimit të gjuhës njerëzore dhe inteligjencës artificiale (AI).[239]
Kërcënimi kibernetik
Ndërsa mësimi i thellë lëviz nga laboratori në botë, kërkimet dhe përvoja tregojnë se rrjetet nervore artificiale janë të prekshme ndaj hakimeve dhe mashtrimeve.[240] Duke analizuar modelet që përdorin këto sisteme për funksionim, sulmuesit mund të manipulojnë hyrjet në një rrjet nervor artificial (ANN) në mënyrë që të gjenerojnë përputhje që nuk do të ishin të dukshme për një vëzhgues njerëzor. Për shembull, një sulmues mund të bëjë ndryshime të vogla dhe delikate në një imazh, duke bërë që ANN ta identifikojë atë si objektivin e kërkimit, edhe pse për një person, imazhi nuk ka asnjë ngjashmëri. Ky manipulim i qëllimshëm quhet "sulm kundërshtar."[241]
Në vitin 2016, studiuesit përdorën një rrjet nervor artificial (ANN) për të manipuluar imazhet në mënyrë provë dhe gabim, duke identifikuar pikat e dobëta të modelit dhe duke krijuar imazhe që e mashtronin atë. Për sytë e njeriut, këto imazhe të modifikuara dukeshin identike me origjinalet. Një grup tjetër studiuesish tregoi se printimet e këtyre imazheve të manipuluara, edhe pasi u fotografuan, mashtruan me sukses një sistem klasifikimi të imazheve, duke demonstruar cenueshmërinë e rrjeteve nervore ndaj sulmeve kundërshtare.[242] Një nga masat mbrojtëse kundër mashtrimeve të tilla është kërkimi i kundërt i imazhit, ku një imazh i dyshuar dërgohet në platforma si TinEye për të identifikuar versione të tjera të tij ose burimin origjinal. Një përmirësim i kësaj metode është kërkimi duke përdorur vetëm fragmente të imazhit, duke ndihmuar në zbulimin e imazheve nga të cilat mund të jetë marrë ajo pjesë, duke ofruar një analizë më të detajuar të autenticitetit të tij.[243]
Një grup tjetër hulumtues zbuloi se disa shfaqje psikedelike mund të mashtronin sistemin e njohjes së fytyrës duke i bërë ato të mendojnë se njerëzit e zakonshëm ishin të famshëm. Kjo teknikë potencialisht mund të lejojë një person të imitojë identitetin e një tjetri, duke ngritur shqetësime për sigurinë dhe privatësinë në sistemet biometrike. Ky zbulim thekson sfidat e sigurisë që lidhen me keqpërdorimin e teknologjive të të mësuarit të thellë dhe të njohjes së fytyrës. Në vitin 2017 studiuesit shtuan ngjitëse për tabelat e ndalimit dhe shkaktuan që një ANN t'i keqklasifikonte ato.[242]
Megjithatë, rrjetet nervore artificiale (ANN) mund të trajnohen më tej për të zbuluar përpjekjet për mashtrim, duke u bërë mjete të fuqishme për të identifikuar sjelljet e dyshimta dhe aktivitetet mashtruese. Kjo mund të çojë në një garë armësh midis sulmuesve dhe mbrojtësve, të ngjashme me atë që shihet në industrinë e mbrojtjes kundër malware . ANN-të janë trajnuar për të mposhtur softuerin anti-malware të bazuar në ANN duke sulmuar në mënyrë të përsëritur një mbrojtje me malware që ndryshohej vazhdimisht nga një algoritëm gjenetik derisa mashtroi anti-malware duke ruajtur aftësinë e tij për të dëmtuar objektivin.[242]
Në vitin 2016, një grup tjetër studiuesish tregoi se tinguj të caktuar mund të manipulonin sistemin e komandës zanore të Google Now, duke e detyruar atë të hapte një adresë specifike ueb. Ata sugjeruan se një sulm i tillë mund të përdorej si hap i parë për sulme më të avancuara, si hapja e një faqeje interneti që përmban malware të llojit "drive-by".[242]
"Helmimi i të dhënave" është një teknikë sulmi në të cilën të dhëna të rreme ose të manipuluara futen me qëllim në grupin e trajnimit të një sistemi të mësimit të makinerive. Kjo ndërhyrje synon të pengojë sistemin që të arrijë performancën optimale ose ta drejtojë atë drejt rezultateve të pasakta.[242]
Etika e mbledhjes së të dhënave
Sistemet e të mësuarit të thellë që përdorin mësimin e mbikëqyrur zakonisht mbështeten në të dhëna të krijuara dhe/ose të shënuara nga njerëzit. Ky proces përfshin sigurimin e shembujve të etiketuar (p.sh., imazhe me kategori, tekst me etiketa emocionale, ose të dhëna mjekësore të diagnostikuara) që modelet mund të përdorin për të mësuar marrëdhëniet dhe modelet midis hyrjeve dhe daljeve. Cilësia dhe sasia e të dhënave të shënuara janë kritike për performancën e këtyre sistemeve, duke e bërë mbledhjen dhe etiketimin e të dhënave një aspekt thelbësor të procesit të trajnimit.[244] Është argumentuar se jo vetëm klikimet me pagesë të ulët (siç është Amazon Mechanical Turk ) përdoren rregullisht për këtë qëllim, por edhe forma të nënkuptuara të mikropunës njerëzore që shpesh nuk njihen si të tilla.[245] Filozofi Rainer Mühlhoff dallon pesë lloje të "kapjes mekanike" të mikropunës njerëzore për të gjeneruar të dhëna trajnimi: (1) gamifikimi (ngulitja e detyrave të shënimit ose llogaritjes në rrjedhën e një loje), (2) "kurthi dhe gjurmimi" (p.sh. CAPTCHA për njohjen e imazhit ose ndjekjen e klikimeve në faqet e rezultateve të kërkimit të Google ), (3) shfrytëzimin e motivimeve sociale (p.sh. etiketimi i fytyrave në Facebook për të marrë imazhe të etiketuara të fytyrës), (4) nxjerrja e informacionit (p.sh. duke përdorur pajisje të vetëvlerësuara si gjurmuesit e aktivitetit ) dhe (5) puna e klikimit.[245]
Remove ads
Shihni gjithashtu
- Aplikimet e inteligjencës artificiale
- Krahasimi i softuerit të të mësuarit të thellë
- Ndjeshmëri e ngjeshur
- Programim i diferencuar
- Rrjeti shtetëror jehonë
- Lista e projekteve të inteligjencës artificiale
- Makinë në gjendje të lëngshme
- Lista e grupeve të të dhënave për kërkimin e të mësuarit në makinë
- Llogaritja e rezervuarit
- Hapësira e shkallës dhe mësimi i thellë
- Kodimi i rrallë
- Papagalli stokastik
- Mësimi i thellë topologjik
Remove ads
Referime
Leximi i mëtejshëm
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads