HiTZ zentroa
EHUko ikerketa zentroa hizkuntza teknologietan From Wikipedia, the free encyclopedia
Remove ads
HiTZ zentroa edo Hizkuntza Teknologiako Euskal Zentroa EHUko ikerketa-zentroa da, Hizkuntza Teknologietan aritzen dena. Erreferentziazko zentroa da Hizkuntza Teknologietan,[1][2][3][4] eta arlo horretako ikerketa, prestakuntza, transferentzia teknologikoa eta berrikuntza sustatzea du helburu. Donostiako Informatika Fakultatean du egoitza nagusia, baina beste zentroetan ere ari da, Bilboko Ingeniaritza Eskolan, besteak beste.
Zentroaren zuzendaria den Eneko Agirre ikerlariak hirutan irabazi du ikerketarako Google saria.[5][2] 2020ko maiatzean Amerikako Estatu Batuetako gobernuak bultzatutako sari bat jaso zuen, COVID-19 gaixotasunaren inguruan antolatutako Kaggle-Covid-19 txapelketan.[6][7]2021ko Espainiako Informatika Saria eman zion arloko SCIE elkarteak (Sociedad Científica Informática de España).[8][9]
Euskal Herriko Unibertsitateko Ixa eta AhoLab ikerketa-taldeek osatzen dute. Ixa eta Aholab ikerketa-taldeak sortu zirenetik —1988an eta 1998an, hurrenez hurren— Hizkuntzaren Teknologien arloko traktore nagusiak izan dira Euskal Herrian. Ixa taldearen lanak idatzizko edukien tratamendua du helburu; AhoLabenak, ostera, ahozko edukiena. Bi taldeak lankidetzan ari dira 2002az geroztik.
Diziplina anitzeko taldea da, hainbat jakintza-arlo landu duten ikertzaileak dituena, besteak beste, informatikariak, hizkuntzalariak, itzultzaileak, ingeniariak, matematikariak eta soziologoak.
Remove ads
Chatbot-ak sortzeko Google sariak
Google Faculty Research Award saria hirutan lortu duen ikertzaile bakanetakoa da Eneko Agirre. 2020 urteko sariko 62.000 dolarrek ‘Conversational Question Answering agents that learn after deployment’ izeneko proiektua finantzatzeko erabili ziren gero, hots, erabiltzaileekin elkarrizketa-sistemak garatzeko, beti ere Chatbot-en eta adimen artifizialaren arloetan.[10][11]
Agirre-rekin batera zentroko beste 6 kide hauek: Aitor Soroa eta Gorka Azkune irakasleak, Arantxa Otegi ikertzailea, Jon Ander Campos doktoretza ikaslea, baita Aitor Agirre eta Eduardo Vallejo ikasleak ere.
Proiektua batez ere ingelesezko elkarrizketetan zentratzen bazen ere (sukaldaritzari eta elikadurari buruzko galderak), euskarazko elkarrizketekin ere lan egin zuten. Aurreko urtean Ixa taldeak euskarazko elkarrizketak biltzeko boluntarioak erakartzeko kanpaina jarri zuen martxan. Kanpainak oso harrera ona izan zuen, eta pertsonei buruzko euskarazko elkarrizketak jaso ziren, Wikipedian dagoen informazioan oinarrituta.[12]
Remove ads
Hizkuntza Teknologia lagun Covid-19 birusaren kontrako borrokan
CORD-19 delako txapelketa (COVID-19 Open Research Dataset Challenge) hainbat erakundek antolatu zuten 2020ko udaberrian, COVID-19 pandemiaren hasieran, tartean ziren AEBetako Etxe Zuriko Office of Science and Technology Policy, Allen Institute for AI, Chan Zuckerberg initiative, Georgetown University, Microsoft Research, eta National Institutes of Health.[13] Antolatzaileek COVID-19, SARS-CoV-2 eta beste koronabirus batzuei buruzko 50.000 artikulu zientifikotik gora jarri zituzten eskuragarri munduko ikerketa-komunitatearentzat. Horrekin batera, adimen artifizialeko ikertzaileei ekintzarako deia egin zien hizkuntzaren prozesamenduan orduan egin berri ziren aurrerapenak aplika zitzaten, COVID-19 gaixotasunaren aurkako borrokan ari ziren zientzialariei laguntzeko literatura zientifiko horretan lagungarri zitzaien informazioa ahalik eta errazen bilatzen.
Txapelketaren lehen fasean 10 sari banatu zituzten,[6] eta haietako bat irabazi zuen HiTZ zentroko Ixa taldean garatutako programak. Sistemaren garapenean Arantxa Otegi eta Jon Ander Campos ikertzaileek eta Eneko Agirre eta Aitor Soroa irakasleek hartu zuten parte.
Garatutako programak COVID-19 gaixotasuna eta SARS-CoV-2 birusaren inguruan adituek zituzten lehentasunezko galderen erantzunak bilatzen zituen aipatutako artikulu zientifiko guztiak aztertuta. Programa hura erabilgarria zen, besteak beste, koronabirusaren historiaren, birusaren kutsatze eta diagnostikoaren, gizakien eta animalien arteko ukipenean hartu beharreko prebentzio-neurrien eta aurretik egindako azterketa epidemiologikoetako ikasbideen inguruko galderen erantzunak aurkitzeko.[14] Estatu Batuetako aditu talde batek ebaluatu zuen programa eta “What do we know about diagnostics and surveillance?” (Zer dakigu diagnostiko eta zaintzari buruz?) gaiaren inguruko galdera-sortari hoberen erantzun zion sistema bezala aukeratu zuten HiTZ zentrokoa.
2020ko maiatzen Koronabirus pandemiaren hasieran Amerikako Estatu Batetako Gobernuak sari bat Ixa ikerketa-taldeak adimen artifiziala aplikatu du COVID-19ren kontra [15][16]
Remove ads
Itzulpengintza Automatikoa
Paradigma neuronalaren ekarriarekin 2017z geroztik izugarrizko hobekuntza nabaritu zen hizkuntza nagusienen arteko itzultzaile automatiko estandarretan eta horrela zenbait ingurunetan giza-itzulpenen kalitatearen maila lortu zuten lehenengoz. Geroxeago, eta arin, HiTZ zentroko ikerlariak euskal munduko ikerkuntza komunitatearekin batera gai izan ziren euskaratik eta euskararako itzultzaile neuronalak mundu mailako artearen egoeraren pare jartzeko. 2015ean hasi zen euskararako itzulpen neuronala aztertzen. Ordurako Deepl itzultzaileak kalitatezko emaitzak ematen zituen 10 hizkuntzatan baina euskara ez zegoen horien artean. Bi urte geroago Deepl-en lehenengo emaitza bikainak lortuta, 2017an lehen demoa publikoki eskura zegoen. 2017an bertan, hainbat agenteren artean (HiTZ zentroko Ixa Taldea, Elhuyar, Vicomtech, Ametzagaña, Mondragon Lingua...), MODELA izeneko proiektua abiatu zuten.[17][18][19] Urtebeteko epean, 2018an, MODELA itzultzailea plazaratu zuten, Interneten publiko orokorrerako euskarazko itzulpen neuronala eskaintzen zuen lehen zerbitzua. Abiada bizian mugitzen zen arlo honetan, geroago gutxienez beste hiru itzultzaile neuronal gehiago plazaratu ziren: Eusko Jaurlaritzaren Itzultzaile neuronala, batua.eus eta Itzultzailea.eus. Translate Google-k geroago euskarazkoan ere eredu neuronalera pasa zen.
Itzulpen automatiko gainbegiratu gabea izeneko teknika berria ere sortu eta sakon landu da zentroan. Gaur egun dauden sistemek datu asko behar dute (gainbegiratze sakona), corpus paralelo gisa normalean milioika perpaus behar izaten dituzte. Baina harrigarria da, baldintza hori ez du behar gizakiak hizkuntza eskuratzeko. Eta gainera arazo praktiko garrantzitsu bat planteatzen du euskara bezalako baliabide gutxiko hizkuntzekin itzulpenak egiteko. HiTZ zentroko Mikel Artetxeren tesiaren helburua datu paraleloen mendekotasun hori guztiz ezabatzea izan zen, corpus elebakarra baino beharko ez zuten “gainbegiratu gabeko itzulpen automatiko”ko sistemak eratzeko.[20] Horretarako, lehenengo urrats batean bi hizkuntzatarako sortutako hitz-bektoreak (word embedding-ak) lerrokatzen zituen, beren arteko egitura-antzekotasunean oinarrituta. Gero, bigarren urrats batean, lerrokatze horren emaitzak erabiltzen zituen itzulpen-sistema neuronal bat edo itzulpen-sistema estatistiko bat hasieratzeko, azken urratsean back-translationaren bidez hobetzen joango zena.[21][22][23]
- Jaurlaritzaren itzutzaile neuronala
- Batua.eus
- Elhuyarreko itzutzailea.eus
Remove ads
Beste ikerketa-lerroak
Hizkuntza teknologiaren eta adimen artifizialaren barruan zentroak honako beste arlo hauetan ere dihardu:[24][25][26]
- Informazioaren Erauzketa eta Berreskurapena
- Testuen analisia
- Ahotsaren Sintesia eta Ezagutza
- Gizaki-ordenagailu Elkarrekintza
- Hizkuntza-baliabideak
- Hizkuntzaren Prozesamendua medikuntzan eta zuzenbidean
- Humanitate digitalak eta hezkuntza
Sariak eta errekonozimenduak
Hainbat sari lortu ditu HiTZzentroak, besteak beste, hauek:[27]
- 2023: UEUren ikasturte-hasierako hizlari gonbidatua izan zen Eneko Agirre ("Mundua suntsitzean adimen artifizialak euskaraz egingo ote du?").[28]
- 2021: IkerGazte biltzarrean hitzaldi gonbidatua izan zen Arantza Diaz de Ilarraza: "Hizkuntza-teknologiaren bilakaera. Ixa Taldearen esperientzia. Erabili zientzia gizartearen alde." [29][30][31]
Arantza Diaz de Ilarraza (IkerGazte, 2021) - 2021ko Espainiako Informatika Saria eman zion arloko SCIE elkarteak Eneko Agirre Ixakideari. (Sociedad Científica Informática de España).[32] Epaimahaiak azaldu zuen hizkuntzaren prozesamenduaren esparruan egindako ekarpen bikainengatik eman ziotela; bereziki, testu-baliabide handien ustiapenean,, eta itzulpen automatikoari aplikatutako neurona-konputazioan oinarritutako ikasketa automatiko ez-gainbegiratuan. Aipatu zuen, gainera, zientzia-argitalpenen kalitate bikainagatik ez ezik (bere argitalpen horietako batzuk erreferentetzat hartzen dira mundu mailan), bere ikerketaren emaitza-transferentzia handiagatik, zientzia-lidergoagatik —Hitz ikerketa-zentro ospetsuaren zuzendaria da— eta nazioarteko ibilbide oso nabarmenagatik, bai prestakuntzan, bai lankidetzetan.[33]
- 2021: Ikertzaile gazteentzako Espainiako Informatika Saria jaso zuen Mikel Artetxe ixakideak, arloko SCIE elkarteak ematen duena (Sociedad Científica Informática de España). Epaimahaiak saria eman zion nazioartekoan duen presentzia handiagatik, hizkuntzaren prozesamenduaren arloko enpresa garrantzitsuenetan egindako egonaldiengatik eta ospe handiko biltzarretan egindako ekarpenengatik.[33]
- 2021: Eneko Agirre ACL Fellow 2021 izendatu zuten. alor hauetan egindako ekarpenengatik: Hitzen adiera-desanbiguazioan, testuen arteko antzekotasun semantikoa, itzulpen automatiko gainbegiratu gabea, euskarazko baliabideak eta ACLri egindako zerbitzuak. 2021ko sarituak hauek izan ziren: Joakim Nivre, Qun Liu, Luke Zettlemoyer, Anette Frank, Joyce Chai, Eneko Agirre, Chengqing Zong, eta Amanda Stent.
- 2020: Hizkuntzaren prozesamendua lantzen duen COLING nazioarteko kongresuan Aparteko Artikuluaren Saria jaso zuen Ixa Taldeak (Outstanding Paper Award).[34] Artikulua Ixa Taldeko ikertzaile hauen artean idatzi zuten: Jon Ander Campos, Kyunghyun Cho, Arantxa Otegi, Aitor Soroa, Eneko Agirre and Gorka Azkune. Izenburua hau zen: Improving Conversational Question Answering Systems after Deployment using Feedback-Weighted Learning. (Elkarrizketa moduko galdera-sistemak hobetzea inplementazioaren ondoren, atzeraelikadurako ikaskuntza haztatua erabiliz).[35]
- 2019: COVID-19 Open Research Dataset Challenge. Estatu Batuetako gobernuak bultzatutako COVID-19 gaixotasunaren inguruan antolatutako adimen artifizialeko txapelketan saria.[36][37] Ixa Taldeko Arantxa Otegi eta Jon Ander Campos ikertzaileek eta Eneko Agirre eta Aitor Soroa irakasleek hartu zuten parte.
- 2017, 2019 eta 2020: Eneko Agirre taldekide eta egun HiTZ zentroaren zuzendariak hiru aldiz jarraian irabazi zuen Google-ren sari bat. Google Faculty Research Award saria hirutan lortu duen ikertzaile bakanetakoa da bera. Proiektua batez ere ingelesezko elkarrizketetan zentratzen bada ere (sukaldaritzari eta elikadurari buruzko galderak), euskarazko elkarrizketekin ere lan egin dute. Horretarako, iaz Ixa Taldeak euskarazko elkarrizketak biltzeko boluntarioak erakartzeko kanpaina jarri zuen martxan. Kanpainak oso harrera ona izan zuen, eta pertsonei buruzko euskarazko elkarrizketak jaso ziren, Wikipedian dagoen informazioan oinarrituta.[38][39][40][41]
- 2009tik hona, nazioarteko kongresu zientifikoetan artikulurik onenari egindako 10 aipamen; horien artean, honako hauek: Europako Itzulpen Automatikoaren Elkartearen kongresuan (EAMT, 2009)[42], testu klinikoen prozesamenduaren alorrean 2017ko 3 artikulurik onenetako bat[43] eta Txiotesia lehiaketako saria (2014).[44]
- 2017: Bagerak bere 25. urteurrenean Ixa Taldeari errekonozimendu saria[45]
- 2013: Abbadia saria jaso zuen Díaz de Ilarrazak, Ixa Taldearen izenean Gipuzkoako Foru Aldundiaren eskutik.[46][47]
IXA Taldea Abbadia Saria jasotzen (2013) - 2013: Donostiako udalaren eskutik Ixa Taldearen aldeko adierazpen instituzionala.
- 2012: Ibilaldian omendua izan zen teknologia berrietan euskara sartzeko egindako lanengatik, beste hauekin batera: Lapurdiko Harluxetar lehengusu ingeniariak: Klaudio Harluxet eta René Harluxet; Aurki, Sustatu, Codesyntax: Luistxo Fernandez. UEUko Informatika saila: Olatz Arbelaitz; EHUko Donostiako Informatika Fakultatea (Ixa Taldea eta Díaz de Ilarraza tartean; EHUko Aholab Taldea: Inma Hernaez; puntueus: Iratxe Esnaola; kaixo.com: Aitor Lopez de Aberasturi; Erentzun ikastola: Fultxo Crespo; Hachtibista, sare sozialak: Gorka Julio; Euskal Jakintza: Maite Goñi.[48]
- 2011: Koldo Mitxelena Saria eskuratu zuen tesi baten zuzendari (Maite Oronoz, Euskarazko errore sintaktikoak detektatzeko eta zuzentzeko baliabideen garapena: datak, postposizio-lokuzioak eta komunztadura).[49][50]
- 2002: Toribio Etxeberria saria, ELEKA INGENIARITZA LINGUISTIKOA, S.L. spin-off enpresa sortzeagatik.
- 2001: Manuel Laborde Werlinden saria, ELEKA INGENIARITZA LINGUISTIKOA, S.L. spin-off enpresa sortzeagatik.
- 1995: UPV/EHUren sari berezia eskuratu zuen Xabier Arregi Iparragirre irakasleak (Itzulpenean laguntzeko hiztegi-sistema eleanitza).[51]
Remove ads
Erreferentziak
Ikus, gainera
Kanpo estekak
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads