Itziar Aldabe: “Hizkuntza batek biziraun nahi badu, eremu digitalean egon behar du”

Ikerlaria. HiTZ Hizkuntza Teknologiako Euskal Zentroa – Ixa Hizkuntzaren Prozesamenduko Taldea, Euskal Herriko Unibertsitatea

Azken hilabeteetan AA tresnak nabarmen garatu dira. Euskara bezalako hizkuntza minorizatuentzat hori aukera ala mehatxua al da?

Horrelako tresnak euskararako ere garatu daitezkeen momentutik aukera moduan ikusi behar dugula iruditzen zait. Askotan esaten den moduan, hizkuntza batek biziraun nahi badu, eremu digitalean egon behar du. Gure eginkizuna da beraz, horretarako baliabideak zein tresnak garatzea euskaraz modu zuzen eta egokian aritzeko. Gizarteari horrelako tresnekin euskaraz aritzeko aukera ere eskaintzeko. Modu berean, dagoeneko gizarteratu diren produktuek euskaraz geroz eta hobeto egiteko gaitasuna erakusten badute, euskararen presentzia eta horren erabilera handitzea ere gerta daiteke. Geroz eta gehiago izan horrelakoak euskara jator batean aritzeko gai direnak, orduan eta aukera gehiago euskararen erabilera handitzeko.

AAk datu kopuru izugarria behar du bere funtzionamendurako. Euskara, beste hizkuntza handiekin alderatuta, nekez irits daiteke horiek dituzten datu kopuruetara. Hori muga edo oztopo bat al da? 

Puri-purian dauden hizkuntza-eredu handiak sare neuronaletan oinarritutako hizkuntza-ereduak dira, eta milaka miloi parametro izateaz gain, ohikoa da entrenamendurako datu-kopuru handiak izatea ikaskuntza teknika ezberdinak aplikatzeko. Hizkuntza-ereduak entrenatzeko erabiltzen diren datuak testu-iturri sorta zabal eta askotariko batetik eratortzen dira. Datuen zati handi bat web iturrietatik erauzitakoak dira: webgune, blog, artikulu, foro eta lineako edukien testuak. Modu berean, datuek gai eta formatu ugari biltzen dituzte: albiste-artikuluak, Wikipediako sarrerak, liburuak, kodea, artikulu zientifikoak eta erabiltzaileek sortutako edukiak besteak beste. Horrelako datu ezberdinak jasotzean eta horiekin entrenatzean, askotariko eremuetako testua ulertzeko eta sortzeko gai diren hizkuntza-eredu sendoak sortzen dira.

Euskarak ez du inoiz hainbeste testu izango, baina horrek ez du zertan muga edota oztopo izan behar. Euskarak duen ezaugarri bat da. Euskararako dauden datuak kontuan izanik, hizkuntza-eredu handi batek euskaraz ondo egiteko zer behar den ikertu eta baliabide urriko hizkuntza baterako egokien diren teknikak aplikatu behar dira, adibidez, zerotik hasi beharrean baliabide handiko hizkuntza baterako entrenatutako eredu on bat abiapuntutzat hartuz. Horrek erakutsiko baitu posible dela baita ere baliabide urriko hizkuntzetarako ereduak sortzea.

Datu kopuruaz gai, beste hizkuntzek duten gaitasuna lortzeko konputazio ahalmen handia behar da. Kasu horretan euskara desabantailan al da? 

Hizkuntza-eredu handiak sortu eta erabilgarri jartzeko, datuez gain beharrezkoak dira adituak eta konputazio ahalmena. Abangoardiako hardwarea (GPU zein TPUak), datu-zentro handiak eta ikerketa-talde aurreratuak konbinatzeak aukera ematen du baliabide asko behar dituzten ereduak gauzatzeko. Gaur egun, baliabide konputazional handiak normalean enpresa eta erakunde gutxi batzuek dituzte eskuragarri: erraldoi teknologikoak (OpenAI, Google, Microsoft, Meta, Amazon), AAko ikerketa-laborategi eta enpresa handiak (DeepMind, Anthropic, Cohere) edota NVIDIA eta IBM modukoek. Hala ere, AAn ikerketa-programa sendoak dituzten unibertsitateek errendimendu handiko kluster informatiko edo lankidetza-baliabideetarako sarbidea izaten dute. Adibide bat jartzearren, Europan martxan dago EuroHPC JU ekimen bateratua, Europan mundu-mailako superkonputazio-ekosistema bat garatzeko helburua duena. Horri esker, ikertzaileek hizkuntza-eredu handiak entrenatzeko gaitasun informatikoak eskaintzen dituzten superkonputagailuak erabili ditzakete. Gure kasuan, Leonardo eta MareNostrum superkonputagailuak erabili izan ditugu euskararako hizkuntza eredu handien inguruan definitutako esperimentuak bideratzeko. Horrez gain, zenbait ikertzaile ari dira eredu txikiagoak edo konputazionalki baliabide gutxiago behar dituztenak sortzen.

Latxa izeneko hizkuntza-eredua garatu duzue HITZ-Hizkuntza Teknologiako Zentroan. Zer da eta zer mesede egin ahal dio euskara bezalako hizkuntza bati? 

Latxa 7 eta 70 mila milioi parametro bitarteko hizkuntza-eredu handien familia da. Latxak Meta enpresaren Llama 2 du oinarri. Llama 2 moduko oinarrizko ereduak, lehen aipatu dugun moduan, testu-datu kopuru handietan entrenatuz lortu direnez, hizkuntzaren patroiak eta egiturak ikasten dituzte. Testu-masa hori prozesatzean, hitzak eta perpausak normalean nola eratzen diren ikasten du ereduak, hizkuntzaren azpiko arauak eta patroiak ere ikasiz. Behin entrenatuta, ereduak testu berria sortuko du, ikasitako patroietan oinarrituta. Osatu gabeko perpaus bat emanez gero, ereduak perpausaren testuarekin jarraituko du, testuinguruan zentzua duen jarraipen bat emanez. Adibidez, “Bazen behin” idatziz gero, hizkuntza-eredu handiak istorioari jarraipena eman diezaioke modu koherente eta sortzailean, pertsona batek egingo lukeen moduan. Laburbilduz, hizkuntza-eredu handi bat testu-tresna adimendun eta moldakorra da, testu-datu ugaritik ikasi duena. Horri esker, hizkuntzarekin lotutako ataza ugari egin ditzake, giza idazketa eta ulermena imitatuz.

Gure kasuan, nolabait azaltzearren, Llama 2 oinarrizko ereduari euskara erakutsi diogu. Llama 2 hartu eta 4.3 milioi dokumentu eta 4.200 milioi token dituen euskara corpus batean entrenatzen jarraitu dugu. Horri esker, Latxak Llamaren ezaugarriak heredatzeaz gain, Llamak dakien hori euskaraz ere ondo interpretatzen eta sortzen du. Hurrengo pausua jarraibideak betetzeko gai izateko doitzea da. Horrek, gainera, gure ereduen gaitasun orokorrak ere hobetu beharko lituzke.

HiTZ zentroan, horrelako eredu propio eta libre baten alde egin dugu, euskara eta euskal kultura ahalik eta modu egokienean irudikatzeko, baita transferentzia bultzatzeko ere. Ez hori bakarrik, argitaratutako artikulu zientifikoan esaten dugun moduan, baliabide mugatuak dituzten beste hizkuntzetako hizkuntza-eredu handiak garatzeko ikerketa erreproduzigarria ahalbidetzen duten ebaluazio-eredu eta -multzoen sorkuntzan egindako lana da hau ere. Gardentasuna ere garrantzitsua da. Erakutsi dugu euskara moduko baliabide urriko hizkuntza baterako posible dela horrelako teknologia garatzea, modu ireki eta garden batean. Gainera horrela sortutako eredu batek eta hortik eratorritako bestelako sistemek jarraitutasunaren eta konpromisoaren bermea dute. 

Euskal Herrian lan handia egin da euskara teknologia honetara egokitzeko. Nola definituko zenuke egun dagoen egoera eta, aurrera begira, zer beharko litzateke?

2019an eratutako HiTZ Hizkuntza Teknologiako Zentroa, Ixa eta AhoLab ikerketa-taldeek osatzen dute. Biak ere Euskal Herriko Unibertsitateko (UPV/EHU) taldeak dira eta Euskal Herrian Hizkuntzaren Teknologien arloko eragile nagusiak izan dira, sortu zirenetik, 1988an eta 1998an, hurrenez hurren. Euskarako ikerketa gehien egin duten taldeak dira beraz. Enpresa zein erakundeei soluzio teknologikoak eskaintzeko, hor ditugu Orai zein Vicomtech zentroak, transferentziaz arduratzen direnak. Guztiok gara Langune Hizkuntza Industrien Elkartearen bazkide, beste eragile batzuekin batera. Izan ere, guztion helburua da Euskal Herrian hizkuntzen industria sustatzea, sendotzea eta kohesionatzea. Azkenik, AAren ezarpenaren beharraz ohartuta, BAIC zentroak euskal industrian AA sortzailearen ezarpenean dihardu. Ekosistema interesgarri baten aurrean aurkitzen garela uste dut eta erreferentzia gisa kokatzeko asmoa badugu, inbertsioa beharrezkoa izango da. Hiru arlo nagusi bereizi daitezke: formakuntza, oinarrizko ikerketa eta konputazio ahalmena. 

Zein puntutan aurkitzen da, orokorrean eta une honetan, teknologia hau? Hau da, epe laburrean edo ertainean zer espero ahal dugu teknologia honen inguruan? Sistema ‘perfektu’ batetik urrun al gara?

Hizkuntza eredu handietan oinarritutako sistemak produktu interesgarri zein erabilgarriak diren arren, oraindik asko dago egiteko. Sistema hauek oso onak dira gurekin elkarrekintzan eta guk eskatutako ataza ezberdinei erantzun zuzen bat ematen. Hala ere, testuinguru sozial eta ingurune fisikoaren kontzientziarik ez dute. Modu berean, gizakiok egiten ditugun inferentzia logiko konplexuetatik oraindik urruti daude. Epe ertain batean badirudi helburua sistema multimodalak eskaintzea izango dela. Dagoeneko ikusten dira “Sortu testua, kodea, bideoa, audioa eta irudiak ia edozein edukitatik” moduko tituluak.

Sistema perfektu batera iritsiko garen jakin gabe eta benetan zer gertatuko den aurreikusteko gai ez naizen arren, beharrezkoa ematen du paradigma zein arkitektura aldaketa batek. Izan ere, gaur egun merkatuan dauden hizkuntza-eredu handiek definizioz gaindiezinak diren mugak dituzte. Azken finean horrelako ereduek hurrengo hitza besterik ez dute iragartzen eta behin hitz bat sortuta ez dago atzera bueltarik. 

Badira teknologia horrek izan ditzakeen arriskuak azpimarratzen dituztenak. Zein da zure iritzia horren inguruan?

Makinek ordezkatuko ez gaituzten arren, hizkuntza-eredu handiak ez dira akasgabeak. Zenbaitetan informazio okerra ematen dute, akatsak egiten baitituzte informazio zaharkitua sortuz edota sinesgarria baina erabat asmatua den informazioa sortuz. Horrez gain, testuinguruaren araberako erroreak, arrazoiketa akatsak, errore gramatikalak edo kontraesanak zein zalantzazko erantzunak sortzen dituzte. Modu berean, alborapenak islatzen dituzte batzuetan. Entrenamendu datuetan agertzen diren alborapenak islatzen edo anplifikatzen dituztenean, erantzun partzialak edo bidegabeak ematen dituzte. Ez hori bakarrik, eduki desegokia, iraingarria edo etikoki ezegokia sortzeko gaitasuna erakutsi dute baita ere. Horrelako akatsak egiten dituztela gizarteratzea garrantzitsua da, erabiltzaileek modu kritikoagoan interpreta ditzaten erantzunak eta desinformaziorako tresna moduan ez erabiltzeko. Aipagarriak dira baita ere horrelako ereduak sortzeak edota produktu moduan eskaintzeak duten energia kontsumoa. Azkenik, gutxi batzuen botere-konzentrazioa kezkagarria da baita ere. Horrelako hizkuntza eredu handi arrakastatsuenak enpresa zein herrialde gutxi batzuen esku egoteak eragin zuzena izan dezake ereduek errepresentatzen duten hizkuntza edota kulturan. 

Sarritan aipatzen da teknologia honek lan mundua eraldatuko duela, bai lanpostu asko desagerraraziz, bai lan egiteko modua eraldatuz. Printzipioz, mesede egin beharko zuen teknologia bat kaltegarri izan daiteke hainbat pertsonentzat?

Bestelako lanpostuak sortu ahal badira ere, badirudi jende asko lan merkatutik kanpo gera daitekeela hezkuntza edo trebakuntza lortzeko aukera ez duelako. Aipatu teknologiak lan merkatuan abantailak ere izan ditzake.

Iraultza teknologikoak eman diren guztietan, lan mundua eraldatu izan da, lana egiteko modua aldatuz. Oraingoan ere, AAk eskuz egin beharreko zenbait lan automatizatzeko aukera eskaintzen duen unetik, lan mundua eraldatuko duela ematen du. Baina honek zerbait positiboa izan beharko luke. Lan mekanizatu horiek ez egin, eta bestelako lan interesgarriago batzuk egiteko edota lan gutxiago egiteko.