Berrikuntzaren Euskal Agentziak ongietorria ematen dio Euskorporari erakunde bazkide berri gisa. Irabazi-asmorik gabeko elkartea da, eta apiriletik lanean dihardu adimen artifiziala euskarara hurbiltzeko. Horrez gain, Innobasque ere proiektuan sartu da, interes handia baitu asmo handiko eta halabeharrezko helburu horretan lankidetzan jarduteko.
“Hizkuntzaren teknologiak inoiz ez bezala bizkortzen ari dira. Ildo horretatik, dagoeneko aplikazioak dituzte, gure bizitzeko, lan egiteko eta komunikatzeko modua birdefinitzen dutenak, arlo oro hartzen baitute: ahots laguntzaileak, itzulpen automatikoa, irisgarritasun-tresnak, testu- edo ahots-interfazeak, chatbot-ak, hezkuntza-ingurune digitalak, industria-aplikazioak… Garatu eta hobetzeko orduan, baliabide ikusezinak funtsezkoa dira: hizkuntza-datuak. Datu nahikorik gabe ezin daiteke multzo esanguratsua edo corpusa sortu, aldi berean, hizkuntza- eta ahots-ereduak trebatu hizkuntza jakin batean behar bezala maneiatzeko. Hala, corpus digitala izan ezean, hizkuntza adimen artifizialaren mapatik kanpo gelditzen da, eta hori da arriskua, ez euskararena bakarrik. Erronka hori partekatzen dugu Europako gainerako lekuekin, hizkuntza-aniztasunaren aberastasuna arriskuan ikusten baitute hegemonia teknologiko anglo-saxoiak eta ingelesez trebatutako eredu handien nagusitasunak bultzatuta”, azaldu du Leire Barañano, Euskorporako zuzendari nagusiak.
Hala, elkartearen eginkizuna da, lehenik eta behin, datu horiek sortzea dagoeneko sortuta dauden edukietatik (testuak eta audioak) abiatuta eta, gerora, ereduak trebatzeko erabiltzea. Hots, helburua da makinei erabiltzen ‘erakustea’ euskara naturala sor dezaten eta hizkuntzaren ikuspegitik aberatsa izan dadin hizkuntzaren erabilera guztiei erantzuteko. “Ahots-laguntzaile batek agindu bat ulertzeko edo chatbot batek behar bezala erantzuteko, milaka adibide erreal ‘irakurri’ eta ‘entzun’ behar dituzte. Horregatik, corpus digitaletan sartzen dira eguneroko elkarrizketetatik hasita erakunde-diskurtsoetara arte, azpitituluetatik, podcastetatik, prentsa-artikuluetatik, legezko dokumentuetatik, eta abarretik pasata. Corpusa anitzagoa den neurrian eta hobeto sailkatuta dagoen heinean, hobeak izango dira emaitzak”, dio Barañanok. Halaber, ohartarazi du “eduki horiek fitxategi informatiko bihurtzea oso konplexua dela”.
Zergatik? Ez delako transkribatu edo eskaneatu behar, datua sortu baizik. Adimen artifizialaren beste erabilera batzuetan datua zenbaki bat da (zenbat ale sortzen diren edo zenbat eskaera izapidetzen diren), baina arlo honetan eduki bat da, hala nola hitz batek testuinguru jakin batean duen zentzua, beste batean izan dezakeenaren desberdina dena. Hortaz, bildu behar den edukien kopurua erraldoia bada ere, guztiak parekatu (beste hizkuntza batzuetako erabilerekin alderatu, itzultzean egindakoaren antzera) eta etiketatu behar dira, azkenik, fitxategiak sortzeko. “Eta hori guztia egin behar da estandar tekniko eta juridiko zehatzen pean, betiere European Language Data Space deritzanak dituenarekin lerrokatuta, dagoeneko haren kide baikara”, zehaztu du Barañanok.
Eginkizun hori oraintxe bertan erakunde laguntzaileetako (asko, aurretik itzulpengintzan aritzen ziren enpresak) hizkuntzalari konputazionalen, ohargile adituen, datu-ingeniarien eta eskubide digitalen adituen esku dago; beraz, Euskorporako zuzendari nagusiak gaineratu du elkartearen hirugarren helburua: ikerketa-ekosistema bat abian jartzea beste eragile batzuekin (enpresak, administrazioak, zentro teknologikoak, elkarteak…) lanean jardun ahal izateko. Hala, “abiadura hartu nahi da”. Puntu honetan bereziki garrantzitsua da Innobasqueren laguntza, “batetik,
corpusa aberastuko duten kalitatezko edukiak eskuratzeko zientziaren, teknologiaren eta berrikuntzaren arloetan eta, bestetik, halako edukiak sortzen dituzten erakunde bazkideen sare guztira sarbidea errazteko”.




