La Agencia Vasca de la Innovación da la bienvenida como nueva entidad socia a Euskorpora, la asociación sin ánimo de lucro que, desde abril, trabaja por acercar la Inteligencia Artificial al euskera y a la que, a su vez, también se ha integrado Innobasque, muy interesada en colaborar en este objetivo tan ambicioso como necesario.

“Vivimos una aceleración sin precedentes de las tecnologías del lenguaje, que ya tienen aplicaciones que están redefiniendo nuestra manera de vivir, trabajar y comunicarnos porque están presentes en todo: asistentes de voz, traducción automática, herramientas de accesibilidad, interfaces de texto o voz, chatbots, entornos educativos digitales, aplicaciones industriales… Su desarrollo y perfeccionamiento viene determinado por un recurso invisible pero esencial: los datos lingüísticos. Sin suficientes datos no se puede generar un conjunto significativo, un corpus, que, a su vez, permita entrenar los modelos de lenguaje y voz que se manejen adecuadamente en un idioma determinado. De modo que sin corpus digital una lengua queda fuera del mapa de la Inteligencia Artificial y ese es un riesgo que no sólo corre el euskera. Es un desafío que compartimos con el resto de Europa, que ve peligrar su riqueza multilingüe ante hegemonía tecnológica anglosajona y el dominio de los grandes modelos entrenados en inglés”, explica Leire Barañano, directora general de Euskorpora.

De este modo, la misión de la asociación es, en primer lugar, crear esos datos a partir de contenidos (textos y audios) que ya existen y, después, emplearlos para entrenar modelos. Esto es, para ‘enseñar’ a la máquina a utilizarlos de manera que pueda generar un euskera natural y lingüísticamente rico que cubra todos los usos del idioma. “Para que un asistente de voz entienda una orden o un chatbot responda correctamente, necesitan haber ‘leído’ y ‘escuchado’ miles de ejemplos reales. Por eso, los corpus digitales incluyen desde conversaciones cotidianas hasta discursos institucionales, pasando por subtítulos, podcasts, artículos de prensa, documentos legales…. Cuanto más diverso sea ese corpus y mejor clasificado esté, mejores serán los resultados”, señala Barañano, quien también advierte que “convertir esos contenidos en ficheros informáticos es muy complejo”.

¿Por qué? Pues porque no se trata de transcribir o escanear; hay que crear el dato. En otros usos de la Inteligencia Artificial el dato es un número (cuántas piezas se producen o cuántos pedidos se tramitan), pero aquí es un contenido, como el sentido que tiene una palabra en un contexto y como se diferencia del que pueda tener en otro. Así que al margen de la cantidad increíble de contenidos que se deben reunir, después todos ellos han de ser paralelizarlos (compararlos con los usos en otras lenguas, como cuando hacemos una traducción) y etiquetados para, finalmente, generar ficheros. “Y todo hay que hacerlo con unos estándares técnicos y jurídicos alineados con los del European Language Data Space, del que ya formamos parte”, matiza Barañano.

Esta tarea está ahora mismo en manos de lingüistas computacionales, anotadores expertos, ingenieros de datos y especialistas en derechos digitales de entidades colaboradoras (muchas de ellas, empresas previamente dedicadas a la traducción), por lo que la directora general de Euskorpora añade un tercer objetivo para la asociación: poner en marcha un ecosistema de investigación que la permita trabajar con otros agentes (sean empresas, administraciones, centros tecnológicos, asociaciones… ) “para coger velocidad”. En este punto es especialmente importante la colaboración con Innobasque, “tanto por la aportación de contenidos de calidad sobre ciencia, tecnología e innovación que enriquecerán ese corpus como por facilitarnos al acceso a toda la red de entidades socias que también crean estos contenidos”.

Comparte esta noticia

Más noticias