La USC trabaja con el Gobierno para lanzar un 'ChatGPT español' después del verano

El proyecto Alia, con una inversión de unos 40 millones de euros, busca desarrollar modelos de inteligencia artificial entrenados en las lenguas oficiales del país

Consistirá en una base de datos abierta y transparente

El presidente del Gobierno, Pedro Sánchez, con el director científico del Citius, Senén Barro, este lunes en La Moncloa

El presidente del Gobierno, Pedro Sánchez, con el director científico del Citius, Senén Barro, este lunes en La Moncloa / Cedida

El Gobierno de España está construyendo el primer modelo de inteligencia artificial de lenguaje natural que trabajará directamente con las lenguas oficiales del Estado. En él está participando la Universidad de Santiago, a través del Citius (Centro Singular de Investigación en Tecnoloxías Intelixentes).

Senén Barro, catedrático de Ciencias de la Computación e Inteligencia Artificial en la USC, explica que se trata de modelos que hay detrás de herramientas como ChatGPT. Este tiene una serie de inconvenientes: son propietarios y cerrados, es decir, son de las compañías que los han desarrollado y, en general, no hacen publica la información relativa a los mismos, incluidos los datos que han usado para entrenarlos. 

“España quiere desarrollar, por el contrario, lo que se denominarían modelos plenamente abiertos, lo que supondría transparencia plena en los datos, los modelos obtenidos y a libre disposición de terceros. Además, serían modelos especialmente entrenados con nuestras lenguas”, señala en conversación con EL CORREO GALLEGO Senén Barro.

A pesar de que algunos modelos tienen una competencia muy alta en el castellano, no ocurre en igual modo con el catalán, el euskera y el gallego, “sobre todo por la dificultad para obtener corpus de texto suficientes en cantidad y calidad para entrenar los modelos”.

Por ello, el Gobierno apuesta por modelos que sean “especialmente competentes lógicamente en nuestras lenguas”, aunque también se adiestren para otras, ya que “serán modelos en general multilingües”. Además, será una apuesta público-privada, desde el liderazgo público, “lo que no es tampoco común en el resto de países”. 

“Permitirá que España esté en la vanguardia de la inteligencia artificial y, en particular, de la IA generativa y sus modelos”

Senén Barro

— Director científico del Citius

En palabras de Senén Barro, es una forma también de contribuir a que se desarrolle más la industria en torno a las tecnologías lingüísticas y “a que se forme, atraiga y retenga talento en este sector tan estratégico, además de que se desarrollen aplicaciones derivadas de estos modelos para las administraciones públicas y empresas del país”.

Para hablar del desarrollo de este plan del Gobierno, de sus objetivos y marco temporal, Senén Barro y Josep Maria Martorell, gerente del Barcelona Supercomputing Center, el único centro de España que tiene los recursos de computación adecuados para desarrollar los modelos de mayor tamaño, los cuales requieren de grandes capacidades de computación, se reunieron el lunes con el presidente del Gobierno, Pedro Sánchez; y el ministro José Luis Escrivá, ministro de Transformación Digital y Función Pública.

El proyecto ALIA del Gobierno, que cuenta con una inversión de unos 40 millones de euros, “no pretender ser en todo caso el ChatGPT español” ni competir con las grandes compañías tecnológicas en este sector, sino “alcanzar la solvencia y soberanía tecnológicas necesarias para desarrollar los recursos indispensables en tecnologías lingüísticas en nuestras lenguas”, el talento, la industria propia y las aplicaciones necesarias “para que España esté en la vanguardia de la inteligencia artificial y, en particular, de la IA generativa y sus modelos”.

El primer modelo fundacional está previsto para este mismo año. Senén Barro señala que eso no significa que sea “un modelo que ya pueda dialogar con toda la fluidez y riqueza de conversación, o para según qué usos”, pero significaría que ese algoritmo base ya estaría operativo y en condiciones de seguir siendo mejorado, entrenado, para desarrollar modelos más específicos de usos particulares o para ser utilizado en dominios concretos como la medicina o el derecho. 

La USC está ya colaborando en este “ambicioso” proyecto, y en particular lo viene haciendo dentro de ILENIA (Impulso de las Lenguas en Inteligencia Artificial), un proyecto en curso desde el 2023 y con tres años de vida, hasta 2025. 

ILENIA busca corpus de texto y voz de calidad para entrenar modelos de gran tamaño

Lo están desarrollando una serie de centros que lideran el desarrollo de las tecnologías lingüísticas para las lenguas cooficiales. En Cataluña es el BSC, el responsable de desarrollar un proyecto AINA. En el País Vasco es el HiTZ, un centro de investigación especializado en tecnologías de lenguaje y líder del proyecto GAITU. En la Comunidad Valenciana es el CENID, responsable del proyecto VIVES. En Santiago son el ILG y el CITIUS, ambos de la USC, responsables del proyecto NÓS, junto con la Xunta de Galicia. ILENIA los reúne a todos con fondos del Proyecto Estratégico para la Recuperación y Transformación Económica (PERTE) Nueva Economía de la Lengua, para hacer un desarrollo conjunto cooperativo de recursos en tecnologías lingüísticas para las lenguas cooficiales.

Los objetivos principales de ILENIA, según Barro, son conseguir corpus de texto y voz de calidad y de tamaño suficiente para poder abordar el entrenamiento de modelos de gran tamaño, “algo que hasta ahora era impensable”. Se están ya desarrollando también algunos modelos de voz y texto, aunque de tamaños inferiores a los que se quieren desarrollar en ALIA, “pero que para usos específicos cumplen también una función importante”. En este sentido, se ha creado y está disponible en abierto el primer traductor neuronal entre gallego, castellano e inglés, o los primeros sintetizadores y reconocedores de voz en gallego, también de tecnología neuronal. 

El idioma gallego en el ChatGPT

ChatGPT se desenvuelve relativamente bien en gallego, pero su competencia en el uso de esta o de cualquier otra lengua se puede mejorar si se dispone de más datos de entrenamiento y, obviamente, la voluntad de hacerlo. Sin embargo, “parece evidente que OpenAI, Microsoft, Google, Amazon o Meta no se van a preocupar por mejorar las competencias en gallego de sus herramientas por no considerar que sea un mercado atractivo, por tamaño, para sus intereses”. De momento han utilizado los corpus de texto que ya estaban disponibles en gallego, en general en Internet por lo que “no habrá alternativa a que desde Galicia y España nos preocupemos por mejorar y aumentar estos corpus".

Precisamente por esto, tanto el proyecto NÓS, como en su participación en ILENIA, “buscamos conseguir más y mejores datos, algo que es muy costoso tanto en medios materiales como humanos, pero absolutamente imprescindible, ya que condiciona todo lo que viene después”.

Además, Senén señala que todo esto hay que hacerlo respetando la propiedad y derecho de esos datos, “algo que en general no han hecho las grandes empresas” que lideran el desarrollo y el mercado de los grandes modelos de lenguaje. 

Suscríbete para seguir leyendo