2.000 millóns de palabras: así será o primeiro ChatGPT en galego

No marco do proxecto Nós xa se desenvolveu o modelo sobre o que se vai a sustentar 

A intención é que estea dispoñible no próximo ano 

Captura de pantalla do demostrador do modelo funcional 'Carballo' creado no marco do proxecto Nós

Captura de pantalla do demostrador do modelo funcional 'Carballo' creado no marco do proxecto Nós

A USC vén de dar grandes pasos de cara a conseguir o primeiro ChatGPT en galego ao ter xa dispoñible Carballo, o modelo de linguaxe que permitirá a súa creación, ademais de outras ferramentas e aplicacións de intelixencia artificial xenerativa específicas para a propia lingua.

“O corpus textual utilizado é o máis grande existente ata o momento que se compilou para o galego, con máis de 2.000 millóns de palabras”, conta en conversa con EL CORREO GALLEGO Pablo Gamallo, profesor de lingüística da USC e investigador do Centro Singular de Investigación en Tecnoloxías Intelixentes. O corpus foi elaborado polo Proxecto Nós, que desenvolven o Citius e o Instituto da Lingua Galega (ILG) co impulso da Xunta de Galicia, aínda que na actualidade é subvencionado polo proxecto Ilenia, promovido polo Ministerio para a Transformación Dixital e da Fundación Pública para o impulso de todas as linguas oficiais do Estado.  

‘Carballo’ conta con 1.300 millóns de parámetros, o que se traduce en valores axustados ao longo dun proceso de adestramento a partir de corpus de texto, encamiñado a lograr que o modelo se desenvolva cunha alta competencia no uso do galego. Segundo indica Gamallo, trátase dunha cantidade menor que o modelo que está na base de ChatGPT, ao ser “unhas cen veces máis grande que este”.

Por tanto, o logrado ata agora é o requerimento para chegar ao ChatGPTen galego. “A ferramenta resultante (Chat) non tería sentido sen o modelo fundacional que o sustenta (GPT). Carballo sería o equivalente a ese modelo base sobre o cal agora imos facer unha serie de procesos”, incide o investigador. 

O proxecto Nós desenvolveu xa tres ferramentas que calquera persoa, empresa ou proxecto pode usar de forma gratuíta. Trátase do primeiro tradutor neuronal multilingüe feito en Galicia, o primeiro recoñecedor de voz que entende o galego oral e o converte a texto e unha aplicación de síntese de voz que a partir dun texto é quen de ler en galego. Da parte de texto encárgase o Citius mentras que o ILG coordina a parte de voz. 

Nestes momentos, o modelo Carballo, desenvolvido ao longo de case tres anos, non ten una relación moi directa con estas ferramentas pero, aínda que non sexa inmediato, “poderá servir para mellorar modelos de tradución”. O primeiro será poñer o foco na parte de diálogo e de chat. “Vamos tentar que conteste preguntas porque aínda que tamén traduce faino cunha metodoloxía diferente que corresponde aos modelos de tradución do tradutor Nós”, destaca Gamallo poñen o foco en que estamos ante un modelo textual que non foi entrenado con voz. 

Gamallo incide en que se están creando modelos fundacionais para diferentes linguas. “Funcionan moi ben en inglés e comezan a ter problemas con outras linguas”, di. Así ponse o foco no galego e tamén apostan polo primeiro modelo fundacional galego e portugués, Carvalho, co obxectivo de fortalecer a nosa lingua mediante a inclusión do portugués europeo.

Como factor diferencial máis relevante está o feito de que o recurso é libre “como todo o que se fai no marco do Proxecto Nós co fin de que toda a xente dispoña do que facemos, ben sexa textos, conxuntos de datos ou os modelos como este”. 

“Chat Carballo tamén servirá para crear outros sistemas como diagnóstico en medicina ou para facer asistentes especializados en calquera dominio”

Pablo Gamallo

— Investigador do Citius

O investigador valora que a sociedade vai a mostrar o seu interese cando estea dispoñible o Chat Carballo –que se agarda que estea dispoñible para o vindeiro ano–, pero xa agora as institucións, organizacións e empresas poden utilizar o modelo de linguaxe “para facer os seus propios chatbots de dominos concretos”.

Cando estea dispoñible, Gamallo cree que non vai ser un chat que funcione mellor que o ChatGPT ou outros que xa están no mercado e que pertencen a grandes corporacións americanas. “Esperamos que teña unha calidade de galego maior e un coñecemento máis profundo do que é a nosa cultura”, conta despois de facerlle ao ChatGPT a pregunta de cales son os/as dez investigadores/as galegos máis importantes da historia e de obter como resposta Santiago Ramón y Cajal, que non é galego. “Isto demostra que a pesar de que ten un coñecemento do galego, aínda comete erros da nosa cultura”, di.

Deste xeito, para o 2025 contaríase co primeiro ChatGPT en galego, que a maiores “servirá para crear outros sistemas de moi diversa índole como diagnóstico en medicina ou para facer asistentes especializados en calquera dominio”.

Dentro de Ilenia, o proxecto Nós conta cunha subvención de 2 millóns de euros para tres anos, e van no segundo ano. De aí destínase unha parte para este modelo Carballo. “O custo concreto é dificil de establecer porque estamos traballando en moitas outras cousas como o traductor ou sintetizador de voz”, aclara.

Gamallo agradece a dispoñibilidade e colaboración do CESGA (Centro de Supercomputación de Galicia), “xa que nós necesitamos facer un adestamento destes modelos e cooperan para cedernos espazo”, destaca.