{ cifras e letras }

Citius, altius, fortius, también en la IA

Senén Barro Ameneiro

Senén Barro Ameneiro

CITIUS, altius, fortius es una locución latina, que significa: “Más rápido, más alto, más fuerte”. Es parte del lema de los Juegos Olímpicos, ya desde sus inicios, en 1896. También, no me resisto a decirlo, CiTIUS es el nombre del Centro Singular de Investigación en Tecnoloxías Intelixentes de la Universidad de Santiago de Compostela, que tengo el honor y la responsabilidad de dirigir.

No voy a hablar de olimpiadas ni de atletismo, pero sí de carreras. Las que a toda velocidad están siguiendo algunas empresas líderes en el sector de las tecnologías de la información, en particular en el ámbito de la inteligencia artificial. La carrera es desenfrenada, y los corredores son los denominados modelos fundacionales, que permiten crear texto, audio o imágenes, y con una facilidad y calidad asombrosas.

Medio mundo sabe lo que es ChatGPT, aunque no lo esté usando medio mundo. Algo menos de 200 millones lo usamos de forma más o menos frecuente, aunque la gran mayoría solo de forma superficial y pocos saben realmente cuál es el fundamento de su funcionamiento. Pero eso es irrelevante en esta carrera sin paradas. El último de estos ingenios, con el que Google quiere volver a la cabeza de carrera, desbancando a Microsoft, se llama Gemini.

ChatGPT, digámoslo así, tiene varios motores, a cada cual más potente. EL GPT-3 fue el primero y menos capaz. Le siguió el 3.5, y el tope de gama actual es el GTP-4. Como si de cubicaje se tratase, las versiones no dejan de crecer, al menos hasta ahora. Gemini supera las prestaciones de ChatGPT. Claro que esta afirmación la hizo Google, así que pongámosla de momento entre interrogantes.

La forma de comprobar las prestaciones de estos grandes modelos de IA generativa es ver cómo responden ante una serie de pruebas diseñadas para tal fin. Pruebas que miden, por ejemplo, la comprensión lectora (hoy parece que ya pocos ponen en cuestión que estos sistemas comprenden el lenguaje que manejan, aunque no como nosotros, claro, y limitándose a la comprensión en el entorno de su mundo de texto digital en el que se desenvuelven tan bien). Se valora asimismo el conocimiento sobre diversos ámbitos del saber, como la economía o la física, o la resolución de problemas matemáticos, y bastantes cosas más.

Gemini y ChatGPT en su mejor versión, se conocen como modelos multimodales y multipropósito. Multimodales porque son capaces de manejar diversos tipos de datos/información, como texto, audio o imagen. Multipropósito, porque pueden resolver multitud de tareas distintas, como traducir un texto, generar una imagen a partir de una descripción en lenguaje natural o darnos una receta de cocina a partir de esos ingredientes que nos quedan en la despensa y la nevera. Según Google, en las pruebas realizadas en la modalidad textual, la puntuación de ChatGPT con el “motor” GPT-4 es de un 86%, mientras que la de Gemini es del 90%. Más que esta diferencia, sorprende el hecho de que la puntuación de las personas expertas en los ámbitos tratados es del 89%.

La carrera seguirá, no lo duden. Y mientras que nuestras capacidades humanas apenas mejoran con el tiempo, las de las máquinas lo hacen casi cada día. No sabemos a dónde llegarán, pero en el camino hay muchos problemas que tenemos que ir resolviendo alrededor de esta inteligencia que nosotros creamos: las frecuentes invenciones de respuestas, algo que hacen sin ruborizarse; la facilidad para ser atacadas, o pirateadas, como quieran decirlo; el que reproducen los sesgos presentes en los datos de los que aprendieron, lo que puede incluso amplificar los que ya tenemos; o que, como los coches más potentes, consumen aún más de lo que corren.

Abróchense los cinturones, que vamos a despegar.