{ cifras y letras }

Os datos e as palabras, mellor boas que moitas

Senén Barro Ameneiro

Senén Barro Ameneiro

Hoxe a intelixencia artificial está dominada pola aprendizaxe automática. Esas matemáticas que aprenden a partir de datos, como en ocasións refírome ao tema. En xeral falamos de grandes cantidades de datos para aprender a solución ou resposta a un problema dado, pero non sempre. Ademais, ás veces non é que non sexan necesarios, senón que simplemente non dispoñemos deles.

Por outra banda, é máis importante a calidade e representatividade dos datos, que a súa cantidade e diversidade. Se quixese predicir a talla das persoas a partir da lonxitude do seu pé, podería tentar deseñar un predictor partindo dos valores do tamaño do pé (variable independente) e altura (variable a predicir), dun conxunto de persoas. Pero se só usase datos de nenos, e ademais menores de 12 anos, a predición obtida non serviría igualmente para nenas, e moito menos para persoas adultas. Non digamos xa se os valores da altura non fosen correctos, ao non haber descalzado ás persoas antes de medilas.

Un dos temas de investigación que hoxe reclama un gran interese é precisamente a aprendizaxe a partir de poucos datos, ou ata dun único exemplo. Pode parecernos raro, pero as persoas facémolo. Un neno de poucos anos que só vise algunhas fotos de leóns, en xeral non terá problemas para recoñecelos na súa primeira visita ao zoo.

De momento as máquinas necesitan moitos exemplos para aprender, pero, do mesmo xeito que nós, prefiren menos datos e bos, que moitos e de regular calidade. Tamén ocorre coas palabras, que non deixan de ser datos cos que as máquinas aprenden a traducir ou a facer o resumo dun texto, poñamos por caso. Se adestramos un modelo de linguaxe sobre un corpus de texto que contén abundante linguaxe sexista ou filonazi, dito modelo farase eco, cando non reo, de expresións que non consideramos aceptables.

O mesmo que prefiro as máquinas que pensan máis que falan, e non se limitan a ser cotorras mecánicas, tamén aprecio máis á xente que non fala por diante do pensamento. É certo que segundo en que circunstancias agradécese a espontaneidade, que alguén rompa o xeo e ata que caldee un pouco o ambiente. Pero se a bo entendedor poucas palabras bastan, ao que é un bo escoitador gústanlle tamén os silencios, e ata oír a súa propia voz, e non que todo sexan monólogos alleos, deses de falar case sen respirar, como no mergullo en apnea.

Doume conta de que comecei falándolles de datos e de máquinas que aprenden deles, para acabar facéndoo de persoas que falan sen parar. É que, se non temos coidado, as máquinas acabarán parecéndose demasiado a nós.