Jueves, 25 de Septiembre de 2025
Diario de Economía de la Región de Murcia
OPINIÓNEl colapso
  • Buscar
Juan Luis Pedreño

El colapso

 

Es una cuestión de números. Ya sabemos que los sistemas de inteligencia artificial, especialmente los LLM o IA generativa, son capaces de dar resultados razonables. Pero para que al mismo tiempo sean fiables, el número de datos de entrenamiento debe ser muy elevado. Hablamos de cifras que cuesta imaginar. Y hablamos de datos, que pueden ser textos, pero también imágenes, audios o videos. Una locura de datos de todo tipo. Y claro, como los sistemas de computación son cada vez más potentes porque ya hay chips dedicados a estas cosas y Data Centers muy grandes, pues la locura es aún mayor. Miles de billones de datos que son necesarios para entrenar estos sistemas con billones de parámetros que hay que calcular de forma simultánea. No es de extrañar tanto consumo energético para generar un zombi sentado en un sofá viendo a la tuna cantando, por ejemplo. Algo inofensivo pero muy costoso. Parece como muy fácil todo esto. Generar datos para entrenar sistemas IA, como el que sujeta la lista de la compra, con un imán en el frigorífico.

 

[Img #10370]

 

Y es, entones, al empezar a escribir este artículo, cuando me viene a la memoria de mi época de tesitando, los ficheros de datos en formato “.txt” que necesitaba para entrenar las redes neuronales artificiales del neurocontrolador y conseguir mover robots humanoides que aprendieran a manipular objetos en entornos que nunca habían conocido antes. Un Deep Learning en miniatura, porque no había capacidad de computación en tiempo real necesaria y, mucho menos, datos suficientes y de calidad para entrenar el sistema. Cada maniobra del robot era una línea en un fichero de aprendizaje. Y así se necesitaban varios cientos para tener una solución con cierta precisión. Algo que nos permitiera conseguir un resultado digno.

 

Veinte años después, la tecnología ha cambiado mucho. Y con ello los modelos de inteligencia artificial primero y la IA generativa después. Aún no sabemos qué será lo siguiente, pero lo cierto es que ahora nos encontramos con dos tipos de sistemas IA. En común, que todos necesitan muchos datos para entrenarse. Lo diferente, que hay sistemas que necesitan datos de entrenamiento que se consiguen fácilmente y en cantidad, pero otros no tanto. Entre los primeros, crear informes, canciones, dibujos, carteles, recetas de cocina, libros, discursos, leyes y cosas así. Entre los segundos, el coche autónomo, mover un robot inteligente o el reconocimiento 3D de objetos. Sistemas que necesitan entrenarse con datos que son una tortura conseguirlos.

 

Pero ya hay solución para ello. El invento de los 'datos sintéticos'. Un nuevo concepto que consiste en fabricar digitalmente los datos que proporcionaría un sistema real. De esta forma, pásmense, un sistema de IA puede entrenarse a sí mismo. Ya se podría haber inventado antes y me habría ahorrado muchos fines de semana encerrado en el laboratorio maniobrando un robot para generar un pequeño fichero de entrenamiento. Pero como la naturaleza tiende a fastidiar los buenos inventos, ahora resulta que, en un reciente artículo científico, publicado en la revista Nature, el uso masivo de datos sintéticos está creando lo que se llama el 'Riesgo de Colapso del Sistema'. Esto es para otra historia, pero es que, con esto de la IA, nunca descansa uno. No se termina de ser feliz del todo. Siempre toca, cuando no es un pito es una pelota.

 

Linkedin: Juan Luis Pedreño

Con tu cuenta registrada

Escribe tu correo y te enviaremos un enlace para que escribas una nueva contraseña.