El 57% de los contenidos de internet son generados o traducidos por IA
Que los resultados de las búsquedas se han deteriorado considerablemente con la llegada de la inteligencia artificial es ya una sensación común entre los usuarios. Sin embargo, ahora lo confirma un estudio realizado por investigadores de Amazon Web Services (AWS), que revela que nada menos que el 57% de los contenidos de la web son generados por IA o traducidos con el apoyo de alguno de los modelos de IA actualmente en internet. Al contrario, según los datos que arroja la encuesta, son precisamente los contenidos traducidos por la inteligencia artificial (a menudo de forma somera y no del todo correcta) los que pueblan la web, hasta el punto de que representan «una parte significativa del contenido total en esos idiomas». Pero la cosa no acaba ahí.
Un ciclo terrible
Lo que preocupa a los investigadores es, sobre todo, el hecho de que el continuo crecimiento de contenidos generados por IA en la web, unido a la gran dependencia de los modelos que estamos desarrollando para crear y/o modificar contenidos, podría llevar a lo que en la jerga se denomina «colapso de modelos«. Dado que los chatbots más conocidos, como ChatGpt o Gemini, se entrenan a partir de datos adquiridos mediante el scraping o raspado de la web (una práctica cuyo objetivo es extraer de los sitios los datos útiles para el entrenamiento de los modelos), es evidente que si la calidad de los contenidos en la web se deteriora considerablemente, los modelos también sufrirán en términos de rendimiento. Es un círculo vicioso, que por el momento parece difícil de romper: los sitios web se llenan de contenidos de baja calidad, generados o traducidos por la IA, y luego esos mismos contenidos se convierten en material de entrenamiento para los modelos, que acaban aprendiendo cosas completamente equivocadas.
«Es sorprendente lo rápido que se produce el colapso de los modelos y lo escurridizo que puede llegar a ser», sostiene Ilia Shumailov, investigador de la Universidad de Oxford, señalando que «el colapso de los modelos puede tener graves consecuencias». Está claro que si internet siguiera llenándose de basura, empresas como OpenAI y Google tendrían que encontrar una solución alternativa para entrenar sus modelos. No es de extrañar, por tanto, que el propio Sam Altman, CEO de OpenAI, haya defendido en más de una ocasión la necesidad de acceder a contenidos protegidos por derechos de autor para desarrollar un chatbot de calidad.