Modelos de IA colapsan al ser "entrenados" recursivamente
26 de julio de 2024Modelos de inteligencia artificial (IA) generativa como GPT-3 y Stable Diffusion transforman la creación de contenido, pero ¿qué pasa cuando estos modelos generan ellos mismos la mayor parte de los datos que usan para entrenar a las siguientes generaciones? Se produce entonces la llamada "generación recursiva" de datos, que podría derivar en un bucle de "conocimiento" y puede generar distorsiones an la presunta información que dan a los usuarios y a los propios modelos. Un nuevo estudio revela que esta práctica puede llevar al "colapso del modelo", un proceso degenerativo en el que los modelos pierden gradualmente la capacidad de capturar y reflejar la realidad.
El llamado "colapso" ocurre cuando los modelos de IA son entrenados recursivamente con datos generados por modelos anteriores, y no con datos del mundo real. Con cada regeneración, el modelo se desvía más y más de la distribución real de datos, creando una especie de "eco-cámara" en la que los modelos se alimentan de sus propias predicciones.
Tres factores claves
El colapso del modelo se produce por la acumulación de tres tipos de errores:
- Error de aproximación estadística: Los modelos trabajan con un número finito de datos, lo que lleva a errores al momento de estimar la distribución real.
- Error de expresividad funcional: Los modelos de IA, como las redes neuronales, tienen límites en su capacidad de representar la complejidad del mundo real.
- Error de aproximación funcional: Los algoritmos de aprendizaje, como el descenso de gradiente, también introducen errores en el proceso de aprendizaje.
El reto del "colapso del modelo" fue abordado en un estudio que publica este viernes la revista Nature. El estudio presenta dos aplicaciones de modelos matemáticos para ilustrar la reacción fallida de los modelos. El primero es la llamada distribución discreta de probabilidad: en este caso, el modelo pierde información sobre los eventos menos probables (colas de la distribución), convergiendo a una "función delta" que representa un único valor.
En cuanto a la distribución gaussiana, los autores del estudio proponen que, con el tiempo, el modelo colapsa a una distribución con varianza cero, perdiendo información sobre la variabilidad de los datos originales.
Implicaciones para los modelos de lenguaje
El estudio también explora el colapso del modelo en modelos de lenguaje. Se entrenaron modelos de lenguaje OPT-125m en el conjunto de datos Wikitext2, utilizando datos creados a partir de regeneraciones anteriores. Los resultados mostraron una disminución gradual en el rendimiento del modelo, con una mayor tendencia a producir secuencias de texto más probables según la distribución original, pero también secuencias improbables que reflejan errores acumulados.
A la larga, el colapso del modelo podría tener implicaciones importantes para el futuro de la IA generativa, dicen los científicos. Para evitar dicho colapso, es fundamental mantener acceso a los datos reales, no generados por IA.
Luego, habría que generar mecanismos de seguimiento del origen del contenido. Se necesitan sistemas que puedan rastrear el origen de los datos generados por IA, evitando así la contaminación de los conjuntos de datos de entrenamiento.
El tercer eje consistiría en solucionar problemas con la equidad en las predicciones. La pérdida de información sobre eventos poco probables puede afectar la equidad de las predicciones de los modelos de IA, por ejemplo, en relación con el análisis de información relacionada con grupos marginados.
Las RAG como posible solución
Los autores del estudio concluyen que el colapso del modelo es un problema serio que debe ser considerado por los investigadores e ingenieros de IA. Investigar y desarrollar estrategias para evitar este fenómeno y asegurar la sostenibilidad y la confiabilidad de los modelos de IA generativa en el futuro conformar retos fundamentales en el desarrollo actual de la inteligencia artificial.
Por eso, una de las disciplinas más en boga en el campo de la inteligencia artificial es la llamada "generación aumentada por recuperación", o RAG por sus siglas en inglés. Según especialistas de IA del consorcio global Amazon, "es el proceso de optimización de la salida de un modelo lingüístico de gran tamaño, de modo que haga referencia a una base de conocimientos autorizada fuera de los orígenes de datos de entrenamiento antes de generar una respuesta".
El objetivo es "crear bots que puedan responder a las preguntas de los usuarios en diversos contextos mediante referencias cruzadas de fuentes de conocimiento autorizadas". Sin embargo, al igual que los especialistas del estudio, Amazon advierte que "desafortunadamente, la naturaleza de la tecnología de los modelos de lenguaje LLM introducen imprevisibilidad en las respuestas".
Editado por Enrique López con información de Nature y Amazon