El último informe publicado por Epochai indica que los grandes modelos de lenguaje agotarán los conjuntos de datos públicos de entrenamiento de textos de alta calidad del mundo en los próximos años. El informe predice que entre 2026 y 2032, los datos existentes de alrededor de 300 billones de tokens se agotarán, y el "sobreentrenamiento" del modelo ha acelerado este proceso. La versión Llama3 8B de Meta está sobreentrenada unas asombrosas 100 veces. Si todos los modelos adoptan este enfoque, los datos podrían agotarse en 2025. Ante la próxima "escasez de datos", Epochai ha propuesto cuatro posibles soluciones, proporcionando una nueva dirección para la adquisición de datos en el campo de la inteligencia artificial.

Los investigadores señalaron específicamente que el "sobreentrenamiento" es el principal culpable de acelerar el consumo de datos de entrenamiento. Por ejemplo, la última versión 8B de código abierto de Meta, Llama3, tiene un sorprendente sobreentrenamiento 100 veces mayor. Si todos los modelos se comportan así, es posible que nuestros datos tengan que decir adiós en 2025.

Pero no te preocupes, todavía tenemos un camino. Epoch AI proporciona cuatro nuevos métodos para obtener datos de entrenamiento, lo que hace que la "escasez de datos" en el mundo de la IA ya no sea una pesadilla.
1) Datos sintéticos: al igual que una comida preparada con un kit de cocina, los datos sintéticos utilizan el aprendizaje profundo para simular datos reales y generar datos completamente nuevos. Pero no se entusiasme demasiado pronto; la calidad de los datos sintéticos puede ser desigual, propensa a sobreajustarse y carecer de las características lingüísticas matizadas del texto real.
2) Aprendizaje de datos multimodal y entre dominios: este método no se limita a texto, sino que también incluye imágenes, videos, audio y otros tipos de datos. Al igual que en KTV, no solo puedes cantar, bailar, sino también actuar. El aprendizaje multimodal permite que el modelo comprenda y maneje tareas complejas de manera más integral.
3) Datos privados: en la actualidad, la cantidad total de datos de texto privados en el mundo es de aproximadamente 3100 billones de tokens, ¡lo que es más de 10 veces mayor que la de los datos públicos! La seguridad son cosas importantes. Además, el proceso de obtención e integración de datos no públicos puede resultar complejo.
4) Aprendizaje interactivo en tiempo real con el mundo real: deje que el modelo aprenda y mejore mediante la interacción directa con el mundo real. Este enfoque requiere que los modelos sean autónomos y adaptables, capaces de comprender con precisión las instrucciones del usuario y realizar acciones en el mundo real.
Cada uno de los cuatro métodos propuestos por Epochai tiene sus propias ventajas y desventajas y enfrenta diferentes desafíos. En el futuro, la forma de resolver eficazmente los problemas de datos afectará directamente el desarrollo y la aplicación de la tecnología de inteligencia artificial. Esto requiere que los investigadores científicos y la industria trabajen juntos para explorar formas más efectivas de obtener y utilizar datos para garantizar el desarrollo sostenible y saludable de la inteligencia artificial.