En el campo de la inteligencia artificial, la capacitación de modelos de idiomas grandes (LLM) siempre ha sido una tarea intensiva en recursos, generalmente solo unos pocos gigantes tecnológicos pueden emprender. Sin embargo, el método de Salt recientemente lanzado de Google (Small Model Assisted Model Model Training) puede cambiar completamente esta situación. Esta innovación no solo reduce los costos de capacitación, sino que también mejora el desempeño del modelo, abriendo la puerta al desarrollo de IA para más instituciones de investigación y empresas.

Notas de fuente de imagen: La imagen es generada por AI y el proveedor de servicios autorizado de imagen MidJourney
El núcleo del método de sal se encuentra en su proceso de entrenamiento de dos etapas. La primera etapa es la destilación del conocimiento, y el modelo de lenguaje pequeño (SLM) actúa como un "maestro", pasa el conocimiento aprendido al modelo grande a través de "etiquetas suaves". Esta etapa es particularmente adecuada para tareas básicas que los modelos pequeños han dominado, ayudando a los modelos grandes a sentar una base sólida en el aprendizaje temprano.
La segunda etapa es el aprendizaje auto-supervisado, con grandes modelos que comienzan a aprender de forma independiente, centrándose en tareas más complejas. Esta fase de transición requiere un diseño cuidadoso, incluidas estrategias como la atenuación lineal y la atenuación proporcional lineal, para garantizar que los modelos grandes puedan reducir gradualmente su dependencia de pequeños modelos y, en última instancia, lograr un aprendizaje y optimización independientes.
La investigación de Google muestra que el uso del método de sal para entrenar un modelo grande con 2,8 mil millones de parámetros tiene una reducción del 28% en el tiempo y ha mejorado la precisión en los problemas matemáticos y las tareas de comprensión de lectura en un 3% y un 4% respectivamente. Esta mejora significativa del rendimiento no solo demuestra la eficiencia de la sal, sino que también demuestra su fuerte potencial en tareas complejas.
La aparición de sal no solo mejora la eficiencia del entrenamiento, sino que también reduce el umbral para el desarrollo de IA. En el pasado, los costos de capacitación solo las grandes empresas tecnológicas podían permitirse, y ahora muchas pequeñas instituciones y empresas de investigación pueden participar. Esto promoverá la aparición de soluciones de IA más innovadores y profesionales y promoverá aún más el desarrollo del campo de la inteligencia artificial.
En general, el método de sal no solo mejora el rendimiento de los modelos grandes al introducir el entrenamiento auxiliar de modelos pequeños, sino que también reduce en gran medida el costo de capacitación. Se espera que esta innovación desencadene una revolución en el campo de la IA, lo que permite que más instituciones participen en la investigación y el desarrollo de la IA y promuevan el progreso de toda la industria.