El gigante tecnológico ruso Yandex ha abierto su herramienta YaFSDP de desarrollo propio, un método de optimización para la formación de modelos de lenguajes grandes (LLM) cuya eficiencia lidera la industria. YaFSDP puede aumentar significativamente la velocidad de capacitación de LLM, hasta un 26%, y ahorrar significativamente los costos de recursos de GPU, lo que sin duda es un gran beneficio para las empresas y los desarrolladores de IA. Esta herramienta funciona particularmente bien cuando el tamaño de los parámetros de capacitación alcanza entre 30 mil millones y 70 mil millones, lo que brinda más posibilidades para que las pequeñas y medianas empresas y los desarrolladores individuales capaciten LLM de forma independiente.
Yandex, un gigante tecnológico de Rusia, ha abierto recientemente su herramienta YaFSDP desarrollada de forma independiente a la comunidad global de IA, que actualmente es el método de optimización de entrenamiento de modelos de lenguaje grande (LLM) más eficiente de la industria. En comparación con la tecnología FSDP ampliamente utilizada en la industria, YaFSDP puede aumentar la velocidad de capacitación LLM hasta en un 26%, lo que se espera que ahorre muchos recursos de GPU para empresas y desarrolladores de IA.
YaFSDP (Yandex Full Sharded Data Parallel) es una versión mejorada de Yandex basada en FSDP. Se centra en optimizar la eficiencia de la comunicación de la GPU y el uso de la memoria, eliminando los cuellos de botella en el proceso de formación de LLM. En tareas que requieren mucha comunicación, como la capacitación previa, la alineación y el ajuste, YaFSDP muestra excelentes mejoras de rendimiento, especialmente cuando el tamaño de los parámetros de capacitación alcanza entre 30 mil millones y 70 mil millones.

Mikhail Khruschev, experto senior en desarrollo de Yandex y miembro del equipo de YaFSDP, dijo: "YaFSDP es más adecuado para modelos de código abierto ampliamente utilizados basados en la arquitectura LLaMA. Seguimos optimizando y ampliando su versatilidad en diferentes arquitecturas de modelos y parámetros. tamaños, con miras a su uso más amplio. Mejorar la eficiencia del entrenamiento en diversos escenarios."
Se estima que, tomando como ejemplo el entrenamiento de un modelo con 70 mil millones de parámetros, el uso de YaFSDP puede ahorrar alrededor de 150 recursos de GPU, lo que equivale a ahorrar entre 500.000 y 1,5 millones de dólares estadounidenses en costos informáticos por mes. Se espera que este ahorro de costes haga que la formación autónoma de LLM sea más viable para las pymes y los desarrolladores individuales.
Al mismo tiempo, Yandex también promete continuar contribuyendo al desarrollo de la comunidad global de IA. El código abierto de YaFSDP es un reflejo de este compromiso. Anteriormente, la compañía ha compartido una serie de herramientas de inteligencia artificial de código abierto de gran prestigio, como la biblioteca de aumento de gradiente de alto rendimiento CatBoost, el algoritmo de compresión de modelos extremos AQLM y la biblioteca de simplificación del entrenamiento de modelos Petals.
Los analistas de la industria señalan que a medida que la escala de LLM continúe expandiéndose, mejorar la eficiencia de la capacitación se convertirá en la clave para el desarrollo de la inteligencia artificial. Se espera que avances técnicos como YaFSDP ayuden a la comunidad de IA a avanzar más rápidamente en la investigación de modelos grandes y explorar sus perspectivas de aplicación en el procesamiento del lenguaje natural, la visión por computadora y otros campos.
El código abierto de YaFSDP demuestra la actitud positiva y la contribución de Yandex en la promoción del desarrollo de la tecnología de IA. También proporciona una herramienta poderosa para la comunidad global de IA, reduciendo aún más el umbral para el entrenamiento de modelos grandes y acelerando la popularización y aplicación de la tecnología de IA.