El equipo de maquetas de DoBao de Bytedance anunció recientemente un gran avance tecnológico, superando con éxito el cuello de botella clave de la arquitectura del modelo de expertos híbridos (MOE), y código abierto una tecnología de optimización llamada Comet. Esta tecnología no solo mejora significativamente la eficiencia de capacitación de modelos grandes, sino que también reduce en gran medida los costos de capacitación, lo que brinda nuevas oportunidades de desarrollo al campo de los modelos grandes.
El núcleo de la tecnología Comet se encuentra en sus capacidades de optimización eficientes, lo que puede aumentar la eficiencia de capacitación de modelos grandes a 1,7 veces, al tiempo que reduce los costos de capacitación en un 40%. Este resultado innovador se ha aplicado prácticamente en el entrenamiento de clúster Wanka de Bytedance, ahorrando millones de horas de GPU de capacitación de poder informático en total, lo que demuestra su poderoso rendimiento en escenarios reales.
En comparación con las soluciones de optimización de MOE, como Dualpipe, que es abierta de Deepseek, Comet Technology tiene una compatibilidad y conveniencia más fuertes. Puede conectarse directamente al marco de capacitación MOE existente como un complemento, que admite grandes modelos principales en la industria sin modificaciones invasivas al marco de capacitación. Esta función de integración perfecta hace que el cometa sea más flexible y eficiente en aplicaciones técnicas.
Los datos técnicos muestran que después de la introducción de Comet, una sola capa MOE puede lograr 1,96 veces la aceleración y un aumento de eficiencia promedio de extremo a extremo de 1.71 veces. Además, Comet ha mostrado un rendimiento estable en diferentes estrategias paralelas, escalas de entrada y entornos de hardware, lo que demuestra su amplia aplicabilidad. Lo que es más notable es que Comet también se puede usar junto con la solución de doble tuga de Deepseek, que se espera que comprime mucho el costo de entrenamiento del modelo.
El código abierto de esta tecnología indudablemente trae nuevos avances al campo de los grandes modelos y se espera que acelere la investigación y el desarrollo y la aplicación de grandes modelos. Al reducir los costos de capacitación y mejorar la eficiencia, Comet Technology brindará apoyo a más empresas e instituciones de investigación para promover el desarrollo adicional de la tecnología de inteligencia artificial.
Dirección en papel: https://arxiv.org/pdf/2502.19811
Dirección de código abierto: https://github.com/bytedance/flux?continueflag=c1d74dd2912ab3909a1a27fe4f5cf519