L'équipe de Doubao Mockup de ByTedance a récemment annoncé une percée technologique majeure, surmonter avec succès le goulot d'étranglement clé de l'architecture Hybrid Expert Model (MOE) et une technologie d'optimisation open source appelée Comet. Cette technologie améliore non seulement l'efficacité de formation des grands modèles, mais réduit également considérablement les coûts de formation, apportant de nouvelles opportunités de développement dans le domaine des grands modèles.
Le cœur de la technologie de la comète réside dans ses capacités d'optimisation efficaces, ce qui peut augmenter l'efficacité de formation des grands modèles à 1,7 fois, tout en réduisant les coûts de formation de 40%. Ce résultat révolutionnaire a été pratiquement appliqué dans la formation de cluster Wanka de Bytedance, économisant des millions d'heures de GPU de puissance de calcul de la formation au total, démontrant ses performances puissantes dans les scénarios réels.
Par rapport aux solutions d'optimisation MOE telles que Dualpipe, qui est ouverte par Deepseek, la technologie de la comète a une compatibilité et une commodité plus fortes. Il peut se connecter directement au cadre de formation MOE existant comme un plug-in, prenant en charge les grands modèles traditionnels de l'industrie sans modifications invasives du cadre de formation. Cette fonction d'intégration transparente rend la comète plus flexible et efficace dans les applications techniques.
Les données techniques montrent qu'après l'introduction de la comète, une seule couche MOE peut atteindre 1,96 fois une accélération et une augmentation moyenne d'efficacité de bout en bout de 1,71 fois. De plus, Comet a montré des performances stables dans différentes stratégies parallèles, échelles d'entrée et environnements matériels, démontrant sa large applicabilité. Ce qui est plus remarquable, c'est que la comète peut également être utilisée en conjonction avec la solution à deuxpipe de Deepseek, qui devrait encore comprimer considérablement le coût de formation du modèle.
L'open source de cette technologie apporte sans aucun doute de nouvelles percées dans le domaine des grands modèles et devrait accélérer la recherche et le développement et l'application de grands modèles. En réduisant les coûts de formation et en améliorant l'efficacité, la technologie COMET fournira un soutien à davantage d'entreprises et d'institutions de recherche pour promouvoir le développement ultérieur de la technologie de l'intelligence artificielle.
Adresse papier: https://arxiv.org/pdf/2502.19811
Adresse open source: https://github.com/bytedance/flux?continueflag=C1D74DD2912AB3909A1A27FE4F5CF519