Das Doulbao Mockup -Team von Bytedance hat kürzlich einen wichtigen technologischen Durchbruch angekündigt, der den wichtigsten Engpass der MOE -Architektur der Hybrid Expert Model (MOE) und Open Source eine Optimierungstechnologie namens Comet erfolgreich überwunden hat. Diese Technologie verbessert nicht nur die Trainingseffizienz großer Modelle erheblich, sondern reduziert auch die Schulungskosten erheblich und bringt neue Entwicklungsmöglichkeiten auf den Bereich großer Modelle.
Der Kern der Kometentechnologie liegt in den effizienten Optimierungsfähigkeiten, die die Schulungseffizienz großer Modelle auf das 1,7 -fache erhöhen und gleichzeitig die Schulungskosten um 40%senken können. Dieses bahnbrechende Ergebnis wurde praktisch im Wanka -Cluster -Training von Bytedance angewendet, wobei insgesamt Millionen von GPU -Stunden Trainingsförderung gespart wurden und seine leistungsstarke Leistung in den tatsächlichen Szenarien demonstrieren.
Im Vergleich zu MOE -Optimierungslösungen wie Dualpipe, die von Deepseek offen bezogen werden, hat die Kometentechnologie eine stärkere Kompatibilität und Bequemlichkeit. Es kann sich direkt mit dem vorhandenen MOE-Schulungsrahmen wie einem Plug-in verbinden und die großen Modelle der Mainstream-Modelle in der Branche ohne invasive Änderungen am Trainingsrahmen unterstützen. Diese nahtlose Integrationsfunktion macht Comet in technischen Anwendungen flexibler und effizienter.
Technische Daten zeigen, dass nach der Einführung von Comet eine einzelne MOE-Schicht 1,96-fache Beschleunigung und eine durchschnittliche Effizienzanstieg von End-to-End-Effizienz um das 1,71-fache erreichen kann. Darüber hinaus hat Comet eine stabile Leistung in verschiedenen parallelen Strategien, Inputskalen und Hardware -Umgebungen gezeigt, was deren breite Anwendbarkeit demonstriert. Bemerkenswerter ist, dass Comet auch in Verbindung mit Deepseeks Dualpipe -Lösung verwendet werden kann, die die Modelltrainingskosten weiter stark komprimieren soll.
Die Open Source dieser Technologie bringt zweifellos neue Durchbrüche in den Bereich großer Modelle und wird voraussichtlich die Forschung und Entwicklung und Anwendung großer Modelle beschleunigen. Durch die Reduzierung der Schulungskosten und die Verbesserung der Effizienz wird die Kometentechnologie mehr Unternehmen und Forschungsinstitutionen unterstützt, um die Weiterentwicklung künstlicher Intelligenztechnologie zu fördern.
Papieradresse: https://arxiv.org/pdf/2502.19811
Open Source -Adresse: https://github.com/bytedance/flux?continueFlag=C1D74DD2912AB3909A1A27FE4F5CF519