Auf dem Gebiet der künstlichen Intelligenz verändert ein kostspieliges Experiment die Art und Weise, wie große Sprachmodelle trainiert werden. Das schrittweise Forschungsteam hat kürzlich ein wichtiges Forschungsergebnis veröffentlicht. Sie trainierten 3.700 Modelle verschiedener Größen von Grund auf, indem sie fast 1 Million NVIDIA H800 GPU -Stunden Computerleistung ausgaben und insgesamt 100 Billionen Token trainierten, wodurch eine universelle Skalierungsregel namens "Stiefverwaltung" enthüllte. Diese Entdeckung bietet eine neue Leitlinie für die effiziente Ausbildung von Modellen in großer Sprache.
Diese Studie ist nicht nur eine Untersuchung der Hyperparameteroptimierung, sondern auch eine umfassende Untersuchung der Stabilität von Modell optimalen Hyperparametern unter verschiedenen Formen, Spärlichkeit und Datenverteilung. Die Forschungsergebnisse zeigen, dass das Stufengesetz unabhängig von der architektonischen Gestaltung des Modells und der Sprache oder des Feldes der Trainingsdaten extrem Robustheit zeigt, die den Wert des Tools in praktischen Anwendungen erheblich verbessern.
Die 3.700 Modelle, die vom Forschungsteam geschult wurden, decken Konfigurationen verschiedener Skalen, verschiedene Hyperparameter -Kombinationen, verschiedene Formen, verschiedene Datenverhältnisse und unterschiedliche Sparsamkeit, einschließlich zwei Architekturen: MOE und Dicht. In diesen massiven Experimenten stellten sie fest, dass die optimale Lernrate eine Änderung der Leistungsschwere mit der Modellparameterskala und der Datenskala zeigt und die optimale Chargengröße hauptsächlich mit der Datenskala zusammenhängt. Diese Entdeckung untergräbt das traditionelle Verständnis der Branche für Hyperparametereinstellungen.

Experimentelle Daten zeigen, dass unter der Bedingung der festen Modellgröße und der Datengröße die hyperparameteroptimierte Landschaft offensichtliche konvexe Eigenschaften aufweist, was bedeutet, dass es einen stabilen und leicht zu findenden optimalen Hyperparameterbereich gibt. Um dies zu überprüfen, baute das Forschungsteam einen dreidimensionalen visuellen Raum, um die Auswirkungen der Lernrate und der Chargengröße auf die Trainingsverluste visuell zu demonstrieren. Die Ergebnisse zeigen deutlich die "Tal" -Form, wobei das konvexe untere Ende ein relativ flacher Bereich ist, der eine wertvolle theoretische Grundlage für die Hyperparameterabstimmung in der Praxis bietet.
Um diese Entdeckung der gesamten KI -Community zugute zu bringen, entwickelte und startete das Team ein gemeinsames optimales Hyperparameter -Schätzwerkzeug. Im Vergleich zu den globalen optimalen Hyperparametern, die durch erschöpfende Suche erhalten wurden, beträgt die Leistungslücke zwischen den Vorhersageergebnissen dieses Tools nur 0,09%. Dies bedeutet, dass Forscher und Ingenieure sich nicht mehr auf teure Rastersuchungen verlassen können, sondern direkt optimale Hyperparameter-Konfigurationen durch dieses Tool erhalten.
Noch beeindruckender ist die Universalität des Schrittgesetzes. Das Forschungsteam hat seinen Anwendungsumfang aus drei verschiedenen Blickwinkeln verifiziert: Erstens kann das Stufenrecht die optimale Hyperparameterregion genau vorhersagen. Zweitens gilt diese Regel nicht nur für das dichte Modell, sondern erstreckt sich auch gut für MOE -Modelle mit unterschiedlicher Spärlichkeit. Unabhängig davon, ob die Schulungsdaten mit Englisch geführter, zweisprachiger chinesisch-englischer, gemischter oder codebasierter Verteilung, die stabile Stabilität sind, sind eine erstaunliche Stabilität.
Die Forschung zeigt auch die Optimierungsrichtung der Lernrate -Planungsstrategien. Im Gegensatz zu traditionellen Strategien für Lernrate-Zerfälle schlug das Team vor, eine feste Mindest-Lernrate (1E-5) festzulegen, anstatt den Mindestwert auf ein Zehntel des Maximalwerts in der herkömmlichen Methode zu setzen. Diese Änderung ermöglicht das Training in der späteren Phase eine vernünftigere Schrittgröße für Parameter -Update, wodurch die kontinuierliche Schwingung der Verlustfunktion in der Konvergenzphase effektiv vermieden wird.
Darüber hinaus ergab die Studie, dass die Glättung von Trainingsverlusten stark mit den optimalen Hyperparametern der Überprüfungsverluste übereinstimmt. Dies bietet einen wirtschaftlicheren Ansatz für die Auswahl der Hyperparameter.
Trotz der bemerkenswerten Ergebnisse gab das Jieyuexing -Forschungsteam zu, dass dies nur der Anfang ist. Sie planen, verschiedene Details von Open Source-Experimenten, einschließlich der endgültigen Kontrollpunkte von fast 4.000 Modellen, durchzuführen, um eine eingehende Analyse und theoretische Erklärungen in der gesamten Gemeinde zu erhalten. Zukünftige Forschungsrichtungen umfassen die Erforschung der Konvexität des dreidimensionalen Raums von Verlust-BS-LR, die Verbesserung der Anpassungsmethode optimaler Hyperparameter, die Erläuterung der Änderungen in der nächsten optimalen Region verschiedener Konfigurationen und eingehender Forschung zu Trainingsdynamik unter verschiedenen Einstellungen.
Nachfolger in der vorhersehbaren Skala-Reihe können die Leistungsvorhersage des Super-großen Modells, die Skalierungseigenschaften von Code & Math und die Skalierungseigenschaften verschiedener Aufmerksamkeitstypen weiter diskutieren. Es kann vorausgesehen werden, dass diese Forschungsreihe umfassendere theoretische Anleitung und praktische Instrumente für die effiziente Ausbildung von Großsprachenmodellen bietet und die KI -Technologie fördert, um sich in effizienterer und kontrollierbarer Richtung zu entwickeln.