Dans le domaine de l'intelligence artificielle, une expérience coûteuse change tranquillement la façon dont les modèles de langue importants sont formés. L'équipe de recherche étape par étape a récemment publié un résultat de recherche important. Ils ont formé 3 700 modèles de différentes tailles à partir de zéro en dépensant près d'un million d'heures de GPU NVIDIA H800 de puissance de calcul, et ont entraîné un total de 100 billions de jetons, révélant une règle de mise à l'échelle universelle appelée "loi de pas". Cette découverte fournit une nouvelle direction directrice pour une formation efficace des modèles de gros langues.
Cette étude n'est pas seulement une exploration de l'optimisation de l'hyperparamètre, mais aussi un examen complet de la stabilité des hyperparamètres optimaux de modèle sous différentes formes, de la rareté et de la distribution des données. Les résultats de la recherche montrent que la loi Step montre une extrême robustesse quelle que soit la conception architecturale du modèle et la langue ou le domaine des données de formation, ce qui améliore considérablement la valeur de l'outil dans les applications pratiques.
Les 3 700 modèles formés par l'équipe de recherche couvrent les configurations de différentes échelles, différentes combinaisons d'hyperparamètre, différentes formes, différents rapports de données et différentes rareté, y compris deux architectures: MOE et dense. Grâce à ces expériences massives, ils ont constaté que le taux d'apprentissage optimal montre un changement de loi de puissance avec l'échelle des paramètres du modèle et l'échelle de données, et la taille optimale du lot est principalement liée à l'échelle de données. Cette découverte renforce la compréhension traditionnelle de l'industrie des paramètres d'hyperparamètre.

Les données expérimentales montrent que sous la condition de la taille fixe du modèle et de la taille des données, le paysage optimisé par l'hyperparamètre présente des caractéristiques convexes évidentes, ce qui signifie qu'il existe une zone hyperparamètre optimale stable et facile à trouver. Pour vérifier cela, l'équipe de recherche a construit un espace visuel tridimensionnel pour démontrer visuellement l'impact du taux d'apprentissage et de la taille des lots sur les pertes de formation. Les résultats montrent clairement la forme de la "vallée", l'extrémité inférieure convexe étant une zone relativement plate, qui fournit une base théorique précieuse pour le réglage de l'hyperparamètre dans la pratique.
Pour faire en sorte que cette découverte profite à toute la communauté de l'IA, l'équipe a développé et lancé un outil d'estimation d'hyperparamètre optimal commun. Par rapport aux hyperparamètres optimaux globaux obtenus grâce à une recherche exhaustive, l'écart de performance entre les résultats de prédiction de cet outil n'est que de 0,09%. Cela signifie que les chercheurs et les ingénieurs ne peuvent plus compter sur des recherches coûteuses sur une grille, mais obtenir directement des configurations d'hyperparamètre presque optimales via cet outil.
Ce qui est encore plus impressionnant, c'est l'universalité de la loi sur les étapes. L'équipe de recherche a vérifié sa portée d'application sous trois angles différents: Premièrement, peu importe comment la forme du modèle change - qu'elle soit biaisée vers la largeur, la profondeur ou l'équilibre approfondie - la loi sur les étapes peut prédire avec précision la région d'hyperparamètre optimale; Deuxièmement, cette règle s'applique non seulement au modèle dense, mais s'étend également bien aux modèles MOE avec une rareté différente; Enfin, que les données de formation soient dirigées par l'anglais et le chinois-anglais, la distribution bilingue de code à anglais ou basée sur le code, la loi de Step montre une stabilité incroyable.
La recherche révèle également la direction d'optimisation des stratégies de planification des taux d'apprentissage. Contrairement aux stratégies traditionnelles de désintégration du taux d'apprentissage, l'équipe a proposé d'adopter un taux d'apprentissage minimum fixe (1E-5) au lieu de fixer la valeur minimale à un dixième de la valeur maximale dans la méthode traditionnelle. Ce changement permet à la formation de maintenir une taille d'étape de mise à jour des paramètres plus raisonnable au stade ultérieur, évitant efficacement l'oscillation continue de la fonction de perte au stade de convergence.
De plus, l'étude a révélé que le lissage des pertes d'entraînement est très cohérent avec les hyperparamètres optimaux des pertes de vérification, qui fournit une approche plus économique de la sélection des hyperparamètres - les chercheurs peuvent guider les ajustements d'hyperparamètre en surveillant les pertes de formation de lissage sans évaluer fréquemment les performances du modèle sur l'ensemble de vérification.
Malgré les résultats remarquables, l'équipe de recherche de Jieyuexing a admis que ce n'était que le début. Ils prévoient de mener divers détails sur les expériences open source, y compris les points de contrôle finaux de près de 4 000 modèles, pour une analyse plus approfondie et des explications théoriques dans toute la communauté. Les orientations de recherche futures comprennent l'exploration de la convexité de l'espace tridimensionnel Loss-BS-LR, l'amélioration de la méthode d'ajustement d'hyperparamètres optimaux, expliquant les changements dans la région optimale suivante de différentes configurations et recherche approfondie sur la dynamique de la formation dans différents contextes.
Les travaux de suivi dans la série d'échelles prévisibles peuvent discuter davantage de la prédiction des performances du modèle super grand, des propriétés de mise à l'échelle du code et des mathématiques et des caractéristiques de mise à l'échelle des différents types d'attention. On peut prévoir que cette série de recherches fournira des conseils théoriques et des outils pratiques plus complets pour une formation efficace de modèles de grandes langues et favoriser la technologie de l'IA pour se développer dans une direction plus efficace et contrôlable.