В области искусственного интеллекта дорогостоящий эксперимент тихо меняет способ обучения больших языковых моделей. Пошаговая исследовательская группа недавно опубликовала важный результат исследования. Они обучили 3700 моделей различных размеров с нуля, потратив почти 1 миллион NVIDIA H800 часов вычислительной мощности и обучили в общей сложности 100 триллионов токенов, обнаружив универсальное правило масштабирования, называемое «Закон о шаге». Это открытие обеспечивает новое руководство для эффективной подготовки крупных языковых моделей.
Это исследование представляет собой не только исследование оптимизации гиперпараметрических часов, но и всестороннее изучение стабильности оптимальных гиперпараметров модели при различных формах, редкость и распределение данных. Результаты исследований показывают, что шаг закон демонстрирует чрезвычайно надежность независимо от архитектурного дизайна модели и языка или области обучающих данных, что значительно повышает ценность инструмента в практических приложениях.
3700 моделей, обученных исследовательской группой, охватывают конфигурации различных масштабов, различные комбинации гиперпараметрических, разные формы, различные отношения данных и различные разреженности, включая две архитектуры: MOE и Dense. Благодаря этим масштабным экспериментам они обнаружили, что оптимальная скорость обучения показывает изменение в сфере составления составления с шкалой параметров модели и шкалы данных, а оптимальный размер партии в основном связан с шкалой данных. Это открытие подрывает традиционное понимание индустрии настройки гиперпараметра.

Экспериментальные данные показывают, что при условии фиксированного размера модели и размера данных ландшафт, оптимизированный гиперпараметром, представляет собой очевидные выпуклые характеристики, что означает, что существует стабильная и простая оптимальная область гиперпараметра. Чтобы проверить это, исследовательская группа построила трехмерное визуальное пространство, чтобы визуально продемонстрировать влияние уровня обучения и размера партии на убытки обучения. Результаты четко показывают форму «долины», причем выпуклый нижний конец является относительно плоской областью, которая обеспечивает ценную теоретическую основу для настройки гиперпараметрических данных на практике.
Чтобы сделать это открытие принести пользу всему сообществу ИИ, команда разработала и запустила общий оптимальный инструмент оценки гиперпараметрических. По сравнению с глобальными оптимальными гиперпараметрами, полученными с помощью исчерпывающего поиска, разрыв в производительности между результатами прогнозирования этого инструмента составляет всего 0,09%. Это означает, что исследователи и инженеры больше не могут полагаться на дорогие поиски сетки, но непосредственно получают почти оптимальные конфигурации гиперпараметров через этот инструмент.
Что еще более впечатляет, так это универсальность пошагового закона. Исследовательская группа проверила свой объем применения под тремя разными углами: во -первых, независимо от того, как изменяется форма модели - независимо от того, смещена ли она в сторону ширины, глубины или глубины ширины - шаг закон может точно предсказать оптимальную область гиперпараметрического; Во -вторых, это правило не только применимо к плотной модели, но и хорошо распространяется на модели MOE с разной редкостью; Наконец, независимо от того, являются ли данные обучения, под руководством английского языка, китайско-английского двуязычного, смешанного кода и английского или распределения на основе кода, STEP Law показывает удивительную стабильность.
Исследование также показывает направление оптимизации стратегий планирования обучения. В отличие от традиционных стратегий распада обучения, команда предложила принять фиксированную минимальную скорость обучения (1E-5) вместо того, чтобы установить минимальное значение на одну десятую из максимальных значений в традиционном методе. Это изменение позволяет обучению поддерживать более разумный размер шага обновления параметров на более позднем этапе, эффективно избегая непрерывного колебания функции потери на этапе сходимости.
Кроме того, исследование показало, что сглаживание потерь тренировок в значительной степени соответствует оптимальным гиперпараметрам потерь проверки, что обеспечивает более экономичный подход к выбору гиперпараметра - исследователи могут направлять корректировки гиперпараметрических данных, контролируя сглаживающие потери тренировок без часто оценивать производительность модели на наборе проверки.
Несмотря на замечательные результаты, исследовательская группа Jieyuexing признала, что это только начало. Они планируют провести различные детали экспериментов с открытым исходным кодом, включая окончательные контрольно-пропускные пункты почти 4000 моделей, для более глубокого анализа и теоретических объяснений во всем сообществе. Будущие направления исследований включают в себя изучение выпуклости трехмерного пространства потерь-BS-LR, улучшение метода подгонки оптимальных гиперпараметров, объясняя изменения в следующей оптимальной области различных конфигураций и углубленные исследования динамики обучения в различных условиях.
Последующая работа в предсказуемой серии масштабов может дополнительно обсудить прогноз производительности сверхуровней модели, масштабирующие свойства кода и математики, а также характеристики масштабирования различных типов внимания. Можно предположить, что эта серия исследований предоставит более всеобъемлющее теоретическое руководство и практические инструменты для эффективной подготовки крупных языковых моделей и продвигать технологию ИИ для развития в более эффективном и контролируемом направлении.