인공 지능 분야에서, 값 비싼 실험은 대형 언어 모델을 훈련시키는 방식을 조용히 바꾸고 있습니다. 단계별 연구팀은 최근 중요한 연구 결과를 발표했습니다. 그들은 거의 백만 개의 NVIDIA H800 GPU 시간의 컴퓨팅 전력을 소비하여 처음부터 서로 다른 크기의 3,700 개의 모델을 훈련 시켰으며 총 100 조의 토큰을 훈련시켜 "Step Law"라는 보편적 인 스케일링 규칙을 드러 냈습니다. 이 발견은 대형 언어 모델의 효율적인 교육을위한 새로운 지침 방향을 제공합니다.
이 연구는 초 파라미터 최적화의 탐구 일뿐 만 아니라 다양한 형태, 희소성 및 데이터 분포 하에서 모델 최적의 하이퍼 파라미터의 안정성에 대한 포괄적 인 검사입니다. 연구 결과에 따르면 단계 법은 모델의 아키텍처 설계와 교육 데이터의 언어 또는 분야에 관계없이 매우 견고성을 보여줍니다. 이는 실제 응용 분야에서 도구의 가치를 크게 향상시킵니다.
연구팀이 훈련 한 3,700 개의 모델은 다양한 스케일의 구성, 다른 과다 마취 조합, 서로 다른 모양, 다른 데이터 비율 및 두 가지 아키텍처를 포함하여 서로 다른 희소성의 구성을 다루고 있습니다. 이러한 대규모 실험을 통해 최적의 학습 속도는 모델 매개 변수 척도 및 데이터 스케일로 전력 법률 변경을 보여주고 최적의 배치 크기는 주로 데이터 스케일과 관련이 있습니다. 이 발견은 산업의 초반 변수 설정에 대한 전통적인 이해를 전복시킵니다.

실험 데이터는 고정 된 모델 크기 및 데이터 크기의 조건 하에서, 하이퍼 파라미터-최적화 된 조경은 명백한 볼록 특성을 나타내며, 이는 안정적이고 찾기 쉬운 최적의 하이퍼 파라미터 영역이 있음을 보여줍니다. 이를 확인하기 위해 연구팀은 학습 속도와 배치 크기가 훈련 손실에 미치는 영향을 시각적으로 시각적으로 입증하기 위해 3 차원 시각 공간을 구성했습니다. 결과는 "밸리"모양을 명확하게 보여 주며, 볼록한 바닥은 비교적 평평한 영역이므로, 이는 실제로 초 파라미터 튜닝을위한 귀중한 이론적 기초를 제공합니다.
이 발견이 전체 AI 커뮤니티에 도움이되도록 팀은 일반적인 최적의 하이퍼 파라미터 추정 도구를 개발하고 시작했습니다. 철저한 검색을 통해 얻은 글로벌 최적의 하이퍼 파라미터와 비교하여,이 도구의 예측 결과 사이의 성능 간격은 0.09%에 불과합니다. 이는 연구원과 엔지니어가 더 이상 값 비싼 그리드 검색에 의존 할 수 없지만이 도구를 통해 거의 최적화 된 하이퍼 파라미터 구성을 직접 얻을 수 있음을 의미합니다.
더욱 인상적인 것은 단계 법의 보편성입니다. 연구팀은 3 가지 각도에서 응용 프로그램 범위를 확인했습니다. 첫째, 모델 모양이 어떻게 바이어스, 깊이 또는 너비 깊이 균형을 향해 모델 모양이 변하는지에 관계없이 단계 법률은 최적의과 파라미터 영역을 정확하게 예측할 수 있습니다. 둘째,이 규칙은 조밀 한 모델에도 적용될뿐만 아니라 희소성이 다른 MOE 모델에도 잘 확장됩니다. 마지막으로, 교육 데이터가 영어 주도, 중국어-영어 이중 언어, 코드 및 영어 혼합 또는 코드 기반 배포 여부에 관계없이 Step Law는 놀라운 안정성을 보여줍니다.
이 연구는 또한 학습 속도 예약 전략의 최적화 방향을 보여줍니다. 전통적인 학습 속도 붕괴 전략과 달리 팀은 기존 방법에서 최소값을 최대 값의 10 분의 1로 설정하는 대신 고정 최소 학습 속도 (1E-5)를 채택 할 것을 제안했습니다. 이 변경을 통해 교육은 이후 단계에서보다 합리적인 매개 변수 업데이트 단계 크기를 유지하여 수렴 단계에서 손실 함수의 지속적인 진동을 효과적으로 피할 수 있습니다.
또한, 연구에 따르면 스무딩 훈련 손실은 검증 손실의 최적의 초 파라미터와 매우 일치하는 것으로 나타 났으며, 이는 하이퍼 파라미터 선택에 대한보다 경제적 인 접근 방식을 제공합니다. 연구원들은 검증 세트에서 모델 성능을 자주 평가하지 않고 평활 훈련 손실을 모니터링하여 초 파라미터 조정을 안내 할 수 있습니다.
놀라운 결과에도 불구하고 Jieyuexing 연구팀은 이것이 시작일 뿐이라고 인정했습니다. 그들은 거의 4,000 개 모델의 최종 검문소를 포함하여 오픈 소스 실험에 대한 다양한 세부 사항을 수행하여 더 심층적 인 분석과 지역 사회 전체의 이론적 설명을 수행 할 계획입니다. 미래의 연구 방향에는 Loss-BS-LR 3 차원 공간의 볼록 성을 탐색하고 최적의 하이퍼 파라미터의 피팅 방법을 개선하고, 다른 구성의 다음 최적 영역의 변화를 설명하고, 다른 설정에서 훈련 역학에 대한 심층적 인 연구가 포함됩니다.
예측 가능한 스케일 시리즈의 후속 작업은 초대형 모델의 성능 예측, 코드 및 수학의 스케일링 특성 및 다양한주의 유형의 스케일링 특성에 대해 더 논의 할 수 있습니다. 이 일련의 연구는 대형 언어 모델의 효율적인 교육을위한보다 포괄적 인 이론적 지침과 실용적인 도구를 제공하고보다 효율적이고 제어 가능한 방향으로 개발하도록 AI 기술을 홍보 할 것임을 예견 할 수 있습니다.