최근 Ant Group의 Ling 팀은 Preprint Arxiv 플랫폼에 대한 설득력있는 기술 논문을 발표했습니다. 이 논문은 그들이 개발 한 두 가지 새로운 대형 언어 모델 인 Ling-Lite와 Ling-Plus에 대해 자세히 설명합니다. 이 두 모델은 저 성능 하드웨어에 대해 효율적으로 교육을받을 수있는 몇 가지 혁신적인 기술로 설계되어 비용을 크게 줄입니다.
Bailing Lightweight Edition의 매개 변수 척도는 168 억이며, 그 중 활성화 매개 변수는 275 억입니다. 강화 된 도크 모델은 최대 2,900 억 개의 매개 변수와 288 억 개의 활성화 매개 변수를 가지고 있습니다. 두 모델의 성능은 업계 최고의 수준, 특히 향상된 버전에 도달합니다. 3 천억 개의 매개 변수 MOE 모델은 국내 GPU를 사용하여 저 성능 장치에 대해 훈련 할 때 고급 NVIDIA 칩 모델과 비교할 수 있습니다.

일반적으로 MOE 모델의 교육은 NVIDIA의 H100 및 H800과 같은 고가의 고성능 GPU에 의존해야하며, 이는 비용이 많이 드는 것뿐만 아니라 칩 부족에 의해 제한되어 자원 제한 환경에서의 응용에 영향을 미칩니다. 이를 위해 Ant Group Ling 팀은 새로운 목표를 제안했습니다. "고급 GPU를 사용하지 않음"은 모델을 확장하여 리소스 및 예산 제한을 뚫고 있습니다. 혁신적인 교육 전략에는 동적 매개 변수 할당, 혼합 정밀 스케줄링 및 업그레이드 된 교육 예외 처리 메커니즘이 포함됩니다. 이러한 전략은 인터럽트 응답 시간을 효과적으로 단축하고 모델 평가 프로세스를 최적화하며 검증주기를 50%이상 압축합니다.
실험 중에 Ling 팀은 Ling-Plus Pre-Training을 9 조 토큰으로 수행했습니다. 결과는 고성능 하드웨어 구성을 사용하여 1 조 3 천만 토큰을 훈련하는 비용이 약 6,650 만 위안이며, ANT의 최적화 방법을 사용한 후에 저지대 하드웨어의 훈련 비용은 약 5 천 8 백만 위안으로 감소하여 거의 20%를 절약했습니다. 동시에, 성능은 Alibaba Tongyi Qwen2.5-72B- 강조 및 Deepseek-V2.5-1210-Chat과 비교할 수 있습니다.
이 기술 성취도가 널리 사용될 수 있다면, 국내 대형 모델에보다 비용 효율적인 솔루션을 제공하고, NVIDIA 칩에 대한 의존도를 줄이며, 미래의 인공 지능 개발을위한 새로운 경로를 열어 줄 것입니다.