Bytedance의 Doubao Mockup 팀은 최근 주요 기술 혁신을 발표하여 Hybrid Expert Model (Moe) 아키텍처의 주요 병목 현상을 성공적으로 극복하고 Comet이라는 최적화 기술의 오픈 소스를 성공적으로 극복했습니다. 이 기술은 대규모 모델의 교육 효율성을 크게 향상시킬뿐만 아니라 교육 비용을 크게 줄여서 큰 모델 분야에 새로운 개발 기회를 제공합니다.
혜성 기술의 핵심은 효율적인 최적화 기능에있어 대형 모델의 교육 효율성을 1.7 배로 증가시키는 동시에 교육 비용을 40%줄일 수 있습니다. 이 획기적인 결과는 Bytedance의 Wanka 클러스터 교육에 실질적으로 적용되어 수백만 개의 GPU 시간의 교육용 컴퓨팅 능력을 절약하여 실제 시나리오에서 강력한 성능을 보여줍니다.
DeepSeek가 공개하는 Dualpipe와 같은 MOE 최적화 솔루션과 비교할 때 Comet Technology는 더 강력한 호환성과 편의성을 가지고 있습니다. 플러그인과 같은 기존 MOE 교육 프레임 워크에 직접 연결하여 교육 프레임 워크에 대한 침습적 수정없이 업계의 주류 대형 모델을 지원할 수 있습니다. 이 원활한 통합 기능은 혜성이 기술 응용 프로그램에서보다 유연하고 효율적으로 만듭니다.
기술 데이터에 따르면 혜성이 도입 된 후 단일 MOE 층은 1.96 배의 가속도를 달성하고 엔드-투-엔드 평균 효율이 1.71 배 증가 할 수 있습니다. 또한 Comet은 다양한 병렬 전략, 입력 스케일 및 하드웨어 환경에서 안정적인 성능을 보여 주었으며 광범위한 적용 가능성을 보여줍니다. 더욱 주목할만한 점은 혜성이 DeepSeek의 Dualpipe 솔루션과 함께 사용될 수 있다는 것입니다. 이는 모델 교육 비용을 더 크게 압축 할 것으로 예상됩니다.
이 기술의 오픈 소스는 의심 할 여지없이 큰 모델 분야에 새로운 혁신을 가져 오며 큰 모델의 연구 개발 및 적용을 가속화 할 것으로 예상됩니다. Comet Technology는 교육 비용을 줄이고 효율성을 향상시켜 인공 지능 기술의 추가 개발을 촉진하기 위해 더 많은 기업 및 연구 기관에 지원을 제공 할 것입니다.
종이 주소 : https://arxiv.org/pdf/2502.19811
오픈 소스 주소 : https://github.com/bytedance/flux?continueflag=C1D2912AB3909A1A27FE4F5CF519