인공 지능 분야에서 무어 스레드는 다시 한 번 기술 혁신을 주도하고 오픈 소스 MT-Megatronlm과 MT-TransformerEngine의 두 가지 주요 AI 프레임 워크를 발표했습니다. 이 주요 움직임은 새로운 활력을 국내 컴퓨팅 인프라에 주입 할뿐만 아니라 전 세계 AI 개발자에게 강력한 도구 지원을 제공합니다. 이 두 가지 프레임 워크는 FP8 하이브리드 교육 전략과 고성능 운영자 라이브러리를 깊이 통합함으로써 국내 전체 기능 GPU에 대한 하이브리드 병렬 교육 및 추론을 달성하여 대규모 모델 교육의 효율성과 안정성을 크게 향상 시켰습니다.
MT-Megatronlm 프레임 워크는 전체 기능 GPU 용으로 특별히 설계되었으며 밀도 모델, 멀티 모달 모델 및 MOE (하이브리드 전문가) 모델의 효율적인 교육을 지원하여 AI 필드의 현재 다양한 교육 요구를 충족시킵니다. MT-TransformerEngine은 변압기 모델의 훈련 및 추론 최적화에 중점을 둡니다. 연산자 퓨전 및 병렬 가속 전략 및 기타 기술을 통해 무어 스레드의 고밀도 컴퓨팅의 잠재력을 효과적으로 방출하여 메모리 바운드 연산자의 효율성을 크게 향상시킵니다.

이 두 프레임 워크의 기술 혁신은 주로 하드웨어 적응 및 알고리즘 혁신의 심층 협력에 반영됩니다. 첫째, 여러 유형의 모델의 혼합 병렬 교육을 지원하며, 이는 다양한 모델 아키텍처의 복잡한 컴퓨팅 시나리오를 유연하게 처리 할 수 있습니다. 둘째, 무어 스레드 GPU에 의해 기본적으로 지원되는 FP8 하이브리드 정밀 훈련 전략과 결합하여 훈련 효율을 효과적으로 향상시킨다. 셋째, 고성능 운영자 라이브러리 Mudnn과 Communication Library MCCL의 심층 통합을 통해 컴퓨팅 집약적 인 작업 및 여러 카드의 통신 오버 헤드가 체계적으로 최적화됩니다. 동시에 오픈 소스 Simumax 라이브러리와 결합하여 병렬 전략 검색을 자동으로 수행 할 수 있으며 다른 모델 및 가속 환경에 대해 병렬 교육 성능을 최대화 할 수 있습니다. 또한, 프레임 워크의 내장 되감기 예외 복구 메커니즘은 교육을 위해 최근 안정적인 노드로 자동 롤백하여 대규모 훈련의 안정성을 크게 향상시킬 수 있습니다. 마지막으로, 두 프레임 워크는 주류 GPU 생태계와 호환되며, 이는 기존 생태계의 원활한 마이그레이션을 보장 할뿐만 아니라 개발자가 자체 AI 기술 스택을 구축 할 수있는 근본적인 지원을 제공합니다.

실제 응용 분야에서는이 두 프레임 워크의 성능이 인상적입니다. 완전 기능 GPU 클러스터에서, LLAMA38B 모델의 교육 작업은 손실이 거의 손실이 없을 때 FP8 기술로 90% 이상에 도달 할 수 있으며, 이는 원래 교육 속도보다 28% 높습니다. 또한, Moore 스레드는 심도있는 병렬 알고리즘 듀얼 파이프를 효율적으로 지원하기 위해 깊이 통합되어 오픈 소스입니다. MT-Dualpipe가 MT-Megatron 프레임 워크 및 MT- 트랜스 포르 메르 렌지 프레임 워크에 완전히 연결된 후, MLA, MTP 및 다양한 전문가 균형 전략을 지원하는 Deepseek V3 교육 프로세스의 완전한 재생산을 성공적으로 실현했습니다. 다양한 변압기 연산자 Fusion Technologies를 통해 이러한 프레임 워크는 메모리 대역폭 활용을 크게 향상 시켰으며 메모리 결합 병목 현상을 효과적으로 완화시키고 국내 GPU의 하드웨어 잠재력을 추가로 공개했습니다.
무어 스레딩은이 두 가지 프레임 워크를 계속 최적화 할 것이며 일련의 새로운 기능을 도입 할 계획이다 : 이중 파이프/제로 버블 병렬 전략을 포함하여 기포 속도를 더욱 줄이고 병렬 훈련 효율을 향상시킨다. 교육 성능 및 안정성을 향상시키기위한 다양한 독창적 인 FP8 최적화 전략; 훈련 중에 결함 공차 및 효율성을 향상시키기위한 비동기 체크 포인트 전략; 컴퓨팅 및 메모리 오버 헤드를 줄이고 교육 속도를 향상시키기위한 최적화 된 재 계산 전략; 훈련 중에 결함 공차를 향상시키기위한 원래 결함 내성 교육 알고리즘; 무어 스레드 FlashMla 및 DeepGemm 라이브러리를 통합하여 컴퓨팅 성능 및 FP8 컴퓨팅 전력을 추가로 해제하여 컴퓨팅 성능 및 효율성을 포괄적으로 향상시킵니다.
이 일련의 기술 혁신과 오픈 소스 측정은 AI 컴퓨팅 능력 분야에서 무어 스레드의 강점을 보여줄뿐만 아니라 국내 AI 인프라 개발을위한 새로운 가능성을 열어줍니다. AI 모델 교육 분야에서 더 많은 돌파구를 기다리겠습니다.