최근 Tencent는 공식적으로 자체 개발 된 심해 사고 모델 인 Hunyuan T1의 공식 버전을 출시했습니다. 이 모델의 출시는 인공 지능 분야의 Tencent의 기술적 강점, 특히 심도있는 추론과 복잡한 문제 해결에서 새로운 단계를 보여줍니다.
대규모 강화 학습에 기초하여, Hunyuan T1의 공식 버전은 수학, 논리적 추론, 과학 및 코드와 같은 과학 문제를 특별히 최적화하여 추론 능력을 크게 개선했습니다. MMLU-PRO와 같은 일반적인 벤치 마크에서 대형 언어 모델 평가 향상 데이터 세트 인 Hunyuan T1은 87.2 점의 우수한 결과를 얻었으며, 이는 최고 모델 O1에 이어 2 점을 얻었습니다. 동시에, Ceval, Aime, 얼룩말 논리 및 경쟁 수준 수학 및 논리적 추론과 같은 중국 및 영어 지식의 공개 벤치 마크 테스트에서 Hunyuan T1은 업계의 주요 추론 모델 수준을 보여주었습니다.

기본 추론 기능 외에도 공식 Hunyuan T1 버전은 여러 정렬 작업, 교육 후속 작업 및 도구 활용 작업에서 매우 강력한 적응성을 보여줍니다. 이는 Hunyuan Turbo의 혁신적인 아키텍처의 채택과 하이브리드 -Mamba-Transformer Fusion 모델의 채택 때문입니다. 하이브리드 맘바 아키텍처가 초대형 추론 모델에 무손실로 적용되어 기존 변압기 구조의 계산 복잡성을 효과적으로 줄이고 KV 캐시의 메모리 풋 프린트를 줄여 훈련 및 추론 비용을 크게 줄이는 것은 이번이 처음입니다.
또한 우수한 장기 기사 캡처 기능을 기반으로 Hunyuan T1은 장기 기사 추론에서 일반적인 상황 손실 및 장거리 정보 의존성 문제를 효과적으로 해결할 수 있습니다. 하이브리드 맘바 아키텍처는 긴 시퀀스 처리에 특별히 최적화되었습니다. 효율적인 계산 방법을 통해 자원 소비를 크게 줄이는 동시에 긴 텍스트 정보를 캡처 할 수 있습니다. 유사한 활성화 파라미터를 사용하여 Hunyuan T1은 2 배의 디코딩 속도를 달성합니다.
현재 Tencent Hunyuan T1은 경험을 열고 API 서비스를 시작했습니다. 사용자는 백만 토큰 당 1 위안의 입력 가격과 백만 토큰 당 4 위안의 출력 가격에 따라이 강력한 추론 모델로 가져온 편의성과 효율성을 누릴 수 있습니다. 이 서비스를 시작하면 의심 할 여지없이 개발자와 기업에보다 지능적인 솔루션을 제공하고 인공 지능 기술의 광범위한 응용 프로그램을 홍보 할 것입니다.