2025 년 3 월 3 일, Tongyi Lingma는 공식적으로 최신 추론 모델 인 Qwen2.5-Max를 발표하여 개발자에게 강력한 프로그래밍 및 수학적 기능을 제공합니다. QWEN2.5-MAX의 출시는 프로그래밍 및 수학 분야에서 인공 지능 기술의 또 다른 주요 획기적인 획기적인 발전을 표시합니다. 이 모델은 20 조의 토큰 이상의 사전 훈련 데이터를 기반으로하며 신중하게 설계된 훈련 사후 훈련 체계와 결합하여 새로운 높이의 성능을 제공합니다.
QWEN2.5-MAX는 여러 벤치 마크에서 특히 잘 수행되었습니다. 예를 들어, Arena-Hard, LiveBench, LiveCodebench 및 GPQA-Diamond와 같은 테스트에서 QWEN2.5-MAX 점수는 DeepSeek V3, GPT-4O 및 Claude-3.5-Sonnet을 포함한 업계의 다른 주요 모델을 능가합니다. 또한 MMLU-PRO 및 기타 평가에서 QWEN2.5-MAX는 매우 경쟁력있는 결과를 보여 주어 복잡한 작업에서 뛰어난 능력을 증명했습니다.

기본 모델의 비교에서, QWEN2.5-MAX는 DeepSeek V3, LLAMA-3.1-405B 및 QWEN2.5-72B와 종합적으로 비교 하였다. 결과는 Tongyi Qianwen의 기본 모델이 대부분의 벤치 마크에서, 특히 복잡한 프로그래밍 및 수학적 문제를 다룰 때 특히 QWEN2.5-MAX가 특히 잘 작동 함을 보여줍니다.
Qwen2.5-Max는 Tripartite Benchmark Test Platform Chatbot Arena에서 발표 한 대형 모델의 최신 블라인드 테스트 목록에서 Deepseek-V3, Open AI O1-Mini 및 Claude-3.5-Sonnet과 같은 모델을 능가하여 1332 점으로 7 위를 차지하여 중국의 비 이중 빅 모델의 챔피언이되었습니다. 수학 및 프로그래밍과 같은 단일 항목 능력 측면에서 Qwen2.5-Max는 1 위를 차지했으며 하드 프롬프트는 2 위입니다. Chatbot Arena 관계자는 Alibaba의 Qwen2.5-Max가 많은 분야, 특히 프로그래밍, 수학 및 하드 프롬프트와 같은 전문 및 기술 분야에서 강력하게 수행했다고 언급했습니다.
현재 Qwen2.5-Max는 Tongyi Lingcode에 통합되었으며 사용자는 Tongyi Lingcode 플러그인을 다운로드하여 강력한 프로그래밍 기능을 경험할 수 있습니다. 이 통합은 개발자에게보다 효율적인 도구를 제공 할뿐만 아니라 인공 지능 기술의 적용을위한 새로운 가능성을 열어줍니다.