최근 스탠포드 대학은 HELM MMLU 대형 모델 평가 목록의 최신 결과를 발표해 업계의 큰 관심을 끌었습니다. 엄격한 평가 기준과 투명한 평가 프로세스를 통해 이 목록은 대형 모델의 성능 평가에 대한 신뢰할 수 있는 참고 자료를 제공합니다. 목록 결과에 따르면 Alibaba의 Tongyi Qianwen Qwen2-72B 모델은 많은 모델 중에서 단연 돋보이며 인상적인 결과를 달성하여 중국 대형 모델 기술의 상당한 발전을 입증했습니다.
최근 스탠포드 대학의 대형 모델 평가 목록 HELM MMLU가 최신 결과를 발표했습니다. 스탠포드 대학 기본 모델 연구 센터 소장인 Percy Liang은 알리바바의 Tongyi Qianwen Qwen2-72B 모델이 순위에서 Llama3-70B를 제치고 가장 성능이 좋은 오픈 소스 대형 모델이 되었음을 지적하는 기사를 발표했습니다. MMLU(Massive Multitask Language Understanding)는 업계에서 가장 영향력 있는 대규모 모델 평가 벤치마크 중 하나입니다. 기초 수학, 컴퓨터 과학, 법, 역사 등 57개 과제를 다루며, 대형 모델을 통해 세계 지식과 문제 해결 능력을 테스트하도록 설계되었습니다. 그러나 실제 평가에서는 다양한 모델의 결과에 일관성과 비교 가능성이 부족한 경우가 많습니다. 이는 비표준 프롬프트 기술을 사용하고 오픈 소스 평가 프레임워크를 일률적으로 채택하지 못하기 때문입니다.

스탠포드 대학교 CRFM(Center for Research on Foundation Models)에서 제안한 HELM(기초 모델 평가를 위한 전체적 프레임워크)은 투명하고 재현 가능한 평가 방법을 만들기 위해 노력하고 있습니다. HELM 프레임워크는 MMLU에 대한 다양한 모델의 평가 결과를 표준화하고 투명하게 만들어 기존 MMLU 평가에 존재하는 문제를 해결합니다. 예를 들어, 참여하는 모든 모델에 대해 동일한 프롬프트 단어를 사용하고 상황 학습을 위해 각 테스트 주제에 대해 동일한 5개의 예를 모델에 제공합니다. 스탠포드 대학교 기초 모델 연구 센터 소장인 Percy Liang은 최근 소셜 플랫폼에 최신 HELM MMLU 목록을 발표했습니다. 목록에 따르면 Alibaba의 Tongyi Qianwen 오픈 소스 모델 Qwen2-72B는 Claude3Opus, GPT-4o, Gemini1.5pro 및 GPT-4에 이어 2위를 차지했습니다. 이는 오픈 소스 대형 모델 중 가장 높은 순위를 차지하며 성능도 가장 좋습니다. 중국 대형 모델의. Tongyi Qianwen Qwen2 시리즈는 2024년 6월 초에 오픈 소스로 공개되었으며 다양한 크기의 사전 훈련 및 교육 미세 조정 모델 5개가 포함되어 있습니다. 지금까지 Qwen 시리즈 모델은 1,600만 회 이상 다운로드되었으며 업계에서 폭넓은 인지도와 강력한 성능을 보여주고 있습니다. HELM MMLU의 최신 평가 결과는 다중 작업 언어 이해에서 Qwen2-72B의 뛰어난 성능을 보여줄 뿐만 아니라 글로벌 AI 기술 경쟁에서 중국 대형 모델의 부상을 나타냅니다. 지속적인 기술 발전으로 앞으로 더 많은 중국의 뛰어난 대형 모델이 국제무대에서 선보일 수 있기를 기대합니다.
Qwen2-72B의 뛰어난 성능은 AI 분야에서 Alibaba의 강력한 기술력을 반영할 뿐만 아니라 중국 내 대형 모델 개발에 강력한 추진력을 불어넣습니다. 앞으로는 더 많은 중국 대형 모델들이 국제무대에서 뛰어난 저력을 선보일 것이라고 믿습니다.