Alibaba Cloud lança o incrível modelo Qwen2.5-Turbo Depois de ler dez romances de uma só vez, a velocidade de raciocínio aumenta 4,3 vezes!

Autor：Eve Cole Data da Última Atualização：2025-03-01 03:16:01

O editor de Downcodes aprendeu que o Alibaba Cloud lançou um modelo de linguagem grande Qwen2.5-Turbo recém-atualizado, e seu comprimento de contexto atingiu surpreendentes 1 milhão de tokens! O que isto significa? Isso significa que ele pode processar uma quantidade de informação equivalente a 10 romances de “Três Corpos”, 150 horas de voz ou 30.000 linhas de código! Esse poderoso poder de processamento revolucionará a maneira como interagimos com grandes modelos de linguagem.

Alibaba Cloud lança o recém-atualizado modelo de linguagem grande Qwen2.5-Turbo, cujo comprimento de contexto excede surpreendentes 1 milhão de tokens. Qual é o equivalente a este conceito? É equivalente a 10 romances de “Três Corpos”, 150 horas de transcrição de voz ou 30.000 linhas de capacidade de código Desta vez, “ler dez romances de uma só vez” não é mais um sonho!

O modelo Qwen2.5-Turbo alcançou 100% de precisão na tarefa de recuperação de senha e superou modelos semelhantes, como o GPT-4, em termos de capacidade de compreensão de textos longos. O modelo alcançou uma pontuação alta de 93,1 no benchmark de texto longo RULER, enquanto o GPT-4 obteve apenas 91,6 e o GLM4-9B-1M obteve 89,9.

Além dos recursos de processamento de texto ultralongo, o Qwen2.5-Turbo também possui a precisão do processamento de texto curto. No teste de benchmark de texto curto, seu desempenho é comparável ao do GPT-4o-mini e do Qwen2.5-14B-Instruct. modelos.

Ao adotar o mecanismo de atenção escassa, o modelo Qwen2.5-Turbo reduz o tempo de processamento do primeiro token de 1 milhão de tokens de 4,9 minutos para 68 segundos, alcançando um aumento de 4,3 vezes na velocidade de inferência.

Ao mesmo tempo, o custo de processamento de 1 milhão de tokens é de apenas 0,3 yuans. Em comparação com o GPT-4o-mini, ele pode processar 3,6 vezes o conteúdo com o mesmo custo.

Alibaba Cloud preparou uma série de demonstrações para o modelo Qwen2.5-Turbo, mostrando sua aplicação na compreensão aprofundada de romances, assistência de código e leitura de vários artigos. Por exemplo, depois que um usuário carregou a trilogia do romance chinês "O Problema dos Três Corpos" contendo 690.000 tokens, o modelo resumiu com sucesso o enredo de cada romance em inglês.

Os usuários podem experimentar as funções poderosas do modelo Qwen2.5-Turbo por meio do serviço API do Alibaba Cloud Model Studio, HuggingFace Demo ou ModelScope Demo.

Alibaba Cloud afirmou que, no futuro, continuará a otimizar o modelo para melhorar o alinhamento das preferências humanas em tarefas de sequência longa, otimizar ainda mais a eficiência de inferência, reduzir o tempo de computação e tentar lançar um modelo de contexto longo maior e mais forte.

Introdução oficial: https://qwenlm.github.io/blog/qwen2.5-turbo/

Demonstração online: https://huggingface.co/spaces/Qwen/Qwen2.5-Turbo-1M-Demo

Documentação da API: https://help.aliyun.com/zh/model-studio/getting-started/first-api-call-to-qwen

O surgimento do Qwen2.5-Turbo marca um grande avanço nas capacidades de processamento de textos longos de grandes modelos de linguagem. Sua alta eficiência e baixo custo trarão um enorme potencial de aplicação para todas as esferas da vida. Vamos esperar e ver como este modelo poderoso mudará o nosso mundo no futuro!