AI21 lança o primeiro modelo de Mamba em nível de produção do mundo, Jamba, que suporta comprimento de contexto de 256K

Autor：Eve Cole Data da Última Atualização：2025-02-20 12:00:03

Recentemente, várias empresas líderes em inteligência artificial fizeram progressos significativos no campo de modelos de linguagem em grande escala e lançaram novos modelos e recursos destinados a melhorar o desempenho do modelo e a experiência do usuário. Estas atualizações abrangem a melhoria da duração do contexto, a melhoria da arquitetura do modelo e o suporte para aplicações de nível empresarial, marcando a evolução contínua e a maturidade da tecnologia de IA. Este artigo se concentrará nos resultados mais recentes divulgados recentemente pelo AI21 Labs, Mistral AI e Cohere.

AI21 lançou o primeiro modelo de nível de produção Mamba do mundo, Jamba, que adota a arquitetura SSM-Transformer, tem parâmetros de 52B e suporta comprimento de contexto de 256K. O modelo Jamba combina tecnologia SSM e arquitetura Transformer e tem um bom desempenho no processamento de tarefas de texto longo. MistralAI lançou Mistral7Bv0.2BaseModel, aumentando o contexto para 32K, e se esforça para fornecer melhores soluções de IA. Cohere lançou o Command-R, com foco na implementação de inteligência artificial em escala de produção e no fornecimento de modelos generativos escaláveis às empresas.

O lançamento destes novos modelos demonstra a vitalidade da inovação contínua no campo da inteligência artificial e também indica que os modelos de linguagem em grande escala irão desenvolver-se numa direcção mais eficiente e poderosa no futuro. Uma janela de contexto mais longa e uma arquitetura de modelo mais poderosa proporcionarão aos usuários uma experiência de aplicação mais rica e fornecerão uma base mais sólida para aplicações de IA de nível empresarial. Esperamos ver mais inovações no futuro.