Recentemente, várias empresas líderes em inteligência artificial fizeram progressos significativos no campo de modelos de linguagem em grande escala e lançaram novos modelos e recursos destinados a melhorar o desempenho do modelo e a experiência do usuário. Estas atualizações abrangem a melhoria da duração do contexto, a melhoria da arquitetura do modelo e o suporte para aplicações de nível empresarial, marcando a evolução contínua e a maturidade da tecnologia de IA. Este artigo se concentrará nos resultados mais recentes divulgados recentemente pelo AI21 Labs, Mistral AI e Cohere.
AI21 lançou o primeiro modelo de nível de produção Mamba do mundo, Jamba, que adota a arquitetura SSM-Transformer, tem parâmetros de 52B e suporta comprimento de contexto de 256K. O modelo Jamba combina tecnologia SSM e arquitetura Transformer e tem um bom desempenho no processamento de tarefas de texto longo. MistralAI lançou Mistral7Bv0.2BaseModel, aumentando o contexto para 32K, e se esforça para fornecer melhores soluções de IA. Cohere lançou o Command-R, com foco na implementação de inteligência artificial em escala de produção e no fornecimento de modelos generativos escaláveis às empresas.
O lançamento destes novos modelos demonstra a vitalidade da inovação contínua no campo da inteligência artificial e também indica que os modelos de linguagem em grande escala irão desenvolver-se numa direcção mais eficiente e poderosa no futuro. Uma janela de contexto mais longa e uma arquitetura de modelo mais poderosa proporcionarão aos usuários uma experiência de aplicação mais rica e fornecerão uma base mais sólida para aplicações de IA de nível empresarial. Esperamos ver mais inovações no futuro.