Récemment, plusieurs grandes sociétés d'intelligence artificielle ont réalisé des progrès significatifs dans le domaine des modèles linguistiques à grande échelle et ont lancé de nouveaux modèles et fonctionnalités visant à améliorer les performances des modèles et l'expérience utilisateur. Ces mises à jour couvrent l'amélioration de la longueur du contexte, l'amélioration de l'architecture des modèles et la prise en charge des applications au niveau de l'entreprise, marquant l'évolution et la maturité continues de la technologie de l'IA. Cet article se concentrera sur les derniers résultats récemment publiés par AI21 Labs, Mistral AI et Cohere.
AI21 a publié le premier modèle de production Mamba au monde, Jamba, qui adopte l'architecture SSM-Transformer, possède 52 B de paramètres et prend en charge une longueur de contexte de 256 Ko. Le modèle Jamba combine la technologie SSM et l'architecture Transformer et fonctionne bien dans le traitement de tâches de texte long. MistralAI a lancé Mistral7Bv0.2BaseModel, augmentant le contexte à 32K, et s'efforce de fournir de meilleures solutions d'IA. Cohere a lancé Command-R, qui se concentre sur la mise en œuvre de l'intelligence artificielle à l'échelle de la production et fournit aux entreprises des modèles génératifs évolutifs.
La sortie de ces nouveaux modèles démontre la vitalité de l'innovation continue dans le domaine de l'intelligence artificielle et indique également que les modèles de langage à grande échelle se développeront dans une direction plus efficace et plus puissante à l'avenir. Une fenêtre contextuelle plus longue et une architecture de modèle plus puissante offriront aux utilisateurs une expérience applicative plus riche et fourniront une base plus solide pour les applications d'IA au niveau de l'entreprise. Nous sommes impatients de voir davantage d’innovations à l’avenir.