Recientemente, varias empresas líderes en inteligencia artificial han logrado avances significativos en el campo de los modelos lingüísticos a gran escala y han lanzado nuevos modelos y funciones destinados a mejorar el rendimiento del modelo y la experiencia del usuario. Estas actualizaciones cubren la mejora de la longitud del contexto, la mejora de la arquitectura del modelo y el soporte para aplicaciones de nivel empresarial, lo que marca la continua evolución y madurez de la tecnología de IA. Este artículo se centrará en los últimos resultados publicados recientemente por AI21 Labs, Mistral AI y Cohere.
AI21 lanzó el primer modelo Jamba de nivel de producción de Mamba del mundo, que adopta la arquitectura SSM-Transformer, tiene 52B de parámetros y admite una longitud de contexto de 256K. El modelo Jamba combina la tecnología SSM y la arquitectura Transformer y funciona bien en el procesamiento de tareas de texto largas. MistralAI lanzó Mistral7Bv0.2BaseModel, aumentando el contexto a 32K y se esfuerza por brindar mejores soluciones de IA. Cohere lanzó Command-R, centrándose en implementar inteligencia artificial a escala de producción y proporcionar a las empresas modelos generativos escalables.
El lanzamiento de estos nuevos modelos demuestra la vitalidad de la innovación continua en el campo de la inteligencia artificial y también indica que los modelos de lenguaje a gran escala se desarrollarán en una dirección más eficiente y poderosa en el futuro. Una ventana de contexto más larga y una arquitectura de modelo más potente brindarán a los usuarios una experiencia de aplicación más rica y proporcionarán una base más sólida para las aplicaciones de IA a nivel empresarial. Esperamos ver más innovaciones en el futuro.