В последнее время несколько ведущих компаний, занимающихся искусственным интеллектом, добились значительного прогресса в области крупномасштабных языковых моделей и запустили новые модели и функции, направленные на улучшение производительности моделей и удобства пользователей. Эти обновления охватывают увеличение длины контекста, улучшение архитектуры модели и поддержку приложений корпоративного уровня, что свидетельствует о непрерывном развитии и зрелости технологии искусственного интеллекта. В этой статье основное внимание будет уделено последним результатам, недавно опубликованным AI21 Labs, Mistral AI и Cohere.
AI21 выпустила первую в мире модель производственного уровня Mamba Jamba, которая использует архитектуру SSM-Transformer, имеет 52B параметров и поддерживает длину контекста 256K. Модель Jamba сочетает в себе технологию SSM и архитектуру Transformer и хорошо работает при обработке длинных текстовых задач. MistralAI запустила Mistral7Bv0.2BaseModel, увеличив контекст до 32 КБ, и стремится предоставить лучшие решения в области искусственного интеллекта. Cohere выпустила Command-R, сосредоточившись на внедрении искусственного интеллекта в промышленном масштабе и предоставлении предприятиям масштабируемых генеративных моделей.
Выпуск этих новых моделей демонстрирует жизнеспособность постоянных инноваций в области искусственного интеллекта, а также указывает на то, что крупномасштабные языковые модели в будущем будут развиваться в более эффективном и мощном направлении. Более длинное контекстное окно и более мощная архитектура модели предоставят пользователям более широкие возможности работы с приложениями и обеспечат более прочную основу для приложений искусственного интеллекта корпоративного уровня. Мы с нетерпением ждем новых инноваций в будущем.