В области искусственного интеллекта запуск Deepseek-R1 отмечает большой прорыв в технологии искусственного интеллекта. Это инновация не только демонстрирует быстрое развитие индустрии искусственного интеллекта, но и открывает новые возможности для будущих приложений ИИ с помощью своей уникальной архитектуры латентного внимания (MLA). Благодаря технологии сжатия с низким рейтингом архитектура MLA значительно снижает стоимость обучения и вывода, что делает ее только одной десятой из той же большой модели. Этот результат был совместно завершен Джи Тао, постдокторским научным сотрудником в лаборатории НЛП Университета Фудана и его команды. Их цель состоит в том, чтобы позволить произвольным предварительно обученным крупным языковым моделям быстро мигрировать в архитектуру MLA через структуру MHA2MLA без необходимости тренироваться с нуля.
В настоящее время основные крупные модели, как правило, основаны на стандартных механизмах внимания с несколькими головками (MHA) и их вариантами, которые имеют значительные недостатки в затратах на вывод по сравнению с MLA. Чтобы решить эту проблему, исследовательская группа предложила структуру MHA2MLA, которая успешно достигла миграции архитектуры MHA/GQA в MLA через два ключевых шага-часть удержания веревки и соединения ключевых значений, представляющих низкое приближение. Это инновация не только повышает эффективность модели, но также предоставляет больше возможностей для будущих приложений искусственного интеллекта.

Во время реализации MHA2MLA команда сначала отделила местоположение, кодирующее от большого измерения через некоторые стратегии тонкой настройки веревки, сохранив небольшое количество измерений, связанных с местоположением, тем самым разрешая конфликт между MLA и веревкой. Затем, низкое приближение векторов ключевых значений выполняется с помощью техники декомпозиции в единственном значении (SVD), чтобы максимизировать знания перед тренировками, значительно уменьшая пространство кэша. Результаты эксперимента показывают, что только тонкая настройка необходимо для использования от 0,3% до 0,6% от предварительно предварительных данных, чтобы в основном восстановить потери производительности во время миграции. Это достижение не только демонстрирует эффективность структуры MHA2MLA, но также обеспечивает новые направления для будущих исследований ИИ.
После объединения с другими эффективными методами вывода, такими как 4-битный квантование кэша KV, кэш KV модели Llama2-7B снизился на 92,19%, в то время как потеря производительности составляет всего 0,5%. Этот результат демонстрирует превосходную совместимость структуры MHA2MLA в технологии сжатия, одновременно сохраняя способность к выводу модели и длинную способность обрабатывать контекст, обеспечивая новый возможный путь для развертывания ресурсных моделей крупных языков. Это инновация не только повышает эффективность модели, но также предоставляет больше возможностей для будущих приложений искусственного интеллекта.
Тем не менее, исследовательская группа также отметила, что эксперимент ограничен оборудованием и еще не освещала такие модели, как Llama3, которые требуют точной настройки контекста 128 тыс. Будущие исследования будут посвящены расширению до большего количества модельных архитектур и сочетание эффективных стратегий точной настройки параметров, чтобы еще больше уменьшить масштаб обновлений параметров в процессе миграции. Исследования в этом направлении предоставят больше возможностей для будущих приложений ИИ и способствуют дальнейшему развитию технологии ИИ.