В области искусственного интеллекта команда DeepSeek недавно выпустила результаты прорыва, запустив инновационный редкий механизм внимания под названием АНБ (родное редкое внимание). Основная цель этой технологии-революционизировать разработку и применение моделей ИИ путем оптимизации современной производительности оборудования и значительного улучшения скорости обучения и вывода с длинным контекстом.
Запуск технологии АНБ знаменует собой значительное улучшение эффективности обучения моделей искусственного интеллекта. Благодаря глубокой оптимизации современного вычислительного оборудования, АНБ не только значительно улучшает скорость вывода, но и значительно снижает стоимость предварительного обучения. Что еще более важно, одновременно повышая эффективность, АНБ по -прежнему поддерживает высокий уровень производительности модели, обеспечивая ее выдающуюся производительность в различных задачах.
Команда DeepSeek приняла многослойную разреженную стратегию в исследовании, разделяя механизм внимания на три ключевые ветви: сжатие, выбор и раздвижные окна. Этот дизайн позволяет модели захватить как глобальный контекст, так и локальные детали, значительно улучшая мощность обработки модели для длинного текста. Кроме того, оптимизация АНБ в доступе к памяти и расписанию вычислений значительно снизила вычислительную задержку и потребление ресурсов длинного контекстного обучения.
АНБ демонстрирует свое выдающееся выступление в серии общих критериев. Особенно в длинных контекстных задачах и рассуждениях, основанных на инструкциях, производительность АНБ даже сопоставимо с моделью полного внимания, а в некоторых случаях лучше. Выпуск этой технологии не только отмечает еще один скачок в технологии обучения и рассуждений искусственного интеллекта, но и внедряет новый импульс в будущее развитие искусственного интеллекта.
Бумага АНБ (https://arxiv.org/pdf/2502.11089v1).
Внедрение технологии АНБ значительно улучшает скорость длинного контекстного обучения и рассуждения и снижает затраты на предварительные тренировки. Слоистая разреженная стратегия принята для разделения механизма внимания на сжатие, выбор и скользящие окна, что повышает способность к обработке модели на длинном тексту. АНБ хорошо показало несколько критериев, в некоторых случаях превосходя традиционную модель полного внимания.