Благодаря быстрому развитию технологий искусственного интеллекта, важность крупных языковых моделей (LLMS) в предприятиях становится все более заметной. Тем не менее, как повысить точность знаний этих моделей и уменьшить галлюцинации, которые они производят, стало ключевой проблемой, которую необходимо срочно решить в текущем поле ИИ. На этом фоне исследовательская команда Meta AI предложила инновационное решение - «масштабируемый уровень памяти», привнесенный новый свет в этот вызов.
Концепция дизайна масштабируемого уровня памяти довольно перспективна. Эта архитектура особенно подходит для сценариев применения, где требуются массовые фактические знания при сохранении эффективной скорости вывода, открывая новые способы повышения производительности языковых моделей.
Традиционные языковые модели часто используют «интенсивные слои» для кодирования информации. Напротив, слой памяти принимает более эффективную разреженную активацию и механизм поиска ключей, который позволяет кодировать и извлекать знания при более низких затратах на вычислительные средства. Хотя он немного выше, чем плотный слой с точки зрения использования памяти, ему нужно только активировать небольшое количество параметров, что значительно повышает эффективность вычислений.
Хотя концепция слоя памяти существует в течение многих лет, его применение в современных архитектурах глубокого обучения относительно ограничено, главным образом потому, что она не смогла полностью адаптироваться к современным аппаратным ускорителям. Стоит отметить, что Advanced LLMS в настоящее время обычно принимает архитектуру «эксперта», которая в некоторых аспектах имеет сходство со слоем памяти и подчеркивает специализацию конкретных модулей.
Чтобы преодолеть проблемы слоя памяти в использовании памяти, исследовательская группа Meta сделала несколько инновационных улучшений. Они разработали параллелизированную архитектуру для слоев памяти, позволяя ему хранить миллионы пар ключей на нескольких графических процессорах, сохраняя при этом модель с скоростью. Кроме того, команда разработала специальное ядро CUDA для обработки высоких операций полосы пропускания памяти и ввела механизм обмена параметрами, позволяя нескольким слоям памяти обмениваться одним и тем же набором параметров памяти, что еще больше оптимизирует эффективность использования ресурсов.
Исследовательская группа провела всесторонний тест модели улучшения памяти, заменив некоторые плотные слои на общие слои памяти посредством преобразования модели Llama. Экспериментальные результаты показывают, что модели памяти хорошо работают в нескольких задачах, особенно в задачах, которые требуют фактических знаний
Это исследование указывает на направление развития архитектур ИИ следующего поколения. Мета -исследователи настоятельно рекомендуют интегрировать слой памяти в будущие системы ИИ, чтобы эффективно уменьшить явления забывчивости и галлюцинации модели. Ожидается, что с постоянным развитием технологий масштабируемый уровень памяти будет играть более важную роль в повышении производительности языковых моделей, внедряя революционные изменения в практическом применении технологии ИИ.