Генеративный ИИ переживает быстрый рост, и этот репозиторий служит комплексным центром обновлений исследований генеративного ИИ, материалов для интервью, блокнотов и многого другого!
Изучите следующие ресурсы:
Мы будем регулярно обновлять этот репозиторий, поэтому следите за последними дополнениями!
Приятного обучения!
*Обновляется в конце каждого месяца.
| Дата | Заголовок | Абстрактный |
|---|---|---|
| 30 сентября 2024 г. | MM1.5: Методы, анализ и результаты тонкой настройки мультимодального LLM | Мы представляем MM1.5, новое семейство мультимодальных моделей большого языка (MLLM), предназначенных для расширения возможностей понимания текстовых изображений, визуального обращения и обоснования, а также рассуждения с несколькими изображениями. Основываясь на архитектуре MM1, MM1.5 использует ориентированный на данные подход к обучению модели, систематически исследуя влияние различных смесей данных на протяжении всего жизненного цикла обучения модели. Сюда входят высококачественные данные оптического распознавания символов и синтетические подписи для непрерывного предварительного обучения, а также оптимизированная смесь данных для настройки визуальных инструкций для контролируемой точной настройки. Наши модели варьируются от 1B до 30B параметров, охватывая как плотные, так и смешанные варианты (MoE), и демонстрируют, что тщательное курирование данных и стратегии обучения могут обеспечить высокую производительность даже в небольших масштабах (1B и 3B). Кроме того, мы представляем два специализированных варианта: MM1.5-Video, предназначенный для понимания видео, и MM1.5-UI, предназначенный для понимания мобильного пользовательского интерфейса. Благодаря обширным эмпирическим исследованиям и абляциям мы предоставляем подробное представление о процессах обучения и решениях, которые влияют на наши окончательные разработки, предлагая ценные рекомендации для будущих исследований в области развития MLLM. |
| 26 сентября 2024 г. | MIO: базовая модель мультимодальных токенов | В этой статье мы представляем MIO, новую базовую модель, построенную на мультимодальных токенах, способную понимать и генерировать речь, текст, изображения и видео сквозным авторегрессионным способом. Хотя появление моделей большого языка (LLM) и мультимодальных моделей большого языка (MM-LLM) способствует развитию общего искусственного интеллекта благодаря их универсальным возможностям, им все еще не хватает истинного универсального понимания и генерации. Недавно выпуск GPT-4o продемонстрировал замечательный потенциал LLM «любой к любому» для решения сложных реальных задач, обеспечивая всенаправленный ввод и вывод изображений, речи и текста. Однако он имеет закрытый исходный код и не поддерживает генерацию мультимодальных чередующихся последовательностей. Чтобы устранить этот пробел, мы представляем MIO, который обучен на смеси дискретных токенов четырех модальностей с использованием причинно-следственного мультимодального моделирования. MIO проходит четырехэтапный процесс обучения: (1) предварительное обучение выравниванию, (2) предварительное обучение с чередованием, (3) предварительное обучение с улучшением речи и (4) комплексная контролируемая точная настройка различных текстовых, визуальных, и речевые задачи. Наши экспериментальные результаты показывают, что MIO демонстрирует конкурентоспособную, а в некоторых случаях и превосходящую производительность по сравнению с предыдущими двухмодальными базовыми показателями, базовыми показателями модели «любой к любому» и даже базовыми показателями для конкретных модальностей. Более того, MIO демонстрирует расширенные возможности, присущие его универсальной функции, такие как генерация чередующегося видеотекста, цепочка визуальных рассуждений, генерация визуальных указаний, редактирование обучающих изображений и т. д. |
| 26 сентября 2024 г. | MaskLLM: обучаемая полуструктурированная разреженность для больших языковых моделей | Модели больших языков (LLM) отличаются огромным количеством параметров, что обычно приводит к значительной избыточности. В этой работе представлен MaskLLM, обучаемый метод сокращения, который устанавливает полуструктурированную (или ``N:M'') разреженность в LLM, направленную на снижение вычислительных затрат во время вывода. Вместо разработки нового критерия важности MaskLLM явно моделирует шаблоны N:M как обучаемое распределение с помощью выборки Gumbel Softmax. Этот подход облегчает сквозное обучение на крупномасштабных наборах данных и предлагает два заметных преимущества: 1) высококачественные маски — наш метод эффективно масштабируется на большие наборы данных и изучает точные маски; 2) Переносимость - вероятностное моделирование распределения масок позволяет передавать обучение разреженности между областями или задачами. Мы оценили MaskLLM, используя разреженность 2:4 на различных LLM, включая LLaMA-2, Nemotron-4 и GPT-3, с размерами от 843M до 15B параметров, и наши эмпирические результаты показывают существенные улучшения по сравнению с современными моделями LLM. методы. Например, ведущие подходы достигают показателя недоумения (PPL) 10 или выше в Wikitext по сравнению с 5,12 PPL плотной модели, но MaskLLM достигает значительно более низкого показателя 6,72 PPL исключительно за счет изучения масок с замороженными весами. Кроме того, обучаемая природа MaskLLM позволяет настраивать маски для применения без потерь разреженности 2:4 к последующим задачам или доменам. Код доступен по адресу url{https://github.com/NVlabs/MaskLLM}. |
| 25 сентября 2024 г. | Molmo и PixMo: открытые веса и открытые данные для современных мультимодальных моделей | Сегодня самые передовые мультимодальные модели остаются запатентованными. Самые сильные модели с открытым весом в значительной степени полагаются на синтетические данные из собственных VLM для достижения хорошей производительности, эффективно превращая эти закрытые модели в открытые. В результате сообществу до сих пор не хватает фундаментальных знаний о том, как создавать производительные VLM с нуля. Мы представляем Molmo, новое семейство VLM, которое является самым современным в своем классе открытости. Нашим ключевым нововведением является новый, очень подробный набор данных подписей к изображениям, полностью собранный аннотаторами-людьми с использованием речевых описаний. Чтобы обеспечить широкий спектр взаимодействия с пользователем, мы также представляем разнообразную смесь наборов данных для точной настройки, которая включает в себя интерактивные вопросы и ответы и инновационные данные 2D-наведения. Успех нашего подхода зависит от тщательного выбора деталей архитектуры модели, хорошо настроенного процесса обучения и, что наиболее важно, от качества наших недавно собранных наборов данных, которые будут опубликованы. Лучшая в своем классе модель 72B семейства Molmo не только превосходит другие модели в классе моделей открытого веса и данных, но также выгодно отличается от патентованных систем, таких как GPT-4o, Claude 3.5 и Gemini 1.5, как по академическим критериям, так и по человеческим оценкам. . В ближайшем будущем мы опубликуем все веса наших моделей, данные по субтитрам и точной настройке, а также исходный код. Веса выбранных моделей, код вывода и демо-версия доступны на https://molmo.allenai.org. |
| 25 сентября 2024 г. | VPTQ: экстремально низкоразрядное векторное квантование после обучения для больших языковых моделей | Масштабирование размера модели существенно усложняет развертывание и вывод моделей большого языка (LLM). Из-за избыточности весов LLM недавние исследования были сосредоточены на том, чтобы перевести квантование только по весу на чрезвычайно низкую разрядность (даже до 2 бит). Это снижает требования к памяти, оптимизирует затраты на хранение и уменьшает потребность в пропускной способности памяти во время вывода. Однако из-за ограничений числового представления традиционное скалярное весовое квантование с трудом достигает такого экстремального низкого бита. Недавнее исследование векторного квантования (VQ) для LLM продемонстрировало потенциал квантования моделей с чрезвычайно низкой разрядностью путем сжатия векторов в индексы с использованием справочных таблиц. В этой статье мы представляем векторное постобучающее квантование (VPTQ) для чрезвычайно низкобитного квантования LLM. Мы используем оптимизацию второго порядка, чтобы сформулировать задачу LLM VQ и руководить разработкой нашего алгоритма квантования путем решения оптимизации. Мы дополнительно уточняем веса, используя независимую от канала оптимизацию второго порядка для детального VQ. Кроме того, путем декомпозиции задачи оптимизации мы предлагаем краткий и эффективный алгоритм инициализации кодовой книги. Мы также расширяем VPTQ для поддержки квантования остатков и выбросов, что повышает точность модели и еще больше сжимает ее. Наши экспериментальные результаты показывают, что VPTQ уменьшает сложность квантования модели на |
| 24 сентября 2024 г. | Time-MoE: фундаментальные модели временных рядов миллиардного масштаба со множеством экспертов | За последние десятилетия в глубоком обучении для прогнозирования временных рядов были достигнуты значительные успехи. Однако, несмотря на успех крупномасштабного предварительного обучения в областях речи и зрения, предварительно обученные модели временных рядов остаются ограниченными в масштабе и работают с высокими затратами, что препятствует разработке более крупных моделей прогнозирования в реальных приложениях. В ответ мы представляем Time-MoE, масштабируемую и унифицированную архитектуру, предназначенную для предварительного обучения более крупных и эффективных базовых моделей прогнозирования при одновременном снижении затрат на выводы. Используя дизайн с разреженной смесью экспертов (MoE), Time-MoE повышает эффективность вычислений, активируя только подмножество сетей для каждого прогноза, снижая вычислительную нагрузку при сохранении высокой емкости модели. Это позволяет Time-MoE эффективно масштабироваться без соответствующего увеличения затрат на логические выводы. Time-MoE включает в себя семейство моделей преобразователей, предназначенных только для декодеров, которые работают авторегрессионным способом и поддерживают гибкие горизонты прогнозирования с различной длиной входного контекста. Мы предварительно обучили эти модели на недавно представленной крупномасштабной базе данных Time-300B, которая охватывает более 9 областей и охватывает более 300 миллиардов моментов времени. Впервые мы масштабировали базовую модель временных рядов до 2,4 миллиарда параметров, добившись значительного повышения точности прогнозирования. Наши результаты подтверждают применимость законов масштабирования для обучающих токенов и размера модели в контексте прогнозирования временных рядов. По сравнению с плотными моделями с таким же количеством активированных параметров или эквивалентными бюджетами вычислений наши модели постоянно превосходят их по производительности с большим отрывом. Эти достижения позиционируют Time-MoE как современное решение для решения реальных задач прогнозирования временных рядов с превосходными возможностями, эффективностью и гибкостью. |
| 23 сентября 2024 г. | Предварительное исследование o1 в медицине: мы ближе к ИИ-врачу? | Большие языковые модели (LLM) продемонстрировали замечательные возможности в различных областях и задачах, расширяя границы наших знаний в области обучения и познания. Последняя модель, o1 от OpenAI, выделяется как первая LLM с внутренней техникой цепочки мыслей, использующей стратегии обучения с подкреплением. Несмотря на то, что он продемонстрировал удивительно сильные способности при решении различных общеязыковых задач, его эффективность в специализированных областях, таких как медицина, остается неизвестной. С этой целью в этом отчете представлено всестороннее исследование o1 в различных медицинских сценариях, в котором рассматриваются 3 ключевых аспекта: понимание, рассуждение и многоязычие. В частности, наша оценка включает в себя 6 задач с использованием данных из 37 наборов медицинских данных, включая две новые и более сложные задачи «вопрос-ответ» (QA), основанные на профессиональных медицинских викторинах из Медицинского журнала Новой Англии (NEJM) и The Lancet. Эти наборы данных обладают большей клинической значимостью по сравнению со стандартными медицинскими тестами качества, такими как MedQA, и более эффективно преобразуются в реальную клиническую полезность. Наш анализ o1 показывает, что улучшенные способности LLM к рассуждению могут (значительно) улучшить их способность понимать различные медицинские инструкции и рассуждать в сложных клинических сценариях. Примечательно, что o1 превосходит предыдущий GPT-4 по точности в среднем на 6,2% и 6,6% по 19 наборам данных и двум недавно созданным сложным сценариям контроля качества. Но тем временем мы выявляем несколько слабых мест как в возможностях модели, так и в существующих протоколах оценки, включая галлюцинации, непостоянную многоязычную способность и несоответствующие показатели оценки. Мы публикуем наши необработанные данные и результаты модели по адресу https://ucsc-vlaa.github.io/o1_medicine/ для будущих исследований. |
| 21 сентября 2024 г. | Следование инструкциям без настройки инструкций | Настройка инструкций обычно означает точную настройку языковой модели на парах инструкция-ответ. Мы обнаруживаем две формы адаптации (настройки), которые несовершенны по сравнению с настройкой инструкций, но все же приводят к следованию инструкциям; мы называем это неявной настройкой инструкций. Сначала мы обнаруживаем, что пары инструкция-ответ не нужны: обучение исключительно на ответах, без каких-либо соответствующих инструкций, приводит к следованию инструкциям. Это говорит о том, что предварительно обученные модели имеют отображение инструкций и ответов, которое обнаруживается путем обучения модели желаемому распределению ответов. Однако затем мы обнаруживаем, что нет необходимости обучать желаемому распределению ответов: обучение инструкциям-реакциям на данных узкой области, таких как поэзия, по-прежнему приводит к широкому поведению после инструкций, такому как генерация рецептов. В частности, когда инструкции сильно отличаются от инструкций в узкой области точной настройки, ответы моделей не соответствуют стилю области точной настройки. Чтобы начать объяснять неявную настройку инструкций, мы предполагаем, что очень простые изменения в распределении языковой модели приводят к следованию инструкциям. Мы поддерживаем это, написав вручную основанную на правилах языковую модель, которая обеспечивает выполнение инструкций в виде продукта экспертов с предварительно обученной моделью. Правила заключаются в том, чтобы постепенно увеличивать вероятность окончания последовательности, наказывать повторение и равномерно изменять вероятности 15 слов. Подводя итог, можно сказать, что адаптации, не предназначенные для выполнения инструкций, могут делать это неявно. |
| 20 сентября 2024 г. | Представьте себя: создание персонализированных изображений без настройки | Модели диффузии продемонстрировали замечательную эффективность в различных задачах преобразования изображения в изображение. В этом исследовании мы представляем «Представь себя» — современную модель, предназначенную для создания персонализированных изображений. В отличие от традиционных методов персонализации, основанных на настройке, Imagineself работает как модель, не требующая настройки, позволяя всем пользователям использовать общую структуру без индивидуальных настроек. Более того, предыдущая работа столкнулась с проблемами сохранения баланса между сохранением идентичности, следованием сложным подсказкам и сохранением хорошего визуального качества, в результате чего модели имели сильный эффект копирования и вставки эталонных изображений. Таким образом, они вряд ли смогут генерировать изображения по подсказкам, требующим значительных изменений в эталонном изображении, например, изменения выражения лица, позы головы и тела, а разнообразие генерируемых изображений невелико. Чтобы устранить эти ограничения, предлагаемый нами метод вводит 1) новый синтетический механизм генерации парных данных для поощрения разнообразия изображений, 2) полностью параллельную архитектуру внимания с тремя текстовыми кодировщиками и полностью обучаемым зрительным кодером для улучшения точности текста и 3) новая методология многоступенчатой тонкой настройки, которая постепенно расширяет границы визуального качества. Наше исследование показывает, что Imagine Yourself превосходит современную модель персонализации, демонстрируя превосходные возможности в сохранении идентичности, визуальном качестве и выравнивании текста. Эта модель создает прочную основу для различных приложений персонализации. Результаты человеческой оценки подтверждают превосходство модели SOTA по всем аспектам (сохранение идентичности, достоверность текста и визуальная привлекательность) по сравнению с предыдущими моделями персонализации. |
| 19 сентября 2024 г. | Обучение языковых моделей самокоррекции посредством обучения с подкреплением | Самокоррекция — очень желательная возможность больших языковых моделей (LLM), однако в современных LLM она оказывается в значительной степени неэффективной. Современные методы обучения самокоррекции обычно зависят либо от нескольких моделей, либо от более совершенной модели, либо от дополнительных форм контроля. Чтобы устранить эти недостатки, мы разрабатываем многоэтапный онлайн-подход обучения с подкреплением (RL), SCoRe, который значительно улучшает способность LLM к самокоррекции, используя полностью самостоятельно сгенерированные данные. Чтобы построить SCoRe, мы сначала покажем, что варианты контролируемой точной настройки (SFT) на трассах коррекции, сгенерированных автономной моделью, часто недостаточны для привития поведения самокоррекции. В частности, мы наблюдаем, что обучение с помощью SFT становится жертвой либо несоответствия распределения между ошибками, допущенными политикой сбора данных, и собственными реакциями модели, либо коллапсом поведения, когда обучение неявно отдает предпочтение только определенному режиму корректирующего поведения, которое часто является неэффективен при самокоррекции тестовых задач. SCoRe решает эти проблемы путем обучения с использованием собственного распределения самогенерируемых корректировок модели и использования соответствующей регуляризации, чтобы направить процесс обучения на обучение такому поведению самокоррекции, которое эффективно во время тестирования, а не подгонке ответов с высоким вознаграждением для данного быстрый. Этот процесс регуляризации включает в себя начальную фазу многоэтапного RL на базовой модели для создания инициализации политики, которая менее подвержена сбою, с последующим использованием бонуса вознаграждения для усиления самокоррекции. Мы обнаружили, что с моделями Gemini 1.0 Pro и 1.5 Flash SCoRe обеспечивает самые современные характеристики самокоррекции, улучшая самокоррекцию базовых моделей на 15,6% и 9,1% соответственно по MATH и HumanEval. |
| 19 сентября 2024 г. | Умное масштабирование: ускорение предварительного обучения большой языковой модели с помощью инициализации небольшой модели | Фаза предварительного обучения языковых моделей часто начинается со случайно инициализированных параметров. При нынешних тенденциях масштабирования моделей обучение их большого количества параметров может быть крайне медленным и дорогостоящим. Напротив, обучение небольших языковых моделей обходится дешевле, но они часто не могут достичь точности больших моделей. В этой статье мы исследуем интригующую идею объединения этих двух разных режимов: можем ли мы разработать метод инициализации больших языковых моделей с использованием меньших предварительно обученных моделей? Принесет ли такая инициализация какие-либо преимущества с точки зрения времени обучения и конечной точности? В этой статье мы представляем HyperCloning, метод, который может расширить параметры предварительно обученной языковой модели до параметров более крупной модели с увеличенными скрытыми измерениями. Наш метод гарантирует, что более крупная модель сохранит функциональность меньшей модели. В результате более крупная модель уже наследует прогностическую силу и точность меньшей модели еще до начала обучения. Мы демонстрируем, что обучение такой инициализированной модели приводит к значительной экономии часов графического процессора, необходимых для предварительного обучения больших языковых моделей. |
| 18 сентября 2024 г. | Технический отчет Qwen2.5-Coder | В этом отчете мы представляем серию Qwen2.5-Coder, которая является значительным обновлением своей предшественницы CodeQwen1.5. В эту серию входят две модели: Qwen2.5-Coder-1.5B и Qwen2.5-Coder-7B. Модель Qwen2.5-Coder, ориентированная на конкретный код, построена на архитектуре Qwen2.5 и продолжает предварительно обучаться на обширном корпусе, насчитывающем более 5,5 триллионов токенов. Благодаря тщательной очистке данных, масштабируемой генерации синтетических данных и сбалансированному смешиванию данных Qwen2.5-Coder демонстрирует впечатляющие возможности генерации кода, сохраняя при этом общую универсальность. Модель была проверена на широком спектре задач, связанных с кодом, и достигла современной производительности (SOTA) в более чем 10 тестах, включая генерацию кода, завершение, рассуждение и исправление, постоянно превосходя более крупные модели тот же размер модели. Мы считаем, что выпуск серии Qwen2.5-Coder не только расширит границы исследований в области анализа кода, но и, благодаря разрешительному лицензированию, будет способствовать более широкому внедрению разработчиков в реальные приложения. |
| 18 сентября 2024 г. | Контролируемое исследование расширения и обобщения длительного контекста в магистратуре LLM | Широкое понимание текста и контекстное обучение требуют языковых моделей, которые используют полный контекст документа. Из-за проблем реализации, связанных с непосредственным обучением моделей с длинным контекстом, было предложено множество методов расширения моделей для обработки длинных контекстов. Однако из-за различий в данных и классах моделей было сложно сравнивать эти подходы, что привело к неопределенности относительно того, как оценивать эффективность в долгосрочном контексте и отличается ли она от стандартной оценки. Мы реализуем контролируемый протокол для методов расширения со стандартизированной оценкой, используя согласованные базовые модели и данные расширения. Наше исследование дает несколько идей о поведении в долгосрочном контексте. Во-первых, мы подтверждаем решающую роль недоумения как универсального показателя эффективности даже в задачах с более длительным контекстом. Во-вторых, мы обнаружили, что современные методы приближенного внимания систематически неэффективны при выполнении задач с длительным контекстом. Наконец, мы подтверждаем, что методы, основанные на точной настройке, обычно эффективны в пределах диапазона их расширения, тогда как экстраполяция остается сложной задачей. Все базы кода, модели и контрольные точки будут доступны с открытым исходным кодом, что будет способствовать прозрачности и облегчению дальнейших исследований в этой важной области разработки ИИ. |
| 18 сентября 2024 г. | LLM + Persona-Plug = Персонализированные LLM | Персонализация играет решающую роль во многих языковых задачах и приложениях, поскольку пользователи с одинаковыми требованиями могут предпочитать различные результаты в зависимости от их индивидуальных интересов. Это привело к разработке различных персонализированных подходов, направленных на адаптацию больших языковых моделей (LLM) для создания индивидуальных результатов, соответствующих предпочтениям пользователя. Некоторые из них предполагают тонкую настройку уникального персонализированного LLM для каждого пользователя, что слишком дорого для широкого применения. Альтернативные подходы вводят информацию для персонализации по принципу «подключи и работай», извлекая соответствующие исторические тексты пользователя в качестве демонстраций. Однако эта стратегия, основанная на поиске, может нарушить непрерывность истории пользователя и не уловить общие стили и шаблоны пользователя, что приведет к неоптимальной производительности. Чтобы решить эти проблемы, мы предлагаем новую персонализированную модель LLM — ours{}. Он создает специфичное для пользователя встраивание для каждого человека, моделируя все его исторические контексты с помощью легкого подключаемого модуля пользовательского встраивания. Прикрепив это внедрение к входным данным задачи, LLM могут лучше понимать и фиксировать привычки и предпочтения пользователей, тем самым создавая более персонализированные результаты без настройки собственных параметров. Обширные эксперименты над различными задачами в тесте персонализации языковой модели (LaMP) показывают, что предлагаемая модель значительно превосходит существующие подходы персонализированного LLM. |
| 17 сентября 2024 г. | NVLM: мультимодальные LLM открытого пограничного класса | Мы представляем NVLM 1.0, семейство мультимодальных моделей большого языка (LLM) передового класса, которые достигают самых современных результатов в задачах визуального языка, конкурируя с ведущими проприетарными моделями (например, GPT-4o) и моделями с открытым доступом. модели (например, Llama 3-V 405B и InternVL 2). Примечательно, что NVLM 1.0 демонстрирует улучшенную производительность при работе только с текстом по сравнению с магистралью LLM после мультимодального обучения. Что касается разработки модели, мы проводим всестороннее сравнение мультимодальных LLM, использующих только декодер (например, LLaVA), и моделей, основанных на перекрестном внимании (например, Flamingo). Основываясь на сильных и слабых сторонах обоих подходов, мы предлагаем новую архитектуру, которая повышает как эффективность обучения, так и возможности мультимодального рассуждения. Кроме того, мы представляем систему одномерной маркировки плиток для динамических изображений высокого разрешения на основе плиток, которая значительно повышает производительность при мультимодальном рассуждении и задачах, связанных с распознаванием символов. Что касается данных обучения, мы тщательно курируем и предоставляем подробную информацию о наших мультимодальных наборах данных предварительной подготовки и контролируемой точной настройки. Наши результаты показывают, что качество набора данных и разнообразие задач более важны, чем масштаб, даже на этапе предварительного обучения во всех архитектурах. Примечательно, что мы разрабатываем мультимодальность промышленного уровня для моделей NVLM-1.0, что позволяет им преуспевать в задачах визуального языка, сохраняя и даже улучшая производительность только текста по сравнению с их магистралями LLM. Для достижения этой цели мы создаем и интегрируем высококачественный набор текстовых данных в мультимодальное обучение вместе со значительным объемом мультимодальных математических и логических данных, что приводит к расширению математических возможностей и возможностей кодирования в разных модальностях. Для продвижения исследований в этой области мы публикуем веса моделей и открываем исходный код для сообщества: https://nvlm-project.github.io/. |
| 17 сентября 2024 г. | Promptriever: ретриверам, обученным инструкциям, можно давать подсказки, как языковым моделям | Языковые модели, настроенные на инструкции (LM), способны реагировать на императивные команды, обеспечивая более естественный пользовательский интерфейс по сравнению с их базовыми аналогами. В этой работе мы представляем Promptriever, первую модель поиска, которая может получать подсказки как LM. Для обучения Promptriever мы создаем и выпускаем новый обучающий набор инструкций на уровне экземпляров от MS MARCO, охватывающий почти 500 тысяч экземпляров. Promptriever не только обеспечивает высокую производительность при выполнении стандартных поисковых задач, но и следует инструкциям. Мы наблюдаем: (1) большие успехи (достижение SoTA) при выполнении подробных инструкций по релевантности (+14,3 p-MRR / +3,1 nDCG на FollowIR), (2) значительно повышенная устойчивость к лексическому выбору/фразировке в запросе+инструкции (+12,9 Robustness@10 на InstructIR) и (3) возможность выполнять поиск по гиперпараметрам с помощью подсказок для надежного улучшения производительности поиска (среднее увеличение на +1,4 на БЕЙР). Promptriever демонстрирует, что моделями поиска можно управлять с помощью подсказок для каждого запроса, создавая основу для будущей работы по согласованию методов подсказок LM с поиском информации. |
| 17 сентября 2024 г. | Комплексная оценка моделей большого языка с квантованными инструкциями: экспериментальный анализ до 405B | Предыдущие исследовательские работы оценивали квантованные LLM с использованием ограниченных показателей, таких как недоумение или несколько задач на базовые знания и старые наборы данных. Кроме того, недавние крупномасштабные модели, такие как Llama 3.1 с мощностью до 405B, не были тщательно изучены. В этой статье оценивается производительность LLM, настроенных по инструкциям, при различных методах квантования (GPTQ, AWQ, SmoothQuant и FP8) на моделях от 7B до 405B. Используя 13 тестов, мы оцениваем производительность по шести типам задач: вопросы и ответы на основе здравого смысла, знания и понимание языка, выполнение инструкций, обнаружение галлюцинаций, математика и диалог. Наши основные выводы показывают, что (1) квантование большего LLM до размера меньшего LLM FP16 обычно работает лучше в большинстве тестов, за исключением обнаружения галлюцинаций и следования инструкциям; (2) производительность значительно варьируется в зависимости от различных методов квантования, размера модели и разрядности, при этом методы, основанные только на весах, часто дают лучшие результаты в более крупных моделях; (3) сложность задачи не оказывает существенного влияния на ухудшение точности из-за квантования; и (4) метод оценки MT-Bench имеет ограниченную дискриминационную силу среди недавних высокоэффективных программ LLM. |
| 16 сентября 2024 г. | RetrivalAttention: ускорение вывода LLM в длинном контексте с помощью векторного поиска | Модели большого языка (LLM) на основе преобразователей становятся все более важными. Однако из-за квадратичной временной сложности вычисления внимания масштабирование LLM для более длинных контекстов приводит к чрезвычайно медленной задержке вывода и высокому потреблению памяти графического процессора для кэширования векторов ключ-значение (KV). В этой статье предлагается RetrivalAttention, не требующий обучения подход, позволяющий ускорить вычисление внимания и снизить потребление памяти графического процессора. Используя механизм динамической разреженности внимания, RetrivalAttention предлагает использовать приблизительные индексы поиска ближайшего соседа (ANNS) для векторов KV в памяти ЦП и извлекает наиболее релевантные из них с помощью векторного поиска во время генерации. К сожалению, мы наблюдаем, что готовые индексы ANNS часто неэффективны для таких задач поиска из-за нераспределения (OOD) между векторами запроса и ключевыми векторами в механизме внимания. RetrivalAttention решает проблему OOD, разрабатывая алгоритм векторного поиска с учетом внимания, который может адаптироваться к распределению векторов запросов. Наша оценка показывает, что RetrivalAttention требуется доступ только к 1–3% данных при сохранении высокой точности модели. Это приводит к значительному снижению стоимости вывода LLM с длинным контекстом при гораздо меньшем объеме памяти графического процессора. В частности, для обслуживания 128 тыс. токенов в LLM с параметрами 8B требуется только один NVIDIA RTX4090 (24 ГБ), который способен генерировать один токен за 0,188 секунды. |
| 16 сентября 2024 г. | Трансформатор Колмогорова-Арнольда | Трансформеры являются краеугольным камнем современного глубокого обучения. Традиционно эти модели полагаются на слои многоуровневого персептрона (MLP) для смешивания информации между каналами. В этой статье мы представляем Трансформатор Колмогорова-Арнольда (KAT), новую архитектуру, которая заменяет слои MLP слоями Сети Колмогорова-Арнольда (KAN) для повышения выразительности и производительности модели. Однако интеграция KAN в трансформаторы — непростая задача, особенно при масштабировании. В частности, мы выделяем три ключевые проблемы: (C1) Базовая функция. Стандартная функция B-сплайна, используемая в KAN, не оптимизирована для параллельных вычислений на современном оборудовании, что приводит к снижению скорости вывода. (C2) Параметр и неэффективность вычислений. KAN требует уникальной функции для каждой пары ввода-вывода, что делает вычисления чрезвычайно большими. (C3) Инициализация веса. Инициализация весов в KAN особенно сложна из-за их обучаемых функций активации, которые имеют решающее значение для достижения сходимости в глубоких нейронных сетях. Для преодоления вышеупомянутых проблем мы предлагаем три ключевых решения: (S1) Рациональная основа. Мы заменяем функции B-сплайна рациональными функциями для улучшения совместимости с современными графическими процессорами. Реализуя это в CUDA, мы добиваемся более быстрых вычислений. (S2) Группа КАН. Мы разделяем веса активации через группу нейронов, чтобы снизить вычислительную нагрузку без ущерба для производительности. (S3) Инициализация с сохранением дисперсии. Мы тщательно инициализируем веса активации, чтобы убедиться, что дисперсия активации сохраняется по всем слоям. С этими конструкциями KAT эффективно масштабируется и легко превосходит традиционные трансформаторы на основе MLP. |
| 16 сентября 2024 года | На диаграмме мысли | Мы вводим диаграмму мышления (DOT), структуру, которая моделирует итерационные рассуждения в моделях крупных языков (LLMS) в качестве конструкции направленного ациклического графика (DAG) в одной модели. В отличие от традиционных подходов, которые представляют собой рассуждения в виде линейных цепочек или деревьев, DOT организует предложения, критику, усовершенствования и проверку в сплоченную структуру DAG, позволяя модели изучать сложные пути рассуждения, сохраняя при этом логическую консистенцию. Каждый узел на диаграмме соответствует предложению, которое было предложено, критиковано, усовершенствовано или проверено, что позволяет LLM итеративно улучшать свои рассуждения с помощью обратной связи естественного языка. Используя авторегрессивное предсказание следующего токена с помощью специфичных для ролевых токенов, DOT облегчает беспрепятственные переходы между предложением идей и критически оценивая их, обеспечивая более богатую обратную связь, чем бинарные сигналы. Кроме того, мы формализуем точечную структуру с использованием теории Topos, предоставляя математическую основу, которая обеспечивает логическую последовательность и надежность в процессе рассуждения. Этот подход усиливает как процессы обучения, так и процессов вывода в пределах одного LLM, устраняя необходимость в нескольких моделях или механизмах внешнего управления. DOT предлагает концептуальную основу для разработки моделей, специфичных для мышлений следующего поколения, подчеркивая эффективность обучения, надежные возможности мышления и теоретическое обоснование. Кодекс доступен по адресу https://github.com/diagram-of-thought/diagram-of-thought. |
| 12 сентября 2024 года | DSBench: Как далеко агенты науки о данных до становления экспертами по науке о данных? | Модели крупных языков (LLMS) и крупные модели на языке зрения (LVLMS) продемонстрировали впечатляющие способности к языку/зрение, зажигая недавнюю тенденцию строительных агентов для целевых приложений, таких как ассистенты по магазинам или инженеры по программному обеспечению искусственного интеллекта. В последнее время было предложено много данных по науке о данных для изучения их успеваемости в области Data Science Domain. Тем не менее, существующие контрольные показатели науки о данных по-прежнему терпят неудачу по сравнению с реальными приложениями по науке о данных из-за их упрощенных настроек. Чтобы преодолеть этот пробел, мы представляем DSBench, всеобъемлющий эталон, предназначенный для оценки агентов по науке о данных с реалистичными задачами. Этот эталон включает в себя 466 задач анализа данных и 74 задачи моделирования данных, полученные из соревнований Eloquence и Kaggle. DSBench предлагает реалистичные настройки, охватывая длинные контексты, мультимодальные фон задач, рассуждения с большими файлами данных и многотоковыми структурами, а также выполняя задачи сквозного моделирования данных. Наша оценка современных LLMS, LVLMS и агентов показывает, что они борются с большинством задач, причем наилучший агент решает только 34,12% задач анализа данных и достигает 34,74% относительного разрыва в производительности (RPG). Эти результаты подчеркивают необходимость дальнейшего достижения в разработке более практичных, интеллектуальных и автономных агентов по науке о данных. |
| 10 сентября 2024 года | Pingpong: эталон для ролевых языковых моделей с эмуляцией пользователя и многомоделической оценкой | Мы вводим новый эталон для оценки ролевых возможностей языковых моделей. Наш подход использует сами языковые модели для эмуляции пользователей в динамических, многоворотке разговоров и для оценки полученных диалогов. Структура состоит из трех основных компонентов: модель игрока, предполагающая определенную роль персонажа, модель -интерсо, моделирующую поведение пользователей и модель судьи, оценивающую качество разговора. Мы провели эксперименты, сравнивая автоматические оценки с аннотациями человека для проверки нашего подхода, демонстрируя сильные корреляции по нескольким критериям. Эта работа обеспечивает основу для надежной и динамической оценки возможностей модели в интерактивных сценариях. |
| 10 сентября 2024 года | Llama-omni: бесшовное речевое взаимодействие с большими языковыми моделями | Такие модели, как GPT-4O, обеспечивают взаимодействие в реальном времени с большими языковыми моделями (LLMS) посредством речи, значительно улучшая пользовательский опыт по сравнению с традиционным текстовым взаимодействием. Тем не менее, до сих пор не хватает изучения того, как создавать модели речевого взаимодействия на основе LLM с открытым исходным кодом. Чтобы решить эту проблему, мы предлагаем Llama-Omni, новую модельную архитектуру, предназначенную для низкой задержки и высококачественного речевого взаимодействия с LLMS. Llama-omni объединяет предварительно проведенный речевой кодер, речевой адаптер, LLM и потоковой речевой декодер. Это устраняет необходимость в транскрипции речи и может одновременно генерировать текстовые и речевые ответы непосредственно из речевых инструкций с чрезвычайно низкой латентностью. Мы строим нашу модель на основе новейшей модели Llama-3.1-8b-instruct. Чтобы выровнять модель с сценариями речевого взаимодействия, мы построим набор данных с именем instructs2s-200k, который включает в себя 200K речевые инструкции и соответствующие речевые ответы. Экспериментальные результаты показывают, что по сравнению с предыдущими речевыми моделями Llama-Amni обеспечивает лучшие ответы как в контенте, так и в стиле, с задержкой ответа всего 226 мс. Кроме того, обучение Llama-omni занимает менее 3 дней только на 4 графических процессоров, что прокладывает путь к эффективному развитию речевых моделей в будущем. |
| 10 сентября 2024 года | Могут ли крупные языковые модели разблокировать новые идеи научных исследований? | «Идея - это не что иное, как новое сочетание старых элементов» (Young, JW). Широкое распространение моделей крупных языков (LLMS) и общедоступного CHATGPT стало значительным поворотным моментом в интеграции искусственного интеллекта (ИИ) в повседневную жизнь людей. В этом исследовании рассматривается возможность LLMS в создании новых идей исследования, основанных на информации из исследовательских работ. Мы проводим тщательное исследование 4 LLM в пяти областях (например, химия, компьютер, экономика, медицинская и физика). Мы обнаружили, что будущие идеи исследований, созданные Claude-2 и GPT-4, более соответствуют точке зрения автора, чем GPT-3.5 и Gemini. Мы также обнаружили, что Claude-2 генерирует более разнообразные будущие исследования, чем GPT-4, GPT-3.5 и Gemini 1.0. Мы также провели человеческую оценку новизны, актуальности и осуществимости полученных будущих исследований. Это исследование дает представление о развивающейся роли LLM в генерации идей, подчеркивая как ее возможности, так и ограничения. Наша работа способствует постоянным усилиям по оценке и использованию языковых моделей для создания будущих идей исследования. Мы делаем наши наборы данных и коды публично доступными. |
| 9 сентября 2024 года | SongCreator: текстынист | Музыка является неотъемлемой частью человеческой культуры, воплощая человеческий интеллект и творческий подход, из которых песни составляют важную часть. В то время как различные аспекты генерации песен были изучены предыдущими работами, такими как пение голос, вокальная композиция и инструментальная аранжировка и т. Д., Генерирование песен с вокалом и аккомпанементом, учитывая тексты реальный мир. В этом свете мы предлагаем SongCreator, систему поколений песен, предназначенную для решения этой проблемы. Модель состоит из двух новых дизайнов: тщательно разработанная модель двойной последовательности (DSLM) для захвата информации о вокале и сопровождении для генерации песен, а также стратегию дополнительной маски внимания для DSLM, которая позволяет нашей модели понимать, генерировать и редактировать песни , делая его подходящим для различных задач, связанных с поколением, связанных с песнями. Обширные эксперименты демонстрируют эффективность Songcreator, достигая современных или конкурентных выступлений во всех восьми задачах. Примечательно, что он превосходит предыдущие работы с большим отрывом в текстах в песне и текстах к Vocals. Кроме того, он способен независимо контролировать акустические условия вокала и сопровождение в сгенерированной песне с помощью различных подсказок, демонстрируя ее потенциальную применимость. Наши образцы доступны по адресу https://songcreator.github.io/. |
| 9 сентября 2024 года | Hyperagent: Apenerist Software Engineering Agents для решения задач кодирования в масштабе | Большие языковые модели (LLMS) произвели революцию в разработке программного обеспечения (SE), демонстрируя замечательные возможности в различных задачах кодирования. В то время как недавние усилия создали автономные программные агенты на основе LLMS для комплексных задач разработки, эти системы обычно предназначены для конкретных задач SE. Мы вводим Hyperagent, новую универсальную многоагентную систему, предназначенную для решения широкого спектра задач SE на разных языках программирования, имитируя рабочие процессы разработчиков человека. Включая четыре специализированных агента - планировщик, навигатор, редактор кода и исполнитель. Hyperagent управляет полным жизненным циклом SE -задач, от первоначальной зачатия до окончательной проверки. Благодаря обширным оценкам, Hyperagent достигает современных результатов в разных задачах SE: он достигает 25,01% успеха в SWE-Bench-Lite и 31,40% на SWE-Bench, проверенный для решения проблем GitHub, превосходя существующие методы. Кроме того, Hyperagent демонстрирует производительность SOTA в генерации кода на уровне хранилища (RepoExec), а также в локализации и восстановлении программ (Defects4j), часто превосходя специализированные системы. Эта работа представляет собой значительный прогресс в отношении универсальных, автономных агентов, способных обрабатывать сложные многоэтапные задачи SE в различных областях и языках, что потенциально преобразует методы разработки программного обеспечения A-A-Assisted. |
| 9 сентября 2024 года | Мемора: Переход к тряпке следующего поколения с помощью вдохновленного памятью знаний об открытии знаний | Поизводимый генератор (RAG) использует инструменты поиска для доступа к внешним базам данных, тем самым повышая качество генерации крупных языковых моделей (LLMS) посредством оптимизированного контекста. Тем не менее, существующие методы поиска ограничены по своей природе, поскольку они могут выполнять только соответствие релевантности между явно указанными запросами и хорошо сформированными знаниями, но неспособные выполнять задачи, связанные с неоднозначными потребностями в информации или неструктурированных знаниях. Следовательно, существующие тряпичные системы в первую очередь эффективны для простых задач с вопросами. В этой работе мы предлагаем Memorag, новую парадигму поколения, обеспечиваемой полученной аугированной поколением. Memorag принимает архитектуру с двойной системой. С одной стороны, в нем используется легкий, но дальний LLM для формирования глобальной памяти базы данных. После того, как задача представлена, она генерирует черновые ответы, поднимая инструменты поиска для поиска полезной информации в базе данных. С другой стороны, он использует дорогой, но выразительный LLM, который генерирует окончательный ответ на основе полученной информации. Опираясь на эту общую структуру, мы дополнительно оптимизируем производительность Memorag, повышая его механизм подсчета и запоминающееся способность. В нашем эксперименте Memorag достигает превосходной производительности в различных задачах оценки, в том числе как сложные, в которых обычная тряпка не сбои, так и простые, где широко применяется тряпная ткань. |
| 8 сентября 2024 года | OneGen: эффективное однопроходное объединенное поколение и поиск для LLMS | Несмотря на недавние достижения в моделях крупных языков (LLMS), которые значительно расширили генеративные возможности для различных задач NLP, LLM по -прежнему сталкиваются с ограничениями при непосредственной обработке. Тем не менее, многие практические приложения требуют бесшовной интеграции как поиска, так и поколения. В этой статье представлена новая и эффективная структура генерации и поиска однопроходной генерации и поиска (OneGen), предназначенную для повышения производительности LLMS по задачам, которые требуют как генерации, так и поиска. Предлагаемая структура мотает традиционно отдельные подходы к обучению для поколения и поиска, включив токены поиска, создаваемые авторегрессивно. Это позволяет одному LLM выполнять обе задачи одновременно в едином переднем проходе. Мы проводим эксперименты по двум различным типам композитных задач, тряпке и связывании сущностей, для проверки способности, эффективности и эффективности OneGen при обучении и выводе. Кроме того, наши результаты показывают, что интеграция генерации и поиска в одном и том же контексте сохраняет генеративные возможности LLM, при этом улучшая производительность поиска. Насколько нам известно, Onegen является первым, кто позволяет LLMS провести векторный поиск во время поколения. |
| 6 сентября 2024 года | Paper Popilot: самоотверженная и эффективная система LLM для персонализированной академической помощи | По мере распространения научных исследований исследователи сталкиваются с сложной задачей навигации и чтения огромного количества литературы. Существующие решения, такие как документ QA, не могут эффективно предоставить персонализированную и актуальную информацию. Мы представляем Paper Copilot, самоочитывающуюся, эффективную систему LLM, предназначенную для помощи исследователям, основываясь на переходной мысли, профиле пользователя и высокопроизводительной оптимизации. В частности, Paper Copilot может предлагать персонализированные исследовательские услуги, поддерживая обновленную базу данных в реальном времени. Количественная оценка демонстрирует, что Paper Copilot экономит 69,92% времени после эффективного развертывания. В этом документе подробно описывается проектирование и реализацию бумажного копилота, подчеркивая его вклад в персонализированную академическую поддержку и его потенциал для оптимизации процесса исследования. |
| 5 сентября 2024 г. | Главы внимания крупных языковых моделей: опрос | С момента появления CHATGPT крупные языковые модели (LLMS) преуспели в различных задачах, но остаются как системы черного ящика. Следовательно, рассуждения узких мест LLM в основном подвержены их внутренней архитектуре. В результате многие исследователи начали изучать потенциальные внутренние механизмы LLM, причем большинство исследований сосредоточены на головах внимания. Наш опрос направлен на то, чтобы пролить свет на процессы внутренних рассуждений LLM, сосредоточившись на основных механизмах внимания. Сначала мы перегоняем человеческий мыслительный процесс в четырехэтапную структуру: отзыв знаний, идентификация в контексте, скрытые рассуждения и подготовка выражения. Используя эту структуру, мы систематически проверяем существующие исследования, чтобы определить и классифицировать функции конкретных голов внимания. Кроме того, мы суммируем методологии эксперимента, используемые для обнаружения этих специальных голов, разделяя их на две категории: без моделирования методов и методы, требуемые моделированием. Кроме того, мы обрисовываем соответствующие методы оценки и критерии. Наконец, мы обсуждаем ограничения текущих исследований и предлагаем несколько потенциальных будущих направлений. |
| 5 сентября 2024 г. | Как работает ваш код LLM? Расширение возможностей настройки инструкций кода с помощью высококачественных данных | В последнее время растут интерес к изучению того, как построить лучшие данные настройки инструкций. Тем не менее, мы наблюдаем, как модели кодов, обученные этими наборами данных, демонстрируют высокую производительность на Humaneval, но работают хуже на других критериях, таких как Livecodebench. После дальнейшего изучения мы обнаруживаем, что многие наборы данных страдают от тяжелой утечки данных. После очистки большинства просочившихся данных некоторые хорошо известные высококачественные наборы данных работают плохо. Это открытие раскрывает новую задачу: определение того, какой набор данных действительно квалифицируется как высококачественные данные инструкций по коду. Чтобы решить эту проблему, мы предлагаем эффективную стратегию обрезки данных кода для выбора хороших образцов. Наш подход основан на трех измерениях: сложность обучения, качество ответа и разнообразие обучения. Основываясь на наших выбранных данных, мы представляем Xcoder, семейство моделей, созданное из Llama3. Наши эксперименты показывают, что Xcoder достигает новых современных результатов, используя меньше данных обучения, что проверяет эффективность нашей стратегии данных. Более того, мы проводим всесторонний анализ состава данных и находим существующие наборы данных кода, имеют разные характеристики в соответствии с их методами строительства, которые предоставляют новую информацию для будущих LLMS. Наши модели и набор данных выпущены в https://github.com/banksy23/xcoder |
| 5 сентября 2024 г. | От MOOC до MAIC: изменить онлайн-преподавание и обучение через агентов, управляемых LLM | После первых случаев онлайн -образования, где курсы были загружены на доступные и общие онлайн -платформы, эта форма масштабирования распространения человеческих знаний для достижения более широкой аудитории вызвала широкую дискуссию и широко распространенное принятие. Признавая, что персонализированное обучение по -прежнему обладает значительным потенциалом для улучшения, новые технологии искусственного интеллекта были постоянно интегрированы в этот формат обучения, что приводит к различным образовательным приложениям для ИИ, таких как образовательная рекомендация и интеллектуальное обучение. Появление интеллекта в крупных языковых моделях (LLMS) позволило построить эти улучшения образования на единой основополагающей модели, что обеспечивает более глубокую интеграцию. В этом контексте мы предлагаем MAIC (массовый курс A-Emported), новую форму онлайн-образования, которая использует многоагентные системы, управляемые LLM для построения классной комнаты, сбалансируя масштабируемость с адаптивностью. Помимо изучения концептуальной основы и технических инноваций, мы проводим предварительные эксперименты в Университете Цинхуа, в одном из ведущих университетов Китая. Опираясь на более 100 000 учебных записей более 500 студентов, мы получаем серию ценных наблюдений и первоначальных анализов. Этот проект будет продолжать развиваться, в конечном счете, стремясь создать комплексную открытую платформу, которая поддерживает и объединяет исследования, технологии и приложения для изучения возможностей онлайн -образования в эпоху крупной модели ИИ. Мы представляем эту платформу как совместный центр, объединяя педагогов, исследователей и новаторов для коллективного изучения будущего онлайн-образования, управляемого искусственным интеллектом. |
| 4 сентября 2024 года | Longcite: позволяет LLMS генерировать мелкозернистые цитаты в давно контекстом QA | Хотя современные модели с большим языком (LLMS) продемонстрировали впечатляющие возможности ответа на вопросы пользователей на основе обширного текста, отсутствие цитат в их ответах затрудняет проверку пользователей, что приводит к опасениям по поводу их надежности из-за их потенциальных галлюцинаций. В этой работе мы стремимся позволить LLMS с длинным контекстом генерировать ответы с помощью мелкозернистых цитат на уровне предложений, улучшая их верность и проверку. Сначала мы представляем Longbench-Cite, автоматизированный эталон для оценки производительности текущих LLMS в вопросе с длинным контекстом, отвечающим на цитаты (LQAC), что выявило значительное место для улучшения. С этой целью мы предлагаем COF (грубый к штрафу), новый трубопровод, в котором используются готовые LLM для автоматического генерации экземпляров QA с длинным контекстом с точными цитатами на уровне предложений и использовали этот трубопровод для построения Longcite-45K, крупномасштабный набор данных SFT для LQAC. Наконец, мы тренируем Longcite-8B и Longcite-9B, используя набор данных Longcite-45K, успешно обеспечивая их генерацию точных ответов и мелкозернистых цитат на уровне предложений на одном выходе. Результаты оценки на Longbench-цитун показывают, что наши обученные модели достигают современного качества цитирования, превзойдя передовые проприетарные модели, включая GPT-4O. |
| 4 сентября 2024 года | Longllava: масштабирование многомодальных LLM до 1000 изображений эффективно через гибридную архитектуру | Расширение долгосрочных возможностей многомодальных крупных языковых моделей ~ (MLLMS) имеет решающее значение для понимания видео, понимания изображений высокого разрешения и мультимодальных агентов. Это включает в себя серию систематических оптимизаций, включая архитектуру модели, стратегию построения данных и обучения, в частности, решают такие проблемы, как textIt {Degraded Performance с большим количеством изображений} и TextIt {Высоко вычислительные затраты}. В этой статье мы адаптируем модельную архитектуру к гибриду блоков мамбы и трансформатора, подходим к построению данных как с временной, так и пространственной зависимостью между несколькими изображениями и используем стратегию прогрессивного обучения. Выпущенная модель textbf {longllava} ~ ( textbf {long} -context textbf {l} arge textbf {l} anguage textbf {a} nd textbf {v} iSion textbf {a} ssistant) является Первый гибридный MLLM, который достиг лучшего баланса между эффективностью и эффективностью. Longllava не только достигает конкурентных результатов по различным критериям, но и поддерживает высокую пропускную способность и низкое потребление памяти. В частности, он может обрабатывать почти тысячу изображений на одном графическом процессоре A100 80 ГБ, показывая многообещающие перспективы приложений для широкого спектра задач. |
| 4 сентября 2024 года | На пути к единому взгляду на предпочтение обучению для крупных языковых моделей: опрос | Большие языковые модели (LLMS) демонстрируют удивительно мощные возможности. Одним из важнейших факторов для достижения успеха является выравнивание производства LLM с человеческими предпочтениями. Этот процесс выравнивания часто требует лишь небольшого количества данных для эффективного повышения производительности LLM. Несмотря на эффективные исследования в этой области охватывают несколько доменов, и вовлеченные методы относительно сложны для понимания. Взаимосвязь между различными методами была недооценена, ограничивая развитие выравнивания предпочтений. В свете этого мы разбиваем существующие стратегии выравнивания популярных выравнивания на различные компоненты и предоставляем единую основу для изучения текущих стратегий выравнивания, тем самым устанавливая между ними связи. В этом опросе мы разлагаем все стратегии в обучении предпочтениям на четыре компонента: модель, данные, обратная связь и алгоритм. Этот унифицированный взгляд предлагает глубокое понимание существующих алгоритмов выравнивания, а также открывает возможности для синергирования сильных сторон различных стратегий. Кроме того, мы представляем подробные рабочие примеры распространенных существующих алгоритмов, чтобы облегчить полное понимание читателей. Наконец, основываясь на нашей единой перспективе, мы исследуем проблемы и будущие направления исследований для выравнивания крупных языковых моделей с человеческими предпочтениями. |
| 4 сентября 2024 года | Создание математических агентов с многообразием | Недавние исследования показали, что возможности математического решения математических проблем крупных языковых моделей (LLMS) могут быть расширены за счет интеграции внешних инструментов, таких как переводчики кода, и использования рассуждений с мультизлубой цепочкой (COT). В то время как текущие методы сосредоточены на генерации синтетических данных и контролируемой тонкой настройке (SFT), в этом документе изучается подход к дополнительному прямому обучению прямого предпочтения для дальнейшего повышения производительности модели. Тем не менее, существующие алгоритмы обучения прямым предпочтениям первоначально предназначены для задачи чата с одним поворотом и не в полной мере рассматривают сложности рассуждений с несколькими поворотами и внешней интеграции инструментов, необходимых для интегрированных инструментов математических рассуждений. Чтобы заполнить этот пробел, мы вводим структуру обучения с прямым предпочтением, адаптированная для этого контекста, которая использует обратную связь от переводчиков кода и оптимизирует предпочтения на уровне траектории. Эта структура включает в себя многократный DPO и многократный KTO в качестве конкретных реализаций. Эффективность нашей структуры подтверждается посредством обучения различных языковых моделей с использованием дополненной подсказки, установленной из наборов данных GSM8K и математики. Наши результаты демонстрируют существенные улучшения: эффективность модели с тонкой настройкой GEMMA-1.1-IT-7B увеличилась с 77,5% до 83,9% на GSM8K и с 46,1% до 51,2% по математике. Аналогичным образом, модель GEMMA-2-IT-9B улучшилась с 84,1% до 86,3% на GSM8K и с 51,0% до 54,5% по математике. |
| 3 сентября 2024 года | Olmoe: Open Mix-Of Experts Language Models | Мы представляем Olmoe, полностью открытую, современную языковую модель, использующую редкую смесь-экспертов (MOE). OLMOE-1B-7B имеет 7 миллиардов (B) параметров, но использует только 1B на входной токен. Мы предварительно выпускаем его на 5 триллиона токена и дополнительно адаптируем его для создания OLMOE-1B-7B-Instruct. Наши модели превосходят все доступные модели с аналогичными активными параметрами, даже превосходящие более крупные, такие как Llama2-13B-Chat и DeepSeekmoe-16B. Мы представляем различные эксперименты по обучению МО, анализируем маршрутизацию в нашей модели, показывающую высокую специализацию, и все аспекты нашей работы: веса модели, данные обучения, код и журналы. |
| 2 сентября 2024 г. | Genagent: построить совместные системы ИИ с автоматизированным генерацией рабочих процессов - тематические исследования на Comfyui | Много предыдущих исследований искусственного интеллекта было сосредоточено на разработке монолитных моделей, чтобы максимизировать их интеллект и возможности, с основной целью повышения производительности в конкретных задачах. Напротив, в этой статье рассматривается альтернативный подход: совместные системы ИИ, которые используют рабочие процессы для интеграции моделей, источников данных и трубопроводов для решения сложных и разнообразных задач. Мы вводим Genagent, основу LLM, которая автоматически генерирует сложные рабочие процессы, предлагая большую гибкость и масштабируемость по сравнению с монолитными моделями. Основное инновация в Genagent заключается в представлении рабочих процессов с кодом, а также построением рабочих процессов с совместными агентами пошаговым образом. Мы реализуем Genagent на платформе Comfyui и предлагаем новый эталон, OpenComfy. Результаты демонстрируют, что Genagent превосходит базовые подходы как в оценках уровня RUN, так и на уровне задач, показывая его способность генерировать сложные рабочие процессы с превосходной эффективностью и стабильностью. |
| 2 сентября 2024 г. | Видеолламб: Понимание видео с длинным контекстом с повторяющимися мостами памяти | Недавние достижения в крупномасштабных моделях видеоязыки показали значительный потенциал для планирования в реальном времени и подробных взаимодействий. Тем не менее, их высокие вычислительные требования и нехватка аннотированных наборов данных ограничивают их практичность для академических исследователей. В этой работе мы вводим VideoLlamb, новую структуру, которая использует токены временной памяти в слоях моста, чтобы обеспечить кодирование целых последовательностей видео наряду с историческими визуальными данными, эффективно сохраняя семантическую непрерывность и повышая производительность модели в различных задачах. Этот подход включает в себя повторяющиеся токены памяти и алгоритм помивания, который разделяет видео на независимые семантические единицы для сохранения семантической целостности. Эмпирически, VideoLlamb значительно превышает существующие видеоязычные модели, демонстрируя улучшение на 5,5 баллов по сравнению с конкурентами по трем тестам VideoQA, и 2,06 балла по эгоцентрическому планированию. Комплексные результаты на MVBench показывают, что VideoLLAMB-7B достигает заметно лучших результатов, чем предыдущие 7B-модели того же LLM. Примечательно, что он сохраняет надежную производительность как Pllava, даже по мере увеличения длины видео до 8 раз. Кроме того, результаты извлечения кадров на нашем специализированном игле в тесте Haystack (NIAVH), дополнительно подтверждайте мастерство VideoLLAMB в точной идентификации определенных кадров в длинных видео. Наш алгоритм по достоинству также позволяет напрямую генерировать потоковые подписи видео, не требуя дополнительного обучения. С точки зрения эффективности, Videollamb, обученный на 16 кадрах, поддерживает до 320 кадров на одном графическом процессоре NVIDIA A100 с линейным масштабированием памяти графического процессора, обеспечивая как высокую производительность, так и экономичную эффективность, тем самым устанавливая новую основу для длинного формирования видео-языка модели как в академических, так и в практических приложениях. |
| 1 сентября 2024 года | ContextCite: приписывание генерации модели в контекст | Как языковые модели используют информацию, предоставляемую в качестве контекста при генерации ответа? Можем ли мы сделать вывод, что конкретное сгенерированное утверждение на самом деле заземлено в контексте, неправильное толкование или сфабрикованное? Чтобы помочь ответить на эти вопросы, мы вводим проблему атрибуции контекста: определяя части контекста (если есть), которые привели модель к созданию конкретного оператора. Затем мы представляем контекст, простой и масштабируемый метод для атрибуции контекста, который может быть применен поверх любой существующей языковой модели. Наконец, мы демонстрируем полезность контекста через три приложения: (1) Помогая проверить сгенерированные утверждения (2) улучшение качества ответа за счет обрезки контекста и (3) обнаружения атак отравления. Мы предоставляем код для контекста по адресу https://github.com/madrylab/context-cite. |
| 31 августа 2024 года | LongRecipe: рецепт для эффективного длинного контекстного обобщения в моделях крупных языков | Модели с большими языками (LLMS) сталкиваются с значительными проблемами при выполнении задач с длинным контекстом из-за их ограниченного эффективного размер окна контекста во время предварительной подготовки, что ограничивает их способность обобщать по расширенным последовательностям. Между тем, расширение контекстного окна в LLMs через пост-протяжение очень ресурсов. Чтобы решить эту проблему, мы вводим LongRecipe, эффективную стратегию обучения для расширения контекстного окна LLM, включая эффектный анализ токков, преобразование индекса позиции и стратегии оптимизации обучения. Он имитирует входные данные о длинной последовательности, сохраняя при этом эффективность обучения и значительно улучшает понимание модели долгосрочных зависимостей. Эксперименты по трем типам LLMS показывают, что LongRecipe может использовать длинные последовательности, требуя только 30% размер целевого контекста, и снижает вычислительный учебный ресурс более 85% по сравнению с полной обучением последовательности. Кроме того, Longrecipe также сохраняет оригинальные возможности LLM в общих задачах. В конечном счете, мы можем расширить эффективное контекстное окно LLMS с открытым исходным кодом от 8K до 128K, достигнув производительности, близкой к GPT-4, и всего один день выделенного обучения с использованием одного графического процессора с памятью 80 г. Наш код выпущен по адресу https://github.com/zhiyuanhubj/longrecipe. |
| 29 августа 2024 года | Mini-omni: языковые модели могут слышать, говорить, думая в потоковой передаче | Последние достижения в языковых моделях достигли значительного прогресса. GPT-4O, как новая веха, позволила разговорам в реальном времени с людьми, демонстрируя естественную беглость почти человека. Такое взаимодействие человека с компьютером требует моделей с возможностью выполнения рассуждений непосредственно с аудиодальностью и генерировать выход при потоковой передаче. Тем не менее, это остается вне досягаемости современных академических моделей, поскольку они обычно зависят от дополнительных систем TTS для синтеза речи, что приводит к нежелательной задержке. В этой статье представлена Mini-AMNI, сквозной разговорной модели на основе звука, способной к речевому взаимодействию в реальном времени. Для достижения этой возможности мы предлагаем метод генерации речи, вновь введенный в текстовый метод, наряду с партийными стратегиями во время вывода для дальнейшего повышения производительности. Наш метод также помогает сохранить языковые возможности оригинальной модели с минимальной деградацией, что позволяет другим произведениям для установления возможностей взаимодействия в реальном времени. Мы называем этот метод обучения «любая модель может
Расширять
Дополнительная информация
Связанные приложения
Рекомендуем вам
Связанные новости
Все
|