Недавно Meta незаметно опубликовала шесть основных результатов исследований в области искусственного интеллекта, охватывающих различные области, такие как мультимодальные модели, текстовая музыка, технология создания водяных знаков на аудио и наборы данных, демонстрируя свои постоянные инновации и техническую мощь в области искусственного интеллекта. Эти результаты исследований не только открывают новые возможности для приложений в области искусственного интеллекта, но и служат ценным ориентиром для будущих направлений технологического развития. Эти впечатляющие результаты исследований подробно описаны ниже.
Недавно Meta незаметно опубликовала шесть результатов исследований, привнесших новые приложения и технологические прорывы в область искусственного интеллекта. К ним относятся мультимодальные модели, текстовые музыкальные модели, технология создания водяных знаков для звука, наборы данных и другие проекты. Давайте посмотрим на конкретные результаты этих исследований.
Мета Хамелеон (модель «Хамелеон»)
Прежде всего, выпущенная мультимодальная модель «Хамелеон» может обрабатывать текст и изображения одновременно, поддерживает смешанный ввод и вывод текста и предоставляет новое решение для обработки мультимодальных данных.
В то время как большинство современных моделей слияния поздней стадии используют обучение на основе диффузии, Meta Chameleon использует токенизацию для текста и изображений. Это обеспечивает более унифицированный подход и упрощает проектирование, обслуживание и расширение моделей.
Примеры видео: создавайте креативные заголовки из изображений или используйте сочетание текстовых подсказок и изображений для создания совершенно новой сцены.
Теперь Meta будет публично публиковать ключевые компоненты моделей Chameleon7B и 34B по исследовательской лицензии. Выпущенная в настоящее время модель настроена на безопасность, поддерживает смешанный режим ввода и вывод обычного текста и может использоваться в исследовательских целях. Чиновник подчеркнул, что модель генерации изображений Chameleon выпущена не будет.
Вход в продукт: https://top.aibase.com/tool/meta-chameleon.
Мультитокеновое предсказание
Новый метод обучения языковой модели «Прогнозирование с использованием нескольких токенов» направлен на улучшение возможностей модели и эффективности обучения. Он обучает модель прогнозировать несколько слов одновременно, повышая точность прогнозирования модели.

Используя этот подход, языковые модели можно научить прогнозировать несколько будущих слов одновременно, а не предыдущий метод прогнозирования одного слова за раз. Это улучшает возможности модели и эффективность обучения, одновременно увеличивая скорость. В духе ответственной открытой науки предварительно обученные модели будут выпущены для завершения кода под некоммерческой/исследовательской лицензией.
Вход в продукт: https://top.aibase.com/tool/multi-token-prediction.
Музыкальная модель генерации текста "JASCO"

В то время как существующие модели преобразования текста в музыку, такие как MusicGen, полагаются в первую очередь на ввод текста для создания музыки, новая модель Meta, Meta-Joint Audio and Symbol Conditioning for Temporally Controlled Text-to-Music Generation (JASCO), способна принимать различные входных данных условий, таких как определенные аккорды или доли, для улучшения контроля над конечным музыкальным результатом. В частности, уровень информационного узкого места может использоваться в сочетании с временной нечеткостью для извлечения информации, относящейся к конкретным элементам управления. Это позволяет одновременно комбинировать символические и звуковые условия в одной генеративной модели преобразования текста в музыку.
JASCO сравним с базовым оценочным уровнем с точки зрения качества генерации, но при этом обеспечивает лучший и более гибкий контроль над генерируемой музыкой. Чиновники опубликуют исследовательские работы и страницы с примерами, а позже в этом месяце код вывода будет выпущен как часть репозитория AudioCraft под лицензией MIT, а предварительно обученная модель будет выпущена под лицензией CC-BY-NC.
Вход по коду: https://top.aibase.com/tool/audiocraft
Технология аудиоводяных знаков «AudioSeal»

Это первая технология нанесения водяных знаков на аудио, специально разработанная для локального обнаружения речи, сгенерированной искусственным интеллектом, которая позволяет точно локализовать сгенерированные искусственным интеллектом сегменты в более длинных аудиоклипах. AudioSeal совершенствует традиционные звуковые водяные знаки, уделяя особое внимание обнаружению контента, созданного искусственным интеллектом, а не стеганографии.
В отличие от традиционных методов, основанных на сложных алгоритмах декодирования, метод локального обнаружения AudioSeal обеспечивает более быстрое и эффективное обнаружение. Эта конструкция повышает скорость обнаружения в 485 раз по сравнению с предыдущими методами, что делает ее идеальной для крупномасштабных приложений, работающих в режиме реального времени. Наш метод обеспечивает самые современные характеристики с точки зрения надежности и незаметности звуковых водяных знаков.
AudioSeal выпускается под коммерческой лицензией.
Вход в продукт: https://top.aibase.com/tool/audioseal
Набор данных PRISM
В то же время Meta также в сотрудничестве с внешними партнерами выпустила набор данных PRISM, который содержит данные диалогов и предпочтения 1500 участников по всему миру. Он используется для улучшения крупномасштабных языковых моделей, тем самым улучшая разнообразие диалогов и предпочтения. разнообразие и социальные преимущества модели.

Этот набор данных отображает предпочтения каждого человека и детальную обратную связь на основе 8011 разговоров в реальном времени с 21 различным LLM.
Вход в набор данных: https://huggingface.co/datasets/HannahRoseKirk/prism-alignment.
Индикатор «DIG In»

Используется для оценки географических различий в моделях изображений, генерирующих текст, предоставляя больше справочных данных для улучшения модели. Чтобы понять, как люди в разных регионах по-разному относятся к географическому представлению, Meta провела масштабное исследование аннотаций. Мы собрали более 65 000 аннотаций и более 20 ответов на опросы для каждого примера, охватывающих привлекательность, сходство, последовательность, а также поделились рекомендациями по улучшению автоматической и человеческой оценки моделей преобразования текста в изображение.
Вход в код: https://top.aibase.com/tool/dig-in
Выпуск этих проектов принес новые технологические прорывы и перспективы применения в области искусственного интеллекта и имеет большое значение для содействия развитию и применению технологий искусственного интеллекта.
В целом, шесть результатов исследований искусственного интеллекта, опубликованные Meta на этот раз, демонстрируют ее передовые технологии и перспективную структуру в области мультимодальности, генерации текста, обработки звука и построения наборов данных. Достижения в этих технологиях будут способствовать дальнейшему развитию в области искусственного интеллекта и откроют больше возможностей для будущих приложений.