Нанкинский университет и исследовательский институт Megvii совместно разработали парадигму больших визуальных моделей без присмотра под названием SeVa, которая эффективно решает проблему выравнивания предпочтений моделей визуального языка. Эта революционная технология не требует участия ручного управления или GPT-4. Она значительно снижает затраты на выравнивание за счет автоматического построения данных о предпочтениях, улучшает способность модели следовать инструкциям, уменьшает галлюцинации и добилась замечательных результатов в многочисленных тестах производительности. Суть SeVa заключается в использовании технологии увеличения изображений для создания положительных и отрицательных образцов и использовании их для обучения модели, в конечном итоге достигая эффективного согласования человеческих предпочтений.
Суть этой технологии заключается в автоматическом построении конвейера данных о предпочтениях. Сравнивая выходные данные модели до и после выравнивания предпочтений, можно четко увидеть изменения. Исследователи обнаружили, что даже небольшое увеличение изображения может дать VLM разные ответы на один и тот же вопрос. Поэтому для обучения они использовали исходные ответы изображения в качестве положительных образцов, а ответы дополненного изображения — в качестве отрицательных образцов.

Экспериментальные результаты SeVa впечатляют. Использование только 8000 построенных неконтролируемых данных значительно улучшило способность VLM следовать инструкциям, уменьшило галлюцинации и позволило добиться значительных улучшений в мультимодальных и других тестах. Что еще более важно, этот метод прост, недорог и не требует каких-либо аннотаций человека или GPT-4.
Результаты испытаний по множеству тестов показывают, что SeVa имеет значительные преимущества в улучшении соответствия визуальных моделей человеческим предпочтениям. Производительность SeVa особенно выдающаяся, особенно на стендах MMVet и LLaVA, оцененных GPT-4. Кроме того, SeVa также может давать более длинные и подробные ответы с большей согласованностью каждого ответа и более устойчива к изменениям различных температур.
Данное исследование не только обеспечивает эффективное решение проблемы выравнивания больших визуальных моделей, но и открывает новые возможности для развития области искусственного интеллекта. Благодаря открытому исходному коду SeVa мы можем предвидеть, что все больше исследователей и разработчиков будут использовать эту парадигму для содействия дальнейшему развитию технологий искусственного интеллекта в будущем. В эту эпоху, полную безграничных возможностей, давайте с нетерпением ждем новых сюрпризов, которые принесут технологии искусственного интеллекта.
Адрес проекта: https://github.com/Kevinz-code/SeVa
Открытый исходный код SeVa будет способствовать развитию технологии визуальных больших моделей, предоставит исследователям и разработчикам новые инструменты и методы, а также еще больше улучшит производительность и применение визуального ИИ. Успех этого исследования демонстрирует большой потенциал обучения без учителя в решении проблем согласования ИИ и указывает на новое направление будущего развития технологий ИИ.