Редактор Downcodes узнал, что мультимодальная модель искусственного интеллекта с открытым исходным кодом под названием Molmo в последнее время привлекла широкое внимание. Он основан на Qwen2-72B и использует CLIP OpenAI в качестве механизма визуальной обработки. Благодаря своей эффективной производительности и инновационным функциям наведения он продемонстрировал сильную конкурентоспособность в области мультимодального искусственного интеллекта и даже бросил вызов лидерству традиционных бизнес-моделей. Его компактный дизайн не только повышает эффективность, но и повышает гибкость развертывания, открывая больше возможностей для приложений искусственного интеллекта.
Недавно широкое внимание в отрасли привлекла мультимодальная модель искусственного интеллекта с открытым исходным кодом под названием Molmo. Эта система искусственного интеллекта, основанная на Qwen2-72B и использующая CLIP OpenAI в качестве механизма визуальной обработки, бросает вызов доминированию традиционных бизнес-моделей благодаря своей превосходной производительности и инновационным функциям.
Выдающейся особенностью Molmo является его эффективная работа. Несмотря на относительно небольшой размер, он конкурирует с конкурентами, которые в десять раз превосходят его по вычислительной мощности. Эта небольшая и сложная концепция дизайна не только повышает эффективность модели, но и обеспечивает большую гибкость для ее развертывания в различных сценариях применения.
По сравнению с традиционными мультимодальными моделями инновация Molmo заключается в предлагаемой ею функции указания. Эта функция позволяет моделям более глубоко взаимодействовать с реальной и виртуальной средой, открывая новые возможности для таких приложений, как взаимодействие человека с компьютером и дополненной реальности. Такая конструкция не только повышает практичность модели, но и закладывает основу для глубокой интеграции ИИ и реального мира в будущем.

С точки зрения оценки характеристик особенно хорошо показал себя Молмо-72Б. Он установил новые рекорды по множеству академических тестов и занял второе место после GPT-4o по оценке человека. Это достижение полностью доказывает отличные характеристики Molmo в практическом применении.
Еще одной особенностью Molmo является его открытый исходный код. Веса, код, данные и методы оценки модели публикуются, что не только отражает дух открытого исходного кода, но и вносит важный вклад в развитие всего сообщества ИИ. Такое открытое отношение будет способствовать быстрому внедрению и инновациям в технологиях искусственного интеллекта.
Что касается конкретных функций, Molmo демонстрирует обширные возможности. Он не только генерирует высококачественные описания изображений, но также точно понимает содержание изображений и отвечает на сопутствующие вопросы. Что касается мультимодального взаимодействия, Molmo поддерживает одновременный ввод текста и изображений и может повысить интерактивность с визуальным контентом посредством взаимодействия с 2D-указанием. Эти функции значительно расширяют возможности ИИ в практическом применении.

Успех Molmo во многом обусловлен высококачественными данными обучения. Команда исследований и разработок внедрила инновационный метод сбора данных для получения более подробной информации о контенте посредством голосового описания изображений. Этот метод не только позволяет избежать распространенных упрощенных проблем текстовых описаний, но и собирает большое количество качественных и разнообразных обучающих данных.
Что касается разнообразия, наборы данных Molmo охватывают широкий спектр сценариев и контента и поддерживают множество методов взаимодействия с пользователем. Это позволяет Молмо преуспеть в выполнении конкретных задач, таких как ответы на вопросы, связанные с изображениями, улучшение задач оптического распознавания символов и т. д.
Стоит отметить, что Molmo хорошо работает по сравнению с другими моделями, особенно в академических тестах и человеческих оценках. Это не только доказывает силу Molmo, но и дает новый эталон методов оценки ИИ.
Успех Молмо еще раз доказывает, что в разработке ИИ качество данных важнее количества. Используя менее 1 миллиона пар изображений и текстовых данных, Молмо продемонстрировал потрясающую эффективность и производительность обучения. Это дает новые идеи для разработки будущих моделей ИИ.
Адрес проекта: https://molmo.allenai.org/blog
В целом, Molmo продемонстрировала большой потенциал в области мультимодального искусственного интеллекта благодаря своей эффективной работе, инновационным функциям наведения и функциям с открытым исходным кодом, предоставляя новые направления и идеи для будущего развития ИИ. Редактор Downcodes надеется на его применение и дальнейшее развитие в других областях.