Seattle Startup Moondream выпустил модель Compact Visual Language Modream2, которая имеет только 1,6 миллиарда параметров, но хорошо показала различные тесты на эталон, даже лучше, чем некоторые модели с большими параметрами. В качестве модели с открытым исходным кодом, Moondream2 может работать локально на низкоэффективных устройствах, таких как смартфоны, и обладает мощными возможностями обработки изображений и текстовой обработки, включая вопросы и ответы, OCR, подсчет объектов и классификация. Его набирают более 60% по DOCVQA, TextVQA и GQA, демонстрируя ее мощную способность при выполнении локально. Moondream получил 4,5 млн. Долл. США в раундах семян и продолжает обновлять модель для повышения своей производительности.
Недавно Moondream, стартап в Сиэтле, запустил компактную модель визуального языка под названием Moondream2. Несмотря на его небольшой размер, модель хорошо показала в различных критериях и привлекла большое внимание. В качестве модели с открытым исходным кодом Moondream2, как ожидается, будет реализовать локальное распознавание изображений на смартфонах.

Moondream2 был официально выпущен в марте. С момента своего выпуска команда Moondream постоянно обновляла модель, чтобы постоянно улучшать свою контрольную производительность. Июльское издание показало значительные улучшения в области OCR и понимания документации, особенно при анализе исторических экономических данных. Модель набрала более 60% на DocVQA, TextVQA и GQA, показывая ее мощную способность при выполнении локально.
Отличительной особенностью Moondream2 является его компактный размер: только 1,6 миллиарда параметров, что заставляет его работать не только на облачных серверах, но и на локальных компьютерах и даже некоторых низкопроизводительных устройствах, таких как смартфоны или одноразовые компьютеры.
Несмотря на небольшой размер, его производительность сопоставима с некоторыми конкурентными моделями с миллиардами параметров и даже превосходит эти более крупные модели в некоторых критериях.
По сравнению с моделями визуального языка мобильного устройства исследователи отметили, что, хотя Moondream2 имеет только 170 миллионов параметров, его производительность сопоставима с производительностью модели параметров 700 миллионов, и он только немного уступает набору данных SQA. Это показывает, что, несмотря на превосходную производительность небольшой модели, есть проблемы в понимании конкретного контекста.

Вихят Коррапати, разработчик модели, сказал, что Moondream2 был построен на других моделях, таких как Siglip, наборы обучающих данных Microsoft PHI-1,5 и Llava. Модель с открытым исходным кодом теперь доступна бесплатно на GitHub и имеет демонстрационную версию на обнимающееся лицо. На платформе кодирования Moondream2 также привлекает широкое внимание сообщества разработчиков и получил более 5000 звезд.
Успех привлек внимание инвесторов: Moondream успешно собрал 4,5 млн. Долл. США в раунде семян, возглавляемой Felicis Ventures, фондом Microsoft M12Github и Ascend. Генеральный директор компании Джей Аллен много лет работал в Amazon Web Services (AWS) и возглавляет растущий стартап.
Запуск Moondream2 отмечает рождение ряда профессионально оптимизированных моделей с открытым исходным кодом, которые требуют меньше ресурсов при обеспечении аналогичных характеристик для более крупных, более старых моделей. Несмотря на то, что на рынке есть несколько небольших местных моделей, таких как Smart Assistant Apple и Google Gemini Nano, эти два производителя по -прежнему представляют более сложные задачи для решения.
Huggingface: https: //huggingface.co/vikhyatk/moondream2
github: https: //github.com/vikhyat/moondream
Ключевые моменты:
Moondream запустил Moondream2, модель визуального языка с лишь 160 миллионами параметров, которые могут работать на небольших устройствах, таких как смартфоны.
Модель обладает сильными возможностями обработки текста и изображений, может отвечать на вопросы, выполнять OCR, подсчитать объекты и классифицировать контрольные показатели и выполнить отличный анализ.
Moondream успешно собрал финансирование в размере 4,5 млн. Долл. США, а генеральный директор работал в Amazon, и команда продолжала обновлять и улучшать производительность модели.
Появление Moondream2 принесло новые возможности для мобильных приложений ИИ, а его функции с открытым исходным кодом также способствовали активному участию и инновациям сообщества разработчиков. В будущем, благодаря непрерывному развитию технологий, небольшие и эффективные модели ИИ, такие как Moondream2, будут играть важную роль в большем количестве областей.