Недавно Google выпустила новую модель на языке зрения (VLM) под названием Paligemma2mix, инновации, которая отмечает серьезный прорыв в технологии искусственного интеллекта в области обработки изображений и текста. Paligemma2mix может одновременно обрабатывать визуальную информацию и текстовый ввод, но также генерировать соответствующие выходы в соответствии с требованиями, обеспечивая мощную техническую поддержку для многозадачности.
Paligemma2mix имеет чрезвычайно всеобъемлющие функции, охватывающие различные задачи визуального языка, такие как описание изображения, оптическое распознавание символов (OCR), вопрос и ответ изображения, обнаружение объектов и сегментация изображения. Независимо от того, могут ли разработчики или исследователи использовать модель непосредственно через предварительные контрольные точки или тонкую настройку в соответствии с конкретными потребностями, для удовлетворения потребностей различных сценариев применения.

Как оптимизированная версия Paligemma2, Paligemma2mix была специально скорректирована для гибридных задач, с целью предоставления разработчикам более удобный опыт исследования. Модель предоставляет три шкалы параметров, включая 3b (3 миллиарда параметров), 10b (10 миллиардов параметров) и 28b (28 миллиардов параметров), и поддерживает два разрешения: 224px и 448px, которые могут гибко адаптироваться к различным вычислительным ресурсам и требованиям задач.
Основные функциональные моменты Paligemma2mix включают описание изображения, оптическое распознавание символов (OCR), вопрос изображения, ответ и обнаружение объекта. С точки зрения описания изображения, модель способна генерировать подробные короткие или длинные описания, такие как определение картины коровы, стоящей на пляже и предоставление богатых описаний. С точки зрения OCR, он может извлечь текст из изображений, идентифицировать логотипы, метки и содержание документов, обеспечивая отличное удобство для извлечения информации. Кроме того, пользователи также могут загружать изображения и задавать вопросы. Модель проанализирует изображения и даст точные ответы, а также может идентифицировать конкретные объекты на изображении, такие как животные, транспортные средства и т. Д.
Стоит отметить, что разработчики могут скачать смешанные веса Paligemma2mix через платформы Kaggle и обнимающих лиц, чтобы облегчить дальнейшие эксперименты и развитие. Если вы заинтересованы в этой модели, вы можете исследовать демонстрационную платформу Hugging Face, чтобы получить представление о ее мощных функциях и потенциале приложения.
С запуском Paligemma2mix исследования Google в области моделей на языке зрения сделали еще один важный шаг. Эта модель не только демонстрирует огромный потенциал технологии искусственного интеллекта, но также предоставляет больше возможностей для будущих практических применений. Мы с нетерпением ждем, чтобы эта технология сможет показать свою ценность в большем количестве областей и способствовать дальнейшему развитию технологий искусственного интеллекта.
Технический отчет: https://arxiv.org/abs/2412.03555