В сфере разработки игр большие модели играют все более важную роль. Однако существующие модели по-прежнему имеют недостатки в понимании игровых сцен, распознавании изображений и описании контента. Чтобы решить эти проблемы, редактор Downcodes приносит хорошие новости! Исследовательская группа из Альберты, Канада, открыла исходный код большой модели VideoGameBunny (VGB), специально созданной для игр. Он обладает мощными возможностями генерации текста, широкими возможностями настройки, многоязычной поддержкой и совместим с несколькими средами разработки, что значительно облегчает использование разработчиками игр.
В мире разработки игр большие модели постепенно становятся незаменимым «мозговым центром», охватывающим практически все — от создания ИИ-персонажей до построения сцен.
Однако, несмотря на их впечатляющие возможности, их понимание игровых сцен, распознавание изображений и описание контента все еще нуждаются в улучшении. Чтобы решить эти проблемы, исследовательская группа из Альберты, Канада, чтобы не отставать, запустила большую модель с открытым исходным кодом, специально созданную для игр — VideoGameBunny (сокращенно VGB).

Основные характеристики
-Поддержка нескольких языков: возможность обрабатывать и генерировать несколько языков, подходящих для международных приложений.
- Широкие возможности настройки: параметры модели и файлы конфигурации можно настроить в соответствии с конкретными потребностями.
- Мощные возможности генерации текста: способность генерировать связные и естественные разговоры, что делает их превосходными в играх и чат-ботах.
- Открытый исходный код и легкодоступность: доступно на платформе Hugging Face, что позволяет любому легко использовать и вносить свой вклад.
- Совместимость с несколькими средами разработки: Python и другими популярными языками программирования, что упрощает интеграцию в различные проекты.
- Расширенные файлы моделей: предоставляет файлы моделей в нескольких форматах для поддержки пользователей в различных тренингах и приложениях.
- Активная поддержка сообщества: пользователи ищут помощи и общения в сообществе, способствуя обмену технологиями и сотрудничеству.
Адрес проекта: https://huggingface.co/VideoGameBunny/VideoGameBunny-V1/tree/main
VGB имеет большой потенциал. Это своего рода умный визуальный помощник с искусственным интеллектом, который может понимать игровую среду и обеспечивать мгновенную обратную связь. В играх 3A с открытым миром он может помочь игрокам быстро идентифицировать ключевые предметы или ответить на различные вопросы, позволяя быстрее освоить игровые навыки, что значительно повышает интерактивность и погружение в игру.
Еще более мощным является то, что VGB также может анализировать большое количество игровых изображений и обнаруживать ошибки рендеринга графики и несоответствия физического движка, становясь мощным помощником для разработчиков в устранении ошибок и аномалий.
Применимые сценарии
- Система игровых диалогов: может использоваться для разработки более естественных и интеллектуальных диалогов NPC, улучшая погружение игрока.
- Образовательные приложения: создавайте интерактивный контент или упражнения для образовательного программного обеспечения для повышения эффективности обучения.
- Чат-бот службы поддержки клиентов: используется в онлайн-системах обслуживания клиентов для обеспечения поддержки клиентов и ответов в режиме реального времени.
В основе VGB лежит модель Bunny, которая является «хорошим партнером» с высоким КПД и низким потреблением. Его дизайн аналогичен LLaVA, который преобразует визуальную информацию из надежных предварительно обученных визуальных моделей в теги изображений через многоуровневую сеть перцептрона, чтобы гарантировать, что языковая модель может эффективно обрабатывать данные. Модель Bunny поддерживает разрешение изображения до 1152х1152 пикселей, что особенно важно при обработке игровых изображений, поскольку игровой экран содержит различные визуальные элементы от маленьких значков пользовательского интерфейса до огромных игровых объектов. Возможности многомасштабного извлечения функций позволяют VGB лучше понимать игровой контент.
Чтобы позволить VGB лучше понять визуальное содержание игры, исследовательская группа приняла LLama-3-8B с открытым исходным кодом Meta в качестве языковой модели и объединила ее с визуальным кодировщиком SigLIP и оболочкой S2. Эта комбинация позволяет модели захватывать визуальные элементы в игре в разных масштабах: от крошечных значков интерфейса до крупных игровых объектов, предоставляя богатую контекстную информацию.
Кроме того, для генерации данных команд, соответствующих игровым изображениям, исследователи использовали множество продвинутых моделей, включая Gemini-1.0-Pro-Vision, GPT-4V и GPT-4o. Эти модели генерируют несколько типов инструкций, таких как короткие и подробные заголовки, описания в формате JSON и вопросы и ответы на основе изображений, что помогает VGB лучше понимать запросы и инструкции игроков.
В целом, появление VideoGameBunny открыло новые возможности для разработки игр. Оно может не только улучшить игровой процесс, но и помочь разработчикам более эффективно разрабатывать игры и исправлять ошибки. Мы надеемся, что VGB будет более широко использоваться и развиваться в будущем!