Dans le domaine du développement de jeux, les grands modèles jouent un rôle de plus en plus important. Cependant, les modèles existants présentent encore des lacunes en matière de compréhension des scènes de jeu, de reconnaissance d’images et de description du contenu. Afin de résoudre ces problèmes, l’éditeur de Downcodes apporte une bonne nouvelle ! Une équipe de recherche en Alberta, au Canada, a mis en open source un grand modèle spécialement conçu pour les jeux-VideoGameBunny (VGB). Il possède de puissantes capacités de génération de texte, une haute personnalisation, une prise en charge multilingue et est compatible avec plusieurs environnements de développement, ce qui facilite grandement l'utilisation des développeurs de jeux.
Dans le monde du développement de jeux, les grands modèles deviennent progressivement un « groupe de réflexion » irremplaçable, couvrant presque tout, de la génération de personnages IA à la construction de scènes.
Cependant, malgré leurs capacités impressionnantes, leur compréhension des scènes de jeu, la reconnaissance des images et la description du contenu doivent encore être améliorées. Afin de résoudre ces problèmes, une équipe de recherche de l'Alberta, au Canada, n'est pas en reste et a lancé un grand modèle open source spécialement conçu pour les jeux-VideoGameBunny ("VGB" en abrégé).

Points forts des fonctionnalités
-Prise en charge de plusieurs langues : capable de traiter et de générer plusieurs langues, adaptées aux applications internationales.
- Hautement personnalisable : les paramètres du modèle et les fichiers de configuration peuvent être ajustés en fonction des besoins spécifiques.
- Puissantes capacités de génération de texte : Capacité à générer des conversations cohérentes et naturelles, ce qui le rend excellent dans les jeux et les chatbots.
- Open source et facilement accessible : disponible sur la plateforme Hugging Face, ce qui facilite l'utilisation et la contribution de chacun.
- Compatible avec plusieurs environnements de développement : Python et autres langages de programmation populaires, facilitant l'intégration dans différents projets.
- Fichiers de modèle riches : fournit des fichiers de modèle dans plusieurs formats pour aider les utilisateurs dans différentes formations et applications.
- Soutien communautaire actif : les utilisateurs recherchent de l'aide et la communication au sein de la communauté, favorisant ainsi le partage et la coopération technologiques.
Adresse du projet : https://huggingface.co/VideoGameBunny/VideoGameBunny-V1/tree/main
VGB a un grand potentiel. C'est comme un assistant visuel intelligent d'IA capable de comprendre l'environnement de jeu et de fournir un retour instantané. Dans ces jeux 3A en monde ouvert, il peut aider les joueurs à identifier rapidement les éléments clés ou à répondre à diverses questions, vous permettant ainsi de maîtriser les compétences de jeu plus rapidement, améliorant considérablement l'interactivité et l'immersion du jeu.
Ce qui est encore plus puissant, c'est que VGB peut également analyser un grand nombre d'images de jeu et détecter les erreurs de rendu graphique et les incohérences du moteur physique, devenant ainsi un assistant puissant permettant aux développeurs de résoudre les bugs et les anomalies.
Scénarios applicables
- Système de dialogue de jeu : peut être utilisé pour développer des dialogues de PNJ plus naturels et intelligents, améliorant ainsi l'immersion du joueur.
- Applications éducatives : générez du contenu interactif ou des exercices pour les logiciels éducatifs afin d'améliorer l'efficacité de l'apprentissage.
- Chatbot du service client : utilisé dans les systèmes de service client en ligne pour fournir une assistance et des réponses client en temps réel.
La base de VGB est le modèle Bunny, qui est un « bon partenaire » avec un rendement élevé et une faible consommation. Son inspiration de conception est similaire à LLaVA, qui convertit les informations visuelles de modèles visuels pré-entraînés puissants en balises d'image via un réseau perceptron multicouche pour garantir que le modèle de langage peut traiter efficacement les données. Le modèle Bunny prend en charge des résolutions d'image allant jusqu'à 1 152 × 1 152 pixels, ce qui est particulièrement important lors du traitement des images de jeu, car l'écran de jeu contient divers éléments visuels allant des petites icônes d'interface utilisateur aux énormes objets de jeu. Les capacités d'extraction de fonctionnalités à plusieurs échelles permettent à VGB de mieux comprendre le contenu du jeu.
Afin de permettre à VGB de mieux comprendre le contenu visuel du jeu, l'équipe de recherche a adopté le modèle open source LLama-3-8B de Meta comme modèle de langage et l'a combiné avec l'encodeur visuel SigLIP et le wrapper S2. Cette combinaison permet au modèle de capturer des éléments visuels à différentes échelles dans le jeu, depuis les minuscules icônes d'interface jusqu'aux grands objets de jeu, fournissant ainsi de riches informations contextuelles.
De plus, afin de générer des données de commande correspondant aux images du jeu, les chercheurs ont utilisé divers modèles avancés, notamment Gemini-1.0-Pro-Vision, GPT-4V et GPT-4o. Ces modèles génèrent plusieurs types d'instructions, tels que des titres courts et détaillés, des descriptions d'image en JSON et des questions et réponses basées sur des images, aidant VGB à mieux comprendre les requêtes et les instructions des joueurs.
Dans l'ensemble, l'émergence de VideoGameBunny a apporté de nouvelles possibilités au développement de jeux. Il peut non seulement améliorer l'expérience de jeu, mais également aider les développeurs à développer des jeux et à corriger les bugs plus efficacement. Nous espérons que VGB sera plus largement utilisé et développé à l’avenir !