在遊戲開發領域,大模型正扮演著越來越重要的角色。然而,現有模型在遊戲場景理解、影像辨識和內容描述等方面仍有不足。為了解決這些問題,Downcodes小編帶來一個好消息!加拿大阿爾伯塔的研究團隊開源了一款專為遊戲打造的大模型-VideoGameBunny(VGB)。它具備強大的文本生成能力、高度可自訂性以及多語言支持,並與多種開發環境,極大地方便了遊戲開發者的使用。
在遊戲開發的世界裡,大模型正逐漸成為了無可取代的“智囊團”,從生成AI 角色到場景構建,幾乎無所不包。
然而,儘管它們的能力驚人,對於遊戲場景的理解、圖像識別和內容描述卻還有待提升。為了解決這些難題,加拿大阿爾伯塔的研究團隊不甘落後,推出了一款專為遊戲打造的開源大模型-VideoGameBunny(簡稱「VGB」)。

功能亮點
- 支援多種語言:能夠處理和產生多種語言的,適合國際化應用。
- 高度可自訂:可依特定需求調整模型參數和設定檔。
- 強大的文本生成能力:能夠產生連貫和自然的對話,使其在遊戲和聊天機器人中表現優異。
- 開源且易於存取:在Hugging Face 平台上提供,使任何人都可以輕鬆使用和貢獻。
- 相容於多種開發環境:Python 等流行程式語言,方便整合到不同的專案中。
- 包含豐富的模型文件:提供多種格式的模型文件,支援使用者進行不同的訓練與應用。
- 活躍的社群支援:使用者在社群中尋求協助和交流,促進技術分享和合作。
專案網址:https://huggingface.co/VideoGameBunny/VideoGameBunny-V1/tree/main
VGB 的潛力巨大,它像一位聰明的視覺AI 助理,能夠理解遊戲環境並即時回饋。在那些開放世界的3A 遊戲中,它可以幫助玩家快速識別關鍵物品或回答各種問題,讓你更快掌握遊戲的技巧,大大增強遊戲的互動性和沈浸感。
更厲害的是,VGB 還能分析大量遊戲影像,偵測出圖形渲染錯誤和實體引擎的不一致,成為開發者們排查bug 和異常的得力助手。
適用場景
- 遊戲對話系統:可用於開發更自然和智慧的NPC 對話,提升玩家的沉浸感。
- 育種應用:為教育軟體產生互動內容或練習題,提升學習效率。
- 客服聊天機器人:應用於線上客服系統,提供即時的客戶支援與解答。
VGB 的基礎是Bunny 模型,這可是個高效能低耗的「好夥伴」。它的設計靈感類似於LLaVA,透過多層感知器網路將來自強預訓練視覺模型的視覺訊息轉換成影像標記,確保語言模型能夠有效處理資料。 Bunny 模型支援最高1152×1152像素的圖像分辨率,這在處理遊戲圖像時尤其重要,因為遊戲畫面中包含了從小小的UI 圖標到龐大的遊戲物體等各種視覺元素。多尺度特徵提取能力,讓VGB 對遊戲內容的理解更上一層樓。
為了讓VGB 更能理解遊戲的視覺內容,研究團隊採用了Meta 開源的LLama-3-8B 作為語言模型,並結合了SigLIP 視覺編碼器和S2包裝器。這個組合使得模型能夠捕捉到遊戲中不同尺度的視覺元素,從微小的介面圖示到大型遊戲對象,提供了豐富的上下文資訊。
此外,為了產生與遊戲影像相符的指令數據,研究人員運用了多種先進模型,包括Gemini-1.0-Pro-Vision、GPT-4V 和GPT-4o 等。這些模型產生了多種類型的指令,如簡短和詳細的標題、圖像到JSON 的描述及基於圖像的問答,幫助VGB 更好地理解玩家的查詢和指令。
總而言之,VideoGameBunny 的出現為遊戲開發帶來了新的可能性,它不僅能提升遊戲體驗,還能幫助開發者更有效率地進行遊戲開發和bug 修復。期待VGB在未來能得到更廣泛的應用與發展!