近年、大規模な言語モデル(LLMS)は、人工知能の分野、特にマルチモーダル融合の分野で突破口の進歩を遂げています。 Huazhong Science and Science and University of Science and Technologyの共同チーム、香港大学は最近、革新的なマルチモーダル生成フレームワークを提案しました。これは、視覚処理における現在の主流のマルチモーダルモデルの制限を解決することを目指しています。この技術の出現は、マルチモーダル分野での人工知能のさらなる発展を示しています。
従来のマルチモーダルモックアップは、多くの場合、複雑な外部視覚モジュールに依存しており、システムの複雑さを高めるだけでなく、スケーラビリティと柔軟性を制限します。 Liquidの革新は、VQGANをImage Word Segmenterとして採用し、外部の視覚コンポーネントへの依存を放棄することです。画像を離散視覚トークンにエンコードすることにより、Liquidを使用すると、モデルは単語リストをテキストトークンと直接共有できるようにし、それにより「ネイティブ」な視覚的理解と生成機能を実現できます。この設計は、スケーラビリティを改善しながら、モデル構造を大幅に簡素化します。
この研究では、液体がトレーニングコストを大幅に削減するだけでなく、マルチモーダル機能とLLMのスケールルールも明らかにすることがわかりました。研究チームは、さまざまなサイズのLLM(0.5bから32b)の実験を実施しました。結果は、モデルスケールが拡大するにつれて、視覚生成タスクのパフォーマンスと生成の品質が、言語タスクと一致するスケーリングパターンに続いていることを示しました。さらにエキサイティングなのは、視覚的理解と生成タスクの間に双方向の促進関係があるということです。つまり、この2つは共有表現スペースを通じて共同最適化を実現できることです。この発見は、将来のマルチモーダルモデル設計の重要な理論的基礎を提供します。
Liquidの設計は、ミニマリズムを完全に具体化し、画像とテキストを等しく扱い、統一された処理フレームワークを採用します。建設プロセス中、研究チームは30mのテキストデータと30mの画像テキストデータを使用して、モデルのマルチモーダルトレーニングの基礎を築きました。最終的な実験結果は、液体がマルチモーダル理解、画像生成、およびプレーンテキストタスクで優れた性能を持ち、生成された画像とテキストの間のセマンティックな一貫性が他の自己回復モデルよりも著しく高いことを示しています。この結果は、実際の用途における液体の大きな可能性を示しています。
Liquidの提案は、一般的なマルチモーダルインテリジェンスの建築設計に関する新しいアイデアを提供し、人工知能がマルチモーダル融合の将来においてより効率的で柔軟な進化を導く可能性があることを示しています。この技術の成功は、マルチモーダル分野での研究を促進するだけでなく、より実用的なシナリオで人工知能を適用するための新しい可能性を開きます。
紙リンク:https://arxiv.org/pdf/2412.04332