Shanghai AI Laboratoryは最近、Internlm-XComposer-2.5(略してIXC-2.5)と呼ばれるマルチモーダルの大手言語モデルをリリースしました。このモデルは、テクノロジーの多くのブレークスルーを達成しただけでなく、特に超高解像度の画像理解、微調整されたビデオ理解、マルチラウンド画像の対話において、実際のアプリケーション、特に高度な解像度の画像理解においても強い可能性を示しました。

IXC-2.5のリリースは、特にWebページの生産と、モデルとテキストの生成が特別に最適化されており、コンテンツクリエイターに大きな利便性を提供することで、Multimodal LLMの分野のギャップを埋めました。 Webデザインであろうとグラフィックコンテンツの生成であろうと、IXC-2.5は効率的で正確なソリューションを提供し、創造的な効率を大幅に改善できます。
IXC-2.5モデルのコア機能は次のとおりです。
長いコンテキスト処理機能:モデルはネイティブに24Kマーカー入力をサポートし、96Kに拡張できます。つまり、非常に長いテキストと画像入力を処理し、ユーザーにより創造的なスペースを提供します。複雑なドキュメントであろうと大量の画像データであろうと、IXC-2.5は簡単に処理できます。
多様な視覚能力:IXC-2.5は、超高解像度の画像の理解をサポートするだけでなく、細粒のビデオ理解とマルチラウンドのマルチグラフィックダイアログも可能にします。このマルチモーダル処理機能は、特にビデオの理解の点で、以前のモデルでは非常にまれです。
強度生成機能:IXC-2.5は、テキストと画像の組み合わせを新しいレベルに採用して、Webページと高品質のグラフィック記事を生成できます。 Webデザインであろうと混合テキスト記事の生成であろうと、IXC-2.5はさまざまなシナリオのニーズを満たすために高品質の出力を提供できます。
高度なモデルアーキテクチャ:IXC-2.5は、軽量ビジョンエンコーダー、大規模な言語モデル、およびこれらのテクノロジーの組み合わせにより、モデルがパフォーマンスを大幅に向上させています。特に複雑なマルチモーダルデータを扱う場合、IXC-2.5は優れた効率を示しています。
28のベンチマークのうち、IXC-2.5は16のテストで既存のオープンソースモデルを上回り、別の16のテストでのパフォーマンスは、GPT-4VおよびGemini Proに近いか、それを上回りました。このテスト結果は、特にビデオ理解、構造化された高解像度の理解、複数のラウンドのマルチピクチャの対話、一般的な視覚的質問と回答など、IXC-2.5の強い強度を完全に証明しています。競争力。
IXC-2.5のR&Dチームは、共同で上海人工知能研究所、香港中国大学、Sensetime Technology Group、Tsinghua Universityで構成されています。このモデルの元の設計は、ますます複雑なテキストイメージの理解と作成タスクに対処するために、長いコンテキスト入力と出力をサポートすることです。トレーニング前の段階では、IXC-2.5は、外挿をエンコードする位置を介してコンテキストウィンドウを96Kに拡張します。
画像処理の観点から、IXC-2.5は統一された動的画像セグメンテーション戦略を採用しています。これは、あらゆる解像度とアスペクト比の画像に適応できます。ビデオ処理の観点から、短いエッジに沿ってビデオにフレームをスプライスして高解像度の画像を形成しながら、フレームのインデックスを保持して時間関係を提供します。このアプローチにより、IXC-2.5はビデオ理解タスクでうまく機能します。
さらに、IXC-2.5はWebページ生成のアプリケーションも拡張し、視覚的なスクリーンショット、フリーフォームの指示、または履歴書に基づいてWebページを自動的に構築できるようにします。テキスト画像の記事の作成に関しては、IXC-2.5は、複数のテクノロジーを組み合わせて高品質で安定したテキスト画像記事を生成することにより、スケーラブルなプロセスを提案します。
IXC-2.5のオープンソースは、技術的な飛躍であるだけでなく、人工知能の分野全体に大きな貢献でもあります。マルチモーダルLLMの無限の可能性を確認することができ、将来のAIアプリケーションの新しいパスも開きます。コンテンツ作成、Webデザイン、マルチモーダルデータ処理など、IXC-2.5は将来の人工知能アプリケーションで重要なツールになります。
プロジェクトアドレス:https://top.aibase.com/tool/internlm-xcomposer-2-5
紙の住所:https://arxiv.org/pdf/2407.03320