生成 AI は急速に成長しており、このリポジトリは、生成 AI 研究、インタビュー資料、ノートブックなどの最新情報の包括的なハブとして機能します。
次のリソースを参照してください。
このリポジトリは定期的に更新されるので、最新の追加情報に注目してください。
楽しく学習しましょう!
※毎月月末に更新します
| 日付 | タイトル | 抽象的な |
|---|---|---|
| 2024 年 9 月 30 日 | MM1.5: マルチモーダル LLM 微調整からの手法、分析、洞察 | MM1.5 は、テキストが豊富な画像の理解、視覚的な参照とグラウンディング、および複数画像の推論の機能を強化するように設計されたマルチモーダル大規模言語モデル (MLLM) の新しいファミリーです。 MM1 アーキテクチャに基づいて構築された MM1.5 は、モデル トレーニングにデータ中心のアプローチを採用し、モデル トレーニングのライフサイクル全体にわたる多様なデータ混合の影響を体系的に調査します。これには、継続的な事前トレーニングのための高品質の OCR データと合成キャプション、および監視付き微調整のための最適化された視覚的命令調整データの混合が含まれます。私たちのモデルの範囲は 1B から 30B までのパラメーターで、高密度および専門家混合 (MoE) の両方のバリエーションを包含しており、慎重なデータキュレーションとトレーニング戦略により小規模 (1B および 3B) であっても強力なパフォーマンスを生み出すことができることを示しています。さらに、ビデオを理解するために設計された MM1.5-Video と、モバイル UI を理解するために調整された MM1.5-UI という 2 つの特殊なバリアントを導入します。広範な実証研究とアブレーションを通じて、最終的なデザインに影響を与えるトレーニング プロセスと決定に関する詳細な洞察を提供し、MLLM 開発における将来の研究に貴重な指針を提供します。 |
| 2024 年 9 月 26 日 | MIO: マルチモーダル トークンの基礎モデル | このペーパーでは、エンドツーエンドの自己回帰方式で音声、テキスト、画像、ビデオを理解して生成できる、マルチモーダル トークンに基づいて構築された新しい基盤モデルである MIO を紹介します。大規模言語モデル (LLM) とマルチモーダル大規模言語モデル (MM-LLM) の出現により、その多用途な機能により汎用人工知能の進歩が推進されていますが、真の Any-to-Any の理解と生成は依然として不足しています。最近、GPT-4o のリリースにより、複雑な現実世界のタスクに対する Any-to-Any LLM の注目すべき可能性が示され、画像、音声、テキストにわたる全方向入出力が可能になりました。ただし、これはクローズドソースであり、マルチモーダル インターリーブ シーケンスの生成をサポートしていません。このギャップに対処するために、因果的マルチモーダル モデリングを使用して 4 つのモダリティにわたる離散トークンの混合でトレーニングされる MIO を紹介します。 MIO は 4 段階のトレーニング プロセスを経ます: (1) アライメント事前トレーニング、(2) インターリーブ事前トレーニング、(3) 音声強化事前トレーニング、(4) さまざまなテキスト、視覚、音声に関する包括的な教師付き微調整。そしてスピーチの課題。私たちの実験結果は、MIO が以前のデュアルモーダル ベースライン、any-to-any モデル ベースライン、さらにはモダリティ固有のベースラインと比較して、競合する、場合によっては優れたパフォーマンスを示すことを示しています。さらに、MIO は、インターリーブされたビデオテキストの生成、視覚的思考の連鎖、視覚的なガイドラインの生成、説明用画像の編集など、any-to-any 機能に固有の高度な機能を実証します。 |
| 2024 年 9 月 26 日 | MaskLLM: 大規模言語モデルの学習可能な半構造スパース性 | 大規模言語モデル (LLM) は、膨大なパラメータ数によって区別され、通常は大幅な冗長性が生じます。この研究では、推論中の計算オーバーヘッドを削減することを目的として、LLM で半構造化 (または「N:M」) スパース性を確立する学習可能な枝刈り手法である MaskLLM を導入します。新しい重要度基準を開発する代わりに、MaskLLM はガンベル ソフトマックス サンプリングを通じて N:M パターンを学習可能な分布として明示的にモデル化します。このアプローチは、大規模なデータセットでのエンドツーエンドのトレーニングを容易にし、次の 2 つの注目すべき利点を提供します。 1) 高品質のマスク - 私たちの方法は、大規模なデータセットに効果的に拡張し、正確なマスクを学習します。 2) 伝達性 - マスク分布の確率的モデリングにより、ドメインまたはタスク全体にわたるスパース性の伝達学習が可能になります。 LLaMA-2、Nemotron-4、GPT-3 など、843M から 15B パラメーターの範囲のサイズを持つさまざまな LLM で 2:4 スパース性を使用して MaskLLM を評価しました。実験結果は、最先端のものと比較して大幅な改善を示しています。メソッド。たとえば、主要なアプローチは、密度モデルの 5.12 PPL と比較して、Wikitext で 10 以上のパープレキシティ (PPL) を達成しますが、MaskLLM は、固定された重みを使用してマスクを学習するだけで、大幅に低い 6.72 PPL を達成します。さらに、MaskLLM の学習可能な性質により、下流のタスクまたはドメインに 2:4 スパース性をロスレスで適用するためのカスタマイズされたマスクが可能になります。コードは url{https://github.com/NVlabs/MaskLLM} で入手できます。 |
| 2024 年 9 月 25 日 | Molmo と PixMo: 最先端のマルチモーダル モデルのためのオープンウェイトとオープンデータ | 現在の最も先進的なマルチモーダル モデルは独自の仕様のままです。最強のオープンウェイト モデルは、優れたパフォーマンスを実現するために独自の VLM からの合成データに大きく依存しており、これらのクローズド モデルをオープンなモデルに効果的に蒸留します。その結果、コミュニティには、パフォーマンスの高い VLM をゼロから構築する方法に関する基礎的な知識がまだ不足しています。私たちは、オープン性のクラスで最先端の VLM の新しいファミリーである Molmo を紹介します。私たちの主なイノベーションは、音声ベースの説明を使用してヒューマン アノテーターから完全に収集された、斬新で非常に詳細な画像キャプション データセットです。幅広いユーザー インタラクションを可能にするために、実際の Q&A や革新的な 2D ポインティング データを含む、微調整用の多様なデータセットの混合も導入しています。私たちのアプローチが成功するかどうかは、モデル アーキテクチャの詳細の慎重な選択、適切に調整されたトレーニング パイプライン、そして最も重要なことに、新しく収集され、リリースされるデータセットの品質にかかっています。モルモファミリー内でクラス最高の 72B モデルは、オープンウェイトおよびデータモデルのクラスで他のモデルよりも優れているだけでなく、学術的ベンチマークと人間による評価の両方において、GPT-4o、Claude 3.5、Gemini 1.5 などの独自のシステムと比較して優れています。 。近い将来、すべてのモデルの重み、キャプションと微調整データ、およびソース コードをリリースする予定です。選択したモデルの重み、推論コード、デモは https://molmo.allenai.org で入手できます。 |
| 2024 年 9 月 25 日 | VPTQ: 大規模言語モデル向けの超低ビット ベクトル ポストトレーニング量子化 | モデル サイズのスケーリングは、大規模言語モデル (LLM) の展開と推論に大きな課題をもたらします。 LLM 重みの冗長性のため、最近の研究では重みのみの量子化を極めて低ビット (さらには 2 ビット) に推し進めることに焦点が当てられています。これにより、メモリ要件が削減され、ストレージ コストが最適化され、推論中に必要なメモリ帯域幅が削減されます。ただし、数値表現の制限により、従来のスカラーベースの重み量子化では、このような極端な低ビットを実現するのが困難です。 LLM のベクトル量子化 (VQ) に関する最近の研究では、ルックアップ テーブルを使用してベクトルをインデックスに圧縮することにより、極度に低ビットのモデル量子化が可能であることが実証されました。このペーパーでは、LLM の極低ビット量子化のためのベクトル ポスト トレーニング量子化 (VPTQ) を紹介します。二次最適化を使用して LLM VQ 問題を定式化し、最適化を解くことで量子化アルゴリズムの設計をガイドします。粒度の高い VQ に対してチャネル独立の 2 次最適化を使用して重みをさらに調整します。さらに、最適化問題を分解することにより、簡潔で効果的なコードブック初期化アルゴリズムを提案します。また、VPTQ を拡張して、残差と外れ値の量子化をサポートします。これにより、モデルの精度が向上し、モデルがさらに圧縮されます。私たちの実験結果は、VPTQ がモデルの量子化の複雑さを次のように軽減することを示しています。 |
| 2024 年 9 月 24 日 | Time-MoE: 専門家の混合による数十億規模の時系列基盤モデル | 時系列予測のためのディープラーニングは、過去数十年にわたって大幅な進歩を遂げてきました。しかし、言語領域と視覚領域における大規模な事前トレーニングが成功したにもかかわらず、事前トレーニングされた時系列モデルは依然として規模が限られており、運用コストが高くつくため、現実世界のアプリケーションにおけるより大規模で有能な予測モデルの開発が妨げられています。これに応えて、推論コストを削減しながら、より大規模でより高性能な予測基盤モデルを事前トレーニングするように設計された、スケーラブルで統合されたアーキテクチャである Time-MoE を導入します。 Time-MoE は、疎な専門家混合 (MoE) 設計を活用することで、予測ごとにネットワークのサブセットのみをアクティブにすることで計算効率を向上させ、高いモデル能力を維持しながら計算負荷を軽減します。これにより、推論コストを増加させることなく、Time-MoE を効果的に拡張できます。 Time-MoE は、自己回帰方式で動作し、さまざまな入力コンテキスト長による柔軟な予測期間をサポートするデコーダー専用のトランスフォーマー モデルのファミリーで構成されています。私たちはこれらのモデルを、新たに導入した大規模データ Time-300B で事前トレーニングしました。このデータは 9 つのドメインにまたがり、3,000 億以上の時点を網羅しています。初めて、時系列基礎モデルを最大 24 億パラメータまで拡張し、予測精度の大幅な向上を実現しました。私たちの結果は、時系列予測のコンテキストにおけるトレーニング トークンとモデル サイズに対するスケーリング則の適用可能性を検証します。同じ数のアクティブ化されたパラメーターまたは同等の計算予算を持つ高密度モデルと比較して、私たちのモデルは一貫して大きなマージンでそれらを上回っています。これらの進歩により、Time-MoE は、優れた機能、効率性、柔軟性を備えて現実世界の時系列予測の課題に取り組むための最先端のソリューションとして位置付けられます。 |
| 2024 年 9 月 23 日 | 医学における o1 の予備研究: AI 医師に近づいているのか? | 大規模言語モデル (LLM) は、さまざまなドメインやタスクにわたって顕著な機能を発揮し、学習と認知における私たちの知識の限界を押し広げてきました。最新モデルである OpenAI の o1 は、強化学習戦略を使用した内部化された思考連鎖手法を備えた最初の LLM として際立っています。さまざまな一般的な言語タスクでは驚くほど強力な能力を示していますが、医学などの特殊な分野でのパフォーマンスはまだ未知数です。この目的を達成するために、このレポートでは、理解、推論、多言語性という 3 つの重要な側面を検討しながら、さまざまな医療シナリオにおける o1 の包括的な調査を提供します。具体的には、私たちの評価には、New England Journal of Medicine (NEJM) と The Lancet の専門的な医療クイズに基づいて新たに構築された 2 つのより難しい質問応答 (QA) タスクを含む、37 の医療データセットのデータを使用した 6 つのタスクが含まれています。これらのデータセットは、MedQA などの標準的な医療 QA ベンチマークと比較してより高い臨床関連性を提供し、より効果的に現実世界の臨床有用性に変換します。私たちの o1 の分析は、LLM の推論能力の強化が、さまざまな医療指示を理解し、複雑な臨床シナリオを通じて推論する能力に(大幅に)利益をもたらす可能性があることを示唆しています。特に、o1 は、19 のデータセットと新しく作成された 2 つの複雑な QA シナリオ全体で、精度において以前の GPT-4 を平均 6.2% および 6.6% 上回っています。しかしその一方で、幻覚、一貫性のない多言語能力、評価指標の不一致など、モデルの機能と既存の評価プロトコルの両方にいくつかの弱点があることを確認しました。将来の研究のために、生データとモデル出力を https://ucsc-vlaa.github.io/o1_medicine/ で公開します。 |
| 2024 年 9 月 21 日 | 命令チューニングなしの命令追従 | 命令のチューニングとは通常、命令と応答のペアに基づいて言語モデルを微調整することを意味します。私たちは、命令チューニングに比べて不十分ではあるものの、依然として命令に追従する適応 (チューニング) の 2 つの形式を発見しました。これを暗黙的な命令チューニングと呼びます。まず、命令と応答のペアは必要ないことがわかりました。対応する命令を使用せずに応答のみをトレーニングすると、次のような命令が得られます。これは、事前トレーニングされたモデルには、望ましい応答の分布をモデルに教えることによって明らかになる命令と応答のマッピングがあることを示唆しています。しかし、その後、望ましい応答の分布を教える必要はないことがわかりました。詩のような狭い領域のデータに対する命令と応答のトレーニングは、依然としてレシピ生成のような広範な命令に従う行動につながります。特に、命令が狭い微調整ドメインの命令と大きく異なる場合、モデルの応答は微調整ドメインのスタイルに準拠しません。暗黙的な命令チューニングの説明を始めるために、言語モデルの分布に対する非常に単純な変更により、次の命令が生成されるという仮説を立てます。私たちは、事前トレーニング済みモデルを使用した専門家の成果物に従う指示を生成するルールベースの言語モデルを手書きすることでこれをサポートします。ルールは、シーケンスを終了する確率を徐々に高め、繰り返しにペナルティを与え、15 個の単語の確率を一律に変更することです。要約すると、命令に従うように設計されていない場合に行われた適応は、暗黙的に命令に従う可能性があります。 |
| 2024 年 9 月 20 日 | 自分自身を想像してみてください: チューニング不要のパーソナライズされた画像の生成 | 拡散モデルは、さまざまな画像間のタスクにわたって顕著な有効性を実証しています。この研究では、パーソナライズされた画像生成のために設計された最先端のモデルである Imagine Yourself を紹介します。従来のチューニングベースのパーソナライゼーション技術とは異なり、Imagine Yourself はチューニング不要のモデルとして動作し、すべてのユーザーが個別の調整を行わずに共有フレームワークを活用できるようにします。さらに、以前の作業では、アイデンティティの保持、複雑なプロンプトへの追従、優れた視覚的品質の保持のバランスを取るという課題に直面し、その結果、参照画像の強力なコピー&ペースト効果を持つモデルが作成されました。したがって、参照画像に大幅な変更を必要とするプロンプトに従って画像を生成することはほとんどできず、たとえば、顔の表情、頭と体のポーズを変更するなど、生成される画像の多様性は低くなります。これらの制限に対処するために、私たちが提案する方法では、1) 画像の多様性を促進する新しい合成ペアデータ生成メカニズム、2) テキストの忠実性を向上させるための 3 つのテキスト エンコーダと完全にトレーニング可能なビジョン エンコーダを備えた完全並列アテンション アーキテクチャ、および 3)視覚的な品質の限界を徐々に押し上げる、粗いから細かいまでの多段階の新しい微調整方法論。私たちの研究は、Imagine Yourself が最先端のパーソナライゼーション モデルを上回り、アイデンティティの保持、ビジュアル品質、テキストの配置において優れた機能を示していることを示しています。このモデルは、さまざまなパーソナライゼーション アプリケーションのための堅牢な基盤を確立します。人間による評価結果では、以前のパーソナライゼーション モデルと比較して、すべての側面 (アイデンティティの保持、テキストの忠実性、視覚的な魅力) にわたってモデルの SOTA の優位性が検証されています。 |
| 2024 年 9 月 19 日 | 強化学習による自己修正のための言語モデルのトレーニング | 自己修正は大規模言語モデル (LLM) の非常に望ましい機能ですが、最新の LLM ではほとんど効果がないことが一貫して判明しています。自己修正をトレーニングするための現在の方法は、通常、複数のモデル、より高度なモデル、または追加の監視形式のいずれかに依存しています。これらの欠点に対処するために、完全に自己生成されたデータを使用して LLM の自己修正能力を大幅に向上させる、マルチターン オンライン強化学習 (RL) アプローチである SCoRe を開発しました。 SCoRe を構築するために、まず、オフライン モデルで生成された補正トレースに対する教師あり微調整 (SFT) の変形では、自己補正動作を浸透させるには不十分であることが多いことを示します。特に、SFT によるトレーニングは、データ収集ポリシーによって発生した間違いとモデル自体の応答の間の分布の不一致、または学習が暗黙的に特定のモードの修正動作のみを優先する動作の崩壊の餌食になることが観察されています。テスト問題の自己修正には効果的ではありません。 SCoRe は、自己生成された補正トレースのモデル独自の分布の下でトレーニングし、適切な正則化を使用して、特定の条件に高報酬の応答を当てはめるのではなく、テスト時に効果的な自己補正動作を学習するように学習プロセスを誘導することで、これらの課題に対処します。プロンプト。この正則化プロセスには、基本モデルに対するマルチターン RL の初期段階が含まれており、崩壊しにくいポリシー初期化を生成し、その後、報酬ボーナスを使用して自己修正を増幅します。 Gemini 1.0 Pro および 1.5 Flash モデルでは、SCoRe が最先端の自己補正パフォーマンスを実現し、MATH および HumanEval でベース モデルの自己補正をそれぞれ 15.6% および 9.1% 向上させていることがわかりました。 |
| 2024 年 9 月 19 日 | スマートなスケーリング: 小規模なモデルの初期化による大規模な言語モデルの事前トレーニングの高速化 | 言語モデルの事前トレーニング段階は、多くの場合、ランダムに初期化されたパラメーターから始まります。モデルのスケーリングに関する現在の傾向により、多数のパラメーターのトレーニングは非常に時間がかかり、コストがかかる可能性があります。対照的に、小規模な言語モデルはトレーニングコストが低くなりますが、多くの場合、大規模なモデルの精度を達成できません。この論文では、これら 2 つの異なるレジームを接続するための興味深いアイデアを検討します。より小さな事前トレーニング済みモデルを使用して大規模な言語モデルを初期化する方法を開発できるでしょうか?このような初期化は、トレーニング時間と最終的な精度の点で利点をもたらしますか?このペーパーでは、事前トレーニングされた言語モデルのパラメーターを、隠れ次元が増加したより大きなモデルのパラメーターに拡張できる方法である HyperCloning を紹介します。私たちの方法では、より大きなモデルがより小さなモデルの機能を保持することが保証されます。その結果、トレーニングが開始される前に、より大きなモデルは、より小さなモデルの予測能力と精度をすでに継承しています。このような初期化されたモデルをトレーニングすると、大規模な言語モデルの事前トレーニングに必要な GPU 時間が大幅に節約されることを示します。 |
| 2024 年 9 月 18 日 | Qwen2.5-Coder テクニカルレポート | このレポートでは、前世代の CodeQwen1.5 から大幅にアップグレードされた Qwen2.5-Coder シリーズを紹介します。このシリーズには、Qwen2.5-Coder-1.5B と Qwen2.5-Coder-7B の 2 つのモデルが含まれています。コード固有のモデルとして、Qwen2.5-Coder は Qwen2.5 アーキテクチャに基づいて構築されており、5 兆 5,000 億を超えるトークンの膨大なコーパスで事前トレーニングされ続けます。 Qwen2.5-Coder は、綿密なデータ クリーニング、スケーラブルな合成データ生成、バランスのとれたデータ混合を通じて、汎用性を維持しながら優れたコード生成機能を実証します。このモデルは、コード関連の幅広いタスクで評価されており、コードの生成、完了、推論、修復を含む 10 を超えるベンチマークにわたって最先端 (SOTA) のパフォーマンスを達成し、より大きなモデルを一貫して上回っています。同じモデルサイズ。 Qwen2.5-Coder シリーズのリリースは、コード インテリジェンスの研究の限界を押し広げるだけでなく、その寛容なライセンスを通じて、開発者による現実世界のアプリケーションへの広範な採用を促進すると信じています。 |
| 2024 年 9 月 18 日 | LLM における長いコンテキストの拡張と一般化に関する統制された研究 | 広範なテキストの理解とコンテキスト内の学習には、完全なドキュメントのコンテキストを利用する言語モデルが必要です。長いコンテキストのモデルを直接トレーニングすることに関連する実装上の課題のため、長いコンテキストを処理できるようにモデルを拡張するための多くの方法が提案されています。しかし、データとモデルクラスの違いにより、これらのアプローチを比較することは困難であり、ロングコンテキストのパフォーマンスをどのように評価するか、またそれが標準の評価と異なるかどうかについて不確実性が生じています。私たちは、一貫した基本モデルと拡張データを利用して、標準化された評価を備えた拡張メソッドの制御されたプロトコルを実装します。私たちの研究では、ロングコンテキストの動作についていくつかの洞察が得られます。まず、より長いコンテキストのタスクにおいても、汎用パフォーマンス指標としてのパープレキシティの重要な役割を再確認します。第 2 に、現在の近似注意手法は、長いコンテキストのタスクでは系統的にパフォーマンスが劣ることがわかります。最後に、正確な微調整ベースの方法は拡張範囲内では一般に効果的ですが、外挿は依然として困難であることを確認します。すべてのコードベース、モデル、チェックポイントはオープンソースで利用できるようになり、透明性が促進され、AI 開発のこの重要な分野でのさらなる研究が促進されます。 |
| 2024 年 9 月 18 日 | LLM + ペルソナプラグ = パーソナライズされた LLM | 同じ要件を持つユーザーは個人の興味に基づいて多様な出力を好む可能性があるため、パーソナライゼーションは多くの言語タスクやアプリケーションで重要な役割を果たします。これにより、大規模言語モデル (LLM) を適応させて、ユーザーの好みに合わせてカスタマイズされた出力を生成することを目的とした、さまざまなパーソナライズされたアプローチの開発が行われました。それらの中には、ユーザーごとに独自にパーソナライズされた LLM を微調整する必要があるものもあり、広範囲に適用するにはコストがかかりすぎます。代替アプローチでは、ユーザーの関連する歴史的テキストをデモンストレーションとして取得することにより、プラグアンドプレイ方式でパーソナライゼーション情報を導入します。ただし、この検索ベースの戦略では、ユーザー履歴の連続性が損なわれ、ユーザーの全体的なスタイルとパターンを捕捉できない可能性があり、その結果、次善のパフォーマンスが発生する可能性があります。これらの課題に対処するために、私たちは新しいパーソナライズされた LLM モデル ours{} を提案します。軽量のプラグイン ユーザー エンベッダー モジュールを通じてすべての歴史的コンテキストをモデル化することで、各個人にユーザー固有のエンベディングを構築します。この埋め込みをタスク入力にアタッチすることで、LLM はユーザーの習慣や好みをよりよく理解して捕捉できるため、独自のパラメーターを調整することなく、よりパーソナライズされた出力を生成できます。言語モデル パーソナライゼーション (LaMP) ベンチマークにおけるさまざまなタスクに関する広範な実験により、提案されたモデルが既存のパーソナライズされた LLM アプローチよりも大幅に優れていることが実証されました。 |
| 2024 年 9 月 17 日 | NVLM: オープン フロンティア クラスのマルチモーダル LLM | NVLM 1.0 は、視覚言語タスクで最先端の結果を達成するフロンティアクラスのマルチモーダル大規模言語モデル (LLM) ファミリーであり、主要な独自モデル (GPT-4o など) とオープンアクセスに匹敵します。モデル (Llama 3-V 405B および InternVL 2 など)。注目すべきことに、NVLM 1.0 は、マルチモーダル トレーニング後、LLM バックボーンよりもテキストのみのパフォーマンスが向上しています。モデル設計の観点から、デコーダのみのマルチモーダル LLM (LLaVA など) とクロスアテンションベースのモデル (Flamingo など) の間で包括的な比較を実行します。両方のアプローチの長所と短所に基づいて、トレーニング効率とマルチモーダル推論能力の両方を強化する新しいアーキテクチャを提案します。さらに、タイルベースの動的高解像度画像用の 1 次元タイルタグ付け設計を導入し、マルチモーダル推論および OCR 関連タスクのパフォーマンスを大幅に向上させます。トレーニング データに関しては、マルチモーダルな事前トレーニングおよび教師あり微調整データセットに関する詳細情報を細心の注意を払って厳選し、提供しています。私たちの調査結果は、すべてのアーキテクチャにおいて、たとえ事前トレーニング段階であっても、規模よりもデータセットの品質とタスクの多様性が重要であることを示しています。特に、当社は NVLM-1.0 モデル向けの実稼働グレードのマルチモダリティを開発し、LLM バックボーンと比較してテキストのみのパフォーマンスを維持、さらには向上させながら、視覚言語タスクで優れた性能を発揮できるようにします。これを達成するために、私たちは高品質のテキストのみのデータセットを作成してマルチモーダル トレーニングに統合し、大量のマルチモーダル数学および推論データとともに、モダリティ全体での数学およびコーディング機能の強化につながります。この分野での研究を進めるために、モデルの重みを公開し、コミュニティ向けにコードをオープンソース化します: https://nvlm-project.github.io/。 |
| 2024 年 9 月 17 日 | プロンプトリバー: 命令で訓練されたレトリバーは言語モデルのようにプロンプトを表示できます | 命令調整言語モデル (LM) は命令型コマンドに応答でき、基本的な言語モデルと比較してより自然なユーザー インターフェイスを提供します。この研究では、LM のようにプロンプトを表示できる最初の検索モデルである Promptriever を紹介します。 Promptriever をトレーニングするために、MS MARCO から約 500,000 のインスタンスにわたる新しいインスタンス レベルの命令トレーニング セットを厳選してリリースしました。 Promptriever は、標準的な検索タスクで優れたパフォーマンスを達成するだけでなく、指示にも従います。 (1) 詳細な関連性命令に従うことで大きな利益 (SoTA に到達) (FollowIR で +14.3 p-MRR / +3.1 nDCG)、(2) クエリ + 命令の語彙選択/語句に対する堅牢性が大幅に向上 (+12.9) InstructIR のロバストネス @10)、および (3) プロンプトを介してハイパーパラメータ検索を実行し、取得パフォーマンスを確実に向上させる機能(BEIR の平均増加率は +1.4)。 Promptriever は、クエリごとにプロンプトを使用して検索モデルを制御できることを実証し、LM プロンプト手法と情報検索を連携させる将来の作業の準備を整えます。 |
| 2024 年 9 月 17 日 | 量子化命令調整された大規模言語モデルの包括的な評価: 最大 405B の実験分析 | これまでの研究では、複雑さ、いくつかの基本的な知識タスク、古いデータセットなどの限られたメトリクスを使用して量子化 LLM を評価していました。さらに、最大 405B の Llama 3.1 などの最近の大規模モデルは十分に検証されていません。このペーパーでは、7B から 405B までのモデルで、さまざまな量子化手法 (GPTQ、AWQ、SmoothQuant、および FP8) にわたる命令調整 LLM のパフォーマンスを評価します。 13 のベンチマークを使用して、常識的な Q&A、知識と言語の理解、指示への従うこと、幻覚の検出、数学、対話の 6 つのタスク タイプにわたるパフォーマンスを評価します。私たちの主な発見により、(1) より大きな LLM をより小さな FP16 LLM と同様のサイズに量子化すると、幻覚の検出と命令のフォローを除いて、ほとんどのベンチマークで一般にパフォーマンスが向上することが明らかになりました。 (2) パフォーマンスは、量子化方法、モデル サイズ、ビット幅の違いによって大きく異なり、多くの場合、重みのみの方法がより大きなモデルでより良い結果をもたらします。 (3) タスクの難易度は、量子化による精度の低下に大きな影響を与えません。 (4) MT-Bench 評価方法では、最近の高性能 LLM 間の識別能力が限られています。 |
| 2024 年 9 月 16 日 | RetrievalAttendant: ベクトル検索によるロングコンテキスト LLM 推論の高速化 | トランスフォーマーベースの大規模言語モデル (LLM) はますます重要になっています。ただし、アテンション計算の二次時間の複雑さのため、LLM をより長いコンテキストにスケーリングすると、推論レイテンシーが非常に遅くなり、キー値 (KV) ベクトルをキャッシュするための GPU メモリ消費量が多くなります。この論文では、アテンションの計算を高速化し、GPU メモリ消費量を削減するトレーニング不要のアプローチである RetrievalAttend を提案します。 RetrievalAttend は、動的スパース性アテンション メカニズムを活用することにより、CPU メモリ内の KV ベクトルに近似最近傍検索 (ANNS) インデックスを使用し、生成中にベクトル検索で最も関連性の高いインデックスを取得することを提案します。残念ながら、既製の ANNS インデックスは、アテンション メカニズムにおけるクエリ ベクトルとキー ベクトル間の分布外 (OOD) により、このような検索タスクには効果的でないことが多いことがわかります。 RetrievalAttend は、クエリ ベクトルの分布に適応できるアテンションを意識したベクトル検索アルゴリズムを設計することで、OOD の課題に対処します。私たちの評価によると、RetrievalAttend は高いモデル精度を維持しながら、データの 1 ~ 3% にアクセスするだけで済みます。これにより、GPU メモリのフットプリントが大幅に削減され、ロングコンテキスト LLM の推論コストが大幅に削減されます。特に、RetrievalAttend では、8B パラメータを持つ LLM で 128K トークンを処理するために 1 台の NVIDIA RTX4090 (24GB) のみが必要で、0.188 秒で 1 つのトークンを生成できます。 |
| 2024 年 9 月 16 日 | コルモゴロフ・アーノルド変圧器 | トランスフォーマーは、現代の深層学習の基礎となります。従来、これらのモデルは、チャネル間の情報を混合するために多層パーセプトロン (MLP) 層に依存していました。この論文では、モデルの表現力とパフォーマンスを強化するために MLP 層を Kolmogorov-Arnold Network (KAN) 層に置き換える新しいアーキテクチャである Kolmogorov-Arnold Transformer (KAT) を紹介します。ただし、KAN をトランスに統合することは、特に規模が拡大した場合には容易ではありません。具体的には、次の 3 つの主要な課題を特定します。 (C1) 基本機能。 KAN で使用される標準の B スプライン関数は、最新のハードウェアでの並列コンピューティング用に最適化されていないため、推論速度が遅くなります。 (C2) パラメータと計算の非効率。 KAN では、入出力ペアごとに固有の関数が必要となるため、計算が非常に大きくなります。 (C3) 重みの初期化。 KAN の重みの初期化は、ディープ ニューラル ネットワークでの収束を達成するために重要な学習可能な活性化関数のため、特に困難です。前述の課題を克服するために、私たちは 3 つの主要なソリューションを提案します: (S1) 合理的根拠。最新の GPU との互換性を向上させるために、B スプライン関数を有理関数に置き換えます。これを CUDA で実装することで、より高速な計算を実現します。 (S2) グループ KAN。パフォーマンスを犠牲にすることなく計算負荷を軽減するために、ニューロンのグループを通じてアクティベーションの重みを共有します。 (S3) 分散保存初期化。アクティベーションの重みを慎重に初期化し、アクティベーションの分散がレイヤー間で確実に維持されるようにします。これらの設計により、KAT は従来の MLP ベースのトランスフォーマーを効果的かつ容易に上回る性能を実現します。 |
| 2024年9月16日 | 思考の図に | 単一のモデル内で指示された非環式グラフ(DAG)の構築として、大規模な言語モデル(LLMS)の反復推論をモデル化するフレームワークである思考の図(DOT)を紹介します。線形チェーンや木として推論を表す従来のアプローチとは異なり、DOTは命題、批評、改良、および検証をまとまりのあるDAG構造に整理し、モデルが論理的な一貫性を維持しながら複雑な推論経路を探求できるようにします。図の各ノードは、提案、批評、批評、洗練、または検証された命題に対応し、LLMが自然言語のフィードバックを通じて推論を繰り返し改善できるようにします。ロール固有のトークンを使用してオートエレクジッシュな次のトークン予測を活用することにより、DOTは、アイデアを提案することとそれらを批判的に評価することの間のシームレスな遷移を促進し、バイナリ信号よりも豊かなフィードバックを提供します。さらに、Topos理論を使用してDOTフレームワークを形式化し、推論プロセスで論理的な一貫性と健全性を保証する数学的基盤を提供します。このアプローチは、単一のLLM内のトレーニングプロセスと推論プロセスの両方を強化し、複数のモデルまたは外部制御メカニズムの必要性を排除します。 DOTは、トレーニング効率、堅牢な推論能力、および理論的基盤を強調し、次世代の推論特有のモデルを設計するための概念的なフレームワークを提供します。このコードは、https://github.com/diagram-of-thought/diagram-of-thoughtで入手できます。 |
| 2024年9月12日 | DSBench:データサイエンスエージェントはデータサイエンスの専門家になるまでどのくらいですか? | 大規模な言語モデル(LLMS)および大規模なビジョン言語モデル(LVLMS)は、ショッピングアシスタントやAIソフトウェアエンジニアなどのターゲットアプリケーションの建築エージェントの最近の傾向に火に火をつけて、印象的な言語/ビジョン推論能力を実証しています。最近、データサイエンスドメインでのパフォーマンスを調査するために、多くのデータサイエンスベンチマークが提案されています。ただし、既存のデータサイエンスベンチマークは、単純化された設定により、実際のデータサイエンスアプリケーションと比較するとまだ不足しています。このギャップを埋めるために、DSBenchを紹介します。DSBenchは、現実的なタスクでデータサイエンスエージェントを評価するために設計された包括的なベンチマークです。このベンチマークには、466のデータ分析タスクと74のデータモデリングタスクが含まれ、雄弁とKaggleの競技から供給されています。 DSBenchは、長いコンテキスト、マルチモーダルタスクの背景、大きなデータファイルとマルチテーブル構造を使用した推論、エンドツーエンドのデータモデリングタスクを実行することにより、現実的な設定を提供します。最先端のLLMS、LVLMS、およびエージェントの評価は、ほとんどのタスクに苦労していることを示しており、最高のエージェントはデータ分析タスクの34.12%のみを解決し、34.74%の相対パフォーマンスギャップ(RPG)を達成しています。これらの調査結果は、より実用的で、インテリジェントで、自律的なデータサイエンスエージェントを開発する際のさらなる進歩の必要性を強調しています。 |
| 2024年9月10日 | Pingpong:ユーザーエミュレーションとマルチモデル評価を備えたロールプレイング言語モデルのベンチマーク | 言語モデルのロールプレイング機能を評価するための新しいベンチマークを紹介します。私たちのアプローチは、言語モデル自身を活用して、動的でマルチターンの会話でユーザーをエミュレートし、結果の対話を評価します。フレームワークは、3つの主要なコンポーネントで構成されています。特定の文字の役割を想定したプレーヤーモデル、ユーザーの動作をシミュレートする尋問者モデル、および会話の品質を評価する裁判官モデルです。自動化された評価を人間の注釈と比較して、アプローチを検証する実験を実施し、複数の基準にわたる強い相関関係を示しました。この作業は、インタラクティブシナリオでモデル機能の堅牢で動的な評価の基盤を提供します。 |
| 2024年9月10日 | Llama-Omni:大規模な言語モデルとのシームレスな音声相互作用 | GPT-4oなどのモデルは、音声を通じて大規模な言語モデル(LLMS)とのリアルタイムのやり取りを可能にし、従来のテキストベースの相互作用と比較してユーザーエクスペリエンスを大幅に向上させます。ただし、オープンソースLLMに基づいて音声相互作用モデルを構築する方法については、まだ探求が不足しています。これに対処するために、LLMSとの低遅延および高品質の音声相互作用のために設計された新しいモデルアーキテクチャであるLlama-Omniを提案します。 llama-omniは、事前に処理された音声エンコーダー、音声アダプター、LLM、およびストリーミング音声デコーダーを統合します。音声転写の必要性を排除し、非常に低いレイテンシの音声指示から直接テキストと音声応答を生成することができます。最新のllama-3.1-8b-instructモデルに基づいてモデルを構築します。モデルを音声相互作用シナリオに合わせるために、200kの音声指示と対応する音声応答を含むinstructs2S-200Kという名前のデータセットを構築します。実験結果は、以前の音声言語モデルと比較して、Llama-Omniはコンテンツとスタイルの両方でより良い応答を提供することを示しています。さらに、Llama-Omniのトレーニングにはわずか4 GPUで3日未満かかり、将来の音声言語モデルの効率的な開発への道が開かれています。 |
| 2024年9月10日 | 大規模な言語モデルは、新しい科学研究のアイデアのロックを解除できますか? | 「アイデアは、古い要素の新しい組み合わせ以外のものでもない」(Young、JW)。大規模な言語モデル(LLM)の広範な採用と公開されているChatGPTは、人工知能(AI)の日常生活への統合における重要な転換点を示しています。この研究では、研究論文からの情報に基づいて、新しい研究アイデアを生成するLLMの能力を調査します。 5つのドメイン(化学、コンピューター、経済学、医療、物理学など)で4つのLLMを徹底的に検査します。 Claude-2とGPT-4によって生成された将来の研究のアイデアは、GPT-3.5およびGeminiよりも著者の視点とより整合していることがわかりました。また、Claude-2は、GPT-4、GPT-3.5、およびGemini 1.0よりも多様な将来の研究のアイデアを生成することを発見しました。さらに、生成された将来の研究アイデアの斬新さ、関連性、および実現可能性の人間の評価を実行しました。この調査は、アイデア生成におけるLLMの進化する役割に関する洞察を提供し、その能力と制限の両方を強調しています。私たちの仕事は、将来の研究のアイデアを生み出すための言語モデルの評価と利用における継続的な取り組みに貢献しています。データセットとコードを公開します。 |
| 2024 年 9 月 9 日 | SongCreator:歌詞ベースのユニバーサルソングジェネレーション | 音楽は人間の文化の不可欠な部分であり、人間の知性と創造性を体現しており、その歌は重要な部分を構成しています。歌の声、ボーカルの構成、楽器のアレンジメントなどの以前の作品では、歌の生成のさまざまな側面が探求されていますが、歌詞と伴奏の両方で歌を生成することは重要な課題であり、音楽生成モデルの適用を妨げています。現実世界。この観点から、この課題に取り組むために設計された歌合成システムであるSongCreatorを提案します。このモデルには、2つの新しいデザインが備えています:綿密に設計されたデュアルシーケンス言語モデル(DSLM)は、歌の生成のためのボーカルと伴奏の情報をキャプチャし、DSLMの追加の注意マスク戦略を使用します。 、さまざまな歌関連の世代タスクに適しています。広範な実験は、8つのタスクすべてで最先端または競争力のあるパフォーマンスを達成することにより、SongCreatorの有効性を示しています。特に、歌詞から歌の歌詞と歌詞からボーカルの大きなマージンで以前の作品を上回ります。さらに、さまざまなプロンプトを通じて、生成された曲のボーカルと伴奏の音響条件を独立して制御することができ、その潜在的な適用性を示します。サンプルはhttps://songcreator.github.io/で入手できます。 |
| 2024 年 9 月 9 日 | Hyperagent:大規模なコーディングタスクを解決するためのジェネラリストソフトウェアエンジニアリングエージェント | 大規模な言語モデル(LLM)はソフトウェアエンジニアリング(SE)に革命をもたらし、さまざまなコーディングタスクで顕著な機能を実証しています。最近の取り組みにより、エンドツーエンド開発タスクのLLMSに基づいて自律ソフトウェアエージェントが生成されましたが、これらのシステムは通常、特定のSEタスク向けに設計されています。 Hyperagentを紹介します。これは、人間の開発者のワークフローを模倣することにより、さまざまなプログラミング言語にわたって幅広いSEタスクに対処するように設計された新しいジェネラリストマルチエージェントシステムです。プランナー、ナビゲーター、コードエディター、エグゼクターの4つの専門エージェントで構成されています。 Hyperagentは、初期の概念から最終検証まで、SEタスクの完全なライフサイクルを管理しています。大規模な評価を通じて、Hyperagentは多様なSEタスクにわたって最先端のパフォーマンスを達成します。これは、GitHub発行の解決のためにSWEベンチライトで25.01%の成功率、SWE-Bench-Verifiedで31.40%を達成し、既存の方法を上回ります。さらに、Hyperagentは、リポジトリレベルのコード生成(Repoexec)および障害のローカリゼーションとプログラムの修復(Defects4J)でSOTAパフォーマンスを示し、しばしば特殊なシステムを上回ることができます。この作業は、さまざまなドメインや言語にわたって複雑でマルチステップSEタスクを処理できる多用途の自律エージェントに対する重要な進歩を表しており、AIアシストされたソフトウェア開発慣行を潜在的に変換する可能性があります。 |
| 2024 年 9 月 9 日 | メモグ:メモリにインスパイアされた知識の発見を介して、次世代のぼろきれに向かって移動します | 検索された生成(RAG)は、検索ツールを活用して外部データベースにアクセスし、最適化されたコンテキストを通じて大規模な言語モデル(LLMS)の生成品質を高めます。ただし、既存の検索方法は、明示的に述べられたクエリと適切に形成された知識との間の関連マッチングのみを実行できるため、本質的に制約されますが、あいまいな情報ニーズまたは非構造化された知識を含むタスクを処理できません。その結果、既存のRAGシステムは、主に簡単な質問をするタスクに効果的です。この作業では、長期的な記憶によって力が与えられた新しい検索された世代のパラダイムであるメモグを提案します。メモラグは、デュアルシステムアーキテクチャを採用しています。一方では、軽いが長距離LLMを使用して、データベースのグローバルメモリを形成します。タスクが提示されると、ドラフトの回答が生成され、検索ツールを締めてデータベース内に役立つ情報を見つけます。一方、それは高価であるが表現力豊かなLLMを活用し、検索された情報に基づいて究極の答えを生成します。この一般的な枠組みに基づいて、そのクライアウトメカニズムと暗記能力を高めることにより、メモラグのパフォーマンスをさらに最適化します。私たちの実験では、メモラグは、従来のぼろきれが失敗する複雑なタスクと、一般的に適用される単純なものの両方を含む、さまざまな評価タスクで優れたパフォーマンスを実現します。 |
| 2024 年 9 月 8 日 | OneGen:LLMSの効率的なワンパス統合生成と検索 | さまざまなNLPタスクの生成機能を大幅に強化した大規模な言語モデル(LLMS)の最近の進歩にもかかわらず、LLMは検索タスクの直接処理において依然として制限に直面しています。ただし、多くの実用的なアプリケーションでは、検索と生成の両方のシームレスな統合が必要です。このペーパーでは、生成と検索の両方を必要とするタスクでのLLMSのパフォーマンスを改善するために設計された、斬新で効率的なワンパス生成および検索フレームワーク(OneGen)を紹介します。提案されたフレームワークは、自動網羅的に生成された検索トークンを組み込むことにより、伝統的に個別のトレーニングアプローチを生成と検索のために橋渡しします。これにより、単一のLLMが統一されたフォワードパスで両方のタスクを同時に処理できます。トレーニングと推論におけるONEGENのプラグ性、有効性、効率性を検証するために、2つの異なるタイプの複合タスク、RAGおよびエンティティリンクの実験を実施します。さらに、我々の結果は、同じコンテキスト内で生成と検索を統合することで、検索パフォーマンスを向上させながらLLMの生成能力を保持することを示しています。私たちの知る限り、OneGenは、LLMが世代中にベクトル検索を実施できるようにした最初のものです。 |
| 2024 年 9 月 6 日 | 紙の副操縦士:パーソナライズされた学術支援のための自己進化と効率的なLLMシステム | 科学研究が増殖するにつれて、研究者は膨大な量の文学をナビゲートして読むという困難な仕事に直面しています。ドキュメントQAなどの既存のソリューションは、パーソナライズされた最新の情報を効率的に提供できません。思考 - retrieval、ユーザープロファイル、高性能の最適化に基づいて、研究者を支援するように設計された自己進化で効率的なLLMシステムである紙の科職員を提示します。具体的には、Paper Copilotは、リアルタイムの更新データベースを維持し、パーソナライズされた研究サービスを提供できます。定量的評価は、紙の副操縦士が効率的な展開後69.92%の時間を節約することを示しています。このペーパーでは、紙の副操縦士の設計と実装について詳しく説明し、パーソナライズされたアカデミックサポートへの貢献と、研究プロセスを合理化する可能性について強調しています。 |
| 2024年9月5日 | 大規模な言語モデルの注意ヘッド:調査 | ChatGPTの出現以来、大規模な言語モデル(LLMS)はさまざまなタスクに優れていますが、ブラックボックスシステムとして依然として依存しています。その結果、LLMの推論ボトルネックは、主に内部アーキテクチャの影響を受けます。その結果、多くの研究者がLLMの潜在的な内部メカニズムを調査し始めており、ほとんどの研究が注意ヘッドに焦点を当てています。私たちの調査の目的は、注意ヘッドの基礎となるメカニズムに集中することにより、LLMの内部推論プロセスに光を当てることを目指しています。最初に、人間の思考プロセスを4段階のフレームワークに蒸留します:知識のリコール、コンテキスト内の識別、潜在的推論、および表現の準備。このフレームワークを使用して、既存の研究を体系的にレビューして、特定の注意ヘッドの機能を特定して分類します。さらに、これらの特別なヘッドを発見するために使用される実験的方法論を要約して、モデリングのない方法とモデリング要請方法の2つのカテゴリに分割します。また、関連する評価方法とベンチマークの概要を説明します。最後に、現在の研究の限界について説明し、いくつかの潜在的な将来の方向性を提案します。 |
| 2024年9月5日 | あなたのコードLLMはどのように実行されますか?高品質のデータを使用したコード命令チューニングの力を強化します | 最近、より良いコード命令チューニングデータを構築する方法を研究することに関心が高まっています。ただし、これらのデータセットでトレーニングされたコードモデルは、Humanevalで高性能を示しますが、LiveCodebenchなどの他のベンチマークではより悪化しています。さらに調査すると、多くのデータセットが深刻なデータ漏れに悩まされていることがわかります。漏れたデータのほとんどをクリーンアップした後、いくつかのよく知られている高品質のデータセットのパフォーマンスが低下します。この発見は、新しい課題を明らかにしています。どのデータセットが本当に高品質のコード命令データとして認定されているかを特定します。これに対処するために、適切なサンプルを選択するための効率的なコードデータ剪定戦略を提案します。私たちのアプローチは、命令の複雑さ、応答の質、および指導の多様性という3つの側面に基づいています。選択したデータに基づいて、llama3から微調整されたモデルファミリーであるXcoderを提示します。私たちの実験では、Xcoderがより少ないトレーニングデータを使用して新しい最先端のパフォーマンスを達成することを示しています。これにより、データ戦略の有効性が確認されています。さらに、データ構成に関する包括的な分析を実行し、既存のコードデータセットには、将来のコードLLMの新しい洞察を提供する構造方法に従って異なる特性があることがわかります。モデルとデータセットはhttps://github.com/banksy23/xcoderでリリースされます |
| 2024年9月5日 | MOOCからMAICまで:LLM主導のエージェントを通じてオンライン教育と学習を再構築する | コースがアクセス可能で共有されたオンラインプラットフォームにアップロードされたオンライン教育の最初のインスタンス以来、この形式の人間の知識の普及を拡大してより多くの聴衆に到達することは、広範な議論と広範な採用を引き起こしました。パーソナライズされた学習が依然として改善の大きな可能性を秘めていることを認識して、新しいAIテクノロジーはこの学習形式に継続的に統合されており、その結果、教育の推奨やインテリジェントな個別指導などのさまざまな教育AIアプリケーションが生まれています。大規模な言語モデル(LLMS)におけるインテリジェンスの出現により、これらの教育強化は統合された基礎モデルに基づいて構築され、より深い統合が可能になりました。これに関連して、LLM駆動型のマルチエージェントシステムを活用してAI-Augmented Classroomを構築する新しい形式のオンライン教育であるMAIC(Massive AI-Poweredコース)を提案します。概念的な枠組みと技術的革新を探るだけでなく、中国の大手大学の1つであるティンゥア大学で予備的な実験を実施しています。 500人を超える学生の100,000を超える学習記録から引き出され、一連の貴重な観察と初期分析を取得します。このプロジェクトは進化を続け、最終的には、大規模なモデルAIの時代におけるオンライン教育の可能性を調査する研究、技術、およびアプリケーションをサポートおよび統合する包括的なオープンプラットフォームを確立することを目指しています。このプラットフォームは、教育者、研究者、イノベーターを集めて、AI主導のオンライン教育の将来を集合的に探求するために、共同のハブとして想像しています。 |
| 2024 年 9 月 4 日 | LongCite:LLMSが長いコンテキストQAできめ細かい引用を生成できるようにする | 現在のロングコンテキストの大規模な言語モデル(LLMS)は、広範なテキストに基づいてユーザーの質問に答える際に印象的な能力を示していますが、回答に引用が不足しているため、ユーザー検証が困難になり、潜在的な幻覚のために信頼性に関する懸念につながります。この作業では、長いコンテキストLLMがきめ細かい文レベルの引用で応答を生成し、忠実さと検証可能性を向上させることを目指しています。最初に、CITASIONS(LQAC)でのロングコンテキスト質問応答で現在のLLMSのパフォーマンスを評価するための自動ベンチマークであるLongbench-Citeを紹介し、改善のかなりの余地を明らかにします。この目的のために、既製のLLMSを利用して正確な文レベルの引用で長いコンテキストQAインスタンスを自動的に生成し、このパイプラインを活用してロングサイテ45Kを構築するために自動的に生成されるCOF(粗から罰金)を提案します。 LQAC用の大規模なSFTデータセット。最後に、LongCite-45Kデータセットを使用してLongCite-8BとLongCite-9Bをトレーニングし、単一の出力での正確な応答ときめの細かい文レベルの引用をうまく実現しました。 Longbench-Citeの評価結果は、訓練されたモデルが最先端の引用品質を達成し、GPT-4oを含む高度な独自のモデルを超えることを示しています。 |
| 2024 年 9 月 4 日 | Longllava:ハイブリッドアーキテクチャを介してマルチモーダルLLMを1000画像に効率的にスケーリングする | マルチモーダルの大手言語モデルの長いコンテキスト機能を拡大することは、ビデオの理解、高解像度の画像理解、およびマルチモーダルエージェントに不可欠です。これには、モデルアーキテクチャ、データ構築、トレーニング戦略などの一連の体系的な最適化、特に textit {より多くの画像を使用した劣化パフォーマンス}や textit {高い計算コスト}などの課題に対処することが含まれます。このホワイトペーパーでは、モデルアーキテクチャをマンバブロックとトランスブロックのハイブリッドに適応させ、複数の画像間で時間的および空間的依存関係の両方でデータ構築にアプローチし、プログレッシブトレーニング戦略を採用しています。リリースモデル textbf {longllava}〜( textbf {long} -context textbf {l} arge textbf {l} anguage textbf {a} nd textbf {v} ision textbf {a}は最初のハイブリッドMLLMは、効率と有効性のバランスを改善しました。 Longllavaは、さまざまなベンチマークで競争力のある結果を達成するだけでなく、高いスループットおよび低メモリの消費を維持します。特に、単一のA100 80GB GPUで約1000個の画像を処理する可能性があり、幅広いタスクの有望なアプリケーションの見通しを示しています。 |
| 2024 年 9 月 4 日 | 大規模な言語モデルの好み学習の統一された見解に向けて:調査 | 大規模な言語モデル(LLM)は、非常に強力な機能を示します。成功を達成するための重要な要因の1つは、LLMの出力を人間の好みに合わせることです。このアラインメントプロセスでは、LLMのパフォーマンスを効率的に強化するために、少量のデータのみが必要です。効果的ですが、この分野での研究は複数のドメインにまたがっており、関係する方法は比較的複雑です。異なる方法間の関係は、優先順位の開発を制限しているため、異なる方法が不足しています。これに照らして、既存の一般的なアライメント戦略をさまざまなコンポーネントに分解し、現在のアライメント戦略を研究するための統一されたフレームワークを提供し、それによってそれらの間の接続を確立します。この調査では、モデル、データ、フィードバック、およびアルゴリズムの4つのコンポーネントに、優先学習のすべての戦略を分解します。この統一されたビューは、既存のアライメントアルゴリズムの詳細な理解を提供し、また、さまざまな戦略の強みを相乗する可能性を開きます。さらに、読者の包括的な理解を促進するために、一般的な既存のアルゴリズムの詳細な作業例を提示します。最後に、統一された視点に基づいて、大規模な言語モデルを人間の好みに合わせるための課題と将来の研究の方向性を探ります。 |
| 2024 年 9 月 4 日 | 多ターンの反復嗜好学習を備えた数学エージェントの構築 | 最近の研究では、コード通訳などの外部ツールを統合し、マルチターンチェーンオブチューム(COT)推論を採用することにより、大規模な言語モデル(LLMS)数学的問題解決機能を強化できることが示されています。現在の方法は合成データ生成と監視施設(SFT)に焦点を当てていますが、このペーパーでは、モデルのパフォーマンスをさらに向上させるための補完的な直接選好学習アプローチを研究しています。ただし、既存の直接選好学習アルゴリズムは、単一ターンチャットタスク用に設計されており、ツール統合された数学的推論タスクに必要なマルチターン推論と外部ツール統合の複雑さに完全に対処しません。このギャップを埋めるために、このコンテキストに合わせて調整されたマルチターン直接選好学習フレームワークを導入し、コード通訳者からのフィードバックを活用し、軌道レベルの好みを最適化します。このフレームワークには、特定の実装としてのマルチターンDPOおよびマルチターンKTOが含まれます。私たちのフレームワークの有効性は、GSM8Kおよび数学データセットからの拡張プロンプトセットを使用して、さまざまな言語モデルのトレーニングを通じて検証されます。私たちの結果は大幅な改善を示しています。監視された微調整されたGemma-1.1-IT-7Bモデルのパフォーマンスは、GSM8Kで77.5%から83.9%に増加し、数学で46.1%から51.2%に増加しました。同様に、GEMMA-2-IT-9Bモデルは、GSM8Kで84.1%から86.3%、数学で51.0%から54.5%に改善しました。 |
| 2024 年 9 月 3 日 | Olmoe:オープンミックスオブエクスペルの言語モデル | Olmoeを紹介します。これは、スパースオブエクスパー(MOE)を活用する完全にオープンで最先端の言語モデルを紹介します。 Olmoe-1B-7Bには70億(b)のパラメーターがありますが、入力トークンあたり1bのみを使用しています。 5兆個のトークンでそれを前処理し、さらに適応してOlmoe-1B-7B-Instructを作成します。私たちのモデルは、同様のアクティブなパラメーターを使用して利用可能なすべてのモデルよりも優れており、llama2-13b-chatやdeepseekmoe-16bなどのより大きなパラメーターを上回ります。 MOEトレーニングに関するさまざまな実験、モデルのルーティングを分析し、高い専門化を示すルーティングを分析し、モデルの重み、トレーニングデータ、コード、ログなど、作業のすべての側面をオープンソースします。 |
| 2024年9月2日 | Genagent:自動ワークフロー生成を備えた共同AIシステムを構築する - Comfyuiに関するケーススタディ | 以前のAIの多くの研究は、特定のタスクのパフォーマンスを向上させるという主な目標とともに、知性と能力を最大化するためのモノリシックモデルの開発に焦点を当ててきました。対照的に、このペーパーでは、ワークフローを使用してモデル、データソース、パイプラインを統合して複雑で多様なタスクを解決する代替アプローチを調査します。複雑なワークフローを自動的に生成するLLMベースのフレームワークであるGenagentを紹介し、モノリシックモデルと比較してより大きな柔軟性とスケーラビリティを提供します。 Genagentのコアイノベーションは、コードでワークフローを表現することにあり、共同エージェントとのワークフローを段階的に構築することにあります。 ComfyuiプラットフォームにGenagentを実装し、新しいベンチマークであるOpenComfyを提案しています。結果は、Genagentがランレベルとタスクレベルの両方の評価でベースラインアプローチを上回ることを示しており、優れた効果と安定性を備えた複雑なワークフローを生成する能力を示しています。 |
| 2024年9月2日 | Videollamb:再発メモリブリッジを使用した長いコンテキストビデオの理解 | 大規模なビデオ言語モデルの最近の進歩により、リアルタイムの計画と詳細な相互作用の大きな可能性が示されています。ただし、それらの高い計算的要求と注釈付きデータセットの希少性により、学術研究者にとっての実用性が制限されます。この作業では、橋の層内の時間的メモリトークンを利用して、履歴視覚データとともにビデオシーケンス全体のエンコードを可能にし、さまざまなタスクにわたってセマンティックの継続性を効果的に保持し、モデルパフォーマンスを強化するために、橋の層内の一時的なメモリトークンを利用する新しいフレームワークであるVideollambを紹介します。このアプローチには、再発メモリトークンとシーンテリングアルゴリズムが含まれます。これは、セマンティックの完全性を維持するために独立したセマンティックユニットにビデオをセグメント化します。経験的には、Videollambは既存のビデオ言語モデルを大幅に上回り、3つのVideoQAベンチマークにわたって競合他社に対して5.5ポイントの改善を示し、エゴセントリック計画では2.06ポイントを示しています。 MVBenchの包括的な結果は、Videolamb-7Bが同じLLMの以前の7Bモデルよりも著しく優れた結果を達成することを示しています。驚くべきことに、ビデオの長さが最大8倍に増加しても、Pllavaとして堅牢なパフォーマンスを維持しています。さらに、ビデオHaystack(NIAVH)ベンチマークの特殊な針のフレーム検索結果は、長いビデオ内の特定のフレームを正確に識別するVideollambの腕前をさらに検証します。また、シーンテルアルゴリズムは、追加のトレーニングを必要とせずに、ストリーミングビデオキャプションの生成を直接可能にします。効率の観点から、16フレームでトレーニングされたビデオランプは、線形GPUメモリスケーリングを備えた単一のNVIDIA A100 GPUで最大320フレームをサポートし、高性能と費用対効果の両方を確保し、それにより長い型型のビデオレンガージの新しい基盤を設定します。アカデミックアプリケーションと実用的なアプリケーションの両方のモデル。 |
| 2024年9月1日 | ContextCite:モデル生成をコンテキストに帰属させます | 言語モデルは、応答を生成するときにコンテキストとして提供される情報をどのように使用しますか?特定の生成されたステートメントが実際にコンテキストに基づいているのか、誤って解釈されているのか、それとも製造されているのかを推測できますか?これらの質問に答えるために、コンテキストの属性の問題を紹介します。モデルを導いたコンテキストの部分(もしあれば)を特定することを特定しました。次に、ContextCiteを提示します。これは、既存の言語モデルの上に適用できるコンテキスト属性のシンプルでスケーラブルな方法です。最後に、3つのアプリケーションを通じてContextCiteのユーティリティを紹介します。(1)生成されたステートメントの検証を支援します(2)コンテキストを剪定し、(3)中毒攻撃を検出することにより、応答品質を改善します。 https://github.com/madrylab/context-citeでContextCiteのコードを提供します。 |
| 2024年8月31日 | LongRecipe:大規模な言語モデルでの効率的な長いコンテキスト一般化のレシピ | 大規模な言語モデル(LLMS)は、前登録中の効果的なコンテキストウィンドウサイズが限られているため、長いコンテキストタスクの処理において大きな課題に直面しており、拡張されたシーケンスを一般化する能力を制限しています。一方、Post-Prainingを通じてLLMSのコンテキストウィンドウを拡張することは、非常にリソース集約型です。これに対処するために、インパクトのあるトークン分析、位置インデックス変換、トレーニング最適化戦略など、LLMのコンテキストウィンドウを拡張するための効率的なトレーニング戦略であるLongRecipeを紹介します。トレーニングの効率を維持しながら長いシーケンス入力をシミュレートし、モデルの長距離依存関係に対する理解を大幅に改善します。 3種類のLLMでの実験は、ターゲットコンテキストウィンドウサイズの30%のみを必要としながら、LongRecipeが長いシーケンスを利用できることを示しており、完全なシーケンストレーニングと比較して計算トレーニングリソースを85%以上削減します。さらに、LongRecipeは、一般的なタスクで元のLLMの機能も保持しています。最終的に、オープンソースLLMの効果的なコンテキストウィンドウを8Kから128Kに拡張でき、80gメモリを備えた単一のGPUを使用して1日間の専用トレーニングでGPT-4に近いパフォーマンスを達成できます。コードはhttps://github.com/zhiyuanhubj/longrecipeでリリースされています。 |
| 2024 年 8 月 29 日 | Mini-Omni:言語モデルは聞くことができ、ストリーミングで考えながら話すことができます | 言語モデルの最近の進歩は大きな進歩を遂げました。 GPT-4oは、新しいマイルストーンとして、人間とのリアルタイムの会話を可能にし、人間に近い自然な流encyさを示しています。このようなヒューマンコンピューターの相互作用は、オーディオモダリティで直接推論を実行し、ストリーミングで出力を生成する機能を備えたモデルを必要とします。ただし、これは現在のアカデミックモデルの範囲を超えています。これは、音声合成のために通常のTTSシステムに依存しているため、望ましくない遅延をもたらすためです。このペーパーでは、リアルタイムの音声相互作用が可能なオーディオベースのエンドツーエンドの会話モデルであるMini-Omniを紹介します。この機能を達成するために、パフォーマンスをさらに向上させるための推論中のバッチ並列戦略とともに、テキスト風の音声生成方法を提案します。また、私たちの方法は、最小限の劣化で元のモデルの言語機能を保持するのにも役立ち、他の作業がリアルタイムの相互作用能力を確立できるようにします。このトレーニング方法を「任意のモデルはtできます
拡大する
追加情報
関連アプリ
おすすめ
関連情報
すべて
|