AGI PapersダウンロードAGI Papersソースコードのダウンロード

AGI Papers

その他のソースコード

1.0.0

ダウンロード

？ agi-papers？

LLM・NLP
text2all・all2all
マルチモーダル・マルチタスク

_{LLM関連の最新およびさまざまな論文をご覧ください。？}

新しい論文

MOMA：モダリティを意識した専門家の混合を使用した効率的な早期融合前トレーニング
Mova：ビジョンの専門家の混合物をマルチモーダルコンテキストに適応させます
想像力、検索、批判を介したLLMの自己改善に向けて
チャットベクトル：LLMSに新しい言語での指示とモデルのアラインメントを装備するための簡単なアプローチ
RからQ ∗：あなたの言語モデルは密かにQ機能です
MAMBA：選択的状態空間を使用した線形時間シーケンスモデリング
PHI-3テクニカルレポート：携帯電話でローカルに非常に能力のある言語モデル
DORA：減量の低いランク適応
多くのショットコンテキスト学習

2024年以前

大規模な言語モデルでの認知相乗効果を解き放つ：マルチパーソナの自己コラボレーションによるタスク解決エージェント

人間の知性は、異なる認知プロセス間のコラボレーションと情報統合が、個々の認知プロセスと単独で優れた結果をもたらすという認知的相乗効果の概念で繁栄しています。大規模な言語モデル（LLM）は、一般的なタスク解決エージェントとして有望なパフォーマンスを実証していますが、集中的なドメインの知識と複雑な推論を必要とするタスクと格闘しています。この作業では、単一のLLMを複数のペルソナとのマルチターンセルフコラボレーションに従事することにより、単一のLLMを認知的相乗効果主義者に変換するソロパフォーマンスプロンプト（SPP）を提案します。認知的相乗効果主義者とは、複数の心との強みと知識を組み合わせて、複雑なタスクの問題解決と全体的なパフォーマンスを高めるために、複数の心と協力するインテリジェントなエージェントを指します。タスク入力に基づいてさまざまなペルソナを動的に識別およびシミュレートすることにより、SPPはLLMSの認知的相乗効果の可能性を解き放ちます。 LLMSで複数のきめの細かいペルソナを割り当てると、単一または固定数のペルソナを使用するのと比較して、より良い問題解決能力が誘発されることを発見しました。 Trivia Creative Writing、Codenames Collaborative、およびLogic Grid Puzzleの3つの挑戦的なタスクでSPPを評価し、知識集約型と推論集約型の両方のタイプを網羅しています。 LLMSの推論能力を強化する以前の作品とは異なり、SPPは内部知識の習得能力を効果的に引き出し、幻覚を減らし、強力な推論能力を維持します。コード、データ、およびプロンプトは、このHTTPS URLで見つけることができます。

LLM-Blender：ペアワイズランキングと生成的融合を備えた大規模な言語モデルをアンサムする

複数のオープンソースの大手言語モデル（LLMS）の多様な強みを活用することにより、一貫して優れたパフォーマンスを達成するように設計されたアンサンブルフレームワークであるLLM-Blenderを紹介します。私たちのフレームワークは、ペアランカーとGenFuserの2つのモジュールで構成されており、異なる例に最適なLLMが大幅に変化する可能性があるという観察に対処します。 Pair -Rankerは、候補出力間の微妙な違いを区別するために、特殊なペアワイズ比較方法を採用しています。クロスアテンションエンコーダーを使用して優れたエンコーダーを決定する候補者のペアを共同でエンコードします。我々の結果は、Pair-RankerがChatGPTベースのランキングと最高の相関を示すことを示しています。次に、GenFuserは、トップランクの候補者をマージし、その強みを活用して弱点を緩和することにより、出力が改善されることを目指しています。大規模な評価を容易にするために、Oracle Pailwise比較を備えた複数の命令データセットの混合であるベンチマークデータセットMixInstructを導入します。 LLM-Blenderは、さまざまなメトリック全体で個々のLLMSおよびベースラインメソッドを大幅に上回り、実質的なパフォーマンスギャップを確立します。

Leandojo：検索された言語モデルで証明する定理

大規模な言語モデル（LLMS）は、LEANなどのプルーフアシスタントを使用して正式な定理を証明することで有望を示しています。ただし、プライベートコード、データ、および大規模な計算要件により、既存の方法を再現または構築することは困難です。これは、定理証明のための機械学習方法に関する研究に対する大きな障壁を生み出しました。このペーパーでは、Leandojoを導入することにより、これらの障壁を削除します。これは、ツールキット、データ、モデル、ベンチマークで構成されるオープンソースの無駄のない遊び場です。 Leandojoは、LEANからデータを抽出し、プログラムで証明環境との相互作用を可能にします。それには、敷地内の施設の細かく栽培された注釈が含まれており、前提選択のための貴重なデータを提供します。これは、定理の重要なボトルネックです。このデータを使用して、Reprover（検索されたプレーバー）を開発します。これは、膨大な数学ライブラリから施設を選択するための検索で拡張された最初のLLMベースのプロバーです。安価で、トレーニングのGPU週のみが必要です。 Retriverは、Leandojoのプログラム分析機能を活用して、アクセス可能な施設とハードネガティブの例を特定し、検索をより効果的にします。さらに、LeanのMath Libraryから抽出された96,962の定理と証明で構成される新しいベンチマークを構築します。トレーニングでは決して使用されない新しい施設に依存して、定理に一般化することを支持者が必要とする挑戦的なデータスプリットを特徴としています。このベンチマークをトレーニングと評価に使用し、実験結果は、非retリーバルベースラインとGPT-4に対するレプバーの有効性を示しています。したがって、独自のデータセットなしでオープンソースLLMベースの定理プロバーの最初のセットを提供し、さらなる研究を促進するために許容されるMITライセンスの下でそれをリリースします。

VIPERGPT：推論のためのPython実行による視覚的推論

視覚的なクエリに答えることは、視覚処理と推論の両方を必要とする複雑なタスクです。このタスクの支配的なアプローチであるエンドツーエンドモデルは、2つのタスクを明示的に区別しないで、解釈可能性と一般化を制限します。モジュラープログラムの学習は、有望な選択肢を提示しますが、プログラムとモジュールの両方を同時に学習するのが難しいため、挑戦的であることが証明されています。 Vipergptを導入します。これは、コード生成モデルを活用してビジョンと言語モデルをサブルーチンに構成して、クエリの結果を生成するフレームワークです。 VIPERGPTは、提供されたAPIを使用して利用可能なモジュールにアクセスし、後で実行されるPythonコードを生成して作成します。この単純なアプローチには、それ以上のトレーニングは必要ありません。また、さまざまな複雑な視覚タスクで最新の結果を達成します。

Longnet：トランスを1,000,000,000トークンにスケーリングします

スケーリングシーケンスの長さは、大規模な言語モデルの時代において重要な需要となっています。ただし、既存の方法は、計算の複雑さまたはモデルの表現率のいずれかに闘い、最大シーケンス長を制限します。この作業では、短いシーケンスでパフォーマンスを犠牲にすることなく、シーケンスの長さを10億トークン以上にスケーリングできる変圧器バリアントであるLongnetを紹介します。具体的には、拡張された注意を拡張する拡張された注意を提案します。 Longnetには大きな利点があります。1）線形計算の複雑さとトークン間の対数依存性があります。 2）非常に長いシーケンスの分散トレーナーとして提供できます。 3）その拡張された注意は、標準的な注意のためのドロップイン置換であり、既存の変圧器ベースの最適化とシームレスに統合できます。実験の結果は、ロングネットが長シーケンスモデリングと一般的な言語タスクの両方で強力なパフォーマンスをもたらすことを示しています。私たちの仕事は、非常に長いシーケンスをモデル化するための新しい可能性を開きます。たとえば、コーパス全体またはインターネット全体をシーケンスとして扱うことです。

外国語としての画像：すべてのビジョンとビジョン言語のタスクのためのBeit Preting

言語、ビジョン、およびマルチモーダルな事前トレーニングの大きな収束が出現しています。この作業では、汎用マルチモーダルファンデーションモデルBEIT-3を紹介します。これは、ビジョンタスクとビジョン言語タスクの両方で最先端の転送パフォーマンスを実現します。具体的には、バックボーンアーキテクチャ、前登録タスク、モデルスケールアップの3つの側面から大きな収束を前進させます。汎用モデリングのためにマルチウェイトランスを紹介します。ここでは、モジュラーアーキテクチャが深い融合とモダリティ固有のエンコーディングの両方を可能にします。共有されたバックボーンに基づいて、画像（imglish）、テキスト（英語）、および画像テキストペア（「並列文」）でマスクされた「言語」モデリングを統一された方法で実行します。実験結果は、BEIT-3がオブジェクト検出（COCO）、セマンティックセグメンテーション（ADE20K）、画像分類（IMAGENET）、視覚的推論（NLVR2）、視覚的質問（VQAV2）、画像キャプション（COCO）、およびクロスマダル回復（Flickr30K、CoCo）で最先端のパフォーマンスを取得することを示しています。

？ Gorilla：大規模なAPIに接続された大きな言語モデル

大規模な言語モデル（LLM）は最近、印象的な進歩の波を見ており、モデルは現在、数学的推論やプログラムの統合などのさまざまなタスクに優れています。ただし、API呼び出しを介してツールを効果的に使用する可能性は満たされていません。これは、主に正確な入力引数を生成できないことと、API呼び出しの誤った使用を幻覚化する傾向があるため、GPT-4などの最先端のLLMにとっても挑戦的な作業です。 API呼び出しの書き込みでGPT-4のパフォーマンスを上回る、微調ューされたLlamaベースのモデルであるGorillaをリリースします。ドキュメントレトリバーと組み合わせると、Gorillaは、テスト時間のドキュメントの変更に適応する強力な機能を実証し、柔軟なユーザーの更新またはバージョンの変更を可能にします。また、LLMSを直接促すときに一般的に遭遇する幻覚の問題を大幅に軽減します。モデルの能力を評価するために、Huggingface、Torchhub、およびTensorhub APIで構成される包括的なデータセットであるApibenchを紹介します。検索システムとGorillaの統合が成功すると、LLMがツールをより正確に使用し、頻繁に更新されるドキュメントに追いつく可能性があり、その結果、出力の信頼性と適用性が向上します。ゴリラのモデルとコードは、https：//github.com/shishirpatil/gorillaで入手できます。

÷？ Chameleon：GPT-4を使用したプラグアンドプレイの構成推論

大規模な言語モデル（LLM）は、緊急能力を備えたさまざまな自然言語処理タスクで顕著な進歩を遂げています。ただし、最新の情報にアクセスできない、外部ツールを利用したり、正確な数学的推論を実行できないなど、固有の制限に直面しています。この論文では、これらの課題に対処するためにLLMSを増強するプラグアンドプレイの構成推論フレームワークであるChameleonを紹介します。 Chameleonは、LLMモデル、既製のビジョンモデル、Web検索エンジン、Python関数、ユーザーの関心に合わせたルールベースのモジュールなど、さまざまなツールを作成するプログラムを統合します。自然言語プランナーとしてLLMの上に構築されたChameleonは、最終的な応答を生成するために構成および実行するための適切な一連のツールを推進します。 ScienceQAとTABMWPの2つのタスクでカメレオンの適応性と有効性を紹介します。特に、GPT-4のカメレオンは、ScienceQAで86.54％の精度を達成し、最高の公開された少数のショットモデルを11.37％大幅に改善します。 GPT-4を基礎となるLLMとして使用すると、Chameleonは最先端のモデルで17.8％増加し、TabMWPの全体的な精度が98.78％になりました。さらなる研究は、GPT-4をプランナーとして使用することで、より一貫した合理的なツール選択を示すことが示唆されており、CHATGPTのような他のLLMと比較して、指示を考慮して潜在的な制約を推測できることが示唆されています。

Llama-Adapter V2：パラメーター効率の高い視覚命令モデル

大規模な言語モデル（LLMS）を指導フォロワーに効率的に変換する方法は最近、人気のある研究の方向性ですが、マルチモーダル推論のためのLLMのトレーニングはまだ調査されていません。最近のLlama-AdapterはLLMSで視覚入力を処理する可能性を示していますが、GPT-4の背後にあるオープンエンドの視覚的指示や遅れに依然として一般化することはできません。この論文では、パラメーター効率の高い視覚命令モデルであるLlama-Adapter V2を紹介します。具体的には、最初に、アダプター以外のLlamaモデル全体に命令中の能力を分配する、より学習可能なパラメーター（たとえば、ノルム、バイアス、スケールなど）のロックを解除することにより、Llama-Adapterを最初に増強します。第二に、視覚トークンを初期のLLM層にのみ供給するための早期融合戦略を提案し、視覚知識の取り込みの改善に貢献します。第三に、イメージテキストのペアと命令に従うデータの共同トレーニングパラダイムは、学習可能なパラメーターの非難グループを最適化することにより導入されます。この戦略は、画像テキストのアラインメントと命令の2つのタスク間の干渉を効果的に軽減し、小規模な画像テキストと命令データセットのみで強力なマルチモーダル推論を達成します。推論中に、追加のエキスパートモデル（キャプション/OCRシステムなど）をLlama-Adapterに組み込み、トレーニングコストを発生させることなく画像理解機能をさらに強化します。元のLlama-Adapterと比較して、当社のLlama-Adapter V2は、Llamaに14mパラメーターを導入するだけで、オープンエンドのマルチモーダル命令を実行できます。新たに設計されたフレームワークは、より強力な言語のみの指導に従う機能を示し、チャットインタラクションにも優れています。私たちのコードとモデルは、このHTTPS URLで入手できます。

生成エージェント：人間の行動のインタラクティブなシミュレーション

人間の行動の信頼できるプロキシは、没入型環境から対人通信のためのリハーサルスペースに至るまで、インタラクティブなアプリケーションを強化します。この論文では、生成エージェント（信じられる人間の行動をシミュレートするコンパート化ソフトウェアエージェント）を紹介します。生成エージェントは目を覚まし、朝食を作り、仕事に向かいます。著者が書いている間、アーティストがペイントします。彼らは意見を形成し、お互いに気づき、会話を開始します。彼らは翌日計画を立てている過去の日を覚えて反映しています。生成エージェントを有効にするために、大規模な言語モデルを拡張して自然言語を使用してエージェントの経験の完全な記録を保存し、時間の経過とともにそれらの記憶を高レベルの反射に統合し、動的に動的に取得するアーキテクチャについて説明します。生成エージェントをインスタンス化して、シムズに触発されたインタラクティブサンドボックス環境に浸透します。エンドユーザーは、自然言語を使用して25人のエージェントの小さな町と対話できます。評価では、これらの生成エージェントは、信じられる個人的および緊急の社会的行動を生み出します。たとえば、1人のエージェントがバレンタインデーパーティーを投げたいという単一のユーザー指定の概念から始めて、エージェントは次の2日間にわたってパーティーに招待を広め、新しい知り合いを作り、パーティーにデートを尋ね、正しい時間で一緒に登場するために調整します。アブレーションを通じて、エージェントアーキテクチャのコンポーネント（観察、計画、および反省）が、エージェントの行動の信ability性に批判的に貢献することを実証します。大規模な言語モデルを計算的でインタラクティブなエージェントと融合させることにより、この作業では、人間の行動の信頼できるシミュレーションを可能にするためのアーキテクチャと相互作用パターンを紹介します。

反射：動的な記憶と自己反省を備えた自律剤

意思決定の大規模な言語モデル（LLM）エージェントの最近の進歩は、さまざまなベンチマークで印象的なパフォーマンスを実証しています。ただし、これらの最先端のアプローチでは、通常、定義された状態空間をめぐる内部モデルの微調整、外部モデルの微調整、またはポリシーの最適化を必要とします。これらの方法を実装することは、高品質のトレーニングデータが不足しているか、明確に定義された状態空間がないため、挑戦的であることがわかります。さらに、これらのエージェントは、人間の意思決定プロセスに固有の特定の資質、特に間違いから学ぶ能力を持っていません。自己反省により、人間は試行錯誤のプロセスを通じて新しい問題を効率的に解決することができます。最近の研究に基づいて、既存の推論トレースとタスク固有のアクション選択能力を強化するための動的なメモリと自己反射能力を持つエージェントに与えるアプローチを提案します。完全な自動化を実現するために、エージェントが幻覚インスタンスを特定し、アクションシーケンスでの繰り返しを避け、一部の環境では、特定の環境の内部メモリマップを構築できるようにする簡単で効果的なヒューリスティックを紹介します。アプローチを評価するために、Alfworld環境で意思決定タスクを完了するエージェントの能力と、HotPotqa環境での知識に基づいた検索ベースの質問と回答のタスクを評価します。それぞれ97％と51％の成功率を観察し、自己反省の緊急特性に関する議論を提供します。

自己復活：セルフフィードバックによる反復洗練

人々のように、LLMは、最初の試みで特定の世代の問題に常に最適なテキストを生成するとは限りません（例：要約、回答、説明）。その後、人々がテキストを改良するのと同じように、私たちは、LLMSからの初期出力を反復的なフィードバックと改良を通じて同様に改善するためのフレームワークであるSelf Refineを紹介します。主なアイデアは、LLMを使用して出力を生成し、同じモデルが独自の出力にマルチアスペクトフィードバックを提供できるようにすることです。最後に、同じモデルが独自のフィードバックを考慮して、以前に生成された出力を改良します。以前の作業とは異なり、反復的な改良フレームワークでは、監視されたトレーニングデータや強化学習を必要とせず、単一のLLMで動作します。レビューの書き換えから数学の推論に至るまで、7つの多様なタスクを実験し、私たちのアプローチが直接的な生成を上回ることを示しています。すべてのタスクにおいて、セルフレーフィンで生成された出力は、人間やGPT-3.5およびGPT-4で直接生成されたメトリックよりも自動化されたメトリックよりも好まれ、タスク全体で平均して絶対20％改善します。

hugginggpt：huggingfaceでchatgptとその友達とのAIタスクを解決する

異なるドメインとモダリティで複雑なAIタスクを解決することは、高度な人工知能に向けた重要なステップです。さまざまなドメインとモダリティに利用できる豊富なAIモデルがありますが、複雑なAIタスクを処理することはできません。大規模な言語モデル（LLM）が言語の理解、生成、相互作用、および推論に並外れた能力を示していることを考慮して、LLMは既存のAIモデルを管理して複雑なAIタスクと言語を解決するためのコントローラーとして機能し、これに力を与えるための一般的なインターフェイスになる可能性があると主張します。この哲学に基づいて、LLMS（たとえば、ChatGPT）を活用して機械学習コミュニティのさまざまなAIモデル（フェイスを抱き締める）を接続してAIタスクを解決するフレームワークであるHuggingGptを提示します。具体的には、ChatGptを使用してタスク計画を実行し、ユーザー要求を受信するときにモデルを選択し、顔を抱き締める機能の説明に従って選択し、選択したAIモデルで各サブタスクを実行し、実行結果に従って応答を要約します。 HuggingGptは、CHATGPTと豊富なAIモデルの強力な言語能力を活用することで、さまざまなモダリティとドメインで多数の洗練されたAIタスクをカバーし、言語、ビジョン、スピーチ、およびその他の挑戦的なタスクで印象的な結果を達成することができます。

Auto-GPT：自律GPT-4実験

Auto-GPTは、GPT-4言語モデルの機能を示す実験的なオープンソースアプリケーションです。 GPT-4によって推進されたこのプログラムは、LLM「思考」を結びつけ、設定した目標を自律的に達成します。 GPT-4が完全に自律的に実行される最初の例の1つとして、Auto-GPTはAIで可能なことの境界を押します。

Frugalgpt：コストを削減し、パフォーマンスを改善しながら大規模な言語モデルを使用する方法

ユーザーが有料で照会できる大規模な言語モデル（LLM）の急速な数が増えています。人気のあるLLM API、例えばGPT-4、ChatGPT、J1-Jumboのクエリに関連するコストを確認し、これらのモデルには不均一な価格設定構造があり、2桁異なる料金があることがわかります。特に、クエリとテキストの大規模なコレクションでLLMを使用するのは高価です。これに動機付けられて、ユーザーがLLMを使用することに関連する推論コストを削減するために活用できる3つのタイプの戦略の概要と議論：1）迅速な適応、2）LLM近似、および3）LLMカスケード。例として、LLMカスケードのシンプルで柔軟なインスタンス化であるFrugalgptを提案します。これは、コストを削減し、精度を向上させるために、さまざまなクエリに使用するLLMの組み合わせを学習します。私たちの実験は、Frugalgptが最高の個々のLLM（GPT-4）のパフォーマンスを最大98％のコスト削減で一致させるか、同じコストでGPT-4より4％の精度を向上させることができることを示しています。ここで紹介するアイデアと調査結果は、LLMを持続可能かつ効率的に使用するための基盤を築きます。

Leandojo：検索された言語モデルで証明する定理

大規模な言語モデル（LLMS）は、LEANなどのプルーフアシスタントを使用して正式な定理を証明することで有望を示しています。ただし、プライベートコード、データ、および大規模な計算要件により、既存の方法を再現または構築することは困難です。これは、定理証明のための機械学習方法に関する研究に対する大きな障壁を生み出しました。このペーパーでは、Leandojoを導入することにより、これらの障壁を削除します。これは、ツールキット、データ、モデル、ベンチマークで構成されるオープンソースの無駄のない遊び場です。 Leandojoは、LEANからデータを抽出し、プログラムで証明環境との相互作用を可能にします。それには、敷地内の施設の細かく栽培された注釈が含まれており、前提選択のための貴重なデータを提供します。これは、定理の重要なボトルネックです。このデータを使用して、Reprover（検索されたプレーバー）を開発します。これは、膨大な数学ライブラリから施設を選択するための検索で拡張された最初のLLMベースのプロバーです。安価で、トレーニングのGPU週のみが必要です。 Retriverは、Leandojoのプログラム分析機能を活用して、アクセス可能な施設とハードネガティブの例を特定し、検索をより効果的にします。さらに、LeanのMath Libraryから抽出された96,962の定理と証明で構成される新しいベンチマークを構築します。トレーニングでは決して使用されない新しい施設に依存して、定理に一般化することを支持者が必要とする挑戦的なデータスプリットを特徴としています。このベンチマークをトレーニングと評価に使用し、実験結果は、非retリーバルベースラインとGPT-4に対するレプバーの有効性を示しています。したがって、独自のデータセットなしでオープンソースLLMベースの定理プロバーの最初のセットを提供し、さらなる研究を促進するために許容されるMITライセンスの下でそれをリリースします。

コードプロンプトの奇妙なケースの調査

最近の研究では、自然言語のコードに似た表現を備えた言語モデルを促すことで、構造化された推論タスクのパフォーマンスの改善につながることが示されています。ただし、このようなタスクは、すべての自然言語タスクの小さなサブセットのみを構成します。私たちの仕事では、コードプロンプキングが一般的な言語モデルと相互作用する好ましい方法であるかどうかに答えるよう努めています。 3つの一般的なGPTモデル（Davinci、Code-Davinci-002、およびText-Davinci-002）にわたってコードとテキストのプロンプトを、より広範なタスク（QA、センチメント、要約）で比較し、いくつかの例外を除いて、コードプロンプトは一貫してテキストプロンプトを上回ることはありません。さらに、コードプロンプトのスタイルは、すべてではなく一部のタスクである一部のパフォーマンスに大きな影響を与えることを示し、テキストの指示に微調整すると、コードプロンプトの相対的なパフォーマンスが向上します。

言語モデルはより弱いエージェントを教えることができますか？教師の説明は、心の理論を介して生徒を改善します

大規模な言語モデル（LLM）は、予測の説明を生成することにより、複雑な推論を実行します。ただし、説明の補完的な目標は、より弱いエージェントを改善する有用な知識を伝えることです。したがって、LLMがより弱いエージェントのために優れた教師を作るかどうかを調査します。特に、2つのLLMエージェント間の学生教師のフレームワークを検討し、生徒のパフォーマンスを改善するために、教師が自然言語の説明に介入する場合、いつ、どのように介入するかを研究します。コミュニケーションは高価なので、私たちは、教師がデータの一部の説明のみを伝えるだけで、生徒は自分でうまく機能するように予算を定義します。 4つの軸に沿って教育の問題を分解します。（1）教師のテスト時間介入が生徒の予測を改善する場合、（2）データポイントを説明する価値がある場合、（3）教師が学生をよりよく教えるために説明をパーソナライズする方法、（4）教師の説明が将来の説明のつかないデータの生徒のパフォーマンスを改善する場合。最初に、LLMS教師がパフォーマンスを改善するために学生の推論に実際に介入できることを示しています。次に、教師が学生の2つの少ないショットメンタルモデルを構築する心の理論アプローチを提案します。最初のモデルは、介入の有用性をシミュレートする介入関数を定義し、この有用性が最高で低予算で学生のパフォーマンスを改善するときに教師が介入できるようにします。 2番目のモデルにより、教師は特定の生徒の説明をパーソナライズし、人格化されていない教師よりも優れています。また、マルチターンの相互作用では、教師の説明が説明されたデータから一般化および学習すると、将来の説明のつかないデータの生徒のパフォーマンスが向上することを実証します。最後に、不整合された教師は、意図的に誤解を招くことで、生徒のパフォーマンスをランダムな偶然に減らすことができることを確認します。

[Kosmos-2：マルチモーダルの大手言語モデルを世界に接地する]

マルチモーダルの大手言語モデル（MLLM）であるKOSMOS-2を紹介し、オブジェクトの説明（境界ボックスなど）を知覚する新しい機能を視覚世界に接地するテキストを紹介します。具体的には、式をマークダウンのリンク、つまり「[テキストスパン]（境界ボックス）」のリンクとして表します。オブジェクトの説明はロケーショントークンのシーケンスです。マルチモーダルコーパスとともに、モデルを訓練するために、接地された画像テキストペア（GRITと呼ばれる）の大規模なデータを構築します。 MLLMSの既存の機能（例えば、一般的なモダリティを知覚し、指示に従って知覚し、コンテキスト内学習を実行する）に加えて、KOSMOS-2は接地能力をダウンストリームアプリケーションに統合します。（i）表現理解の参照、フレーズの接地などのマルチモーダル接地、（ii）式の式生成、（iii）知覚言語タスク、（IV）言語の理解と生成などのマルチモーダル参照など、幅広いタスクでKOSMOS-2を評価します。この作業は、実施形態AIの開発の基礎を定め、言語の大きな収束、マルチモーダル認識、行動、および世界モデリングの大きな収束に光を当てています。これは、人工的な一般情報への重要なステップです。このHTTPS URLでコードモデルと前処理されたモデルを利用できます。

Palm 2テクニカルレポート

多言語と推論機能が優れており、前任者のPalmよりも計算効率が高い新しい最先端の言語モデルであるPalm 2を紹介します。 Palm 2は、目的の混合を使用して訓練された変圧器ベースのモデルです。英語と多言語に関する広範な評価、および推論タスクを通じて、Palm 2が異なるモデルサイズにわたる下流タスクの品質を大幅に改善し、同時にPALMと比較してより高速でより効率的な推論を示していることを実証します。これにより効率が向上すると、より幅広い展開が可能になり、モデルがより自然な相互作用のペースを得るために、モデルをより速く応答させることができます。 Palm 2は、大きなベンチやその他の推論タスク上のPalmよりも大規模な改善によって例示される堅牢な推論能力を示しています。 Palm 2は、一連の責任あるAI評価で安定した性能を示し、追加のオーバーヘッドや他の機能への影響なしに、毒性に対する推論時間制御を可能にします。全体として、Palm 2は、多様なタスクと機能のセットで最先端のパフォーマンスを達成しています。

MotionGPT：Finetuned LLMSは、汎用モーションジェネレーターです

指定されたアクションの説明から現実的な人間の動きを生み出すことは、デジタル人間の新たな要件のために、大きな進歩を経験しています。最近の作品は、テキストアクションの説明から直接動きを生成するという印象的な結果を達成しましたが、多くの場合、制御信号の単一のモダリティのみをサポートしているため、実際のデジタルヒューマン業界での応用が制限されています。このホワイトペーパーでは、マルチモーダルシグナルを大規模な言語モデル（LLM）の特別な入力トークンとして扱うことにより連続した人間の動きを生成するために、マルチモーダル制御信号、例えばテキストや単一フレームのポーズを使用できるモーション汎用ジェネレーター（MotionGPT）を紹介します。具体的には、まずマルチモーダル制御信号を個別のコードに量子化し、次に統合された迅速な命令でそれらを策定して、LLMSにモーション回答を生成するように依頼します。 MotionGPTは、LLMパラメーターのわずか0.4％を調整することにより、マルチモーダル制御信号を備えた統一されたヒトモーション生成モデルを示しています。私たちの知る限り、MotionGPTはマルチモーダル制御信号によって人間の動きを生成する最初の方法であり、この新しい方向に光を当てることができることを願っています。コードは受け入れたときにリリースされるものとします。

言語モデルにおけるマルチモーダルチェーンの推論

大規模な言語モデル（LLM）は、回答を推測する理論的根拠として中間推論チェーンを生成するように促す促進を促すことにより、複雑な推論で印象的なパフォーマンスを示しています。ただし、既存のCOT研究では、言語のモダリティに焦点を当てています。言語（テキスト）とビジョン（画像）のモダリティを組み込んだマルチモーダルコットを、理論的生成と回答の推論を分離する2段階のフレームワークに提案します。このようにして、回答の推論は、マルチモーダル情報に基づいたより良い生成された理論的根拠を活用できます。マルチモーダルコットでは、10億パラメーターを下回るモデルは、ScienceQAベンチマークで16パーセントポイント（75.17％ - > 91.68％の精度）を上回り、人間のパフォーマンスを超えています。コードは、このHTTPS URLで公開されています。

Llama 2：オープンファンデーションと微調整されたチャットモデル
Unilm：タスク、言語、およびモダリティを越えた大規模な自己監督の事前トレーニング
とんでもない大規模なニューラルネットワーク：スパースゲートの混合混合層
GLAM：混合物を使用した言語モデルの効率的なスケーリング
専門家のまばらな混合物によるスケーリングビジョン
「低リソース」テキスト分類：コンプレッサーを使用したパラメーターフリー分類方法
ALEXATM 20B：大規模な多言語SEQ2SEQモデルを使用した少数のショット学習
ヤギ：微調整されたラマは、算術タスクでGPT-4を上回ります
教科書はあなたが必要とするすべてです
Claudeモデルのモデルカードと評価
限られたリソースを備えた大規模な言語モデル向けの完全なパラメーター微調整
長期的なメモリで言語モデルを増強します
大規模な言語モデルと知識グラフの統一：ロードマップ
大きな言語モデルの知識蒸留
SpQR: A Sparse-Quantized Representation for Near-Lossless LLM Weight Compression
QLoRA: Efficient Finetuning of Quantized LLMs
LIMA: Less Is More for Alignment
Orca: Progressive Learning from Complex Explanation Traces of GPT-4
RWKV: Reinventing RNNs for the Transformer Era
Dr. LLaMA: Improving Small Language Models Through Generative Data Augmentation
The FLAN Instruction Tuning Repository
Phoenix: Democratizing ChatGPT across Languages
Long Sequence Modeling with XGen: A 7B LLM Trained on 8K Input Sequence Length
RedPajama-INCITE
China's Baidu claims its Ernie Bot beats ChatGPT on key tests as AI race heats up
BLOOM: A 176B-Parameter Open-Access Multilingual Language Model
LTM-1: an LLM with a 5,000,000 token context window
Free Dolly: Introducing the World's First Truly Open Instruction-Tuned LLM
StarCoder: may the source be with you!
Cross-lingual Language Model Pretraining
Language Is Not All You Need: Aligning Perception with Language Models
Tackling multiple tasks with a single visual language model
Large Language Models are Zero-Shot Reasoners
Larger language models do in-context learning differently
GPT Understands, Too
P-Tuning v2: Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and Tasks
プロンプトベースのモデルは、プロンプトの意味を本当に理解していますか？
∞-former: Infinite Memory Transformer
Improving language models by retrieving from trillions of tokens
Augmented Language Models: a Survey
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
Structure and Content-Guided Video Synthesis with Diffusion Models
MusicLM: Generating Music From Text
InstructGPT : Training language models to follow instructions with human feedback
BioGPT: Generative Pre-trained Transformer for Biomedical Text Generation and Mining
Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback
Multimodal Chain-of-Thought Reasoning in Language Models
Constitutional AI: Harmlessness from AI Feedback
Provable Copyright Protection for Generative Models
What learning algorithm is in-context learning? Investigations with linear models
A Path Towards Autonomous Machine Intelligence
PAL: Program-aided Language Models
Toolformer: Language Models Can Teach Themselves to Use Tools
LLaMA: Open and Efficient Foundation Language Models
Improving alignment of dialogue agents via targeted human judgements
Training Compute-Optimal Large Language Models
LLaMA-based ChatGPT training, ChatLLaMA
RLHF: Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback
BaGuaLu: Targeting Brain Scale Pretrained Models with over 37 Million Cores
LLaMA-7B, LLAMA Up-data, LLaMA: INT8 edition, UForm
Flamingo: a Visual Language Model for Few-Shot Learning, Blog
Multimodal Chain-of-Thought Reasoning in Language Models
How to use UForm
How to create KoChatLLaMA
Competition-Level Code Generation with AlphaCode
Scaling Language Models: Methods, Analysis & Insights from Training Gopher
GPU and learning method required for KoChatLlaMA fine-tuning
Advantages and Problems of UForm
GPT-4 is coming next week – and it will be multimodal, says Microsoft Germany
MuAViC: A Multilingual Audio-Visual Corpus for Robust Speech Recognition and Robust Speech-to-Text Translation
Google USM: Scaling Automatic Speech Recognition Beyond 100 Languages
PaLM-E: An Embodied Multimodal Language Model
Tightly-Integrated Generative Encoder-Decoder Representation
Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models
PaLM: Scaling Language Modeling with Pathways
SpikeGPT: Generative Pre-trained Language Model with Spiking Neural Networks
LoRA: Low-Rank Adaptation of Large Language Models
Language Models are Few-Shot Learners
Low-rank Adaptation for Fast Text-to-Image Diffusion Fine-tuning
Improving language models by retrieving from trillions of tokens
FLAN: Finetuned Language Models Are Zero-Shot Learners
T0: Multitask Prompted Training Enables Zero-Shot Task Generalization
The Flan Collection: Designing Data and Methods for Effective Instruction Tuning
The Wisdom of Hindsight Makes Language Models Better Instruction Followers
Exploring the Benefits of Training Expert Language Models over Instruction Tuning
Unsupervised Imputation of Non-ignorably Missing Data Using Importance-Weighted Autoencoders
The Power of Scale for Parameter-Efficient Prompt Tuning
Constitutional AI: Harmlessness from AI Feedback
Deep reinforcement learning from human preferences
Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity
Large Language Models with Controllable Working Memory
プロンプトベースのモデルは、プロンプトの意味を本当に理解していますか？
Muse: Text-To-Image Generation via Masked Generative Transformers
Structure and Content-Guided Video Synthesis with Diffusion Models
Generative Pretraining from Pixels
A hunt for the Snark: Annotator Diversity in Data Practices
Accurate global machine learning force fields for molecules with hundreds of atoms
Algorithms with More Granular Differential Privacy Guarantees
Anomaly Clustering: Grouping Images into Coherent Clusters of Anomaly Types
Are we cobblers without shoes? Making Computer Science data FAIR
Code Generation for In-Place Stencils
Creating, Calibrating, and Validating Large-Scale Microscopic Traffic Simulation
Increasing Impact of Mobile Health Programs: SAHELI for Maternal and Child Care
Designing Responsible AI: Adaptations of UX Practice to Meet Responsible AI Challenges
Developer Productivity for Humans: A Human-Centered Approach to Developer Productivity
Development of a Machine Learning Model for Sonographic Assessment of Gestational Age
Drug Design on Quantum Computers
Estimates of broadband upwelling irradiance from GOES-16 ABI
Information Processing and Management
Flake Aware Culprit Finding
Flexible Budgets in Restless Bandits: A Primal-Dual Algorithm for Efficient Budget Allocation
Helpful Neighbors: Leveraging Neighbors in Geographic Feature Pronunciation
High-Performance GPU-to-CPU Transpilation and Optimization via High-Level Parallel Constructs
Helpful Neighbors: Leveraging Neighbors in Geographic Feature Pronunciation
Infrastructuring Care: How Trans and Non-Binary People Meet Health and Well-Being Needs through Technology
KwikBucks: Correlation Clustering with Cheap-Weak and Expensive-Strong Signals
Learning to Bid in Contextual First Price Auctions
Machine Learning for Healthcare: A Bibliometric Study of Contributions from Africa
Scalable Decision-Focused Learning in Restless Multi-Armed Bandits with Application to Maternal and Child Health
Robust Planning over Restless Groups: Engagement Interventions for a Large-Scale Maternal Telehealth Program
Recitation-Augmented Language Models
RL4ReAl: Reinforcement Learning for Register Allocation
Quantum Simulation of Exact Electron Dynamics can be more Efficient than Classical Mean-Field Methods
Quantum simulation of exact electron dynamics can be more efficient than classical mean-field methods
Propeller: A Profile Guided, Relinking Optimizer for Warehouse-Scale Applications
Deepmind: Improving language models by retrieving from trillions of tokens
Deepmind: Building safer dialogue agents
Deepmind: Competitive programming with AlphaCode
Deepmind: Mastering Stratego, the classic game of imperfect information
Deepmind: DeepMind's latest research at NeurIPS 2022
Deepmind: Building interactive agents in video game worlds
Deepmind: Discovering novel algorithms with AlphaTensor
Deepmind: AlphaFold reveals the structure of the protein universe
Deepmind: Exploring the beauty of pure mathematics in novel ways
Deepmind: Nowcasting the next hour of rain
Deepmind: Putting the power of AlphaFold into the world's hands
Google Research: Deciphering clinical abbreviations with privacy protecting ML
Google Research: Google Research, 2022 & beyond: Language, vision and generative models
Google Research: Google Research, 2022 & beyond: Responsible AI
Google Research: Learning with queried hints
Google Research: Open Source Vizier: Towards reliable and flexible hyperparameter and blackbox optimization
Google Research: Google Research, 2022 & beyond: ML & computer systems
Google Research: Real-time tracking of wildfire boundaries using satellite imagery
Google Research: Breaching the 2 LMP Approximation Barrier for Facility Location with Applications to k-Median
Google Research: Chimane-Mosetén
Google Research: Differentially Private All-Pairs Shortest Path Distances: Improved Algorithms and Lower Bounds
Google Research: Differentially Private Fair Division
Google Research: DiffQG: Generating Questions on Paired Sentences
Google Research: Assessment of Security Defense of Native Programs Against Software Faults
Google Research: Adaptive mixing of auxiliary losses in supervised learning
OpenAI: Multimodal Neurons in Artificial Neural Networks
OpenAI: DALL·E: Creating Images from Text
OpenAI: CLIP: Connecting Text and Images
OpenAI: Image GPT
OpenAI: Jukebox
OpenAI: Solving Rubik's Cube with a Robot Hand
OpenAI: Multimodal Neurons in Artificial Neural Networks
OpenAI: CLIP: Connecting Text and Images
OpenAI: Image GPT
OpenAI: MuseNet
OpenAI: Emergent Tool Use from Multi-Agent Interaction

before 2023

[2013/01] Efficient Estimation of Word Representations in Vector Space
[2014/12] Dependency-Based Word Embeddings
[2015/07] Neural Machine Translation of Rare Words with Subword Units
[2014/07] GloVe: Global Vectors for Word Representation : GloVe
[2016/06] Siamese CBOW: Optimizing Word Embeddings for Sentence Representations : Siamese CBOW
[2016/07] Enriching Word Vectors with Subword Information : fastText
[2014/09] Sequence to Sequence Learningwith Neural Networks : seq2seq
[2017/07] Attention Is All You Need : Transformer
[2017/08] Learned in Translation: Contextualized Word Vectors : CoVe
[2018/01] Universal Language Model Fine-tuning for Text Classification : ULMFIT
[2018/02] Deep contextualized word representations : ELMo
[2018/06] Improving Language Understanding by Generative Pre-Training : GPT-1
[2018/10] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding : BERT
[2019/02] Language Models are Unsupervised Multitask Learners : GPT-2
[2019/04] Language Models with Transformers
[2019/08] Neural Text Generation with Unlikelihood Training
[2019/01] Cross-lingual Language Model Pretraining XLM
[2019/01] Multi-Task Deep Neural Networks for Natural Language Understanding : MT-DNN
[2019/01] Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context : Transformer-XL
[2019/06] XLNet: Generalized Autoregressive Pretraining for Language Understanding : XLNet
[2019/04] The Curious Case of Neural Text Degeneration
[2019/09] Fine-Tuning Language Models from Human Preferences
[2019/01] BioBERT: a pre-trained biomedical language representation model for biomedical text mining : BioBERT
[2019/03] SciBERT: A Pretrained Language Model for Scientific Text : SciBERT
[2019/04] ClinicalBERT: Modeling Clinical Notes and Predicting Hospital Readmission : ClinicalBERT
[2019/06] HIBERT: Document Level Pre-training of Hierarchical Bidirectional Transformers for Document Summarization : HIBERT
[2019/07] SpanBERT: Improving Pre-training by Representing and Predicting Spans : SpanBERT
[2019/04] Publicly Available Clinical BERT Embeddings
[2019/08] Pre-Training with Whole Word Masking for Chinese BERT
[2019/07] Is BERT Really Robust? A Strong Baseline for Natural Language Attack on Text Classification and Entailment
[2019/07] R-Transformer: Recurrent Neural Network Enhanced Transformer : R-Transformer
[2019/09] FREELB: ENHANCED ADVERSARIAL TRAINING FOR LANGUAGE UNDERSTANDING : FREELB
[2019/09] Mixup Inference: Better Exploiting Mixup to Defend Adversarial Attacks
[2019/10] Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer : T5
[2018/07] Subword-level Word Vector Representations for Korean
[2019/08] Zero-shot Word Sense Disambiguation using Sense Definition Embeddings
[2019/06] Bridging the Gap between Training and Inference for Neural Machine Translation
[2019/06] Emotion-Cause Pair Extraction: A New Task to Emotion Analysis in Texts
[2019/07] A Simple Theoretical Model of Importance for Summarization
[2019/05] Transferable Multi-Domain State Generator for Task-Oriented Dialogue Systems
[2019/07] We need to talk about standard splits
[2019/07] ERNIE 2.0: A Continual Pre-training Framework for Language Understanding : ERNIE 2.0
[2019/05] SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems : SuperGLUE
[2020/01] Towards a Human-like Open-Domain Chatbot + Google AI Blog
[2020/03] ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators : ELECTRA
[2019/04] Mask-Predict: Parallel Decoding of Conditional Masked Language Models : Mask-Predict
[2020/01] Reformer: The Efficient Transformer : Reformer
[2020/04] Longformer: The Long-Document Transformer : Longformer
[2019/11] DialoGPT: Large-Scale Generative Pre-training for Conversational Response Generation : DialoGPT
[2020/01] Towards a Human-like Open-Domain Chatbot
[2020/04] You Impress Me: Dialogue Generation via Mutual Persona Perception
[2020/04] Recipes for building an open-domain chatbot
[2020/04] ToD-BERT: Pre-trained Natural Language Understanding for Task-Oriented Dialogues : ToD-BERT
[2020/04] SOLOIST: Few-shot Task-Oriented Dialog with A Single Pre-trained Auto-regressive Model : SOLOIST
[2020/05] A Simple Language Model for Task-Oriented Dialogue
[2019/07] ReCoSa: Detecting the Relevant Contexts with Self-Attention for Multi-turn Dialogue Generation : ReCoSa
[2020/04] FastBERT: a Self-distilling BERT with Adaptive Inference Time : FastBERT
[2020/01] PoWER-BERT: Accelerating BERT inference for Classification Tasks : PoWER-BERT
[2019/10] DistillBERT, a distilled version of BERT: smaller, faster, cheaper and lighter : DistillBERT
[2019/10] TinyBERT: Distilling BERT for Natural Language Understanding : TinyBERT
[2019/11] Not Enough Data? Deep Learning to the Rescue!
[2018/12] Conditional BERT Contextual Augmentation
[2020/03] Data Augmentation using Pre-trained Transformer Models
[2020/04] FLAT: Chinese NER Using Flat-Lattice Transformer : FLAT
[2019/12] Big Transfer (BiT): General Visual Representation Learning : BiT
[2019/04] ERNIE: Enhanced Representation through Knowledge Integration : ERNIE
[2019/07] ERNIE 2.0: A Continual Pre-training Framework for Language Understanding : ERNIE 2.0
[2020/06] ERNIE-ViL: Knowledge Enhanced Vision-Language Representations Through Scene Graph : ERNIE-ViL
[2020/12] ERNIE-Doc: A Retrospective Long-Document Modeling Transformer : ERNIE-Doc
[2021/07] ERNIE 3.0: Large-scale Knowledge Enhanced Pre-training for Language Understanding and Generation : ERNIE 3.0
[2022/10] Beyond English-Centric Bitexts for Better Multilingual Language Representation Learning
[2017/03] Distilling Task-Specific Knowledge from BERT into Simple Neural Networks
[2020/10] DiPair: Fast and Accurate Distillation for Trillion-Scale Text Matching and Pair Modeling : DiPair
[2021/08] Distilling Transformers for Neural Cross-Domain Search
[2020/06] DeBERTa: Decoding-enhanced BERT with Disentangled Attention : DeBERTa
[2020/11] VEGA: Towards an End-to-End Configurable AutoML Pipeline : VEGA
[2020/12] FILTER: An Enhanced Fusion Method for Cross-lingual Language Understanding : FILTER
[2019/12] StructBERT: Incorporating Language Structures into Pre-training for Deep Language Understanding : StructBERT
[2019/04] Improving Multi-Task Deep Neural Networks via Knowledge Distillation for Natural Language Understanding : MT-DNN
[2021/05] Comparing Kullback-Leibler Divergence and Mean Squared Error Loss in Knowledge Distillation

중지

MLLMArxivTalk

최신 MLLM 관련 스터디. 기본 오후에 진행. 논문, 강의, 코드, 뉴스, 블로그 등 다양한 자료로 학습.

MLLM, LLM, NLG, Dialogue, Reinforcement learning, Distillation, Efficient, Sentence similarity, multiple tasks, multimodal, Stable diffusion, TTS, Text-To-Video, All-To-All, 우주, 생명, 지능, 윤리, 규제, 법, 노화, 의학, 투자, 개발, 인프라, 디자인, 경영, ETC...

유망 스타트업 C레벨, 국내외 탑티어 연구자, 국내외 탑티어 대학, 대학원 재학생과 졸업생, 석학, 교수 등 A급 인재들이 최신 논문, 강의 등 스터디 및 프로젝트 진행.

기본 매주 수요일 오후 7시반. 사전 학습 없이 논문 읽기 최대 20분, 토론 최대 40분. 한 번에 1 ~ 10개 논문, 강의 등 진행. 지금까지는 항상 3개. 주제 논문 선정은 자유. 탑티어 학회 논문 및 프로젝트 제작 예정.

주말을 포함하여, 거의 매일 추가 스터디 존재. 흥미로운 주제거나 참여 되는 날만 중간에 들어와서 중간에 나가도 무관. 모든 규칙은 협의 가능. 오프라인 모임도 예정. 자율 참여.

스터디 규칙

영어만 사용은 금지. 한국어 중심 사용. 특수 용어는 영어 사용.
1주일에 논문 2개 이상 스터디. 되는 사람은 10개 이상.
3분에서 20분 현장에서 논문 읽기. 5분에서 30분 토론.
1시간 스터디 시, 바로 나가도 됨. 원할 때 10분 이하 참여도 무관. 자유롭게 진행. 2시간 매일도 가능.
각자 더 뛰어난 게 있다는 것을 인지. 다들 대단한 분들이니 질문 많이 하고, 정보 공유 자주.
본인이 하기로 한 일만은 수행. 한다고 말하고, 안 하는 것은 민폐다.
기본적으로 녹화 후 내부 공유.
정보를 혼자 알게 쓰지 말고, 다 같이 알게 말하기.
개인 사정으로 스터디 탈퇴 시, 자기소개에 인사 작성.
여러 기관 좋은 규칙 붙여넣기.
팀에 도움이 된다고 판단하면, 위 규칙을 모두 무시하고 행동.
추가.

Basic knowledge

数学	機械学習	トランス	顔を抱き締める

mathematics for machine learning	Pattern Recognition and Machine Learning	Getting Started with Google BERT	Natural Language Processing with Transformers