?Coala:素晴らしい言語エージェント

言語エージェントの認知アーキテクチャ(コアラ)フレームワークを使用した言語エージェントの編集。
- Coala Paper(16ページのメインコンテンツ):https://arxiv.org/abs/2309.02427
- Coala Tweet(6スレッド):https://twitter.com/shunyuyao12/status/1699396834983362690
- Coala Bibtexファイルは300以上関連する引用を備えています:Coala.Bib
- Coala bibtexの引用作業/リソースが便利だと思う場合:
@misc { sumers2023cognitive ,
title = { Cognitive Architectures for Language Agents } ,
author = { Theodore Sumers and Shunyu Yao and Karthik Narasimhan and Thomas L. Griffiths } ,
year = { 2023 } ,
eprint = { 2309.02427 } ,
archivePrefix = { arXiv } ,
primaryClass = { cs.AI }
}コアラの概要
Coalaは、2つの部分を持つアクションスペースから始まる言語エージェントをきちんと指定します。
- 外部環境と対話するための外部アクション(接地)
- 内部のアクション内部記憶と対話する(推論、検索、学習)
- 言語エージェントには、短期的な作業記憶といくつかの(オプションの)長期記憶(経験のためのエピソード、知識の意味、コード/LLMの手続き)があります)
- 推論=ワーキングメモリを更新する(LLMを使用)
- 取得=長期メモリを読み取ります
- 学習=長期記憶を書きます

次に、言語エージェントはどのようなアクションを選択するかをどのように選択しますか?そのアクションは意思決定サイクルに構成されており、各サイクルには2つの段階があります。
- 計画:エージェントは、推論/検索アクションを(繰り返し)提案および評価に適用し、学習/接地アクションを選択します。
- 実行:選択された学習/接地アクションは、内部記憶または外部の世界に影響を与えるために実行されます。

詳細を理解するには、論文のセクション4を読んでください。
論文
以下は、Coala.Bib Plusプルリクエストから削られた論文のサブセットのみです。日付はARXIV V1に基づいています。それらはすべての言語エージェントワークを表しているわけではなく、すぐに作業を追加することを計画しており(リクエストを歓迎します)、高度に引用された作業のラベルを持っています。
- (2021-10)AIチェーン:大規模な言語モデルプロンプトをチェーンすることによる透明で制御可能な人間との相互作用(推論)
- (2021-10)SILG:マルチ環境シンボリックインタラクティブな言語接地ベンチマーク(環境)
- (2022-01)ゼロショットプランナーとしての言語モデル:具体化されたエージェントのための実用的な知識を抽出する(接地)
- (2022-03)PromptChainer:視覚的なプログラミングを通じて大きな言語モデルプロンプト(接地)をチェーンする
- (2022-03)ScienceWorld:あなたのエージェントは5年生より賢いですか? (環境)
- (2022-04)私が言うように、できる限りのことをする:ロボットアフォーダンスの基礎言語(接地)
- (2022-04)ソクラテスモデル:言語を使用したゼロショットマルチモーダル推論の構成(接地)
- (2022-07)WebShop:接地言語エージェントとのスケーラブルな実世界のWebインタラクション(環境)に向けて
- (2022-09)Progprompt:大規模な言語モデルを使用した状況に登録されたロボットタスク計画の生成(接地)
- (2022-10)分解されたプロンプト:複雑なタスクを解決するためのモジュラーアプローチ(推論)
- (2022-10)心の目:シミュレーションによる基礎言語モデルの推論(接地)
- (2022-10)反応:言語モデルでの推論と行動を相乗化する(接地、推論)
- (2022-11)大規模な言語モデルは人間レベルのプロンプトエンジニアです(推論)
- (2022-12)LLM-Planner:大規模な言語モデルを持つ具体化されたエージェントの少数の根拠のある計画(接地)
- (2022-12)生成しない、差別:言語モデルを現実世界環境に接地する提案(接地)
- (2023-02)後知恵のチェーンは言語モデルをフィードバックに合わせます(学習)
- (2023-02)説明、説明、計画、および選択:大規模な言語モデルを使用したインタラクティブな計画により、オープンワールドマルチタスクエージェント(接地、推論)が可能になります
- (2023-02)ツールフォーマー:言語モデルはツールを使用するように自分自身を教えることができます(接地)
- (2023-03)意思決定のための基礎モデル:問題、方法、および機会(調査)
- (2023-03)Hugginggpt:hugging face(接地)でchatgptとその友人とのAIタスクを解決する
- (2023-03)Palm-E:具体化されたマルチモーダル言語モデル(接地)
- (2023-03)反射:口頭での強化学習を伴う言語エージェント(接地、推論、学習)
- (2023-03)自己復活:セルフフィードバックによる反復洗練(推論)
- (2023-03)大規模な言語モデルを使用した自己計画コード生成(推論)
- (2023-04)生成エージェント:人間の行動のインタラクティブなシミュレーション(接地、推論、検索、学習)
- (2023-04)大規模な言語モデルの緊急自律科学研究能力(接地、推論)
- (2023-04)LLM+P:最適な計画能力を持つ大規模な言語モデルの力を強化する(接地、推論)
- (2023-04)精製所:中間表現に関する推論フィードバック(推論)
- (2023-04)大規模な言語モデルを自己debugに教える(推論)
- (2023-04)Genegpt:生物医学情報へのアクセスを改善するためのドメインツールを使用して大規模な言語モデルを増強する(接地、推論)
- (2023-05)批評家:大規模な言語モデルは、ツールインタラクティブ批評(接地、推論、検索)で自己修正できます
- (2023-05)大きな言語モデルでオートテリックエージェントを増強する(接地、推論、検索、学習)
- (2023-05)チャットコット:チャットベースの大手言語モデル(接地、推論)に関するツール編成の考え方の推論
- (2023-05)Toolkengpt:ツール埋め込みを介した大規模なツールで凍結言語モデルを増強する(接地、推論)
- (2023-05)分解は、自己評価ガイドデコード(推論)を介して推論を強化する
- (2023-05)マルチエージェントの議論を通じて、大規模な言語モデルでの発散的思考を奨励する(基礎、推論)
- (2023-05)マルチエージェントの議論を通じて言語モデルの事実と推論を改善する(基礎、推論)
- (2023-05)Adaplanner:言語モデルを使用したフィードバックからの適応計画(接地、検索、学習)
- (2023-05)計画と解決のプロンプト:大規模な言語モデルによるゼロショットチェーンの推論の改善(推論)
- (2023-05)Rewoo:効率的な拡張言語モデルの観察からの推論の分離(接地、推論)
- (2023-05)Swiftsage:複雑なインタラクティブタスクの高速でゆっくりと思考を持つ生成エージェント(接地、推論)
- (2023-05)思考の木:大規模な言語モデルを使用した意図的な問題解決(推論)
- (2023-05)Voyager:大規模な言語モデルを備えたオープンエンドの具体化されたエージェント(接地、推論、検索、学習)
- (2023-06)インターコード:実行フィードバックを使用したインタラクティブコーディングの標準化とベンチマーク(接地、推論)
- (2023-06)Toolqa:外部ツールを使用したLLM質問のデータセット(接地)
- (2023-06)Mind2Web:Web(環境)のジェネラリストエージェントに向けて
- (2023-06)RESTGPT:大規模な言語モデルと実際のRESTFULAPIS(接地、推論)を接続する
- (2023-06)ToolalPaca:3000のシミュレートされたケースを持つ言語モデルの一般化されたツール学習(接地、推論)
- (2023-07)計画、長いコンテキストの理解、プログラムの統合を備えた現実世界のウェブゲント(接地、推論)
- (2023-07)RT-2:Vision-Language-actionモデルWeb知識をロボットコントロールに転送する(接地)
- (2023-07)ROCO:大規模な言語モデルとの弁証法的なマルチロボットコラボレーション(接地)
- (2023-07)助けを求めるロボット:大規模な言語モデルプランナーの不確実性の調整(接地)
- (2023-07)s $^3 $:大規模な言語モデルのエージェントを持つソーシャルネットワークシミュレーションシステム(接地、推論)
- (2023-07)toolllm:16000以上の現実世界のAPIを習得するための大規模な言語モデルを促進する(接地、推論、検索)
- (2023-07)メンタルウェルビーイングサポートのために大規模な言語モデルベースの会話エージェントを使用することの利点と課題を理解する(接地)
- (2023-07)大規模な言語モデルの認知的相乗効果を解き放つ:マルチパーソナセルフコラボレーション(接地、推論)を介したタスク解決エージェント
- (2023-07)Webarena:自律エージェントを構築するための現実的なWeb環境(環境)
- (2023-08)エージェントベンチ:LLMをエージェントとして評価する(環境)
- (2023-08)エージェントバース:マルチエージェントのコラボレーションを促進し、エージェント(環境)における緊急行動の探求
- (2023-08)Autogen:Multi-Agent Conversation Framework(接地、推論)を介して次世代LLMアプリケーションを有効にする
- (2023-08)CGMI:構成可能な一般的なマルチエージェント相互作用フレームワーク(接地、推論)
- (2023-08)Chateval:Multi-Agent Debate(基礎、推論)を通じてより良いLLMベースの評価者に向けて
- (2023-08)大規模な言語モデルを使用した累積推論(推論)
- (2023-08)Expel:LLMエージェントは体験学習者です(接地、推論、検索、学習)
- (2023-08)GPT-in-the -Loop:マルチエージェントシステムの適応意思決定(接地、推論)
- (2023-08)Gentopia:ツールを得たLLMS(環境)のための共同プラットフォーム
- (2023-08)Metagpt:Multi-Agent Collaborative Frameworkのメタプログラミング(接地、推論)
- (2023-08)Proagent:大規模な言語モデルを備えた積極的な協同的AIの構築(接地、推論)
- (2023-08)レトロフォーマー:ポリシーグラデーションの最適化(接地、推論、学習)を備えたレトロスペクティブな大手言語エージェント
- (2023-08)Sapien:大規模な言語モデルを搭載した感情的な仮想エージェント(接地、推論)
- (2023-08)堅牢なAIのための大規模な言語モデルと認知アーキテクチャの相乗的統合:探索的分析(接地、推論、検索、学習)
- (2023-09)Tora:数学的問題解決のためのツール統合推論エージェント(接地、推論、学習)
- (2023-09)LM排出サンドボックス(環境)でLMエージェントのリスクを特定する
- (2023-09)疑いのあるエージェント:心の理論で不完全な情報ゲームをするGPT-4(接地、推論)
- (2024-01)自制心:一貫性のない解決視点によるより良い反省(推論、反省)
- (2024-02)エージェント-Pro:ポリシーレベルの反射と最適化(推論、反省、学習)を介して進化することを学ぶ
- (2024-03)LLM3:モーション障害推論を伴う大規模な言語モデルベースのタスクとモーション計画。 (計画、推論)
- (2024-04)AIエージェントとの生物医学的発見の力を強化する(AI科学者、生物医学研究)
- (2024-05)タイムカラ:ロールプレイの大規模な言語モデルのポイントインタイムキャラクターの幻覚(推論、検索)の評価
(すぐに追加されるべきです。リクエストを歓迎します。)
リソース
- LLM駆動型の自律エージェント(lil'log)
- LLM-Agents-Papers
- llmagentpapers
- Awesome-llm電源のエージェント
(すぐに追加されるべきです。リクエストを歓迎します。)