基於大語模型的代理人的興起和潛力:調查
基於LLM的代理商必讀論文。
?即將推出:在每篇論文中添加一句介紹。
?消息
- ☄️[2024/06/07] AgentGym已發布用於在不同環境中開發和發展基於LLM的代理!
- 紙:特工。
- 項目頁面:https://agentgym.github.io/。
- 代碼:平台和實現。
- 擁抱面資源:AgentTraj-L,Agenteval,Agentevol-7B。
- ? [2024/05/02] R3(通過反向課程增強學習來推理的大型語言模型)被ICML 2024接受!
- ? [2024/02/08] LLM代理推理的RL上的新紙R3已發布!論文:培訓大型語言模型通過反向課程增強學習來推理。代碼:LLM - 逆轉錄線-RL。
- ? [2023/09/20]該項目已在Github趨勢上列出!這是一個很棒的榮譽!
- ? [2023/09/15]我們的調查已發布!請參閱基於大語言模型的代理人的興起和潛力:論文的調查!
- [2023/09/14]我們創建此存儲庫來維護基於LLM的代理的紙質列表。更多論文即將推出!
?介紹
長期以來,人類一直在追求人工智能(AI)等效或超過人類水平,而AI代理被認為是這種追求的有前途的工具。人工智能代理是人為的實體,可以感知其環境,做出決定並採取行動。
由於他們證明的多功能和非凡的功能,大型語言模型(LLM)被視為人工通用智能(AGI)的潛在火花,為建立通用AI代理提供了希望。許多研究工作已利用LLM作為建立AI代理商並取得重大進展的基礎。
在此存儲庫中,我們對基於LLM的代理提供了系統的全面調查,並列出了一些必讀的論文。
具體來說,我們從基於LLM的代理的一般概念框架開始:包括三個主要組成部分:大腦,感知和動作,並且可以量身定制框架以適合不同的應用程序。隨後,我們探討了基於LLM的代理在三個方面的廣泛應用:單代理場景,多代理情景和人類代理合作。此後,我們深入研究了代理社會,探索基於LLM的代理商的行為和個性,成立社會時出現的社會現像以及他們為人類社會提供的見解。最後,我們討論了該領域內的一系列關鍵主題和開放問題。
我們非常感謝通過PR,問題,電子郵件或其他方法的任何貢獻。
內容表(TOC)
- 基於大語模型的代理人的興起和潛力:調查
- ?消息
- ?介紹
- 內容表(TOC)
- 1。代理人的誕生:基於LLM的代理商的構建
- 1.1大腦:主要由LLM組成
- 1.1.1自然語言互動
- 1.1.2知識
- 預處理模型
- 語言知識
- 常識知識
- 可行的知識
- 知識的潛在問題
- 1.1.3內存
- 內存能力
- 提高變壓器的長度極限
- 總結記憶
- 用向量或數據結構壓縮記憶
- 內存檢索
- 1.1.4推理與計劃
- 1.1.5可傳遞性和概括性
- 1.2感知:基於LLM的代理的多模式輸入
- 1.3動作:擴大基於LLM的代理的動作空間
- 2。代理在實踐中:基於LLM的代理的應用
- 2.1單位代理的一般能力
- 2.1.1面向任務的部署
- 2.1.2面向創新的部署
- 2.1.3面向生命週期的部署
- 2.2多種代理的協調潛力
- 2.2.1互補性的合作互動
- 2.2.2促進的對抗互動
- 2.3人與代理商之間的互動互動
- 3.代理社會:從個性到社會性
- 3.1基於LLM的代理商的行為和個性
- 3.2代理社會環境
- 3.2.1基於文本的環境
- 3.2.2虛擬沙箱環境
- 3.2.3物理環境
- 3.3基於LLM的代理商的社會模擬
- 4。其他主題
- 4.1基於LLM的代理的基準
- 4.2培訓和優化基於LLM的代理
- 引用
- 項目維護人員和貢獻者
- 接觸
- 星曆史
1。代理人的誕生:基於LLM的代理商的構建
1.1大腦:主要由LLM組成
1.1.1自然語言互動
高質量的一代
- [2023/10]通過多模式大語言模型朝向端到端的體現決策:具有GPT4-Vision和Liang Chen等人的探索。 arxiv。 [紙] [代碼]
- 這項工作提出了PCA-eval,它通過基於MLLM的端到端方法和基於LLM的工具 - 使用感知,認知和動作水平基於基於LLM的工具來實現決策。
- [2023/08]關於推理,幻覺和互動性Chatgpt的多語言,多語言,多模式評估。 Yejin Bang等。 arxiv。 [紙]
- 這項工作使用涵蓋8個不同常見的NLP應用程序任務的21個數據集評估了ChatGPT的多語言,多語言和多模式方面。
- [2023/06] LLM-eval:與大語言模型的開放域對話進行統一的多維自動評估。 Yen-Ting Lin等。 arxiv。 [紙]
- LLM-Eval方法評估了評估的多個維度,例如內容,語法,相關性和適當性。
- [2023/04] chatgpt是高度流利的語法誤差校正系統嗎?全面評估。 Tao Fang等。 arxiv。 [紙]
- 評估結果表明,ChatGpt具有出色的錯誤檢測功能,並且可以自由糾正錯誤以使校正的句子非常流利。此外,它在非英國和低資源設置中的性能突出了其在多語言GEC任務中的潛力。
深刻的理解
- [2023/06]聰明的漢斯還是神經心理理論?在大型語言模型中進行社會推理的壓力測試。 Natalie Shapira等。 arxiv。 [紙]
- LLM表現出某些心理能力理論,但是這種行為遠非強大。
- [2022/08]在上下文中從語言中推斷出獎勵。傑西·林等人。 ACL。 [紙]
- 這項工作提出了一種模型,該模型會侵入語言中的獎勵,並預測在看不見的環境中的最佳行動。
- [2021/10]基於心理的輔助溝通理論在復雜的人類機器人合作中。 Moritz C. Buehler等。 arxiv。 [紙]
- 這項工作設計了一種代理壽司,並在互動過程中了解人類。
1.1.2知識
預處理模型
- [2023/04]從未標記的數據中學習句子的分佈式表示。菲利克斯·希爾(劍橋大學)等。 arxiv。 [紙]
- [2020/02]您可以將多少知識包裝到語言模型的參數中?亞當·羅伯茨(Google)等人。 arxiv。 [紙]
- [2020/01]神經語言模型的縮放定律。 Jared Kaplan(Johns Hopkins University)等。 arxiv。 [紙]
- [2017/12]機器智能中的常識知識。 Niket Tandon(艾倫人工智能研究所)等。 Sigmod。 [紙]
- [2011/03]自然語言處理(幾乎)從頭開始。羅南·科洛伯特(普林斯頓)等。 arxiv。 [紙]
語言知識
- [2023/02]關於推理,幻覺和互動性的多種語言,多語言,多模式評估。 Yejin Bang等。 arxiv。 [紙]
- [2021/06]為語義屬性及其值探測預訓練的語言模型。 Meriem Beloucif等。 emnlp。 [紙]
- [2020/10]探測詞彙語義的驗證語言模型。伊万·瓦利奇等。 arxiv。 [紙]
- [2019/04]在單詞表示中查找語法的結構探測器。 John Hewitt等。 ACL。 [紙]
- [2016/04]鑑於更多的語義知識,改進了自動關鍵字提取。 H梁。高級應用程序的系統。 [紙]
常識知識
- [2022/10]代碼的語言模型是幾乎沒有常識的學習者。 Aman Madaan等人。 [紙]
- [2021/04]上下文語言模型中的關係世界知識表示:評論。 Tara Safavi等。 arxiv。 [紙]
- [2019/11]我們怎麼知道哪些語言模型知道? Zhengbao Jiang等人。 [紙]
可行的知識
- [2023/07]醫學中的大型語言模型。 Arun James Thirunavukarasu等。自然。 [紙]
- [2023/06] DS-1000:數據科學代碼生成的自然和可靠的基準。 Yuhang Lai等。 ICML。 [紙]
- [2022/10]代碼的語言模型是幾乎沒有常識的學習者。 Aman Madaan等。 arxiv。 [紙]
- [2022/02]對大型代碼模型的系統評估。 Frank F. Xu等。 [紙]
- [2021/10]培訓驗證者以解決數學單詞問題。 Karl Cobbe等。 arxiv。 [紙]
知識的潛在問題
- [2023/10] Freshllms:使用搜索引擎增強的大型語言模型。 Tu Vu(Google)等。 Arxiv [Paper] [代碼]
- [2023/05]編輯大語言模型:問題,方法和機會。 Yunzhi Yao等。 arxiv。 [紙]
- [2023/05]自我檢查:使用大型語言模型進行事實檢查的插件和播放模塊。 Miaoran Li等。 arxiv。 [紙]
- [2023/05]評論家:大語言模型可以通過工具交互式批評自我糾正。 Zhibin Gou等。 arxiv。 [紙]
- [2023/04]使用基礎模型的工具學習。 Yujia Qin等。 arxiv。 [紙]
- [2023/03] selfcheckgpt:用於生成大語言模型的零儲蓄黑盒幻覺檢測。 Potsawee Manakul等。 arxiv。 [紙]
- [2022/06]基於內存的模型編輯。埃里克·米切爾(Eric Mitchell)等。 arxiv。 [紙]
- [2022/04]對語言模型作為知識基礎的綜述。 Badr Alkhamissi等人。 [紙]
- [2021/04]在語言模型中編輯事實知識。 Nicola de Cao等。 [紙]
- [2017/08]測量神經網絡中的災難性遺忘。 Ronald Kemker等人。 [紙]
1.1.3內存
內存能力
提高變壓器的長度極限
- [2023/10]模因:作為操作系統的LLMS。查爾斯·帕克(UC Berkeley)等。 arxiv。 [PAPER] [項目頁面] [代碼] [數據集]
- [2023/05]隨機位置編碼增強變壓器的長度泛化。 Anian Ruoss(DeepMind)等。 arxiv。 [紙] [代碼]
- [2023-03] COLT5:具有條件計算的更快的遠程變壓器。 Joshua Ainslie(Google Research)等。 arxiv。 [紙]
- [2022/03]使用變壓器對長文檔進行有效分類。 Hyunji Hayley Park(伊利諾伊大學)等。 arxiv。 [紙] [代碼]
- [2021/12] Longt5:長序列的有效文本到文本變壓器。 Mandy Guo(Google Research)等。 arxiv。 [紙] [代碼]
- [2019/10] BART:自然語言生成,翻譯和理解的序列序列訓練的序列預訓練。邁克爾·劉易斯(Facebook AI)等。 arxiv。 [紙] [代碼]
總結記憶
- [2023/10]沿著記憶迷宮走:通過互動閱讀霍華德·陳(Princeton University)等人,超越上下文限制了。 arxiv。 [紙]
- [2023/09]通過鏈接大語模型Yulin Chen(Tsinghua University)等人來授權私人輔導。 arxiv。 [紙]
- [2023/08]驅除:LLM代理是經驗學習者。安德魯·趙(Tsinghua University)等。 arxiv。 [紙] [代碼]
- [2023/08] Chateval:通過多代理辯論邁向更好的基於LLM的評估者。 Chi-Min Chan(Tsinghua University)等。 arxiv。 [紙] [代碼]
- [2023/05] MemoryBank:增強具有長期記憶的大型語言模型。 Wanjun Zhong(Harbin理工學院)等。 arxiv。 [紙] [代碼]
- [2023/04]生成劑:人類行為的交互式模擬。 Joon Sung Park(Stanford University)等。 arxiv。 [紙] [代碼]
- [2023/04]具有自控內存系統的大規模語言模型的無限長度輸入能力。新尼亞·梁(Beihang University)等。 arxiv。 [紙] [代碼]
- [2023/03]反射:具有口頭增強學習的語言代理。諾亞·辛恩(Noah Shinn)(東北大學)等。 arxiv。 [紙] [代碼]
- [2023/05] recurrentGpt:(任意)長文本的交互式生成。 Wangchunshu Zhou(aiwaves)等。 arxiv。 [紙] [代碼]
用向量或數據結構壓縮記憶
- [2023/07]軟件開發的交流代理。 Chen Qian(Tsinghua University)等。 arxiv。 [紙] [代碼]
- [2023/06] CHATDB:以數據庫作為其像徵性內存增強LLMS。 Chenxu Hu(Tsinghua University)等。 arxiv。 [紙] [代碼]
- [2023/05] Minecraft中的Ghost:通過具有基於文本的知識和記憶的大語言模型,開放世界環境的通常有能力的代理。 Xizhou Zhu(Tsinghua University)等。 arxiv。 [紙] [代碼]
- [2023/05] ret-llm:邁向大型語言模型的一般閱讀文字記憶。 Ali Modarressi(LMU Munich)等。 arxiv。 [紙] [代碼]
- [2023/05] recurrentGpt:(任意)長文本的交互式生成。 Wangchunshu Zhou(aiwaves)等。 arxiv。 [紙] [代碼]
內存檢索
- [2023/08]內存沙盒:對話代理的透明和交互式內存管理。 Ziheng Huang(加利福尼亞大學-San Diego)等。 arxiv。 [紙]
- [2023/08]代理:用於大語言模型評估的開源沙箱。 Jiju Lin(PTA Studio)等。 arxiv。 [紙] [項目頁] [代碼]
- [2023/06] CHATDB:以數據庫作為其像徵性內存增強LLMS。 Chenxu Hu(Tsinghua University)等。 arxiv。 [紙] [代碼]
- [2023/05] MemoryBank:增強具有長期記憶的大型語言模型。 Wanjun Zhong(Harbin理工學院)等。 arxiv。 [紙] [代碼]
- [2023/04]生成劑:人類行為的交互式模擬。 Joon Sung Park(Stanford)等。 arxiv。 [紙] [代碼]
- [2023/05] recurrentGpt:(任意)長文本的交互式生成。 Wangchunshu Zhou(aiwaves)等。 arxiv。 [紙] [代碼]
1.1.4推理與計劃
推理
[2024/02]培訓大型語言模型通過反向課程增強學習來推理。 Zhiheng XI(Fudan University)等。 arxiv。 [紙] [代碼]
[2023/09]和解:圓桌會議通過不同的LLMS之間的共識提高了推理。 Justin Chih-Yao Chen(北卡羅來納大學教堂山分校)等。 arxiv。 [紙] [代碼]
[2023/05]自我 - 自我 - 通過問題的改進來增強大語言模型的推理。 Zhiheng XI(Fudan University)等。 arxiv。 [紙] [代碼]
[2023-03]大語言模型是零擊的推理器。 Takeshi Kojima(東京大學)等。 arxiv。 [紙] [代碼]
[2023/03]自我refine:自我反饋的迭代精緻。 Aman Madaan(Carnegie Mellon University)等。 arxiv。 [紙] [代碼]
[2022/05]選擇 - 鍵入:利用大型語言模型來解釋邏輯推理。 Antonia Creswell(DeepMind)等。 arxiv。 [紙]
[2022/03]自穩定性改善了語言模型中的思想推理鏈。 Xuezhi Wang(Google Research)等。 arxiv。 [紙] [代碼]
[2023/02]語言模型中的多模式鏈的推理。 Zhuosheng Zhang(上海Jiao Tong University)等。 arxiv。 [紙] [代碼]
[2022/01]經過思考的鏈條提示在大語言模型中引起推理。 Jason Wei(Google Research)等。 arxiv。 [紙]
規劃
計劃公式
- [2023/11] JARVIS-1:帶有內存的多模式模型的開放世界多任務代理。 Zihao Wang(北京大學)等。 arxiv。 [紙] [代碼]
- [2023/10]語言代理樹搜索統一了語言模型中的推理和計劃。安迪週(伊利諾伊大學Urbana-Champaign)等。 arxiv。 [紙] [項目頁] [代碼]
- [2023/05]思想樹:大型語言模型的故意解決問題。 Shunyu Yao(普林斯頓大學)等。 arxiv。 [紙] [代碼]
- [2023/05]計劃,消除和軌道 - 語言模型是體現代理的好老師。 Yue Wu(Carnegie Mellon University)等。 arxiv。 [紙]
- [2023/05]語言模型的推理是通過世界模型計劃的。 Shibo Hao(加州大學聖地亞哥加州大學)等。 arxiv。 [紙] [代碼]
- [2023/05] Swiftsage:一種生成代理,對複雜的交互式任務具有快速和緩慢的思考。 Bill Yuchen Lin(艾倫人工智能研究所)等。 arxiv。 [紙] [代碼]
- [2023/04] LLM+P:具有最佳計劃能力的大型語言模型。 Bo Liu(德克薩斯大學奧斯汀分校)等。 arxiv。 [紙] [代碼]
- [2023/03] Hugginggpt:與Chatgpt及其朋友在擁抱的臉上解決AI任務。 Yongliang Shen(Microsoft Research Asia)等。 arxiv。 [紙] [代碼]
- [2023/02]描述,解釋,計劃和選擇:與大語言模型的互動計劃可實現開放世界的多任務代理。 Zihao Wang(北京大學)等。 arxiv。 [紙] [代碼]
- [2022/05]最小至最高的提示可以在大型語言模型中實現複雜的推理。 Denny Zhou(Google Research)等。 arxiv。 [紙]
- [2022/05] MRKL系統:一種模塊化的神經符號結構,結合了大型語言模型,外部知識源和離散推理。 Ehud Karpas(AI21 Labs)等。 arxiv。 [紙]
- [2022/04]盡我所能,而不是我所說:機器人負擔中的基礎語言。 Michael Ahn(Google的機器人技術)等。 arxiv。 [紙]
- [2023/05]代理:自動語言代理的開源框架。 Wangchunshu Zhou(aiwaves)等。 arxiv。 [紙] [代碼]
- [2022/12]不要生成,歧視:將語言模型接地到現實世界環境的建議。 Yu Gu(俄亥俄州立大學)等。 ACL。 [紙] [代碼]
計劃反思
- [2024/02] Agent-Pro:通過政策級別的反思和優化Wenqi Zhang(Zhejiang University)等人學習發展。 arxiv。 [紙] [代碼]
- [2024/01]自我對比:通過不一致的解決觀點Wenqi Zhang(Zhejiang University)等人進行更好的反思。 arxiv。 [紙]
- [2023/11] JARVIS-1:帶有內存的多模式模型的開放世界多任務代理。 Zihao Wang(北京大學)等。 arxiv。 [紙] [代碼]
- [2023/10]鏈接驗證可減少大語言模型中的幻覺。 Shehzaad Dhuliawala(Meta ai&eth Zu rich)等。 arxiv。 [紙]
- [2023/10]激烈:對語言代理進行微調。 Baian Chen(System2 Research)等。 arxiv。 [PAPER] [項目頁面] [代碼] [數據集]
- [2023/08]自我檢查:使用LLMS零拍攝檢查自己的分步推理。 Ning Miao(牛津大學)等。 arxiv。 [紙] [代碼]
- [2023/05] Chatcot:基於聊天的大語言模型的工具啟動推理。 Zhipeng Chen(中國人民大學)等。 arxiv。 [紙] [代碼]
- [2023/05] Voyager:具有大語言模型的開放式體現代理。 Guanzhi Wang(Nvidia)等。 arxiv。 [紙] [項目頁] [代碼]
- [2023/03]與環境聊天:使用大語言模型的交互式多模式感知。 Xufeng Zhao(漢堡大學)等。 arxiv。 [紙] [代碼]
- [2022/12] LLM-planner:具有大型語言模型的體現代理的基礎計劃很少。 Chan Hee Song(俄亥俄州立大學)等。 arxiv。 [紙] [代碼]
- [2022/10]反應:在語言模型中協同推理和作用。 Shunyu Yao(普林斯頓大學)等。 arxiv。 [紙] [代碼]
- [2022/07]內部獨白:通過使用語言模型進行計劃來體現推理。 Wenlong Huang(Google的機器人技術)等。 arxiv。 [紙] [代碼]
- [2021/10] AI鏈:通過鏈接大語言模型提示,透明且可控的人類互動。湯肖·吳(華盛頓大學)等。 arxiv。 [紙]
1.1.5可傳遞性和概括性
看不見的任務概括
- [2024/06] AgentGym:在各種環境中發展基於語言模型的大型代理。 Zhiheng XI(Fudan University)等。 arxiv。 [Paper] [Project Page] [代碼和平台] [數據集] [基準] [模型]。
- [2023/10]代理tuning:啟用LLMS的通用代理能力。 Aohan Zeng(Tsinghua University)等。 arxiv。 [PAPER] [項目頁面] [代碼] [數據集]
- [2023/10] Lemur:統一語言代理的自然語言和代碼Yiheng Xu(香港大學)等。 arxiv。 [紙] [代碼]
- [2023/05]培訓語言模型遵循人類反饋的說明。 Long Ouyang等。神經。 [紙]
- 說明:通過對人類反饋進行微調,將語言模型與用戶打算對各種任務進行對齊。
- [2023/01]多任務提示訓練可以使零彈藥任務概括。 Victor Sanh等。 ICLR。 [紙] [代碼]
- T0:T0是一種編碼器模型,可消耗文本輸入並產生目標響應。它是在分區中分配到不同任務的NLP數據集的多任務混合物中訓練的。
- [2022/10]縮放指令 - 限制語言模型。 Hyung Won Chung等。 arxiv。 [紙] [代碼]
- 這項工作探討了指令填充,特別著眼於擴展任務數量和模型大小,從而改善了各種模型類別的性能,提示設置和評估基準。
- [2022/08]填充語言模型是零拍的學習者。 Jason Wei等。 ICLR。 [紙]
- 弗蘭(Flan):指導調整大大改善了看不見的任務的零擊性能。
在文化學習中
- [2023/08]圖像在圖像中說話:一名通才畫家,用於視覺學習。 Xinlong Wang等。 IEEE。 [紙] [代碼]
- 畫家:這項工作為使用“圖像”中心解決方案展示了用於視覺學習的通才模型。
- [2023/08]神經編解碼器語言模型是語音合成器的零聲文本。 Chengyi Wang等。 arxiv。 [紙] [代碼]
- VALL-E:這項工作訓練了神經編解碼器語言模型,該模型出現在文本學習能力。
- [2023/07]一項對文化學習的調查。 Qingxiu Dong等。 arxiv。 [紙]
- [2023/05]語言模型很少。湯姆·布朗(Openai)等。神經。 [紙]
- GPT-3:擴展語言模型會大大改善任務不合時宜的,幾乎沒有射擊的性能,有時甚至通過先前的先進的微調方法變得更有競爭力。
持續學習
- [2023/11] JARVIS-1:帶有內存的多模式模型的開放世界多任務代理。 Zihao Wang(北京大學)等。 arxiv。 [紙] [代碼]
- [2023/07]漸進提示:語言模型的持續學習。 Razdaibiedina等。 arxiv。 [紙]
- 這項工作引入了漸進式提示,該提示可以向前轉移並抵抗災難性的遺忘,而無需依靠數據重播或大量特定於任務的參數。
- [2023/05] Voyager:具有大語言模型的開放式體現代理。 Guanzhi Wang(Nvidia)等。 arxiv。 [紙] [項目頁] [代碼]
- Voyager:這是Minecraft中LLM驅動的終身學習代理人的一個例子,它不斷探索世界,獲得多樣化的技能,並在沒有人類干預的情況下進行新穎的發現。
- [2023/01]持續學習的綜合調查:理論,方法和應用。 Liyuan Wang等。 arxiv。 [紙]
- 這項調查對持續學習進行了全面的調查,試圖彌合基本環境,理論基礎,代表性方法和實際應用。
- [2022/11]持續學習自然語言處理任務:調查。 Zixuan Ke等。 arxiv。 [紙]
- 這項調查對NLP中CL的最新進展進行了全面的綜述和分析。
1.2感知:基於LLM的代理的多模式輸入
1.2.1視覺
- [2024/01]代理AI:測量多模式相互作用的視野。 Zane Durante等。 arxiv。 [紙]
- [2023/10]通過多模式大語言模型朝向端到端的體現決策:具有GPT4-Vision和Liang Chen等人的探索。 arxiv。 [紙] [代碼]
- [2023/05]語言並不是您所需要的:與語言模型保持一致。 Shaohan Huang等。 arxiv。 [紙]
- [2023/05]指令:邁向帶有指令調整的通用視覺模型。 Wenliang Dai等。 arxiv。 [紙]
- [2023/05]多模式-GPT:與人類對話的願景和語言模型。道彩等。 arxiv。 [紙]
- [2023/05] Pandagpt:一種模型,可以指導全部遵循它們。 Yixuan Su等。 arxiv。 [紙]
- [2023/04]視覺說明調整。 Haotian Liu等。 arxiv。 [紙]
- [2023/04] Minigpt-4:通過先進的大語言模型增強視覺語言理解。 Deyao Zhu。 arxiv。 [紙]
- [2023/01] BLIP-2:帶有冷凍圖像編碼器和大型語言模型的引導語言圖像預訓練。 Junnan Li等人。 arxiv。 [紙]
- [2022/04] Flamingo:一種用於幾次學習的視覺語言模型。 Jean-Baptiste Alayrac等。 arxiv。 [紙]
- [2021/10]移動設備:輕巧,通用和移動友好的視覺變壓器。 Sachin Mehta等人。 [紙]
- [2021/05] MLP-MIXER:視覺的全MLP體系結構。 Ilya Tolstikhin等人。 [紙]
- [2020/10]圖像值得16x16單詞:用於大規模圖像識別的變壓器。 Alexey Dosovitskiy等。 arxiv。 [紙]
- [2017/11]神經離散表示學習。 Aaron van den Oord等。 arxiv。 [紙]
1.2.2音頻
- [2023/06] Video-llama:用於視頻理解的指令音調的視聽語言模型。 Hang Zhang等。 arxiv。 [紙]
- [2023/05] X-LLM:通過將多模式視為外語,自舉高級大語言模型。 Feilong Chen等。 arxiv。 [紙]
- [2023/05]實習生:通過與Chatgpt互動以外的語言來解決以視覺為中心的任務。 Zhaoyang Liu等。 arxiv。 [紙]
- [2023/04] Audiogpt:理解和生成語音,音樂,聲音和說話的頭。 Rongjie Huang等。 arxiv。 [紙]
- [2023/03] Hugginggpt:與Chatgpt及其朋友在擁抱的臉上解決AI任務。 Yongliang Shen等人。 arxiv。 [紙]
- [2021/06]休伯特:通過掩蓋隱藏單元的預測,自我監督的語音表示學習。 Wei-ning Hsu等。 arxiv。 [紙]
- [2021/04] AST:音頻頻譜變壓器。 Yuan Gong等。 arxiv。 [紙]
1.3動作:擴大基於LLM的代理的動作空間
1.3.1使用
- [2024/02]邁向不確定性意識語言代理。柔州漢(莫納什大學)等。 arxiv。 [紙] [項目頁] [代碼]
- [2023/10] OpenIgents:野外語言代理的開放平台。 Xlang Lab(香港大學)Arxiv。 [紙] [項目頁] [代碼] [演示]
- [2023/10] Lemur:統一語言代理的自然語言和代碼Yiheng Xu(香港大學)等。 arxiv。 [紙] [代碼]
- [2023/10]通過多模式大語言模型朝向端到端的體現決策:與gpt4-Vision及其以外的Liang Chen(Peking University)(Peking University)等人的探索。 arxiv。 [紙] [代碼]
- Holmes是一個多機構合作框架,允許LLMS利用MLLM和API收集多模式信息以進行明智的決策。
- [2023/07] TOOLLLM:促進大型語言模型掌握16000多個現實世界中的API。 Yujia Qin(Tsinghua University)等。 arxiv。 [紙] [代碼] [數據集]
- Toolllm是一個一般的工具使用框架,包括數據構建,模型培訓和評估。
- [2023/05]大型語言模型作為工具製造商。 Tianle Cai(普林斯頓大學)等。 arxiv。 [紙] [代碼]
- LATM是一個閉環框架,它邁出了第一步,以消除對現有工具的可用性的依賴性。
- [2023/05]創建者:通過工具創建來解開大語言模型的抽象和具體推理。 Cheng Qian(Tsinghua University)等。 arxiv。 [紙]
- 創建者是一個新穎的框架,可以通過文檔和代碼實現來創建自己的工具。
- [2023/04]使用基礎模型的工具學習。 Yujia Qin(Tsinghua University)等。 arxiv。 [紙] [代碼]
- 這項調查主要介紹了一種名為“基於基礎模型的工具學習”的新範式,該範式結合了專業工具和基礎模型的優勢,實現了提高問題,效率和自動化問題的問題。
- [2023/04] Chemcrow:使用化學工具增強大型模型。 Andres M Bran(人工化學智能實驗室,ISIC,EPFL)等。 arxiv。 [紙] [代碼]
- ChemCrow是LLM化學劑,它整合了13個專家設計的工具,並增強了化學和出現新功能的LLM性能。
- [2023/04] Genegpt:使用域工具增強大型語言模型,以改善訪問生物醫學信息。 Qiao Jin(美國國立衛生研究院),Yifan Yang,青年陳,盧。 arxiv。 [紙] [代碼]
- Genegpt是回答基因組學問題的模型。它引入了一種新穎的方法,可以通過教LLM使用Web API來處理幻覺。
- [2023/04] Openagi:LLM遇到領域專家時。 Yingqiang GE(Rutgers University)等。 arxiv。 [紙] [代碼]
- Openagi是一個開源AGI研究平台。它引入了LLMS的範式,運行各種專家模型,以解決複雜的任務解決方案,並提出了一種RLTF機制來提高LLM的任務解決能力。
- [2023/03] Hugginggpt:與Chatgpt及其朋友在擁抱的臉上解決AI任務。楊安格·安(Zhejiang University)等。 arxiv。 [紙] [代碼]
- Hugginggpt是一個利用LLMS在機器學習社區中連接各種和多模式的AI模型來解決AI任務的系統。
- [2023/03] Visual Chatgpt:使用Visual Foundation模型進行交談,繪畫和編輯。 Chenfei Wu(Microsoft Research Asia)等。 arxiv。 [紙] [代碼]
- Visual Chatgpt是一個系統,可在視覺基礎模型的幫助下開闢研究Chatgpt的視覺角色。
- [2023/02]增強語言模型:調查。 GrégoireMialon(Meta AI)等。 TMLR。 [紙]
- 這項調查評論的作品,其中LMS具有使用工具的能力增強。增強LMS可以使用外部模塊來擴展其上下文處理能力。
- [2023/02]工具形式:語言模型可以教會自己使用工具。 Timo Schick(Meta AI)等。 arxiv。 [紙]
- ToolFormer表明,LLM可以教會自己使用外部工具,並為每個API提供少量演示。
- [2022/05] TALM:工具增強語言模型。亞倫·巴西(Aaron Parisi)(Google)等人。 arxiv。 [紙]
- TALM介紹了一種將非差異性工具與LMS相結合的方法,從而使模型能夠訪問實時或私人數據。
- [2022/05] MRKL系統:一種模塊化的神經符號結構,結合了大型語言模型,外部知識源和離散推理。 Ehud Karpas(AI21 Labs)等。 arxiv。 [紙]
- MRKL系統具有易於擴展的外部知識和推理模塊的LLM。
- [2022/04]盡我所能,而不是我所說:機器人負擔中的基礎語言。 Michael Ahn(Google)等。 Corl。 [紙]
- Say Can可以通過將LLM的高級語義知識與預訓練技能的價值功能相結合,從而應用LMS。
- [2021/12] Webgpt:通過人類反饋進行瀏覽器輔助提問。雷伊希羅·納卡諾(Openai)等人。 arxiv。 [紙]
- WebGPT使用WebBrowsing環境回答問題。它在訓練過程中使用模仿學習,然後通過人類反饋來優化答案質量。
- [2021/07]評估經過代碼訓練的大型語言模型。馬克·陳(Openai)等。 arxiv。 [紙] [代碼]
- Codex可以從DocStrings合成程序,也就是說,基於文檔創建工具。
1.3.2具體動作
- [2023/12]旨在學習一個用於體現導航的通才模型。 Zheng(香港中文大學)等。 arxiv。 [紙] [代碼]
- [2023/11]在3D世界中具有體現的通才代理。 Jiangyong Huang(Bigai&Peking University)等。 arxiv。 [紙] [項目頁面]
- [2023/11] JARVIS-1:帶有內存的多模式模型的開放世界多任務代理。 Zihao Wang(北京大學)等。 arxiv。 [紙] [代碼]
- [2023/10] Lemur:統一語言代理的自然語言和代碼Yiheng Xu(香港大學)等。 arxiv。 [紙] [代碼]
- [2023/10]通過多模式大語言模型朝向端到端的體現決策:具有GPT4-Vision和Liang Chen等人的探索。 arxiv。 [紙] [代碼]
- [2023/07]交互式語言:實時與機器人交談。 Corey Lynch等。 IEEE(ral) [紙]
- [2023/05] Voyager:具有大語言模型的開放式體現代理。 Guanzhi Wang(Nvidia)等。 arxiv。 [紙] [項目頁] [代碼]
- [2023/05] Avlen:3D環境中的音頻視頻體現導航。 Sudipta Paul等。神經。 [紙]
- [2023/05]體現:通過體現的思想鏈進行視覺語言預訓練。 Yao Mu等。 Arxiv [Paper] [代碼]
- [2023/05] Navgpt:具有大語言模型的視覺和語言導航中的明確推理。 Gengze Zhou等。 arxiv [紙]
- [2023/05] Alphablock:在機器人操縱中進行視覺推理的體現登錄。 Chuhao Jin等。 arxiv [紙]
- [2023/03] Palm-E:一種具體的多模式模型。 Danny Driess等。 arxiv。 [紙]
- [2023/03]反射:具有口頭增強學習的語言代理。 Noah Shinn等。 Arxiv [Paper] [代碼]
- [2023/02]與用於體現推理的語言模型合作。 Ishita Dasgupta等。 arxiv。 [紙]
- [2023/02]代碼作為策略:用於體現控制的語言模型程序。 Jacky Liang等。 IEEE(ICRA)。 [紙]
- [2022/10]反應:在語言模型中協同推理和作用。 Shunyu Yao等。 Arxiv [Paper] [代碼]
- [2022/10]帶有多模式變壓器的指令 - 凸線。 Hao Liu等。 CVPR [Paper] [代碼]
- [2022/07]內部獨白:通過使用語言模型進行計劃來體現推理。 Wenlong Huang等。 arxiv。 [紙]
- [2022/07] LM-NAV:具有大型語言,視覺和動作模型的機器人導航。 Dhruv Shahet Al。 Corl [Paper] [代碼]
- [2022/04]盡我所能,而不是我所說:機器人負擔中的基礎語言。 Michael Ahn等。 arxiv。 [紙]
- [2022/01]體現AI的調查:從模擬器到研究任務。 Jiafei Duan等。 IEEE(TETCI)。 [紙]
- [2022/01] Language Models as Zero-Shot Planners: Extracting Actionable Knowledge for Embodied Agents. Wenlong Huang et al. arxiv。 [紙] [代碼]
- [2020/04] Experience Grounds Language. Yonatan Bisk et al. EMNLP [paper]
- [2019/03] Review of Deep Reinforcement Learning for Robot Manipulation. Hai Nguyen et al. IEEE (IRC). [紙]
- [2005/01] The Development of Embodied Cognition: Six Lessons from Babies. Linda Smith et al. Artificial Life. [紙]
2. Agents in Practice: Applications of LLM-based Agents
2.1 General Ability of Single Agent
2.1.1 Task-oriented Deployment
In web scenarios
- [2023/10] OpenAgents: An Open Platform for Language Agents in the Wild. XLang Lab (The University of Hong Kong) arXiv. [paper] [project page] [code] [demo]
- [2023/07] WebArena: A Realistic Web Environment for Building Autonomous Agents. Shuyan Zhou (CMU) et al. arxiv。 [紙] [代碼]
- [2023/07] A Real-World WebAgent with Planning, Long Context Understanding, and Program Synthesis. Izzeddin Gur (DeepMind) et al. arxiv。 [紙]
- [2023/06] SYNAPSE: Leveraging Few-Shot Exemplars for Human-Level Computer Control. Longtao Zheng (Nanyang Technological University) et al. arxiv。 [紙] [代碼]
- [2023/06] Mind2Web: Towards a Generalist Agent for the Web. Xiang Deng (The Ohio State University) et al. arxiv。 [紙] [代碼]
- [2023/05] Multimodal Web Navigation with Instruction-Finetuned Foundation Models. Hiroki Furuta (The University of Tokyo) et al. arxiv。 [紙]
- [2023/03] Language Models can Solve Computer Tasks. Geunwoo Kim (University of California) et al. arxiv。 [紙] [代碼]
- [2022/07] WebShop: Towards Scalable Real-World Web Interaction with Grounded Language Agents. Shunyu Yao (Princeton University) et al. arxiv。 [紙] [代碼]
- [2021/12] WebGPT: Browser-assisted question-answering with human feedback. Reiichiro Nakano (OpenAI) et al. arxiv。 [紙]
- [2023/05] Agents: An Open-source Framework for Autonomous Language Agents. Wangchunshu Zhou (AIWaves) et al. arxiv。 [紙] [代碼]
- [2024/04] OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments. XLang Lab (The University of Hong Kong) arXiv. [paper] [project page] [code] [data viewer]
In life scenarios
- [2023/10] OpenAgents: An Open Platform for Language Agents in the Wild. XLang Lab (The University of Hong Kong) arXiv. [paper] [project page] [code] [demo]
- [2023/08] InterAct: Exploring the Potentials of ChatGPT as a Cooperative Agent. Po-Lin Chen et al. arxiv。 [紙]
- [2023/05] Plan, Eliminate, and Track -- Language Models are Good Teachers for Embodied Agents. Yue Wu (CMU) et al. arxiv。 [紙]
- [2023/05] Augmenting Autotelic Agents with Large Language Models. Cédric Colas (MIT) et al. arxiv。 [紙]
- [2023/03] Planning with Large Language Models via Corrective Re-prompting. Shreyas Sundara Raman (Brown University) et al. arxiv。 [紙]
- [2022/10] Generating Executable Action Plans with Environmentally-Aware Language Models. Maitrey Gramopadhye (University of North Carolina at Chapel Hill) et al. arxiv。 [紙] [代碼]
- [2022/01] Language Models as Zero-Shot Planners: Extracting Actionable Knowledge for Embodied Agents. Wenlong Huang (UC Berkeley) et al. arxiv。 [紙] [代碼]
2.1.2 Innovation-oriented Deployment
- [2023/10] OpenAgents: An Open Platform for Language Agents in the Wild. XLang Lab (The University of Hong Kong) arXiv. [paper] [project page] [code] [demo]
- [2023/08] The Hitchhiker's Guide to Program Analysis: A Journey with Large Language Models. Haonan Li (UC Riverside) et al. arxiv。 [紙]
- [2023/08] ChatMOF: An Autonomous AI System for Predicting and Generating Metal-Organic Frameworks. Yeonghun Kang (Korea Advanced Institute of Science and Technology) et al. arxiv。 [紙]
- [2023/07] Math Agents: Computational Infrastructure, Mathematical Embedding, and Genomics. Melanie Swan (University College London) et al. arxiv。 [紙]
- [2023/06] Towards Autonomous Testing Agents via Conversational Large Language Models. Robert Feldt (Chalmers University of Technology) et al. arXiv. [紙]
- [2023/04] Emergent autonomous scientific research capabilities of large language models. Daniil A. Boiko (CMU) et al. arxiv。 [紙]
- [2023/04] ChemCrow: Augmenting large-language models with chemistry tools. Andres M Bran (Laboratory of Artificial Chemical Intelligence, ISIC, EPFL) et al. arXiv. [紙] [代碼]
- [2022/03] ScienceWorld: Is your Agent Smarter than a 5th Grader? Ruoyao Wang (University of Arizona) et al. arXiv. [紙] [代碼]
2.1.3 Lifecycle-oriented Deployment
- [2023/05] Voyager: An Open-Ended Embodied Agent with Large Language Models. Guanzhi Wang (NVIDIA) et al. arXiv. [paper] [project page] [code]
- [2023/05] Ghost in the Minecraft: Generally Capable Agents for Open-World Environments via Large Language Models with Text-based Knowledge and Memory. Xizhou Zhu (Tsinghua University) et al. arXiv. [紙] [代碼]
- [2023/03] Plan4MC: Skill Reinforcement Learning and Planning for Open-World Minecraft Tasks. Haoqi Yuan (PKU) et al. arXiv. [paper] [project page]
- [2023/02] Describe, Explain, Plan and Select: Interactive Planning with Large Language Models Enables Open-World Multi-Task Agents. Zihao Wang (PKU) et al. arXiv. [紙] [代碼]
- [2023/01] Do Embodied Agents Dream of Pixelated Sheep: Embodied Decision Making using Language Guided World Modelling. Kolby Nottingham (University of California Irvine, Irvine) et al. arXiv. [紙] [代碼]
2.2 Coordinating Potential of Multiple Agents
2.2.1 Cooperative Interaction for Complementarity
Disordered cooperation
- [2023/07] Unleashing Cognitive Synergy in Large Language Models: A Task-Solving Agent through Multi-Persona Self-Collaboration. Zhenhailong Wang (University of Illinois Urbana-Champaign) et al. arXiv. [紙] [代碼]
- [2023/07] RoCo: Dialectic Multi-Robot Collaboration with Large Language Models. Zhao Mandi, Shreeya Jain, Shuran Song (Columbia University) et al. arXiv. [紙] [代碼]
- [2023/04] ChatLLM Network: More brains, More intelligence. Rui Hao (Beijing University of Posts and Telecommunications) et al. arXiv. [紙]
- [2023/01] Blind Judgement: Agent-Based Supreme Court Modelling With GPT. Sil Hamilton (McGill University). arXiv. [紙]
- [2023/05] Agents: An Open-source Framework for Autonomous Language Agents. Wangchunshu Zhou (AIWaves) et al. arXiv. [紙] [代碼]
Ordered cooperation
- [2023/10] AutoAgents: A Framework for Automatic Agent Generation. Guangyao Chen (Peking University) et al. arXiv. [紙] [代碼]
- [2023/09] MindAgent: Emerging Gaming Interaction. Ran Gong (UCLA) et al. arxiv。 [紙] [代碼]
- [2023/08] CGMI: Configurable General Multi-Agent Interaction Framework. Shi Jinxin (East China Normal University) et al. arXiv. [紙]
- [2023/08] ProAgent: Building Proactive Cooperative AI with Large Language Models. Ceyao Zhang (The Chinese University of Hong Kong, Shenzhen) et al. arXiv. [紙] [代碼]
- [2023/08] AgentVerse: Facilitating Multi-Agent Collaboration and Exploring Emergent Behaviors in Agents. Weize Chen (Tsinghua University) et al. arXiv. [紙] [代碼]
- [2023/08] AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation Framework. Qingyun Wu (Pennsylvania State University ) et al. arXiv. [紙] [代碼]
- [2023/08] MetaGPT: Meta Programming for Multi-Agent Collaborative Framework. Sirui Hong (DeepWisdom) et al. arXiv. [紙] [代碼]
- [2023/07] Communicative Agents for Software Development. Chen Qian (Tsinghua University) et al. arXiv. [紙] [代碼]
- [2023/06] Multi-Agent Collaboration: Harnessing the Power of Intelligent LLM Agents. Yashar Talebira (University of Alberta) et al. arXiv. [紙]
- [2023/05] Training Socially Aligned Language Models in Simulated Human Society. Ruibo Liu (Dartmouth College) et al. arXiv. [紙] [代碼]
- [2023/05] SwiftSage: A Generative Agent with Fast and Slow Thinking for Complex Interactive Tasks. Bill Yuchen Lin (Allen Institute for Artificial Intelligence) et al. arXiv. [紙] [代碼]
- [2023/05] ChatGPT as your Personal Data Scientist. Md Mahadi Hassan (Auburn University) et al. arXiv. [紙]
- [2023/03] CAMEL: Communicative Agents for "Mind" Exploration of Large Scale Language Model Society. Guohao Li (King Abdullah University of Science and Technology) et al. arXiv. [紙] [代碼]
- [2023/03] DERA: Enhancing Large Language Model Completions with Dialog-Enabled Resolving Agents. Varun Nair (Curai Health) et al. arXiv. [紙] [代碼]
- [2023/04] Self-collaboration Code Generation via ChatGPT. Yihong Dong (Peking University) et al. arXiv. [紙]
2.2.2 Adversarial Interaction for Advancement
- [2023/08] ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate. Chi-Min Chan (Tsinghua University) et al. arXiv. [紙] [代碼]
- [2023/05] Improving Factuality and Reasoning in Language Models through Multiagent Debate. Yilun Du (MIT CSAIL) et al. arXiv. [紙] [代碼]
- [2023/05] Improving Language Model Negotiation with Self-Play and In-Context Learning from AI Feedback. Yao Fu (University of Edinburgh) et al. arXiv. [紙] [代碼]
- [2023/05] Examining the Inter-Consistency of Large Language Models: An In-depth Analysis via Debate. Kai Xiong (Harbin Institute of Technology) et al. arXiv. [紙]
- [2023/05] Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate. Tian Liang (Tsinghua University) et al. arXiv. [紙] [代碼]
2.3 Interactive Engagement between Human and Agent
2.3.1 Instructor-Executor Paradigm
教育
- [2023/07] Math Agents: Computational Infrastructure, Mathematical Embedding, and Genomics. Melanie Swan (UCL) et al. arXiv. [紙]
- Communicate with humans to help them understand and use mathematics.
- [2023/03] Hey Dona! Can you help me with student course registration? Vishesh Kalvakurthi (MSU) et al. arXiv. [紙]
- This is a developed application called Dona that offers virtual voice assistance in student course registration, where humans provide instructions.
健康
- [2023/08] Zhongjing: Enhancing the Chinese Medical Capabilities of Large Language Model through Expert Feedback and Real-world Multi-turn Dialogue. Songhua Yang (ZZU) et al. arXiv. [紙] [代碼]
- [2023/05] HuatuoGPT, towards Taming Language Model to Be a Doctor. Hongbo Zhang (CUHK-SZ) et al. arXiv. [paper] [code] [demo]
- [2023/05] Helping the Helper: Supporting Peer Counselors via AI-Empowered Practice and Feedback. Shang-Ling Hsu (Gatech) et al. arXiv. [紙]
- [2020/10] A Virtual Conversational Agent for Teens with Autism Spectrum Disorder: Experimental Results and Design Lessons. Mohammad Rafayet Ali (U of R) et al. IVA '20. [紙]
Other Application
- [2023/08] RecMind: Large Language Model Powered Agent For Recommendation. Yancheng Wang (ASU, Amazon) et al. arXiv. [紙]
- [2023/08] Multi-Turn Dialogue Agent as Sales' Assistant in Telemarketing. Wanting Gao (JNU) et al. IEEE。 [紙]
- [2023/07] PEER: A Collaborative Language Model. Timo Schick (Meta AI) et al. arXiv. [紙]
- [2023/07] DIALGEN: Collaborative Human-LM Generated Dialogues for Improved Understanding of Human-Human Conversations. Bo-Ru Lu (UW) et al. arXiv. [紙]
- [2023/08] LLM As DBA [vision]. Xuanhe Zhou (Tsinghua) et al. arXiv. [紙]
- [2023/06] AssistGPT: A General Multi-modal Assistant that can Plan, Execute, Inspect, and Learn. Difei Gao (NUS) et al. arXiv. [紙]
- [2023/05] Agents: An Open-source Framework for Autonomous Language Agents. Wangchunshu Zhou (AIWaves) et al. arXiv. [紙] [代碼]
- [2023/12] D-Bot: Database Diagnosis System using Large Language Models. Xuanhe Zhou (Tsinghua) et al. arXiv. [紙] [代碼]
2.3.2 Equal Partnership Paradigm
Empathetic Communicator
- [2023/08] SAPIEN: Affective Virtual Agents Powered by Large Language Models. Masum Hasan et al. arXiv. [paper] [project page]
- [2023/05] Helping the Helper: Supporting Peer Counselors via AI-Empowered Practice and Feedback. Shang-Ling Hsu (Gatech) et al. arXiv. [紙]
- [2022/07] Artificial empathy in marketing interactions: Bridging the human-AI gap in affective and social customer experience. Yuping Liu‑Thompkins et al. [紙]
Human-Level Participant
- [2023/08] Quantifying the Impact of Large Language Models on Collective Opinion Dynamics. Chao Li et al. CoRR. [紙]
- [2023/06] Mastering the Game of No-Press Diplomacy via Human-Regularized Reinforcement Learning and Planning. Anton Bakhtin et al. ICLR. [紙]
- [2023/06] Decision-Oriented Dialogue for Human-AI Collaboration. Jessy Lin et al. CoRR. [紙]
- [2022/11] Human-level play in the game of Diplomacy by combining language models with strategic reasoning. FAIR et al.科學。 [紙]
3. Agent Society: From Individuality to Sociality
3.1 Behavior and Personality of LLM-based Agents
3.1.1 Social Behavior
Individual behaviors
- [2023/10] Lyfe Agents: Generative agents for low-cost real-time social interactions. Zhao Kaiya (MIT) et al. arXiv. [紙]
- [2023/05] Voyager: An Open-Ended Embodied Agent with Large Language Models. Guanzhi Wang (NVIDIA) et al. arXiv. [paper] [code] [project page]
- [2023/04] LLM+P: Empowering Large Language Models with Optimal Planning Proficiency. Bo Liu (University of Texas) et al. arXiv. [紙] [代碼]
- [2023/03] Reflexion: Language Agents with Verbal Reinforcement Learning. Noah Shinn (Northeastern University) et al. arXiv. [紙] [代碼]
- [2023/03] PaLM-E: An Embodied Multimodal Language Model. Danny Driess (Google) et al. ICML。 [paper] [project page]
- [2023/03] ReAct: Synergizing Reasoning and Acting in Language Models. Shunyu Yao (Princeton University) et al. ICLR. [paper] [project page]
- [2022/01] Chain-of-thought prompting elicits reasoning in large language models. Jason Wei (Google) et al. NeurIPS. [紙]
Group behaviors
[2023/10] Exploring Collaboration Mechanisms for LLM Agents: A Social Psychology View. Jintian Zhang (Zhejiang University) et al. arXiv. [紙] [代碼]
[2023/09] MindAgent: Emerging Gaming Interaction. Ran Gong (UCLA) et al. arXiv. [紙] [代碼]
[2023/09] Exploring Large Language Models for Communication Games: An Empirical Study on Werewolf. Yuzhuang Xu (Tsinghua University) et al. arXiv. [紙]
[2023/09] Suspicion Agent: Playing Imperfect Information Games with Theory of Mind Aware GPT-4 Jiaxian Gu oet al. arXiv. [紙]
[2023/08] AgentVerse: Facilitating Multi-Agent Collaboration and Exploring Emergent Behaviors in Agents. Weize Chen (Tsinghua University) et al. arXiv. [紙] [代碼]
[2023/08] AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation Framework. Qingyun Wu (Pennsylvania State University) et al. arXiv. [紙] [代碼]
[2023/08] ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate. Chi-Min Chan (Tsinghua University) et al. arXiv. [紙] [代碼]
[2023/07] Communicative Agents for Software Development. Chen Qian (Tsinghua University) et al. arXiv. [紙] [代碼]
[2023/07] RoCo: Dialectic Multi-Robot Collaboration with Large Language Models. Zhao Mandi, Shreeya Jain, Shuran Song (Columbia University) et al. arXiv. [紙] [代碼]
[2023/08] ProAgent: Building Proactive Cooperative AI with Large Language Models. Ceyao Zhang (The Chinese University of Hong Kong, Shenzhen) et al. arXiv. [紙] [代碼]
[2023/06] Homophily in An Artificial Social Network of Agents Powered By Large Language Models. James K. He (University of Cambridge) et al. PsyArXiv. [紙]
3.1.2 Personality
認識
- [2023/09] Suspicion Agent: Playing Imperfect Information Games with Theory of Mind Aware GPT-4 Jiaxian Gu oet al. arXiv. [紙]
- [2023/03] Machine Psychology: Investigating Emergent Capabilities and Behavior in Large Language Models Using Psychological Methods. Thilo Hagendorff (University of Stuttgart) et al. arXiv. [紙]
- [2023/03] Mind meets machine: Unravelling GPT-4's cognitive psychology. Sifatkaur Dhingra (Nowrosjee Wadia College) et al. arXiv. [紙]
- [2022/07] Language models show human-like content effects on reasoning. Ishita Dasgupta (DeepMind) et al. arXiv. [紙]
- [2022/06] Using cognitive psychology to understand GPT-3. Marcel Binz et al. arXiv. [紙]
情感
- [2023/07] Emotional Intelligence of Large Language Models. Xuena Wang (Tsinghua University) et al. arXiv. [紙]
- [2023/05] ChatGPT outperforms humans in emotional awareness evaluations. Zohar Elyoseph et al. Frontiers in Psychology. [紙]
- [2023/02] Empathetic AI for Empowering Resilience in Games. Reza Habibi (University of California) et al. arXiv. [紙]
- [2022/12] Computer says “No”: The Case Against Empathetic Conversational AI. Alba Curry (University of Leeds) et al. ACL. [紙]
特點
- [2024/05] TimeChara: Evaluating Point-in-Time Character Hallucination of Role-Playing Large Language Models. Jaewoo Ahn (Seoul National University) et al. arXiv. [紙] [代碼]
- [2023/10] Character-LLM: A Trainable Agent for Role-Playing. Yunfan Shao (Fudan University) et al. arXiv. [紙] [代碼]
- [2023/07] Do LLMs Possess a Personality? Making the MBTI Test an Amazing Evaluation for Large Language Models. Keyu Pan (ByteDance) et al. arXiv. [紙] [代碼]
- [2023/07] Personality Traits in Large Language Models. Mustafa Safdari (DeepMind) et al. arXiv. [紙] [代碼]
- [2022/12] Does GPT-3 Demonstrate Psychopathy? Evaluating Large Language Models from a Psychological Perspective. Xingxuan Li (Alibaba) et al. arXiv. [紙]
- [2022/12] Identifying and Manipulating the Personality Traits of Language Models. Graham Caron et al. arXiv. [紙]
3.2 Environment for Agent Society
3.2.1 Text-based Environment
- [2023/08] Hoodwinked: Deception and Cooperation in a Text-Based Game for Language Models. Aidan O'Gara (University of Southern California) et al. arXiv. [紙] [代碼]
- [2023/03] CAMEL: Communicative Agents for "Mind" Exploration of Large Scale Language Model Society. Guohao Li (King Abdullah University of Science and Technology) et al. arXiv. [紙] [代碼]
- [2020/12] Playing Text-Based Games with Common Sense. Sahith Dambekodi (Georgia Institute of Technology) et al. arXiv. [紙]
- [2019/09] Interactive Fiction Games: A Colossal Adventure. Matthew Hausknecht (Microsoft Research) et al. AAAI. [紙] [代碼]
- [2019/03] Learning to Speak and Act in a Fantasy Text Adventure Game. Jack Urbanek (Facebook) et al. ACL. [紙] [代碼]
- [2018/06] TextWorld: A Learning Environment for Text-based Games. Marc-Alexandre Côté (Microsoft Research) et al. IJCAI. [紙] [代碼]
3.2.2 Virtual Sandbox Environment
- [2023/11] JARVIS-1: Open-world Multi-task Agents with Memory-Augmented Multimodal Language Models. ZiHao Wang (Peking University) et al. arXiv. [紙] [代碼]
- [2023/10] Humanoid Agents: Platform for Simulating Human-like Generative Agents. Zhilin Wang (University of Washington and NVIDIA) et al. arXiv. [paper] [code] [demo]
- [2023/08] AgentSims: An Open-Source Sandbox for Large Language Model Evaluation. Jiaju Lin (PTA Studio) et al. arXiv. [paper] [project page] [code]
- [2023/05] Training Socially Aligned Language Models in Simulated Human Society. Ruibo Liu (Dartmouth College) et al. arXiv. [紙] [代碼]
- [2023/05] Voyager: An Open-Ended Embodied Agent with Large Language Models. Guanzhi Wang (NVIDIA) et al. arXiv. [paper] [project page] [code]
- [2023/04] Generative Agents: Interactive Simulacra of Human Behavior. Joon Sung Park (Stanford University) et al. arXiv. [紙] [代碼]
- [2023/03] Plan4MC: Skill Reinforcement Learning and Planning for Open-World Minecraft Tasks. Haoqi Yuan (PKU) et al. arXiv. [paper] [project page]
- [2022/06] MineDojo: Building Open-Ended Embodied Agents with Internet-Scale Knowledge. Linxi Fan (NVIDIA) et al. NeurIPS. [paper] [project page]
3.2.3 Physical Environment
- [2023/11] An Embodied Generalist Agent in 3D World. Jiangyong Huang (BIGAI & Peking University) et al. arXiv. [paper] [project page]
- [2023/09] RoboAgent: Generalization and Efficiency in Robot Manipulation via Semantic Augmentations and Action Chunking. Homanga Bharadhwaj (Carnegie Mellon University) et al. arXiv. [paper] [project page]
- [2023/05] AVLEN: Audio-Visual-Language Embodied Navigation in 3D Environments. Sudipta Paul et al. NeurIPS. [紙]
- [2023/03] PaLM-E: An Embodied Multimodal Language Model. Danny Driess (Google) et al. ICML。 [paper] [project page]
- [2022/10] Interactive Language: Talking to Robots in Real Time. Corey Lynch (Google) et al. arXiv. [紙] [代碼]
3.3 Society Simulation with LLM-based Agents
- [2024/03] Emergence of Social Norms in Large Language Model-based Agent Societies. Siyue Ren et al. arXiv. [紙] [代碼]
- [2023/08] AgentSims: An Open-Source Sandbox for Large Language Model Evaluation. Jiaju Lin (PTA Studio) et al. arXiv. [paper] [project page] [code]
- [2023/07] S 3 : Social-network Simulation System with Large Language Model-Empowered Agents. Chen Gao (Tsinghua University) et al. arXiv. [紙]
- [2023/07] Epidemic Modeling with Generative Agents. Ross Williams (Virginia Tech) et al. arXiv. [紙] [代碼]
- [2023/06] RecAgent: A Novel Simulation Paradigm for Recommender Systems. Lei Wang (Renmin University of China) et al. arXiv. [紙]
- [2023/05] Training Socially Aligned Language Models in Simulated Human Society. Ruibo Liu (Dartmouth College) et al. arXiv. [紙] [代碼]
- [2023/04] Generative Agents: Interactive Simulacra of Human Behavior. Joon Sung Park (Stanford University) et al. arXiv. [紙] [代碼]
- [2022/08] Social Simulacra: Creating Populated Prototypes for Social Computing Systems. Joon Sung Park (Stanford University) et al. UIST. [紙]
4. Other Topics
4.1 Benchmarks for LLM-based Agents
- [2023/11] "MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration." Lin Xu et al. (NUS, ByteDance, Stanford & UC Berkeley) arXiv. [paper] [Project Page] [Code]
- The work presents a benchmarking framework for evaluating LLMs in multi-agent settings, showing a 50% average improvement using Probabilistic Graphical Modeling.
- [2023/10] "Benchmarking Large Language Models As AI Research Agents." Qian Huang (Stanford) et al. arXiv. [紙] [代碼]
- [2023/08] "AgentBench: Evaluating LLMs as Agents." Xiao Liu (THU) et al. arXiv. [paper] [code] [project page]
- AGENTBENCH, a benchmark for assessing LLMs as agents, shows a performance gap between top commercial and open-source models.
- [2023/10] "SmartPlay : A Benchmark for LLMs as Intelligent Agents." Yue Wu (CMU & Microsoft) et al. arXiv. [紙] [代碼]
- SmartPlay is a benchmark and methodology for evaluating LLMs as intelligent agents, featuring six diverse games to assess key capabilities, providing a roadmap for identifying gaps in current methodologie
- [2024/04] "OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments." XLang Lab (The University of Hong Kong) arXiv. [paper] [project page] [code] [data viewer]
- OSWorld is a unified, real computer environment for multimodal agents to benchmark open-ended computer tasks with arbitrary apps and interfaces on Ubuntu, Windows, & macOS.
4.2 Training and Optimizing LLM-based Agents
- [2024/06] AgentGym: Evolving Large Language Model-based Agents across Diverse Environments. Zhiheng Xi (Fudan University) et al. arXiv. [paper] [project page] [codes and platform] [dataset] [benchmark] [model].
- [2023/10] FireAct: Toward Language Agent Fine-tuning. Baian Chen (System2 Research) et al. arXiv. [paper] [project page] [code] [dataset]
- [2023/10] AgentTuning: Enabling Generalized Agent Abilities for LLMs. Aohan Zeng (Tsinghua University) et al. arXiv. [paper] [project page] [code] [dataset]
- [2023/10] Lemur: Harmonizing Natural Language and Code for Language Agents Yiheng Xu (University of Hong Kong) et al. arXiv. [紙] [代碼]
引用
If you find this repository useful, please cite our paper:
@misc{xi2023rise,
title={The Rise and Potential of Large Language Model Based Agents: A Survey},
author={Zhiheng Xi and Wenxiang Chen and Xin Guo and Wei He and Yiwen Ding and Boyang Hong and Ming Zhang and Junzhe Wang and Senjie Jin and Enyu Zhou and Rui Zheng and Xiaoran Fan and Xiao Wang and Limao Xiong and Yuhao Zhou and Weiran Wang and Changhao Jiang and Yicheng Zou and Xiangyang Liu and Zhangyue Yin and Shihan Dou and Rongxiang Weng and Wensen Cheng and Qi Zhang and Wenjuan Qin and Yongyan Zheng and Xipeng Qiu and Xuanjing Huang and Tao Gui},
year={2023},
eprint={2309.07864},
archivePrefix={arXiv},
primaryClass={cs.AI}
}
Project Maintainers & Contributors
- Zhiheng Xi (奚志恒, @WooooDyy)
- Wenxiang Chen (陈文翔, @chenwxOggai)
- Xin Guo (郭昕, @XinGuo2002)
- Wei He(何为, @hewei2001)
- Yiwen Ding (丁怡文, @Yiwen-Ding)
- Boyang Hong(洪博杨, @HongBoYang)
- Ming Zhang (张明, @KongLongGeFDU)
- Junzhe Wang(王浚哲, @zsxmwjz)
- Senjie Jin(金森杰, @Leonnnnnn929)
接觸
Star History