LLMs 論文研讀社
作者:楊夕
介紹:該倉庫主要記錄LLMs 算法工程師相關的頂會論文研讀筆記(多模態、PEFT、小樣本QA問答、RAG、LMMs可解釋性、Agents、CoT)
LLMs 九層妖塔地址:https://github.com/km1994/LLMsNineStoryDemonTower
LLMs 千面郎君地址:https://github.com/km1994/LLMs_interview_notes
LLMs 論文學習筆記:https://gitee.com/km601/llms_paper
NLP 百面百搭地址:https://github.com/km1994/NLP-Interview-Notes
NLP論文學習筆記:https://github.com/km1994/nlp_paper_study
推薦系統百面百搭地址:https://github.com/km1994/RES-Interview-Notes
推薦系統論文學習筆記:https://github.com/km1994/RS_paper_study
搜索引擎百面百搭地址:https://github.com/km1994/search-engine-Interview-Notes 【編寫ing】
GCN 論文學習筆記:https://github.com/km1994/GCN_study
推廣蒐軍火庫:https://github.com/km1994/recommendation_advertisement_search
手機版筆記,可以關注公眾號【關於NLP那些你不知道的事】獲取,並加入【NLP && 推薦學習群】一起學習! ! !

LLMs 千面郎君面試交流群(注:人滿可添加小編wx:yzyykm666 加群!)
- LLMs 論文研讀社
- 多模態篇
- PEFT 系列篇
- GPT 系列篇
- RAG 系列篇
- RAG Trick篇
- RAG應用領域篇
- 醫療領域QA問答
- 宗教領域QA問答
- 常識領域QA問答
- 法律領域QA問答
- 知識圖譜領域QA問答
- 任務型領域QA問答
- 汽車領域QA問答
- Prompt 系列篇
- LMMs 可解釋性篇
- LLMs4KG 篇
- LLMs Agents 篇
- Attention 篇
- 搜索篇
- 如何通過大模型構建“query-doc”?
- 如何通過大模型標註“query-doc” 正負樣例?
- 如何通過大模型改寫“query-doc”?
- 如何通過大模型綜合利用PRF(偽相關反饋)+GRF(生成相關反饋)?
- 如何通過大模型進行召排?
- 何為召回?
- 召回存在哪些問題?
- 如何基於encoder的LLM檢索器?
- 如何基於生成式的LLM檢索器?
- 如何通過大模型進行排序?
- CoT 篇
- 微調數據工程篇
- 高效大模型推理篇
- 大模型評估篇
- 大模型預訓練篇
- 機器人篇
- 強化學習篇
- 數字人
- 參考
多模態篇
Gemini:一族功能強大的多模態模
- 論文名稱:Gemini: A Family of Highly Capable Multimodal Models
- 論文地址:https://arxiv.org/pdf/2312.11805
- 機構:Google
- Github 地址:
- 會議:
- 論文方法:該論文介紹了一種新的多模態模型系列,Gemini,在圖像、音頻、視頻和文本理解方面具有非凡的能力。 Gemini系列包括Ultra、Pro和Nano三種規模,適用於從復雜的推理任務到設備上的內存受限用例。
- 論文實驗結果:在廣泛的基準測試中,該論文最先進的Gemini Ultra模型在32個基準測試中有30個取得了最新的進展,特別是首次在公認的考試基準MMLU上達到人類專家水平,並在該論文檢查的20個多模態基準測試中改進了最新的技術水平。該論文相信Gemini模型在跨模態推理和語言理解方面的新能力將能夠支持各種用例,並討論了該論文在負責任地向用戶部署它們方面的方法。
評估GPT4-V在結構化推理任務上的表現
- 論文名稱:Assessing GPT4-V on Structured Reasoning Tasks
- 論文地址:https://arxiv.org/pdf/2312.11524
- 機構:OpenAI
- Github 地址:
- 會議:
- 論文方法:這篇論文主要評估了最新的語言模型GPT-4V和其他五個基準模型在結構化推理任務上的表現。這些任務包括數學推理、視覺數據分析和代碼生成。
- 研究結果顯示,引入視覺Chain-of-Thought的多模態LLMs相比於普通模型有顯著的提升。同時,論文還對模型表現良好和困難的場景進行了分類分析,突出了多模態推理中所面臨的挑戰。
ProTIP: 漸進式工具檢索改善規劃
- 論文名稱:ProTIP: Progressive Tool Retrieval Improves Planning
- 論文地址:https://arxiv.org/pdf/2312.10332
- 機構:
- Github 地址:
- 會議:
- 論文方法:這篇論文介紹了一種名為ProTIP的漸進式工具檢索框架,用於復雜的多步驟規劃任務。該框架通過對比學習的方式隱式地進行任務分解,同時保持子任務-工具的原子性。
- 在ToolBench數據集上,ProTIP在工具檢索方面超越了基於ChatGPT的任務分解方法,並且在TR的Recall@K=10方面提高了24%,在計劃生成方面工具準確性提高了41%。
LLaVA:經典的多模態大模型
- 論文名稱:Visual Instruction Tuning
- 論文地址:https://arxiv.org/abs/2304.08485
- 機構:微軟研究院和哥倫比亞大學
- Github 地址:https://github.com/haotian-liu/LLaVA
- 會議:
- 動機:像ChatGPT這種大語言模型只接受文字輸入,那麼如何讓大語言模型接收圖像輸入呢?
- 論文方法:LLaVA提出了一種方法,
- 將Clip作為圖像的編碼器,在Clip後面加入一個線性映射層;
- 將Clip編碼後的圖像特徵Zu 映射到語言模型特徵空間中,得到視覺特徵Hv ;
- 將其和文本的編碼(語言指令的編碼)一起送入到Language Model中。
- 訓練方式:
- 第一階段:預訓練階段。在這個階段,只訓練線性映射層(Projection W),目的是學習圖像空間到語言模型詞向量空間的映射,這階段使用的數據集為CC3M;
- 第二階段:微調階段。在這階段,凍結住視覺編碼器的參數,訓練線性映射層和大語言模型的參數。在這一階段使用的數據集為ScienceQA和基於GPT-4生成的數據集。
- 實驗效果:該模型展示出了一些接近多模態GPT-4 的圖文理解能力:相對於GPT-4 獲得了85.1% 的相對得分。當在科學問答(Science QA)上進行微調時,LLaVA 和GPT-4 的協同作用實現了92.53%準確率的新SoTA。
LLaVAR:增強的視覺指令微調
- 論文名稱:LLaVAR: Enhanced Visual Instruction Tuning for Text-Rich Image Understanding
- 論文地址:https://arxiv.org/pdf/2306.17107.pdf
- 機構:佐治亞理工、Adobe和斯坦福
- Github 地址:https://github.com/SALT-NLP/LLaVAR
- 會議:
- 動機:
- 論文方法:用OCR的工具從LAION數據集收集了422K包含文本信息的圖片,然後用從圖片中識別的文字以及圖片的caption作為提示詞,用text only的GPT-4生成了16K對話,每一個對話都包含和每一張圖片關聯的問題-回答pair。文中集合收集的這些對話數據集以及LLaVA的對話數據,訓練了可以對圖片中的場景進行細緻理解的LLaVAR模型。
- 模型結構:
- 視覺encoder V:對於224x224分辨率的輸入,採用CLIP-ViT-L/14;對於336x336分辨率的輸入,採用CLIP-ViT-L/14-336。最後一層Transformer Layer輸出的特徵通過過一個映射矩陣W 映射到語言Decoder的單詞嵌入空間;
- 語言Decoder D:採用基於LLAMA的Vicuna-13B
- 訓練方式:
- 預訓練:只訓練視覺編碼器到LLM編碼器之間的映射層(採用LLaVA從CC3M中過濾的595k圖文以及新構建的422k粗糙數據);
- 微調:訓練視覺編碼器到LLM編碼器之間的映射層和LLM(採用LLaVA基於MSCOCO構建的158k指令數據以及新構建的16k指令數據訓練模型的指令理解能力,同時微調LLM以及圖文之間的映射層);
Vary: Scaling up the Vision Vocabulary forLarge Vision-Language Models
- 論文名稱:Vary: Scaling up the Vision Vocabulary forLarge Vision-Language Models
- 論文地址:arxiv.org/abs/2312.06109
- 動機:
- PDF 類文檔的難點在於,如何完整恢復圖片、表格、標題、段落等內容,形成一個文字版的文檔。
- 現有開源多模態大模型的問題
- 對中文支持較差,畢竟大部分訓練數據還是以英文為主。
- 文檔級的識別程度不高,畢竟多模態大模型也不是單純做OCR 任務的,所以訓練數據可能有欠缺,在識別文檔圖像時出現容易缺少內容,導致回答出現幻覺或者不准確。
- 思路:通過收集新的數據,訓練一個新的視覺編碼器,然後和原有的視覺編碼器合併。
Instruct-Imagen: 多模式指導下的圖像生成
- 論文名稱:Instruct-Imagen: Image Generation with Multi-modal Instruction
- 機構:谷歌研究院、Google DeepMind
- 相關領域:指令微調、多模態
- 論文地址:https://arxiv.org/pdf/2401.01952
- 作者:Hexiang Hu, Kelvin CK Chan, Yu-Chuan Su
- 論文方法:篇論文介紹了instruct-imagen,一個解決異構圖像生成任務並能夠在未知任務上進行泛化的模型。它引入了多模式指導的圖像生成,一種利用自然語言將不同模態(例如,文本、邊緣、樣式、主題等)綜合起來的任務表示,使得豐富的圖像生成意圖可以以統一的格式標準化。作者通過在一個兩階段框架中對預訓練的文本到圖像擴散模型進行微調來構建instruct-imagen。首先,作者使用檢索增強訓練來使模型能夠基於外部多模態上下文生成圖像。隨後,作者在多樣的圖像生成任務上對微調後的模型進行微調,這些任務需要對視覺語言進行理解(例如,基於主題的生成等),每個任務都與一個包含任務本質的多模式指導相配對。在各種圖像生成數據集上進行的人工評估表明,instruct-imagen在領域內與先前的任務特定模型相媲美或超越,並展示了對未知和更複雜任務的有希望的泛化能力。
LLaVA-φ: 高效的多模態助理與小型語言模型
- 論文名稱:LLaVA-φ: Efficient Multi-Modal Assistant with Small Language Model
- 機構:IDEA、華東師範大學
- 相關領域:指令微調、多模態
- 論文地址:arxiv.org/pdf/2401.02330
- 代碼:github.com/zhuyiche/llava-phi
- 作者:Yichen Zhu, Minjie Zhu, Ning Liu
- 論文方法:LLaVA-φ是一個高效的多模態助理,利用最近先進的小型語言模型Phi-2的力量,促進多模態對話。 LLaVA-φ標誌著緊湊多模態模型領域的顯著進步。它證明了即使是具有僅2.7B參數的更小的語言模型,只要它們經過高質量的語料庫訓練,就可以有效地參與融合文字和視覺元素的複雜對話。該論文的模型在包括視覺理解、推理和基於知識的感知在內的公開可用基準測試上具有可稱讚的性能。除了在多模態對話任務中表現出色之外,該論文的模型還為在時間敏感環境和需要實時交互的系統(如具身代理)中的應用開闢了新的途徑。它突顯了更小的語言模型在保持更高資源效率的同時實現複雜的理解和交互水平的潛力。
僅使用文本訓練,在零樣本字幕生成中挖掘細粒度的圖像-文本對齊
- 論文名稱:Mining Fine-Grained Image-Text Alignment for Zero-Shot Captioning via Text-Only Training
- 機構:上海科技大學
- 相關領域:多模態
- 論文地址:https://arxiv.org/pdf/2401.02347
- 代碼:https://github.com/Artanic30/MacCap
- 作者:Longtian Qiu, Shan Ning, Xuming He
- 論文方法:該論文通過對CLIP潛在空間的分析,提出了一種通過僅使用文本訓練的零樣本圖像字幕生成框架。通過挖掘圖像子區域的視覺特徵和文本描述中的信息損失,可以減少模態差距,並通過引入噪聲注入和重新排序策略提高字幕生成性能。
僅使用文本監督學習視覺-語言模型的提示學習
- 論文名稱:Learning to Prompt with Text Only Supervision for Vision-Language Models
- 機構:Google、蘇黎世聯邦理工學院
- 相關領域:預訓練、多模態
- 論文地址:https://arxiv.org/pdf/2401.02418
- 代碼:hhttps://github.com/muzairkhattak/ProText
- 作者:Muhammad Uzair Khattak, Muhammad Ferjad Naeem, Muzammal Naseer
- 論文方法:這篇論文通過僅使用文本數據從語言模型中學習提示,結合了視覺信息和大語言模型的優勢。通過這種方法,可以實現對新類別和數據集的零樣本轉移,減少了大語言模型提示工程的成本。
GPT4Video 篇
- GPT4Video
- 論文名稱:GPT4Video: A Unified Multimodal Large Language Model for lnstruction-Followed Understanding and Safety-Aware Generation
- 論文地址:https://arxiv.org/abs/2311.16511
- 論文示例:https://gpt4video.github.io/
- 論文背景:當前的多模態大語言模型(MLLM)已經驗證多模態數據融合的有效性,但沒有工作去探索多模態信息的生成;
- 論文框架:
- 視頻理解模塊。首先通過video feature extractor提取視頻特徵,然後通過video abstractor對齊視頻特徵和LLM;
- 大語言模型。使用LLaMA預訓練的參數,通過LoRA進行微調;
- 視頻生成模塊。將LLM輸出的Prompt輸入到Text-Video模型,得到生成的視頻。
PEFT 系列篇
Prompt
- 論文名稱:Prompt Tuning
- 論文地址:https://arxiv.org/pdf/2107.13586.pdf
- Github 地址:
- 會議:
- 動機:但是對於一個預訓練的大語言模型來說,這就彷佛好像是對於每個任務都進行了定制化,十分不高效。是否存在一種方式,可以將預訓練語言模型作為電源,不同的任務當作電器,僅需要根據不同的電器(任務),選擇不同的插座,對於模型來說,即插入不同的任務特定的參數,就可以使得模型適配該下游任務。
- 論文方法:給預訓練語言模型的一個線索/提示,幫助它可以更好的理解人類的問題。
Instruction
- 論文名稱:Finetuned Language Models Are Zero-Shot Learners
- 論文地址:https://arxiv.org/abs/2109.01652
- Github 地址:https://github.com/google-research/flan
- 會議:
- 動機:PLM 在Few-Shot 上表現一般都很好,但是在Zero-Shot 上就很一般了,一個潛在的原因是模型很難執行和預訓練不一樣格式的prompt。
- 論文方法:通過激發語言模型的理解能力,利用給出更明顯的指令/指示,讓模型去理解並做出正確的action。
self-instruct
- 論文名稱:Self-Instruct: Aligning Language Model with Self Generated Instructions
- 論文地址:https://arxiv.org/abs/2212.10560
- Github 地址:https://github.com/yizhongw/self-instruct
- 會議:
- 動機:在訓練好的LLM上進行“指令調優”具有很好的將Zero-shot設置下的指令理解能力泛化到新任務上的超凡能力。然而,這種方法很大程度上依賴於大型的語言模型以及人工編寫的高指令數據,這需要極大的人力和物力。
- 論文方法:通過在公開的LLM的接口上引導模型自己生成指令來提高LLM的指令跟隨能力。這在LLM時代是一種高效的蒸餾方法,即通過從高質量的預訓練好的LLM上接口獲取有監督的數據,來調優模型,將大模型的知識蒸餾出來,部署到目標模型上。
LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS
- 論文名稱:LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS
- 論文地址:
- Github 地址:https://github.com/microsoft/LoRA
- 會議:
- 動機:
- 增加adapter : 主要問題在於推理時帶來的額外計算量和延遲。
- 優化prompt :前綴微調(Prefix Tuning)較難優化,而且隨著參數量增長性能並非單調變化。
- 論文方法:
- 在原模型旁邊增加一個旁路,通過低秩分解(先降維再升維)來模擬參數的更新量;
- 訓練時,原模型固定,只訓練降維矩陣A和升維矩陣B;
- 推理時,可將BA加到原參數上,不引入額外的推理延遲;
- 初始化,A採用高斯分佈初始化,B初始化為全0,保證訓練開始時旁路為0矩陣;
- 可插拔式的切換任務,當前任務W0+B1A1,將lora部分減掉,換成B2A2,即可實現任務切換;
DyLoRA:使用動態無搜索低秩適應的預訓練模型的參數有效微調
- 論文名稱:DyLoRA: Parameter-Efficient Tuning of Pretrained Models using Dynamic Search-Free Low Rank Adaptation
- 論文地址:https://arxiv.org/pdf/2210.07558v2.pdf
- Github 地址:https://github.com/huawei-noah/KD-NLP/tree/main/DyLoRA
- 會議:
- 動機:LoRA存在的問題:
- rank的值是固定的,訓練完成後不能修改。
- 優化rank的值需要大量的搜索和努力。
- 論文方法:引入了一種動態低秩適應(Dy-LoRA)技術。通過對適配器模塊在訓練期間的不同秩所學到的表示進行排序,為一系列的秩而不是單一的秩訓練LoRA塊。
LOMO:利用有限的資源對大型語言模型進行全參數微調
- 論文名稱:FULL PARAMETER FINE-TUNING FOR LARGE LANGUAGE MODELS WITH LIMITED RESOURCES
- 論文地址:https://arxiv.org/abs/2306.09782
- Github 地址:https://github.com/OpenLMLab/LOMO
- 會議:
- 動機:LoRA存在的問題:
- 大型語言模型(LLMs)已經徹底改變了自然語言處理(NLP),但是訓練LLMs需要大量的GPU資源;
- 雖然現有的方法著重於參數高效微調,即微調或添加少量參數,但很少有人解決了有限資源下調整LLMs的全部參數的挑戰,而全參數微調被認為比參數高效微調更為強大;
- 論文方法:提出了一種新的優化器LOw-Memory Optimization(LOMO),它將梯度計算和參數更新融合在一步中以減少內存使用。通過將LOMO與現有的內存節省技術集成,將內存使用降低到10.8%,與標準方法(DeepSpeed解決方案)相比。因此,該方法使單台機器上的65B模型的全參數微調成為可能,該機器配有8×RTX 3090,每個顯存為24GB。
QLoRA
- 論文名稱:QLoRA: Efficient Finetuning of Quantized LLMs
- 論文地址:hhttps://arxiv.org/pdf/2305.14314.pdf
- Github 地址:https://github.com/artidoro/qlora
- 會議:
- 動機:LoRA微調中存在以下三個痛點:
- 參數空間小:LoRA中參與訓練的參數量較少,解空間較小,效果相比全量微調有一定的差距;
- 微調大模型成本高:對於上百億參數量的模型,LoRA微調的成本還是很高;
- 精度損失:針對第二點,可以採用int8或int4量化,進一步對模型基座的參數進行壓縮。但是又會引發精度損失的問題,降低模型性能。
- 論文方法:
- 4-bit NormalFloat :提出一種理論最優的4-bit的量化數據類型,優於當前普遍使用的FP4與Int4;
- Double Quantization :相比於當前的模型量化方法,更加節省顯存空間。每個參數平均節省0.37bit,對於65B的LLaMA模型,大約能節省3GB顯存空間;
- Paged Optimizers :使用NVIDIA統一內存來避免在處理小批量的長序列時出現的梯度檢查點內存峰值;
- 增加Adapter :4-bit的NormalFloat與Double Quantization,節省了很多空間,但帶來了性能損失,作者通過插入更多adapter來彌補這種性能損失。在LoRA中,一般會選擇在query和value的全連接層處插入adapter。而QLoRA則在所有全連接層處都插入了adapter,增加了訓練參數,彌補精度帶來的性能損失。
VeRA:可調參數比LoRA小10倍的低秩微調方法
- 論文名稱:VeRA:Vector-based Random Matrix Adaptation
- 論文地址:https://arxiv.org/pdf/2310.11454.pdf
- Github 地址:
- 會議:
- 動機:LoRA微調中存在以下三個痛點:
- LoRA:需要大量的可訓練參數。基於Aghajanyan等人的研究,內在維度的上限比這種方法中通常使用的秩要小的多。因此,參數量可以進一步減少。
- AdaLoRA:通過動態分配參數,從而進一步減少了可微調參數。但是,我們認為存在另一種可以顯著減少可訓練參數,且效果不會下降的方法。
- 論文方法:
- 低秩矩陣的重參數化。具體來說,凍結一對隨機初始化的矩陣,這些矩陣在所有適配層之間共享,然後引入可以逐層自適應的可訓練縮放向量。如圖所示,類似於LoRA,訓練的縮放向量和低秩矩陣可以合併至原始權重中,從而消除額外的推理延遲。
僅用少量多語言數據即可進行多語言指令微調
- 論文名稱:Multilingual Instruction Tuning With Just a Pinch of Multilinguality
- 相關領域:指令微調
- 機構:谷歌研究院、特拉維夫大學
- 作者:Uri Shaham, Jonathan Herzig, Roee Aharoni
- 論文地址:https://arxiv.org/pdf/2401.01854
- Github 地址:
- 會議:
- 分析:該論文通過研究多語言指令微調對多語言大語言模型(LLMs)的指令跟隨能力的影響,發現即使在單語微調中,許多語言也能夠將一些指令跟隨能力轉移到其他語言。此外,通過在英語微調集上僅使用40個多語言示例,可以大幅提高多語言指令跟隨的性能,不論在已見或未見的語言上。儘管在這些語言中的訓練示例少10倍,但總體上,與單語微調模型相比,使用多語言混合微調的模型在幾種語言上表現出可比或更優的性能。最後,通過將指令微調集中的語言數量從1增加到2、3或4,可以增加跨語言通用性。實驗結果表明,通過使用極小的多語言指令響應集,可以構建出大規模多語言指令微調的模型。
GPT 系列篇
Table 解析篇
- 小樣本QA問答MINPROMPT
- 論文名稱:MINPROMPT: Graph-based Minimal Prompt Data Augmentation for Few-shot Question Answering
- 論文地址:https://arxiv.org/pdf/2310.05007v1.pdf
- 論文Github地址:
- 會議:
- 動機:llm 讀取表格
- 問題一:缺失值識別
- 問題二:缺失值識別
- 問題三:表格問題解答
- 論文方法:
- 優化策略一:表調優
- 優化策略二:創建數據集:合成增強
RAG 系列篇
RAG Trick篇
Self-RAG:一種通過自我反思實現檢索增強生成的RAG 策略
- 論文名稱:Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection
- 論文地址:https://arxiv.org/abs/2310.11511
- 論文Github地址:
- 會議:
- 動機:
- 檢索文段與query 的不相關性:這些方法不加區別地檢索和合併了一定數量的檢索文段,無論是否需要檢索或文段是否相關,這會降低LLMs的多功能性或導致生成質量不佳(Shi等人,2023),因為它們不加區別地檢索文段,無論事實支持是否有幫助;
- 生成的結果未必與檢索的相關文段一致(Gao等人,2023):因為這些模型沒有明確訓練以利用和遵循所提供文段的事實;
- 論文方法:
- 通過按需檢索和自我反思來提高LLM的生成質量,包括其事實準確性,而不損害其多功能性。
- 論文以端到端方式訓練任意的LLM來學習反思自身的生成過程,通過生成任務輸出和間歇性的特殊token (即反思token)。反思token分為檢索和評論token,分別表示檢索的需求和生成的質量
Active RAG:一種主動判斷需不需要進行檢索,需要時再檢索的RAG 策略
- 論文名稱:Active Retrieval Augmented Generation
- 論文地址:https://arxiv.org/pdf/2305.06983.pdf
- 論文Github地址:https://github.com/jzbjyb/FLARE
- 會議:
- 動機:如果每一個step都去進行檢索顯然是有點冗餘的問題
- 論文方法:
- 方法一:FLARE with Retrieval Instructions
- 方法二:Direct FLARE
MINPROMPT 文檔QA問答
- 論文名稱:MemSum-DQA: Adapting an Efficient Long Document Extractive Summarizer for Document Question Answering
- 論文地址:https://arxiv.org/pdf/2310.06436v1.pdf
- 論文Github地址:https://github.com/nianlonggu/MemSum-DQA
- 會議:CIKM 2023
- 動機:
- 論文方法:論文提出了**「MemSum-DQA,這是一種高效的文檔問答(DQA) 系統」**,它利用了MemSum(一種長文檔提取摘要器),通過在解析文檔中的每個文本塊中添加所提供的問題和問題類型的前綴,MemSum-DQA 有選擇地從文檔中提取文本塊作為答案。
PDFTriage:針對長結構化文檔的問答
- 論文名稱:PDFTriage: Question Answering over Long, Structured Documents
- 論文地址:https://arxiv.org/pdf/2309.08872.pdf
- 論文Github地址:
- 會議:
- 動機:當文檔不適合LLM的有限上下文窗口時,可以部署不同的策略來獲取相關上下文。
- 論文方法:
- 生成文檔元數據:提取文檔的結構元素並將其轉換為可讀的元數據;
- 基於LLM 的分類:查詢LLM 以從文檔中選擇精確的內容(頁面、部分、檢索的內容);
- 使用檢索到的內容進行回答:根據問題和檢索到的內容,生成答案。
RAGTruth: 用於開發可靠的檢索增強語言模型的幻化語料庫
論文名稱:RAGTruth: A Hallucination Corpus for Developing Trustworthy Retrieval-Augmented Language Models
論文地址:https://arxiv.org/pdf/2401.00396
相關領域:模型評估、數據集構建
Github 地址:
會議:
論文方法:本文介紹了RAGTruth,一個專門用於在LLM應用的標準RAG框架中分析各個領域和任務中的單詞級幻象的語料庫。 RAGTruth包括來自不同LLM使用RAG的近18000個自然生成的回复。這些回復經過精細的手動註釋,包括對幻覺強度的評估。該論文不僅對不同LLM的幻覺頻率進行了基準測試,還對幾種現有的幻覺檢測方法的有效性進行了批判性評估。此外,該論文還展示了使用高質量數據集(如RAGTruth),可以對相對較小的LLM進行微調,並在幻覺檢測方面與使用GPT-4等最先進的大語言模型的現有提示式方法實現了具有競爭力的性能水平。
RAG應用領域篇
醫療領域QA問答
宗教領域QA問答
- QASiNa 宗教領域QA問答
- 論文名稱:QASiNa: Religious Domain Question Answering using Sirah Nabawiyah
- 論文地址:https://arxiv.org/pdf/2310.08102v1.pdf
- 動機:隨著大型語言模型(LLM)的發展。 LLM可以應用於各個領域,但應用於伊斯蘭宗教領域時卻與信息傳輸的原則相矛盾。在伊斯蘭教中,嚴格監管信息來源以及誰可以對該來源進行解釋。 LLM根據自己的解釋生成答案的方法類似於tafseer的概念,LLM既不是伊斯蘭專家,也不是伊斯蘭教所不允許的人。鑑於LLM的影響力較高,本文作者「對宗教領域的LLM進行評價」 。
- 論文方法:論文提出了問答Sirah Nabawiyah (QASiNa)數據集,這是一個根據印尼語Sirah Nabawiyah 文獻編譯的新穎數據集,並使用mBERT、XLM-R和IndoBERT驗證該數據集,並使用SQuAD v2.0 的印尼語翻譯進行微調。
常識領域QA問答
- QADYNAMICS 常識QA問答
- 論文名稱:QADYNAMICS: Training Dynamics-Driven Synthetic QA Diagnostic for Zero-Shot Commonsense Question Answering
- 論文地址:https://arxiv.org/pdf/2310.11303v1.pdf
- 論文Github地址:https://github.com/HKUST-KnowComp/QaDynamics
- 動機:Zero-shot常識問答(QA) 要求模型能夠進行一般情況的推理。 最先進的方法一般做法是根據常識知識庫(CSKB) 構建的QA對,並對語言模型進行微調,使其能夠具備更多的常識知識。但在此過程中,QA對構建過程中可能會引入來自CSKB 的噪聲,從而生成不符合預期的語法問答對,這會阻礙模型的泛化能力。
- 論文方法:論文提出了**「QADYNAMICS,一種用於QA診斷和改進的動態驅動框架」**。該方法分析了QA對在問答、選項兩個方面上的訓練動態,通過刪除無信息QA對、錯誤標記、錯誤選項來簡化訓練檢測組件。
法律領域QA問答
- Long-Form Legal Question Answering 法律QA問答
- 論文名稱:Interpretable Long-Form Legal Question Answering with Retrieval-Augmented Large Language Models
- 論文地址:https://arxiv.org/pdf/2309.17050v1.pdf
- 論文Github地址:https://github.com/maastrichtlawtech/lleqa
- 會議:CIKM 2023
- 動機:許多人可能在一生中的某個時刻面臨法律糾紛,但他們缺乏對如何解決這些複雜問題的了解,往往使他們變得脆弱。 自然語言處理的進步為通過開發自動化法律援助系統來彌合法律素養差距開闢了新途徑。 然而,現有的法律問答(LQA)方法往往範圍狹窄,要么局限於特定的法律領域,要么僅限於簡短、無信息的回答。
- 論文方法:論文提出了一種端到端的方法, 「旨在利用“先檢索後閱讀”的管道生成任何成文法問題的長格式答案」 。 為了支持這種方法,引入並發布了長格式法律問答(LLeQA) 數據集,其中包含1,868 個由專家註釋的法語法律問題,以及基於相關法律條款的詳細答案。
知識圖譜領域QA問答
- CHATKBQA: 知識檢索QA問答
- 論文名稱:CHATKBQA: A GENERATE-THEN-RETRIEVE FRAMEWORK FOR KNOWLEDGE BASE QUESTION ANSWERING WITH FINE-TUNED LARGE LANGUAGE MODELS
- 論文地址:https://arxiv.org/pdf/2310.08975v1.pdf
- 論文Github地址:https://github.com/LHRLAB/ChatKBQA
- 會議:
- 動機:
- 知識檢索效率低下;
- 檢索錯誤影響語義解析結果;
- 先前KBQA方法的複雜性。
- 論文方法:論文提出首先使用微調的LLM生成邏輯形式,然後通過無監督檢索方法檢索和替換實體、關係,這直接地改進了生成和檢索。
任務型領域QA問答
- InstructTODS: 知識檢索QA問答
- 論文名稱:InstructTODS: Large Language Models for End-to-End Task-Oriented Dialogue Systems
- 論文地址:https://arxiv.org/pdf/2310.08885v1.pdf
- 論文Github地址:https://github.com/WillyHC22/InstructTODS/
- 會議:
- 動機:當前,大語言模型(LLM)已用於各種自然語言處理(NLP)任務,但對於任務導向的對話系統(TODS),特別是端到端的TODS的探索仍然存在一定的局限性。
- 論文方法:論文提出了「InstructTODS,該框架可用於Zero-Shot端到端任務導向的對話系統,無需微調即可適應不同的領域」。通過利用LLM,InstructTODS生成代理信念狀態(proxy belief state),將用戶意圖無縫轉換為動態查詢,以便與任何知識庫進行高效交互。
汽車領域QA問答
- CarExpert: 汽車檢索增強QA問答
- 論文名稱:CarExpert: Leveraging Large Language Models for In-Car Conversational Question Answering
- 論文地址:https://arxiv.org/pdf/2310.09536v1.pdf
- 論文Github地址:
- 會議:
- 動機:大型語言模型(LLM)通過遵循自然語言指令而無需對特定領域的任務和數據進行微調,表現出了卓越的性能。然而,利用LLM進行特定領域的問題回答往往會產生幻覺。此外,由於缺乏對領域和預期輸出的認識,LLM可能會生成不適合目標領域的錯誤答案。
- 論文方法:論文提出了「CarExpert」,車內檢索增強會話問答系統利用了LLM的不同任務。具體而言,CarExpert採用LLM來控制輸入,為提取和生成回答組件提供特定領域的文檔,並控制輸出以確保安全和特定領域的答案。
Prompt 系列篇
- 小樣本QA問答MINPROMPT
- 論文名稱:MINPROMPT: Graph-based Minimal Prompt Data Augmentation for Few-shot Question Answering
- 論文地址:https://arxiv.org/pdf/2310.05007v1.pdf
- 論文Github地址:
- 會議:
- 動機:小樣本問答(Few-shot QA)旨在少量訓練樣本的情況下,讓模型給出令人滿意的回答。 最新的研究進展主要依賴大型語言模型(LLM)。儘管預訓練階段已經讓LLM具備了強大的推理能力,但LLM仍需要進行微調以適應特定領域,以達到最佳結果。
- 論文方法:論文提出了「MinPrompt」,一個基於近似圖算法和無監督問題生成的開放域QA的最小數據增強框架。 作者將原始文本轉換為圖形結構,以在不同的事實句子之間建立聯繫,然後應用圖形算法來識別原始文本中最多信息所需的最小句子集。然後,根據識別的句子子集生成問答對,並在選定的句子上訓練模型以獲得最終模型。 實證結果表明,MinPrompt 能夠以高效率實現與基線相當或更好的結果。
LMMs 可解釋性篇
LLMs4KG 篇
- ChatKBQA
- 論文名稱:ChatKBQA: A Generate-then-Retrieve Framework for Knowledge Base Question Answering with Fine-tuned Large Language Models
- 論文地址:https://arxiv.org/abs/2310.08975
- Github 地址:https://github.com/LHRLAB/ChatKBQA
- 會議:
- 動機:利用微調開源大模型進行自然語言問題到邏輯形式的轉換,再利用無監督實體關係檢索生成圖數據庫查詢語言,實現自然語言的知識圖譜問答框架。
- 論文方法:提出了ChatKBQA,這是一種基於微調開源LLMs(大型語言模型),如Llama-2-7B,ChatGLM2-6B和Baichuan2-7B等,的新型生成-檢索KBQA框架;
- 首先微調生成邏輯形式,然後對生成的邏輯形式中的實體和關係在知識庫中的實體庫和關係庫分別做檢索,避免了以前方法存在的先檢索對邏輯形式生成的影響,並提高檢索效率;
- 在生成階段,使用指令微調技術對開源LLMs進行微調,賦予它們感知和生成邏輯形式的能力
LLMs Agents 篇
角色扮演(Role-Play)
Attention 篇
- System 2 Attention
- 論文標題:System 2 Attention (is something you might need too)
- 論文鏈接:https://arxiv.org/abs/2311.11829
- Github 地址:
- 動機:大型語言模型(LLM)非常強大,但它們仍容易出現簡單的錯誤,這似乎顯示出弱的推理能力。例如,不相關的上下文或輸入提示中固有的偏好或意見,都可能使它們產生錯誤判斷,在後一種情況下,展現了一種稱為阿諛奉承的問題,即模型與輸入一致同意。
- 論文方法:論文提出了一種技術方案--System 2 Attention(S2A),可以讓LLM決定輸入上下文的重要部分,來生成好的響應。實現這點的方法是:首先誘導LLM重新生成只包含相關部分的輸入上下文,然後關注重新生成的上下文以引出最終響應。
- 論文在實驗中證明,S2A可以成功重寫會降低最終答案質量的上下文,因此論文的方法可以同時提高事實性並減少其響應中的阿諛奉承。
- 未來的研究仍有許多空間。在論文的實驗中,採用了零樣本提示來實現S2A。其他方法可以通過考慮微調、強化學習或替代提示技術(alternative prompting techniques)來進一步優化論文的方法。成功的S2A還可以壓縮回標準LLM生成,例如:通過使用原始提示作為輸入和最終改進的S2A響應作為目標進行微調。
搜索篇
如何通過大模型構建“query-doc”?
解釋:對搜索數據進行數據增強就是獲取更多的“query-doc”對。一種方法是根據query生成假doc,而另一種是根據doc生成假query。
InPars: 基於大型語言模型的信息檢索數據擴充
- 論文名稱: InPars: Data Augmentation for Information Retrieval using Large Language Models
- 論文地址:https://arxiv.org/abs/2202.05144
- 方法:InPairs利用LLM的上下文學習能力,結合給出的示例,給doc生成了大量的假query,然後通過微調後的語言模型進行結果“過濾”。
InPars-v2: 大型語言模型作為信息檢索的有效數據集生成器
- 論文名稱: InPars-v2: Large Language Models as Efficient Dataset Generators for Information Retrieval
- 論文地址:https://arxiv.org/abs/2301.01820
- 方法:在inPairs-V2版本中,一個較大的變化是,其利用在檢索數據集上微調的T5-3B模型來過濾生成的查詢,而不是簡單的通過概率進行過濾,以此來提升生成數據的可靠性。
InPairs-Light:高效排名者的成本效益無監督培訓
- 論文名稱: InPairs-Light:Cost-Effective Unsupervised Training of Efficient Rankers
- 論文地址:https://arxiv.org/abs/2301.02998
- 方法:後續的inPairs-Light版本也對“過濾器”進行了瘦身,參數從30億降至2億。
InPairs-Light:從8個例子看Few-shot Dense Retrieval
- 論文名稱: Promptagator:Few-shot Dense Retrieval From 8 Examples
- 論文地址:https://arxiv.org/abs/2301.02998
- 方法:PROMPTAGATOR 利用inPairs中“生成-過濾”這一過程,在生成的樣本上微調檢索器,然後使用該檢索器過濾生成的樣本。重複這兩個步驟直到收斂,以產生高質量的訓練集。
UDAPDR:基於LLM提示和重排序的無監督域自適應
- 論文名稱: UDAPDR: Unsupervised Domain Adaptation via LLM Prompting and Distillation of Rerankers
- 論文地址:https://arxiv.org/abs/2303.00807
- 動機:在inPairs-V2版本中,研究者意識到請求LLM如chatgpt、gpt4的API進行數據增強會帶來高額的成本,開始採用開源的LLM替換API請求方式,但可能會導致增強數據的質量下降。
- 方法:UDAPDR 針對這一問題,先用高質量LLM根據doc生成高質量query,然後用高質量doc-query送入低成本LLM擴充數量,兼顧了成本和效果問題,其過程如圖所示。
如何通過大模型標註“query-doc” 正負樣例?
通過上述方法雖然能夠構建“query-doc”,但是如何辨別真假呢?這個時候可以利用LLM獲取query與doc的假label,即讓模型幫我判斷這條數據是不是正樣本,是正樣本的概率是多少?
ART:訓練Dense Passage Retriever 所需的全部問題
- 論文名稱: ART:Questions Are All You Need to Train a Dense Passage Retriever
- 論文地址:https://arxiv.org/abs/2206.10658
- 方法:先將query經過向量編碼,然後通過向量檢索器選出相關文檔,再讓模型給每個文檔與query的相關性進行打分。這一打分被作為soft label,反饋給之前的passage encoder和question encoder進行更新訓練。
ExaRanker:Explanation-Augmented Neural Ranker
- 論文名稱: ExaRanker:Explanation-Augmented Neural Ranker
- 論文地址:https://arxiv.org/abs/2206.10658
- 方法:ExaRanker 使用GPT-3.5 為檢索數據集生成解釋,隨後訓練一個seq2seq 排名模型來生成相關標籤以及給定查詢-文檔對的相應解釋。
ChatGPT-RetrievalQA:為交叉編碼器重排器生成合成文檔: ChatGPT 與人類專家的比較研究
- 論文名稱: ChatGPT-RetrievalQA:Generating Synthetic Documents for Cross-Encoder Re-Rankers: A Comparative Study of ChatGPT and Human Experts
- 論文地址:https://arxiv.org/abs/2305.02320
- 方法:我們研究了生成式大型語言模型(llm)在為交叉編碼器重新排序器生成訓練數據方面的有用性,該方向是:生成合成文檔而不是合成查詢。我們引入了一個新的數據集ChatGPT-RetrievalQA,並比較了在llm生成和人工生成數據上微調的模型的有效性。生成式llm生成的數據可用於增強訓練數據,特別是在標記數據數量較少的領域。我們基於一個現有的數據集,人類ChatGPT比較語料庫(HC3)構建ChatGPT- retrievalqa,該數據集由公共問題集合組成,其中包含來自ChatGPT的人類響應和答案。
- 實驗結果:我們在人工生成或chatgpt生成的數據上微調一系列交叉編碼器重新排名。我們對MS MARCO DEV、TREC DL'19和TREC DL'20的評估表明,在ChatGPT響應上訓練的交叉編碼器重新排序模型比在人類響應上訓練的模型更有效。在有監督的環境中,人工訓練的重新排名者的表現優於法學碩士訓練的重新排名者。我們的新發現表明,生成式llm在為神經檢索模型生成訓練數據方面具有很高的潛力。需要進一步的工作來確定在生成的響應中事實錯誤信息的影響,並測試我們的發現在開源法學碩士中的普遍性。我們為將來的工作發布數據、代碼和交叉編碼器檢查點。
如何通過大模型改寫“query-doc”?
讓LLM作為生成模型,根據用戶的query寫一段文本,將其作為改寫結果送入後續的檢索模塊,以提高最終的檢索質量。
如何通過大模型綜合利用PRF(偽相關反饋)+GRF(生成相關反饋)?
以上研究都是利用LLM的生成結果作為改寫結果的主要內容,我們可以將其看作是一種生成相關反饋(GRF),而不少研究也同時在模型生成或結果後處理階段加入偽相關反饋(PRF)的方法來改進改寫結果的質量。
HyDE:無關聯標籤的精確Zero-Shot Dense Retrieval
- 論文名稱: HyDE:Precise Zero-Shot Dense Retrieval without Relevance Labels
- 論文地址:https://arxiv.org/abs/2212.10496
- 動機:LLM幻覺問題
- 方法:HyDE將LLM生成的結果進行編碼,利用向量檢索器,與真實的文檔庫中的候選文檔進行相關性匹配,然後利用真實的文檔作為改寫的結果輔助查詢。可以看出,該方法實質上就是利用LLM的輸出結果而不是query去召回偽文檔。
- 優點:
- 相比傳統的PRF方法,保證了第一次檢索的偽文檔的相關性;
- 相比Query2doc等方法,又通過結合PRF避免了LLM可能產生幻覺的問題,保證了結果的高度真實性。
- 類似地,LameR則是將PRF這一過程放到了LLM輸入之前。
LameR:大型語言模型是強大的零樣本檢索器
- 論文名稱: LameR:Large Language Models are Strong Zero-Shot Retriever
- 論文地址:https://arxiv.org/abs/2304.14233
- 動機:LLM幻覺問題
- 方法:
- 優點:
Rewrite-Retrieve-Read:針對檢索增強的大型語言模型的查詢重寫
- 論文名稱: Rewrite-Retrieve-Read:Query Rewriting for Retrieval-Augmented Large Language Models
- 論文地址:https://arxiv.org/abs/2305.14283
- 動機:LLM幻覺問題
- 方法:Rewrite-Retrieve-Read這一研究則是利用改寫去加強檢索增強LLM的效果。 Rewrite-Retrieve-Read圖中從左到右分別是:檢索增強LLM、帶有改寫器的檢索增強LLM、帶有強化學習改寫器的檢索增強LLM。其中Rewrite-Retrieve-Read指的是第三個。可以看出,Rewrite-Retrieve-Read方法不僅利用LLM作為改寫器增加了其檢索增強的效果,還引入了強化學習,通過最終答案的反饋,來訓練高質量LLM改寫器。
- 優點:
PRF+GRF:稀疏、稠密和學習稀疏檢索的生成和偽相關反饋
- 論文名稱: PRF+GRF:Generative and Pseudo-Relevant Feedback for Sparse, Dense and Learned Sparse Retrieval
- 論文地址:https://arxiv.org/abs/2305.07477
- 動機:LLM幻覺問題
- 方法:PRF+GRF直接結合PRF和LLM輸出的結果,然後綜合加權考慮兩者的結果作為改寫結果。
- 優點:
InteR:通過搜索引擎和大型語言模型之間的交互進行知識提煉
- 論文名稱: InteR:Knowledge Refinement via Interaction Between Search Engines and Large Language Models
- 論文地址:https://www.researchgate.net/publication/370763983_Knowledge_Refinement_via_Interaction_Between_Search_Engines_and_Large_Language_Models
- 動機:LLM幻覺問題
- 方法:InteR則是一種搜索系統和LLM多輪交互框架,通過多次PRF、LLM輸出,達到增强两過程效果的目的。
- 優點:
如何通過大模型進行召排?
何為召回?
召回(retrive)是搜索系統中的核心模塊,可分為基於統計算法的稀疏檢索(Sparse Retriever)和基於神經網絡的密集檢索(Dense Retriever)。
召回存在哪些問題?
- query短且模糊
- doc長且噪聲多
- 監督數據標註成本高
- PLM模型仍存在改進空間
如何基於encoder的LLM檢索器?
基於encoder的檢索器指的是在密集檢索中,使用LLM出色的語義能力獲取query或doc的向量表示,用向量檢索器進行檢索召回。
如何基於生成式的LLM檢索器?
上面的研究都旨在利用LLM的強大語義編碼能力對query、doc等內容進行編碼。但在LLM嶄露頭角之前,就有不少研究致力於構建end2end式的檢索模型,成為生成式檢索器(Generative Retriever)。相比先編碼再檢索,生成式方法通過聯合編碼器和解碼器,直接獲取要檢索的文檔標識符
如何通過大模型進行排序?
微調LLM進行相似度計算
在gpt3等超大型參數模型出現之前,不少研究都利用PLM,將排序任務看作相似度計算任務來獲得每個query和doc的相似度得分。 RankT5就是這樣一種模型,他基於T5直接計算查詢-文檔對的相關分數,並使用pairwise或listwise計算排名損失進行微調。
- RankT5: 用於具有排名損失的文本排名的微調T5
- 論文名稱: RankT5:Fine-Tuning T5 for Text Ranking with Ranking Losses
- 論文地址:https://arxiv.org/abs/2202.06991
- 動機:
- 方法:RankT5有兩種得分計算方法,一種是encoder-decoder結構,另一種則是不需要解碼直接根據encoder編碼得到排序分數。
- 作者實驗證明,兩種結構效果上各有勝負,這也側面表明decoder作用其實不大,蒸餾等操作可以直接對encoder下手。類似的研究還有很多,只是把backbone換為BERT、BART、GPT等即可。
提示LLM
對超大規模LLM進行微調存在成本昂貴的明顯問題,不少研究選擇利用LLM的提示能力得到query與doc是否相似的答案。
UPR:利用零樣本問題生成改進文章檢索
- 論文名稱: UPR:Improving Passage Retrieval with Zero-Shot Question Generation
- 論文地址:https://aclanthology.org/2022.emnlp-main.249/
- 會議:ACL2022
- 動機:排序的實質是進行query和doc間的相似度計算,這一分數也可以看作是根據query獲得doc的概率。
- 方法:UPR利用這一過程的逆向思路,利用prompt提示LLM,針對每一個doc,逐一計算query中各個token的生成概率,並將這一概率作為query和doc的相似度分數。簡單理解,就是用LLM根據prompt對每個doc生成對應的query,稱為假query。然後將生成後的假query和原query送入語言模型進行打分,計算兩者的一個“相似度”。這裡的相似度並不是我們熟知的向量相似度,而是“假query復原原query”的概率,其過程如上面公式所示。最後,對這個得分進行排序以獲取最終的排序結果。
RankGTP:ChatGPT擅長搜索嗎?作為重新排序代理的大型語言模型研究
- 論文名稱: RankGTP:Is ChatGPT Good at Search? Investigating Large Language Models as Re-Ranking Agent
- 論文地址:https://aclanthology.org/2023.emnlp-main.923/
- 會議:EMNLP2023
- 動機:
- 方法:RankGPT和LLR都採用類似list-wise的方式來獲取LLM的排序結果。相比point-wise,list-wise的場景下LLM能夠關注到更多的doc信息,直接輸出文檔id的排序結果,且不需要打分模型的參與。為了解決list-wise場景下輸入的doc過長的問題,RankGPT採用了滑動窗口的方法,指定k大小的窗口來獲取最終top-k的排序結果。
LLR:基於大型語言模型的零射擊列表式文檔重排序
- 論文名稱: LLR:Zero-Shot Listwise Document Reranking with a Large Language Model
- 論文地址:https://aclanthology.org/2023.emnlp-main.923/
- 會議:ACL2023
- 動機:
- 方法:
PRP:大型語言模型是具有成對排序提示的有效文本排序器
- 論文名稱: PRP:Large Language Models are Effective Text Rankers with Pairwise Ranking Prompting
- 論文地址:https://arxiv.org/pdf/2306.17563.pdf
- 會議:
- 動機:
- 方法:PRP的作者認為相比其他兩種方式,LLM的對比理解能力更強。而且pairwise的方式既支持生成式模型,又支持打分模型,且因為要比較兩個對象,可選擇的排序算法較多,如堆排序、冒泡排序、快速排序等,整體方式方法較為靈活。
Co-Prompt:通過約束生成的離散提示優化零樣本重隨機
- 論文名稱: Co-Prompt:Discrete Prompt Optimization via Constrained Generation for Zero-shot Re-ranker
- 論文地址:https://aclanthology.org/2023.findings-acl.61.pdf
- 會議:ACL2023
- 動機:
- 方法:Co-prompt方法將soft prompt條件生成技術應用至point-wise的LLM排序任務,將PLM作為生成器生成soft prompt,然後通過LLM作為鑑別器鑑別,來條件生成最優的prompt。這一方法可以同樣被應用於其他提示LLM的任務中,有效提升LLM的提示效果。
CoT 篇
- 如何提升LLMs:Self-Prompted CoT
- 論文名稱:Self-prompted Chain-of-Thought on Large Language Models for Open-domain Multi-hop Reasoning
- 論文地址:https://arxiv.org/pdf/2310.13552.pdf
- 動機:
- 開放域多跳推理(ODMR) 局限性:ODMR需要通過明確的推理步驟回答多跳問題,而不依賴於任何提供的上下文。這比有上下文的多跳問答要困難得多,因為模型不能依賴於檢索相關段落;
- 鍊式思考(CoT) 局限性:
- 論文框架:提出了一種自我提示的思維鏈(SP-CoT)自動化框架,通過大型語言模型(LLMs)自身生成高質量多樣化的思維鏈,用於開放域多輪推理(ODMR)。關鍵思想是:
- 自動化流水線生成帶有多跳問題和推理鏈的ODMR數據集
- 自適應採樣選擇多樣化的高質量CoTs作為示範
- 通過上下文學習從生成的CoTs中學習自我引導的推理
微調數據工程篇
EMNLP'23大模型時代的數據標註——FreeAL
- 論文名稱:FreeAL: Towards Human-Free Active Learning in the Era of Large Language Models[J].
- 論文地址: https://arxiv.org/pdf/2311.15614
- 思路:
- 數據標註依然重要,完全監督、弱監督的小模型在很多場景下比(未精調)大模型強;
- 利用LLM進行標註是完全可行的,小模型可以協同進行過濾、精煉大模型的標籤;
- 弱監督學習、主動學習這兩個領域,我想依然有活著的價值。
From Quantity to Quality:如何挑選具有增強LLM指令調優潛力的數據樣例?
- 論文名稱:From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning
- 論文地址:https://arxiv.org/pdf/2308.12032.pdf
- GitHub 地址:https://github.com/MingLiiii/Cherry_LLM
- 動機:如何挑選具有增強LLM指令調優潛力的數據樣例?
- 思路:
- Learning from Brief Experience:選取有代表性的訓練數據訓練LLaMA;
- Evaluating Based on Experience:利用訓練好模型計算原始數據中所有IFD指標;
- Retraining from Self-Guided Experience:批量跑得到每個樣本的IFD得分,然後選取較高得分(prompt困難樣本)的樣本,paper中稱為cherry samples,用其重新訓練模型。
Active Instruction Tuning:怎麼更好的選擇一個新任務來提高模型泛化性?
- 論文名稱:Active Instruction Tuning: Improving Cross-Task Generalization by Training on Prompt Sensitive Tasks
- 論文地址:https://arxiv.org/pdf/2311.00288.pdf
- GitHub 地址:
- 動機:如何篩選出適合當前給定這個LLM的高質量數據,也就是說高質量是和模型深度綁定的。
- 提出了一個Prompt Uncertainty 思路:假設有一個原始樣本對<prompt, response>,然後對prompt做一些擾動得到promot_v1,其中promot_v1還是要保留大部分prompt語義,然後將prompt和promot_v1分別傳給模型,分別拿到response的輸出,計算得到兩者之間的likelihood值,該值即為Prompt Uncertainty。
MoDS: 如何自動篩選高質量數據?
- 論文名稱:MoDS: Model-oriented Data Selection for Instruction Tuning
- 論文地址:https://arxiv.org/pdf/2311.15653.pdf
- GitHub 地址:https://github.com/CASIA-LM/MoDS
- 動機:如何篩選出適合當前給定這個LLM的高質量數據,也就是說高質量是和模型深度綁定的。
- “高質量”數據的標準是什麼?
- 質量:高質量的prompt以及對應的高質量response可以很好的讓模型學會遵循指令;
- 覆蓋率: prompt的多樣性,越多樣性越好;
- 必要性:同一條prompt對不同基座模型的重要度和必要性是不一樣的,如果一條prompt對於基座來說已經很好的輸出response了,也就是說模型已經很好的遵循prompt了,不需要再訓練了,相反則是模型需要的。
- “高質量”數據的如何篩選?
- Quality Evaluation:基於模型打分篩選出高質量的SFT數據;
- Diverse Data Selection for Seed Instrucitons:在這份高質量SFT數據集中繼續過濾出一個子集,該子集的多樣性要足夠好,能表徵整個數據集;
- Augmented Data Selection
符堯:別卷大模型訓練了,來卷數據吧!
- 論文名稱:An Initial Exploration of Theoretical Support for Language Model Data Engineering
- 論文地址:https://yaofu.notion.site/An-Initial-Exploration-of-Theoretical-Support-for-Language-Model-Data-Engineering-Part-1-Pretraini-dc480d9bf7ff4659afd8c9fb738086eb
大模型對代碼的記憶痕跡
- 論文名稱:Traces of Memorisation in Large Language Models for Code
- 論文地址:https://arxiv.org/pdf/2312.11658
- Github 地址:
- 會議:
- 論文方法:該論文主要研究了大語言模型對代碼的記憶問題,並比較了代碼模型和自然語言模型的記憶率。研究人員構建了自然語言的基準測試集,並通過識別易受攻擊的樣本構建了代碼的基準測試集。他們對多種模型運行了這兩個測試集,並進行了數據提取攻擊。研究發現,大語言模型對代碼也存在數據提取攻擊的風險。從可提取的訓練數據中,他們成功提取了CodeGen-Mono-16B代碼補全模型中的47%數據。研究還發現,隨著參數數量的增加,模型記憶的內容也增加,並且模型的預訓練數據也容易受到攻擊。數據承載者的記憶率高於普通代碼或文檔,並且不同的模型架構記憶不同的樣本。數據洩露具有嚴重後果,因此該論文敦促研究界採用更廣泛的模型和提取技術來進一步調查這一現象,以建立相應的保護措施。
避免語言模型評估中的數據污染:動態測試構建與最新材料
- 論文名稱:Avoiding Data Contamination in Language Model Evaluation: Dynamic Test Construction with Latest Materials
- 論文地址:https://arxiv.org/pdf/2312.12343
- Github 地址:
- 會議:
- 論文方法:這篇論文提出了最新評估方法(LatestEval),利用最新的文本創建無污染的閱讀理解評估,避免數據污染帶來的挑戰。最新評估通過僅使用最近時間窗口內發布的文本來避免數據污染,並確保不與預訓練語言模型的訓練語料庫重疊。論文開發了一套LatestEval自動化流程,包括:1)收集最新文本;2)識別關鍵信息;3)構建問題,同時從上下文中刪除現有答案,鼓勵模型基於剩餘上下文推斷答案而不是簡單複制粘貼。
- 實驗結果表明,相對於先前的基準測試,語言模型在最新評估上幾乎不表現出記憶行為,這表明了數據污染的風險大大降低,從而導致更可靠的評估。
GeomVerse: 對幾何推理的大型模型的系統評估
- 論文名稱:GeomVerse: A Systematic Evaluation of Large Models for Geometric Reasoning
- 機構:谷歌研究院、Google DeepMind
- 論文地址:https://arxiv.org/pdf/2312.12241
- Github 地址:
- 會議:
- 論文方法:這篇論文通過幾何問題的視角評估了視覺語言模型(VLMs)在多個方面上的推理能力。
- 通過在多個深度級別上構建該論文的基準測試,實驗結果表明,與以前的基準測試所示的推理能力相比,這些模型在幾何學(以及一般情況下需要類似推理的其他主題)方面的能力並不如人們所想的那麼強大。這在解決更高深度問題時尤為明顯,因為解決更高深度的問題需要較長的推理鏈而不是額外的記憶知識。該論文在該領域的進一步研究中發布了數據集。
僅用1%的數據完胜全量數據微調模型!
論文名稱:One Shot Learning as Instruction Data Prospector for Large Language Models
機構:
作者:Li, Yunshui and Hui, Binyuan and Xia, Xiaobo and Yang, Jiaxi and Yang, Min and Zhang, Lei and Si, Shuzheng and Liu, Junhao and Liu, Tongliang and Huang, Fei and others
論文地址:arxiv.org/pdf/2312.10302.pdf
相關領域:訓練數據構建
Github 地址:https://github.com/pldlgb/nuggets
會議:
論文方法:僅用1%的數據完胜全量數據微調模型!#不懂就問有問必答論文中提出了一種名為Nuggets”的方法,意欲從堆積如山的指令微調數據中挖掘出黃金數據。這種方法利用大語言模型(LLM)自身作為數據探索工具,通過One shot learning 或者說是Incontext learning,從龐大的指令數據集中挑選出有益的數據。直觀來說,如果某個指令對於某個特定任務的少樣本學習(Few shot learning)有幫助,那麼這個指令就值得被用於訓練。如果這個指令能對多個任務有益,那麼它就應該成為主要的數據重點另外,有研究顯示,In context learning通過提示(Demonstrations)來隱式微調模型,相當於語言模型在幕後以元優化器的角色進行梯度下降操作。因此,利用在In context learning下的性能來預測指令微調的效果是很有前景的。
高效大模型推理篇
有限內存下的高效大模型推理
- 論文名稱:LLM in a flash: Efficient Large Language Model Inference with Limited Memory
- 論文地址:https://arxiv.org/pdf/2312.11514
- Github 地址:
- 會議:
- 論文方法:這篇論文主要解決的問題是如何在有限的內存容量下高效地運行超出DRAM容量的大語言模型。通過將模型參數存儲在閃存上,並根據閃存內存行為按需將其帶入DRAM來解決這一挑戰。論文通過構建一個與閃存內存行為相協調的推理成本模型,指導該論文在兩個關鍵領域進行優化:減少從閃存傳輸的數據量和以更大、更連續的塊讀取數據。論文介紹了兩種主要技術:窗口化策略降低數據傳輸量,行-列捆綁增加從閃存讀取的數據塊大小。這些方法使得模型可以在可用DRAM容量的兩倍大小下運行,並且與CPU和GPU中的簡單加載方法相比,推理速度分別增加了4-5倍和20-25倍。該論文的稀疏意識、上下文適應加載和麵向硬件的設計為在內存有限的設備上高效推理大語言模型鋪平了道路。
ComplexityNet: 通過學習任務複雜度來提高LLM推理效率
- 論文名稱:ComplexityNet: Increasing LLM Inference Efficiency by Learning Task Complexity
- 論文地址:https://arxiv.org/pdf/2312.11511
- Github 地址:
- 會議:
- 論文方法:這篇論文主要介紹了ComplexityNet,這是一個專門用於評估任務複雜度的精簡語言模型。該模型預測了不同能力的各種語言模型的輸出準確性的可能性。作者的初步應用是在Mostly Basic Python Problems (MBPP)數據集上。他們首次創建了一組標籤來定義任務複雜度。 ComplexityNet在確定任務複雜度方面取得了顯著的79%準確率,相比於原始模型的34%準確率有了顯著改進。此外,與使用最高複雜度模型相比,ComplexityNet可以有效地減少90%的計算資源使用量,同時保持高達86.7%的代碼生成準確率。這項研究表明,通過微調較小的模型來對任務進行分類,可以在使用大型語言模型時在準確性和效率之間取得更平衡的權衡。該論文的發現為優化LLM應用指明了一個有前景的方向,尤其是在資源受限的環境下。
超越Chinchilla-Optimal: 在語言模型縮放定律中考慮推理
- 論文名稱:Beyond Chinchilla-Optimal: Accounting for Inference in Language Model Scaling Laws
- 論文地址:https://arxiv.org/pdf/2401.00448
- 相關領域:模型結構改進
- Github 地址:
- 會議:
- 論文方法:本論文修改了Chinchilla縮放定律,計算了訓練和部署具有給定推理需求和質量的語言模型所需的最佳參數數量和預訓練數據大小。研究發現,對於預計存在相當大推理需求(約10億次請求)的語言模型研究者來說,應該訓練比Chinchilla-optimal更小更長的模型。
Understanding LLMs:從訓練到推理的全面概述
- 論文名稱:Understanding LLMs: A Comprehensive Overview from Training to Inference
- 論文地址:https://arxiv.org/pdf/2401.02038
- 相關領域:模型結構改進、預訓練
- 作者:Yiheng Liu, Hao He, Tianle Han
- Github 地址:
- 會議:
- 論文方法:這篇論文討論了大語言模型(LLMs)的訓練技術和推理部署技術的演變,並探討了低成本訓練和部署LLMs在未來的發展趨勢。訓練方面的討論包括數據預處理、訓練架構、預訓練任務、並行訓練以及與模型微調相關的內容。在推理方面,論文還涵蓋了模型壓縮、並行計算、內存調度和結構優化等主題。它還探討了LLMs的應用,並對它們的未來發展提供了見解。
大模型評估篇
大模型預訓練篇
TeleChat:一個包含30億、70億和120億參數的大型語言模型集合
- 論文名稱:TeleChat Technical Report
- 機構:
- 作者:Zihan Wang, Xinzhang Liu, Shixuan Liu
- 論文地址:arxiv.org/pdf/2401.03804
- 相關領域:模型結構改進、預訓練、指令微調、模型評估
- Github 地址:
- 會議:
- 論文方法:TeleChat是一個包含30億、70億和120億參數的大型語言模型集合。它包括預訓練的語言模型和與人類偏好一致的fine-tuned聊天模型。 TeleChat首先在包含英文和中文的各種文本的廣泛語料庫上進行預訓練,包括數万億個標記。隨後,模型通過細調以與人類偏好一致,遵循該論文描述的詳細方法。該論文對TeleChat在語言理解、數學、推理、代碼生成和基於知識的問答等各種任務中的性能進行評估。
- 實驗結果:TeleChat在廣泛的公共基準測試中達到了與其他相似規模的開源模型相當的性能。為了支持未來利用LLMs的研究和應用,該論文向公眾社區發布了TeleChat 7B和12B變種的fine-tuned模型檢查點,以及代碼和部分預訓練數據。
大模型並不是你所需要的全部
- 論文名稱:Large Language Models aren't all that you need
- 機構:印度理工學院
- 作者:Kiran Voderhobli Holla, Chaithanya Kumar, Aryan Singh
- 論文地址:arxiv.org/pdf/2401.00698
- 相關領域:模型結構改進、預訓練
- Github 地址:
- 會議:
- 論文方法:這篇論文主要探討了在解決SemEval 2023任務2:多語種複雜命名實體識別方面的架構和系統。作者評估了兩種方法,一種是傳統的CRF模型,另一種是經過定制頭部微調的大型語言模型(LLM),並進行了比較。論文探索了一些新穎的想法,包括:1)衰減輔助損失(具有殘差)- 在模型上訓練粗粒度命名實體識別的輔助任務,並將該任務作為損失函數的一部分;2)三元標記混合- 在最終的命名實體識別層中,探索了混合相鄰標記嵌入的方法;3)任務優化頭部- 探索了各種定制頭部和學習率用於LLM的最終層。作者還嘗試了多個LLM,包括GPT-3,並在最終模型上進行了多種dropout和超參數設置的實驗,最終在測試數據上獲得了0.67/0.61的micro & macro f1分數。研究結果表明,儘管預訓練的LLM相比傳統模型帶來了很大的性能提升,但通過上述額外的特徵/損失/模型工程技術對宏觀F1分數的改進是可行的。
TinyLlama: 一個開源的小型語言模型
- 論文名稱:TinyLlama: An Open-Source Small Language Model
- 機構:
- 作者:Peiyuan Zhang, Guangtao Zeng, Tianduo Wang
- 論文地址:arxiv.org/pdf/2401.02385
- 相關領域:模型結構改進、預訓練
- Github 地址:github.com/jzhang38/TinyLlama
- 會議:
- 論文方法:TinyLlama是一個在大約3個時期內在大約1萬億個標記上預訓練的緊湊1.1B語言模型。 TinyLlama建立在Llama 2的架構和分詞器之上,利用了開源社區貢獻的各種進展(例如FlashAttention),實現了更好的計算效率。儘管規模相對較小,但TinyLlama在一系列下游任務中展現了顯著的性能。它明顯優於具有相似規模的現有開源語言模型。該論文的模型檢查點和代碼公開在GitHub上,網址為https://github.com/jzhang38/TinyLlama。
LLM增強LLM:通過組合擴展能力
- 論文名稱:LLM Augmented LLMs: Expanding Capabilities through Composition
- 機構:谷歌研究院、Google DeepMind
- 作者:Rachit Bansal, Bidisha Samanta, Siddharth Dalmia
- 論文地址:arxiv.org/pdf/2401.02412
- 相關領域:模型結構改進、預訓練
- Github 地址:
- 會議:
- 論文方法:這篇論文主要探討了在大語言模型的基礎上如何通過組合來增強模型能力的問題。通過引入交叉注意力機制,將現有的模型與具有特定任務的模型進行組合,從而實現新的能力。作者提出的CALM方法在多個領域和設置下都適用,並通過將PaLM2-S與在低資源語言上訓練的較小模型進行組合,在翻譯和算術推理等任務上取得了顯著的改進。
LLaMA Pro: 帶有塊擴展的漸進式LLaMA
- 論文名稱:LLaMA Pro: Progressive LLaMA with Block Expansion
- 機構:香港大學、上海交通大學、Tencent PCG實驗室
- 作者:Chengyue Wu, Yukang Gan, Yixiao Ge
- 論文地址:arxiv.org/pdf/2401.02415
- 相關領域:模型結構改進、預訓練
- Github 地址:
- 會議:
- 論文方法:這篇論文介紹了一種新的後預訓練方法,通過擴展Transformer模塊,僅使用新語料庫進行調整,有效提升模型的知識,避免災難性遺忘。研究者在代碼和數學語料庫上進行實驗,得到了LLaMA Pro-8.3B模型,該模型基於LLaMA2-7B模型初始,在通用任務、編程和數學方面有出色表現。 LLaMA Pro及其指令遵循對應模型(LLaMA Pro-Instruct)在各項基準測試中取得了先進的性能,證明其在LLaMA系列和各種任務中具有卓越的優勢和推理能力。該研究為融合自然語言和編程語言提供了有價值的洞見,為在不同環境中有效運行的先進語言模型的開發奠定了堅實的基礎。
無需註釋的病理定位的通用視覺語言預訓練
- 論文名稱:Generalizable vision-language pre-training for annotation-free pathology localization
- 機構:香港大學、鵬城實驗室、中國科學院大學
- 作者:Hao Yang, Hong-Yu Zhou, Cheng Li
- 論文地址:arxiv.org/pdf/2401.02044
- 相關領域:預訓練
- Github 地址:
- 會議:
- 論文方法:該論文介紹了一種針對無需註釋的病理定位的通用視覺語言預訓練模型。該模型的核心優勢在於其基於圖像註釋無關的多級語義結構對比學習,將醫學報告中的多粒度醫學概念與豐富的圖像特徵全面對齊,以適應觀察到的和新出現的未知病理的多樣表達。實驗證明,該模型在4個不同的外部數據集上驗證了其泛化能力,在定位5種不同病理方面優於6種最先進的方法,甚至超過人類基準,表明其適用於復雜的臨床環境。
ChartAssistant: 通過圖表到表格預訓練和多任務指令微調的通用圖表多模態語言模型
- 論文名稱:ChartAssisstant: A Universal Chart Multimodal Language Model via Chart-to-Table Pre-training and Multitask Instruction Tuning
- 機構:香港大學、南京大學、上海交通大學
- 作者:Fanqing Meng, Wenqi Shao, Quanfeng Lu
- 論文地址:https://arxiv.org/pdf/2401.02384
- 相關領域:預訓練、指令微調
- Github 地址:https://github.com/OpenGVLab/ChartAst
- 會議:
- 論文方法:這篇論文提出了ChartAssistant,這是一個基於圖表的圖像語言模型,旨在實現圖表理解和推理的通用性。 ChartAssistant通過圖表到表格解析的預訓練和多任務指令遵循的微調,解決了通用多模態模型在泛化和任務特定微調方面的挑戰。實驗結果顯示,與最先進的UniChart方法相比,ChartAssistant在各種圖表任務上取得了顯著的性能提升,並在實際圖表數據上優於OpenAI的GPT-4V(ision)。這篇論文的內容主要是介紹了ChartAssistant的設計與訓練方法,並展示了其在圖表任務上的性能優勢。
DIALIGHT: 利用大模型輕量級開發和評估任務導向對話系統
- 論文名稱:DIALIGHT: Lightweight Multilingual Development and Evaluation of Task-Oriented Dialogue Systems with Large Language Models
- 機構:劍橋大學
- 作者:Fanqing Meng, Wenqi Shao, Quanfeng Lu
- 論文地址:https://arxiv.org/pdf/2401.02208
- 相關領域:模型結構改進、預訓練
- Github 地址:https://github.com/OpenGVLab/ChartAst
- 會議:
- 論文方法:
機器人篇
- Mobile ALOHA:低成本全身遠程操作學習雙手機器人移動操作
- 論文名稱:Mobile ALOHA: Learning Bimanual Mobile Manipulation with Low-Cost Whole-Body Teleoperation
- 機構:斯坦福大學
- 作者:Zipeng Fu, Tony Z. Zhao, Chelsea Finn
- 論文地址:https://arxiv.org/pdf/2401.02117
- 相關領域:模型結構改進、預訓練
- Github 地址:
- 會議:
- 論文方法:本論文介紹了一種學習移動操作任務的系統,該任務需要雙手協作和全身控制。使用Mobile ALOHA系統進行數據採集,通過與現有的靜態ALOHA數據集聯合訓練,進行監督式行為克隆,提高了移動操作任務的性能,使得Mobile ALOHA能夠自主完成複雜的移動操作任務。通過擴展了移動底盤和全身遠程操作界面的ALOHA系統,Mobile ALOHA實現了低成本的整體身體遠程操作系統。本論文解決了傳統機器人學習中關注的桌面操作的局限性,使得機器人具備了移動和靈活性,可以完成更廣泛實用的任務。
強化學習篇
數字人
- 從音頻到逼真的人體化:合成對話中的人類
- 論文名稱:From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations
- 機構:
- 作者:
- 論文地址:https://arxiv.org/pdf/2401.01885
- 相關領域:
- Github 地址:
- 會議:
- 論文方法:該論文提出了一個生成全身逼真的頭像的框架,根據雙方互動的對話動態進行手勢生成。通過語音音頻輸入,該論文可以輸出個體的多種手勢動作,包括面部、身體和手部的動作。該論文的方法將向量量化的樣本多樣性與擴散獲得的高頻細節相結合,生成更具動態和表現力的動作。該論文使用高度逼真的人體化頭像可視化生成的動作,可以表達手勢中的重要細微之處(例如冷笑和嘲笑)。為了促進這一研究領域的發展,該論文推出了一種首個多視角對話數據集,可用於逼真重構。實驗結果顯示,該論文的模型生成適當且多樣的手勢,優於擴散和向量量化單獨的方法。此外,該論文的感知評估凸顯了光真度(與網格相比)在準確評估對話手勢中細微動作細節方面的重要性。代碼和數據集可在網上獲得。
Long LLM 篇
MoE 篇
- Mixtral 8x7B: 稀疏專家混合語言模型
- 標題:Mixtral of Experts
- 相關領域:模型結構改進、指令微調
- 機構:
- 作者:Albert Q. Jiang, Alexandre Sablayrolles, Antoine Roux
- 發表時間:2023.09.23
- 論文地址:arxiv.org/pdf/2401.04088
- 相關領域:Transformers
- Github 地址:
- 會議:
- 論文方法:這篇論文介紹了Mixtral 8x7B,一種稀疏專家混合語言模型(SMoE)。 Mixtral具有與Mistral 7B相同的架構,不同之處在於每個層由8個前饋塊(即專家)組成。對於每個令牌,在每個層中,路由網絡選擇兩個專家來處理當前狀態並將其輸出進行組合。儘管每個令牌只能看到兩個專家,但所選擇的專家在每個時間步驟可以不同。結果是,每個令牌可以訪問470億個參數,但在推理過程中只使用130億個活躍參數。 Mixtral使用32k令牌的上下文尺寸進行訓練,並且在所有評估基準中勝過或與Llama 2 70B和GPT-3.5相匹配。特別是,在數學、代碼生成和多語言基準測試中,Mixtral遠遠優於Llama 2 70B。該論文還提供了一個fine-tuned的模型,Mixtral 8x7B - Instruct,在人類基準測試中超過了GPT-3.5 Turbo、Claude-2.1、Gemini Pro和Llama 2 70B - chat模型。基礎模型和指令模型都是在Apache 2.0許可下發布的。
mini LLMs 篇
參考
- 文檔領域多模態大模型整理https://zhuanlan.zhihu.com/p/673470907