llms_paper下載llms_paper源代碼下載

LLMs 論文研讀社

作者：楊夕
介紹：該倉庫主要記錄LLMs 算法工程師相關的頂會論文研讀筆記（多模態、PEFT、小樣本QA問答、RAG、LMMs可解釋性、Agents、CoT）
LLMs 九層妖塔地址：https://github.com/km1994/LLMsNineStoryDemonTower
LLMs 千面郎君地址：https://github.com/km1994/LLMs_interview_notes
LLMs 論文學習筆記：https://gitee.com/km601/llms_paper
NLP 百面百搭地址：https://github.com/km1994/NLP-Interview-Notes
NLP論文學習筆記：https://github.com/km1994/nlp_paper_study
推薦系統百面百搭地址：https://github.com/km1994/RES-Interview-Notes
推薦系統論文學習筆記：https://github.com/km1994/RS_paper_study
搜索引擎百面百搭地址：https://github.com/km1994/search-engine-Interview-Notes 【編寫ing】
GCN 論文學習筆記：https://github.com/km1994/GCN_study
推廣蒐軍火庫：https://github.com/km1994/recommendation_advertisement_search

手機版筆記，可以關注公眾號【關於NLP那些你不知道的事】獲取，並加入【NLP && 推薦學習群】一起學習！！！

LLMs 千面郎君面試交流群(注：人滿可添加小編wx：yzyykm666 加群！)

LLMs 論文研讀社
- 多模態篇
  - GPT4Video 篇
- PEFT 系列篇
- GPT 系列篇
  - Table 解析篇
- RAG 系列篇
  - RAG Trick篇
  - RAG應用領域篇
    - 醫療領域QA問答
    - 宗教領域QA問答
    - 常識領域QA問答
    - 法律領域QA問答
    - 知識圖譜領域QA問答
    - 任務型領域QA問答
    - 汽車領域QA問答
- Prompt 系列篇
- LMMs 可解釋性篇
- LLMs4KG 篇
- LLMs Agents 篇
  - 角色扮演(Role-Play)
- Attention 篇
- 搜索篇
  - 如何通過大模型構建“query-doc”？
  - 如何通過大模型標註“query-doc” 正負樣例？
  - 如何通過大模型改寫“query-doc”？
  - 如何通過大模型綜合利用PRF（偽相關反饋）+GRF（生成相關反饋）？
  - 如何通過大模型進行召排？
    - 何為召回？
    - 召回存在哪些問題？
    - 如何基於encoder的LLM檢索器？
    - 如何基於生成式的LLM檢索器？
  - 如何通過大模型進行排序？
    - 微調LLM進行相似度計算
    - 提示LLM
- CoT 篇
- 微調數據工程篇
- 高效大模型推理篇
- 大模型評估篇
- 大模型預訓練篇
- 機器人篇
- 強化學習篇
- 數字人
- 參考

多模態篇

Gemini：一族功能強大的多模態模
- 論文名稱：Gemini: A Family of Highly Capable Multimodal Models
- 論文地址：https://arxiv.org/pdf/2312.11805
- 機構：Google
- Github 地址：
- 會議：
- 論文方法：該論文介紹了一種新的多模態模型系列，Gemini，在圖像、音頻、視頻和文本理解方面具有非凡的能力。 Gemini系列包括Ultra、Pro和Nano三種規模，適用於從復雜的推理任務到設備上的內存受限用例。
- 論文實驗結果：在廣泛的基準測試中，該論文最先進的Gemini Ultra模型在32個基準測試中有30個取得了最新的進展，特別是首次在公認的考試基準MMLU上達到人類專家水平，並在該論文檢查的20個多模態基準測試中改進了最新的技術水平。該論文相信Gemini模型在跨模態推理和語言理解方面的新能力將能夠支持各種用例，並討論了該論文在負責任地向用戶部署它們方面的方法。
評估GPT4-V在結構化推理任務上的表現
- 論文名稱：Assessing GPT4-V on Structured Reasoning Tasks
- 論文地址：https://arxiv.org/pdf/2312.11524
- 機構：OpenAI
- Github 地址：
- 會議：
- 論文方法：這篇論文主要評估了最新的語言模型GPT-4V和其他五個基準模型在結構化推理任務上的表現。這些任務包括數學推理、視覺數據分析和代碼生成。
- 研究結果顯示，引入視覺Chain-of-Thought的多模態LLMs相比於普通模型有顯著的提升。同時，論文還對模型表現良好和困難的場景進行了分類分析，突出了多模態推理中所面臨的挑戰。
ProTIP: 漸進式工具檢索改善規劃
- 論文名稱：ProTIP: Progressive Tool Retrieval Improves Planning
- 論文地址：https://arxiv.org/pdf/2312.10332
- 機構：
- Github 地址：
- 會議：
- 論文方法：這篇論文介紹了一種名為ProTIP的漸進式工具檢索框架，用於復雜的多步驟規劃任務。該框架通過對比學習的方式隱式地進行任務分解，同時保持子任務-工具的原子性。
- 在ToolBench數據集上，ProTIP在工具檢索方面超越了基於ChatGPT的任務分解方法，並且在TR的Recall@K=10方面提高了24％，在計劃生成方面工具準確性提高了41％。
LLaVA：經典的多模態大模型
- 論文名稱：Visual Instruction Tuning
- 論文地址：https://arxiv.org/abs/2304.08485
- 機構：微軟研究院和哥倫比亞大學
- Github 地址：https://github.com/haotian-liu/LLaVA
- 會議：
- 動機：像ChatGPT這種大語言模型只接受文字輸入，那麼如何讓大語言模型接收圖像輸入呢？
- 論文方法：LLaVA提出了一種方法，
  - 將Clip作為圖像的編碼器，在Clip後面加入一個線性映射層;
  - 將Clip編碼後的圖像特徵Zu 映射到語言模型特徵空間中，得到視覺特徵Hv ;
  - 將其和文本的編碼（語言指令的編碼）一起送入到Language Model中。
- 訓練方式：
  - 第一階段：預訓練階段。在這個階段，只訓練線性映射層(Projection W)，目的是學習圖像空間到語言模型詞向量空間的映射，這階段使用的數據集為CC3M；
  - 第二階段：微調階段。在這階段，凍結住視覺編碼器的參數，訓練線性映射層和大語言模型的參數。在這一階段使用的數據集為ScienceQA和基於GPT-4生成的數據集。
- 實驗效果：該模型展示出了一些接近多模態GPT-4 的圖文理解能力：相對於GPT-4 獲得了85.1% 的相對得分。當在科學問答（Science QA）上進行微調時，LLaVA 和GPT-4 的協同作用實現了92.53%準確率的新SoTA。
LLaVAR：增強的視覺指令微調
- 論文名稱：LLaVAR: Enhanced Visual Instruction Tuning for Text-Rich Image Understanding
- 論文地址：https://arxiv.org/pdf/2306.17107.pdf
- 機構：佐治亞理工、Adobe和斯坦福
- Github 地址：https://github.com/SALT-NLP/LLaVAR
- 會議：
- 動機：
- 論文方法：用OCR的工具從LAION數據集收集了422K包含文本信息的圖片，然後用從圖片中識別的文字以及圖片的caption作為提示詞，用text only的GPT-4生成了16K對話，每一個對話都包含和每一張圖片關聯的問題-回答pair。文中集合收集的這些對話數據集以及LLaVA的對話數據，訓練了可以對圖片中的場景進行細緻理解的LLaVAR模型。
- 模型結構：
  - 視覺encoder V：對於224x224分辨率的輸入，採用CLIP-ViT-L/14；對於336x336分辨率的輸入，採用CLIP-ViT-L/14-336。最後一層Transformer Layer輸出的特徵通過過一個映射矩陣W 映射到語言Decoder的單詞嵌入空間；
  - 語言Decoder D：採用基於LLAMA的Vicuna-13B
- 訓練方式：
  - 預訓練：只訓練視覺編碼器到LLM編碼器之間的映射層（採用LLaVA從CC3M中過濾的595k圖文以及新構建的422k粗糙數據）；
  - 微調：訓練視覺編碼器到LLM編碼器之間的映射層和LLM（採用LLaVA基於MSCOCO構建的158k指令數據以及新構建的16k指令數據訓練模型的指令理解能力，同時微調LLM以及圖文之間的映射層）；
Vary: Scaling up the Vision Vocabulary forLarge Vision-Language Models
- 論文名稱：Vary: Scaling up the Vision Vocabulary forLarge Vision-Language Models
- 論文地址：arxiv.org/abs/2312.06109
- 動機：
  - PDF 類文檔的難點在於，如何完整恢復圖片、表格、標題、段落等內容，形成一個文字版的文檔。
  - 現有開源多模態大模型的問題
    - 對中文支持較差，畢竟大部分訓練數據還是以英文為主。
    - 文檔級的識別程度不高，畢竟多模態大模型也不是單純做OCR 任務的，所以訓練數據可能有欠缺，在識別文檔圖像時出現容易缺少內容，導致回答出現幻覺或者不准確。
- 思路：通過收集新的數據，訓練一個新的視覺編碼器，然後和原有的視覺編碼器合併。
Instruct-Imagen: 多模式指導下的圖像生成
- 論文名稱：Instruct-Imagen: Image Generation with Multi-modal Instruction
- 機構：谷歌研究院、Google DeepMind
- 相關領域：指令微調、多模態
- 論文地址：https://arxiv.org/pdf/2401.01952
- 作者：Hexiang Hu, Kelvin CK Chan, Yu-Chuan Su
- 論文方法：篇論文介紹了instruct-imagen，一個解決異構圖像生成任務並能夠在未知任務上進行泛化的模型。它引入了多模式指導的圖像生成，一種利用自然語言將不同模態（例如，文本、邊緣、樣式、主題等）綜合起來的任務表示，使得豐富的圖像生成意圖可以以統一的格式標準化。作者通過在一個兩階段框架中對預訓練的文本到圖像擴散模型進行微調來構建instruct-imagen。首先，作者使用檢索增強訓練來使模型能夠基於外部多模態上下文生成圖像。隨後，作者在多樣的圖像生成任務上對微調後的模型進行微調，這些任務需要對視覺語言進行理解（例如，基於主題的生成等），每個任務都與一個包含任務本質的多模式指導相配對。在各種圖像生成數據集上進行的人工評估表明，instruct-imagen在領域內與先前的任務特定模型相媲美或超越，並展示了對未知和更複雜任務的有希望的泛化能力。
LLaVA-φ: 高效的多模態助理與小型語言模型
- 論文名稱：LLaVA-φ: Efficient Multi-Modal Assistant with Small Language Model
- 機構：IDEA、華東師範大學
- 相關領域：指令微調、多模態
- 論文地址：arxiv.org/pdf/2401.02330
- 代碼：github.com/zhuyiche/llava-phi
- 作者：Yichen Zhu, Minjie Zhu, Ning Liu
- 論文方法：LLaVA-φ是一個高效的多模態助理，利用最近先進的小型語言模型Phi-2的力量，促進多模態對話。 LLaVA-φ標誌著緊湊多模態模型領域的顯著進步。它證明了即使是具有僅2.7B參數的更小的語言模型，只要它們經過高質量的語料庫訓練，就可以有效地參與融合文字和視覺元素的複雜對話。該論文的模型在包括視覺理解、推理和基於知識的感知在內的公開可用基準測試上具有可稱讚的性能。除了在多模態對話任務中表現出色之外，該論文的模型還為在時間敏感環境和需要實時交互的系統（如具身代理）中的應用開闢了新的途徑。它突顯了更小的語言模型在保持更高資源效率的同時實現複雜的理解和交互水平的潛力。
僅使用文本訓練，在零樣本字幕生成中挖掘細粒度的圖像-文本對齊
- 論文名稱：Mining Fine-Grained Image-Text Alignment for Zero-Shot Captioning via Text-Only Training
- 機構：上海科技大學
- 相關領域：多模態
- 論文地址：https://arxiv.org/pdf/2401.02347
- 代碼：https://github.com/Artanic30/MacCap
- 作者：Longtian Qiu, Shan Ning, Xuming He
- 論文方法：該論文通過對CLIP潛在空間的分析，提出了一種通過僅使用文本訓練的零樣本圖像字幕生成框架。通過挖掘圖像子區域的視覺特徵和文本描述中的信息損失，可以減少模態差距，並通過引入噪聲注入和重新排序策略提高字幕生成性能。
僅使用文本監督學習視覺-語言模型的提示學習
- 論文名稱：Learning to Prompt with Text Only Supervision for Vision-Language Models
- 機構：Google、蘇黎世聯邦理工學院
- 相關領域：預訓練、多模態
- 論文地址：https://arxiv.org/pdf/2401.02418
- 代碼：hhttps://github.com/muzairkhattak/ProText
- 作者：Muhammad Uzair Khattak, Muhammad Ferjad Naeem, Muzammal Naseer
- 論文方法：這篇論文通過僅使用文本數據從語言模型中學習提示，結合了視覺信息和大語言模型的優勢。通過這種方法，可以實現對新類別和數據集的零樣本轉移，減少了大語言模型提示工程的成本。

GPT4Video 篇

GPT4Video
- 論文名稱：GPT4Video: A Unified Multimodal Large Language Model for lnstruction-Followed Understanding and Safety-Aware Generation
- 論文地址：https://arxiv.org/abs/2311.16511
- 論文示例：https://gpt4video.github.io/
- 論文背景：當前的多模態大語言模型（MLLM）已經驗證多模態數據融合的有效性，但沒有工作去探索多模態信息的生成；
- 論文框架：
  - 視頻理解模塊。首先通過video feature extractor提取視頻特徵，然後通過video abstractor對齊視頻特徵和LLM；
  - 大語言模型。使用LLaMA預訓練的參數，通過LoRA進行微調；
  - 視頻生成模塊。將LLM輸出的Prompt輸入到Text-Video模型，得到生成的視頻。

PEFT 系列篇

Prompt
- 論文名稱：Prompt Tuning
- 論文地址：https://arxiv.org/pdf/2107.13586.pdf
- Github 地址：
- 會議：
- 動機：但是對於一個預訓練的大語言模型來說，這就彷佛好像是對於每個任務都進行了定制化，十分不高效。是否存在一種方式，可以將預訓練語言模型作為電源，不同的任務當作電器，僅需要根據不同的電器（任務），選擇不同的插座，對於模型來說，即插入不同的任務特定的參數，就可以使得模型適配該下游任務。
- 論文方法：給預訓練語言模型的一個線索/提示，幫助它可以更好的理解人類的問題。
Instruction
- 論文名稱：Finetuned Language Models Are Zero-Shot Learners
- 論文地址：https://arxiv.org/abs/2109.01652
- Github 地址：https://github.com/google-research/flan
- 會議：
- 動機：PLM 在Few-Shot 上表現一般都很好，但是在Zero-Shot 上就很一般了，一個潛在的原因是模型很難執行和預訓練不一樣格式的prompt。
- 論文方法：通過激發語言模型的理解能力，利用給出更明顯的指令/指示，讓模型去理解並做出正確的action。
self-instruct
- 論文名稱：Self-Instruct: Aligning Language Model with Self Generated Instructions
- 論文地址：https://arxiv.org/abs/2212.10560
- Github 地址：https://github.com/yizhongw/self-instruct
- 會議：
- 動機：在訓練好的LLM上進行“指令調優”具有很好的將Zero-shot設置下的指令理解能力泛化到新任務上的超凡能力。然而，這種方法很大程度上依賴於大型的語言模型以及人工編寫的高指令數據，這需要極大的人力和物力。
- 論文方法：通過在公開的LLM的接口上引導模型自己生成指令來提高LLM的指令跟隨能力。這在LLM時代是一種高效的蒸餾方法，即通過從高質量的預訓練好的LLM上接口獲取有監督的數據，來調優模型，將大模型的知識蒸餾出來，部署到目標模型上。
LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS
- 論文名稱：LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS
- 論文地址：
- Github 地址：https://github.com/microsoft/LoRA
- 會議：
- 動機：
  - 增加adapter ：主要問題在於推理時帶來的額外計算量和延遲。
  - 優化prompt ：前綴微調(Prefix Tuning)較難優化，而且隨著參數量增長性能並非單調變化。
- 論文方法：
  1. 在原模型旁邊增加一個旁路，通過低秩分解（先降維再升維）來模擬參數的更新量；
  2. 訓練時，原模型固定，只訓練降維矩陣A和升維矩陣B；
  3. 推理時，可將BA加到原參數上，不引入額外的推理延遲；
  4. 初始化，A採用高斯分佈初始化，B初始化為全0，保證訓練開始時旁路為0矩陣；
  5. 可插拔式的切換任務，當前任務W0+B1A1，將lora部分減掉，換成B2A2，即可實現任務切換；
DyLoRA：使用動態無搜索低秩適應的預訓練模型的參數有效微調
- 論文名稱：DyLoRA: Parameter-Efficient Tuning of Pretrained Models using Dynamic Search-Free Low Rank Adaptation
- 論文地址：https://arxiv.org/pdf/2210.07558v2.pdf
- Github 地址：https://github.com/huawei-noah/KD-NLP/tree/main/DyLoRA
- 會議：
- 動機：LoRA存在的問題：
  - rank的值是固定的，訓練完成後不能修改。
  - 優化rank的值需要大量的搜索和努力。
- 論文方法：引入了一種動態低秩適應（Dy-LoRA）技術。通過對適配器模塊在訓練期間的不同秩所學到的表示進行排序，為一系列的秩而不是單一的秩訓練LoRA塊。
LOMO：利用有限的資源對大型語言模型進行全參數微調
- 論文名稱：FULL PARAMETER FINE-TUNING FOR LARGE LANGUAGE MODELS WITH LIMITED RESOURCES
- 論文地址：https://arxiv.org/abs/2306.09782
- Github 地址：https://github.com/OpenLMLab/LOMO
- 會議：
- 動機：LoRA存在的問題：
  1. 大型語言模型（LLMs）已經徹底改變了自然語言處理（NLP），但是訓練LLMs需要大量的GPU資源;
  2. 雖然現有的方法著重於參數高效微調，即微調或添加少量參數，但很少有人解決了有限資源下調整LLMs的全部參數的挑戰，而全參數微調被認為比參數高效微調更為強大;
- 論文方法：提出了一種新的優化器LOw-Memory Optimization（LOMO），它將梯度計算和參數更新融合在一步中以減少內存使用。通過將LOMO與現有的內存節省技術集成，將內存使用降低到10.8％，與標準方法（DeepSpeed解決方案）相比。因此，該方法使單台機器上的65B模型的全參數微調成為可能，該機器配有8×RTX 3090，每個顯存為24GB。
QLoRA
- 論文名稱：QLoRA: Efficient Finetuning of Quantized LLMs
- 論文地址：hhttps://arxiv.org/pdf/2305.14314.pdf
- Github 地址：https://github.com/artidoro/qlora
- 會議：
- 動機：LoRA微調中存在以下三個痛點：
  - 參數空間小：LoRA中參與訓練的參數量較少，解空間較小，效果相比全量微調有一定的差距；
  - 微調大模型成本高：對於上百億參數量的模型，LoRA微調的成本還是很高；
  - 精度損失：針對第二點，可以採用int8或int4量化，進一步對模型基座的參數進行壓縮。但是又會引發精度損失的問題，降低模型性能。
- 論文方法：
  - 4-bit NormalFloat ：提出一種理論最優的4-bit的量化數據類型，優於當前普遍使用的FP4與Int4；
  - Double Quantization ：相比於當前的模型量化方法，更加節省顯存空間。每個參數平均節省0.37bit，對於65B的LLaMA模型，大約能節省3GB顯存空間；
  - Paged Optimizers ：使用NVIDIA統一內存來避免在處理小批量的長序列時出現的梯度檢查點內存峰值；
  - 增加Adapter ：4-bit的NormalFloat與Double Quantization，節省了很多空間，但帶來了性能損失，作者通過插入更多adapter來彌補這種性能損失。在LoRA中，一般會選擇在query和value的全連接層處插入adapter。而QLoRA則在所有全連接層處都插入了adapter，增加了訓練參數，彌補精度帶來的性能損失。
VeRA：可調參數比LoRA小10倍的低秩微調方法
- 論文名稱：VeRA：Vector-based Random Matrix Adaptation
- 論文地址：https://arxiv.org/pdf/2310.11454.pdf
- Github 地址：
- 會議：
- 動機：LoRA微調中存在以下三個痛點：
  - LoRA：需要大量的可訓練參數。基於Aghajanyan等人的研究，內在維度的上限比這種方法中通常使用的秩要小的多。因此，參數量可以進一步減少。
  - AdaLoRA：通過動態分配參數，從而進一步減少了可微調參數。但是，我們認為存在另一種可以顯著減少可訓練參數，且效果不會下降的方法。
- 論文方法：
  - 低秩矩陣的重參數化。具體來說，凍結一對隨機初始化的矩陣，這些矩陣在所有適配層之間共享，然後引入可以逐層自適應的可訓練縮放向量。如圖所示，類似於LoRA，訓練的縮放向量和低秩矩陣可以合併至原始權重中，從而消除額外的推理延遲。
僅用少量多語言數據即可進行多語言指令微調
- 論文名稱：Multilingual Instruction Tuning With Just a Pinch of Multilinguality
- 相關領域：指令微調
- 機構：谷歌研究院、特拉維夫大學
- 作者：Uri Shaham, Jonathan Herzig, Roee Aharoni
- 論文地址：https://arxiv.org/pdf/2401.01854
- Github 地址：
- 會議：
- 分析：該論文通過研究多語言指令微調對多語言大語言模型（LLMs）的指令跟隨能力的影響，發現即使在單語微調中，許多語言也能夠將一些指令跟隨能力轉移到其他語言。此外，通過在英語微調集上僅使用40個多語言示例，可以大幅提高多語言指令跟隨的性能，不論在已見或未見的語言上。儘管在這些語言中的訓練示例少10倍，但總體上，與單語微調模型相比，使用多語言混合微調的模型在幾種語言上表現出可比或更優的性能。最後，通過將指令微調集中的語言數量從1增加到2、3或4，可以增加跨語言通用性。實驗結果表明，通過使用極小的多語言指令響應集，可以構建出大規模多語言指令微調的模型。

GPT 系列篇

Table 解析篇

小樣本QA問答MINPROMPT
- 論文名稱：MINPROMPT: Graph-based Minimal Prompt Data Augmentation for Few-shot Question Answering
- 論文地址：https://arxiv.org/pdf/2310.05007v1.pdf
- 論文Github地址：
- 會議：
- 動機：llm 讀取表格
  - 問題一：缺失值識別
  - 問題二：缺失值識別
  - 問題三：表格問題解答
- 論文方法：
  - 優化策略一：表調優
  - 優化策略二：創建數據集:合成增強

RAG 系列篇

RAG Trick篇

Self-RAG：一種通過自我反思實現檢索增強生成的RAG 策略
- 論文名稱：Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection
- 論文地址：https://arxiv.org/abs/2310.11511
- 論文Github地址：
- 會議：
- 動機：
  - 1. 檢索文段與query 的不相關性：這些方法不加區別地檢索和合併了一定數量的檢索文段，無論是否需要檢索或文段是否相關，這會降低LLMs的多功能性或導致生成質量不佳（Shi等人，2023），因為它們不加區別地檢索文段，無論事實支持是否有幫助;
  - 1. 生成的結果未必與檢索的相關文段一致（Gao等人，2023）：因為這些模型沒有明確訓練以利用和遵循所提供文段的事實;
- 論文方法：
  - 通過按需檢索和自我反思來提高LLM的生成質量，包括其事實準確性，而不損害其多功能性。
  - 論文以端到端方式訓練任意的LLM來學習反思自身的生成過程，通過生成任務輸出和間歇性的特殊token （即反思token）。反思token分為檢索和評論token，分別表示檢索的需求和生成的質量
Active RAG：一種主動判斷需不需要進行檢索，需要時再檢索的RAG 策略
- 論文名稱：Active Retrieval Augmented Generation
- 論文地址：https://arxiv.org/pdf/2305.06983.pdf
- 論文Github地址：https://github.com/jzbjyb/FLARE
- 會議：
- 動機：如果每一個step都去進行檢索顯然是有點冗餘的問題
- 論文方法：
  - 方法一：FLARE with Retrieval Instructions
  - 方法二：Direct FLARE
MINPROMPT 文檔QA問答
- 論文名稱：MemSum-DQA: Adapting an Efficient Long Document Extractive Summarizer for Document Question Answering
- 論文地址：https://arxiv.org/pdf/2310.06436v1.pdf
- 論文Github地址：https://github.com/nianlonggu/MemSum-DQA
- 會議：CIKM 2023
- 動機：
- 論文方法：論文提出了**「MemSum-DQA，這是一種高效的文檔問答(DQA) 系統」**，它利用了MemSum（一種長文檔提取摘要器），通過在解析文檔中的每個文本塊中添加所提供的問題和問題類型的前綴，MemSum-DQA 有選擇地從文檔中提取文本塊作為答案。
PDFTriage：針對長結構化文檔的問答
- 論文名稱：PDFTriage: Question Answering over Long, Structured Documents
- 論文地址：https://arxiv.org/pdf/2309.08872.pdf
- 論文Github地址：
- 會議：
- 動機：當文檔不適合LLM的有限上下文窗口時，可以部署不同的策略來獲取相關上下文。
- 論文方法：
  - 1. 生成文檔元數據：提取文檔的結構元素並將其轉換為可讀的元數據；
  - 1. 基於LLM 的分類：查詢LLM 以從文檔中選擇精確的內容（頁面、部分、檢索的內容）;
  - 1. 使用檢索到的內容進行回答：根據問題和檢索到的內容，生成答案。
RAGTruth: 用於開發可靠的檢索增強語言模型的幻化語料庫
論文名稱：RAGTruth: A Hallucination Corpus for Developing Trustworthy Retrieval-Augmented Language Models
論文地址：https://arxiv.org/pdf/2401.00396
相關領域：模型評估、數據集構建
Github 地址：
會議：
論文方法：本文介紹了RAGTruth，一個專門用於在LLM應用的標準RAG框架中分析各個領域和任務中的單詞級幻象的語料庫。 RAGTruth包括來自不同LLM使用RAG的近18000個自然生成的回复。這些回復經過精細的手動註釋，包括對幻覺強度的評估。該論文不僅對不同LLM的幻覺頻率進行了基準測試，還對幾種現有的幻覺檢測方法的有效性進行了批判性評估。此外，該論文還展示了使用高質量數據集（如RAGTruth），可以對相對較小的LLM進行微調，並在幻覺檢測方面與使用GPT-4等最先進的大語言模型的現有提示式方法實現了具有競爭力的性能水平。

RAG應用領域篇

醫療領域QA問答

Expert-Level Medical Question-Answering 醫療可信QA問答
- 論文名稱：Emulating Human Cognitive Processes for Expert-Level Medical Question-Answering with Large Language Models
- 論文地址：https://arxiv.org/ftp/arxiv/papers/2310/2310.11266.pdf
- 動機：為了滿足醫療保健領域對先進臨床問題解決工具的迫切需求。
- 論文方法：論文推出了「BooksMed，這是一種基於大型語言模型(LLM)的新穎框架」 。 BooksMed模擬人類認知過程，提供具有依據的可靠響應，利用GRADE（建議、評估、開發和評估）框架量化依據強度。
Medical Question-Answering by Expectation Maximization Inference over Evidence 醫療QA問答
- 論文名稱：Generating Explanations in Medical Question-Answering by Expectation Maximization Inference over Evidence
- 論文地址:https://arxiv.org/pdf/2310.01299v1.pdf
- 動機：醫療問答（醫療QA）系統在協助醫護人員尋找問題答案方面發揮著重要作用。然而，僅通過醫學QA 系統提供答案是不夠的，因為用戶可能需要解釋，即用自然語言進行更多分析性陳述，描述支持答案的元素和上下文。
- 論文方法：論文提出了一種新方法， 「為醫學QA 系統預測的答案生成自然語言解釋」 。由於高質量的醫學解釋需要額外的醫學知識，因此我們的系統在解釋生成過程中從醫學教科書中提取知識以提高解釋的質量。

宗教領域QA問答

QASiNa 宗教領域QA問答
- 論文名稱：QASiNa: Religious Domain Question Answering using Sirah Nabawiyah
- 論文地址：https://arxiv.org/pdf/2310.08102v1.pdf
- 動機：隨著大型語言模型(LLM)的發展。 LLM可以應用於各個領域，但應用於伊斯蘭宗教領域時卻與信息傳輸的原則相矛盾。在伊斯蘭教中，嚴格監管信息來源以及誰可以對該來源進行解釋。 LLM根據自己的解釋生成答案的方法類似於tafseer的概念，LLM既不是伊斯蘭專家，也不是伊斯蘭教所不允許的人。鑑於LLM的影響力較高，本文作者「對宗教領域的LLM進行評價」 。
- 論文方法：論文提出了問答Sirah Nabawiyah (QASiNa)數據集，這是一個根據印尼語Sirah Nabawiyah 文獻編譯的新穎數據集，並使用mBERT、XLM-R和IndoBERT驗證該數據集，並使用SQuAD v2.0 的印尼語翻譯進行微調。

常識領域QA問答

QADYNAMICS 常識QA問答
- 論文名稱：QADYNAMICS: Training Dynamics-Driven Synthetic QA Diagnostic for Zero-Shot Commonsense Question Answering
- 論文地址：https://arxiv.org/pdf/2310.11303v1.pdf
- 論文Github地址：https://github.com/HKUST-KnowComp/QaDynamics
- 動機：Zero-shot常識問答(QA) 要求模型能夠進行一般情況的推理。最先進的方法一般做法是根據常識知識庫(CSKB) 構建的QA對，並對語言模型進行微調，使其能夠具備更多的常識知識。但在此過程中，QA對構建過程中可能會引入來自CSKB 的噪聲，從而生成不符合預期的語法問答對，這會阻礙模型的泛化能力。
- 論文方法：論文提出了**「QADYNAMICS，一種用於QA診斷和改進的動態驅動框架」**。該方法分析了QA對在問答、選項兩個方面上的訓練動態，通過刪除無信息QA對、錯誤標記、錯誤選項來簡化訓練檢測組件。

法律領域QA問答

Long-Form Legal Question Answering 法律QA問答
- 論文名稱：Interpretable Long-Form Legal Question Answering with Retrieval-Augmented Large Language Models
- 論文地址:https://arxiv.org/pdf/2309.17050v1.pdf
- 論文Github地址：https://github.com/maastrichtlawtech/lleqa
- 會議：CIKM 2023
- 動機：許多人可能在一生中的某個時刻面臨法律糾紛，但他們缺乏對如何解決這些複雜問題的了解，往往使他們變得脆弱。自然語言處理的進步為通過開發自動化法律援助系統來彌合法律素養差距開闢了新途徑。然而，現有的法律問答（LQA）方法往往範圍狹窄，要么局限於特定的法律領域，要么僅限於簡短、無信息的回答。
- 論文方法：論文提出了一種端到端的方法， 「旨在利用“先檢索後閱讀”的管道生成任何成文法問題的長格式答案」 。為了支持這種方法，引入並發布了長格式法律問答(LLeQA) 數據集，其中包含1,868 個由專家註釋的法語法律問題，以及基於相關法律條款的詳細答案。

知識圖譜領域QA問答

CHATKBQA: 知識檢索QA問答
- 論文名稱：CHATKBQA: A GENERATE-THEN-RETRIEVE FRAMEWORK FOR KNOWLEDGE BASE QUESTION ANSWERING WITH FINE-TUNED LARGE LANGUAGE MODELS
- 論文地址:https://arxiv.org/pdf/2310.08975v1.pdf
- 論文Github地址：https://github.com/LHRLAB/ChatKBQA
- 會議：
- 動機：
  - 知識檢索效率低下；
  - 檢索錯誤影響語義解析結果；
  - 先前KBQA方法的複雜性。
- 論文方法：論文提出首先使用微調的LLM生成邏輯形式，然後通過無監督檢索方法檢索和替換實體、關係，這直接地改進了生成和檢索。

任務型領域QA問答

InstructTODS: 知識檢索QA問答
- 論文名稱：InstructTODS: Large Language Models for End-to-End Task-Oriented Dialogue Systems
- 論文地址：https://arxiv.org/pdf/2310.08885v1.pdf
- 論文Github地址：https://github.com/WillyHC22/InstructTODS/
- 會議：
- 動機：當前，大語言模型(LLM)已用於各種自然語言處理(NLP)任務，但對於任務導向的對話系統（TODS），特別是端到端的TODS的探索仍然存在一定的局限性。
- 論文方法：論文提出了「InstructTODS，該框架可用於Zero-Shot端到端任務導向的對話系統，無需微調即可適應不同的領域」。通過利用LLM，InstructTODS生成代理信念狀態(proxy belief state)，將用戶意圖無縫轉換為動態查詢，以便與任何知識庫進行高效交互。

汽車領域QA問答

CarExpert: 汽車檢索增強QA問答
- 論文名稱：CarExpert: Leveraging Large Language Models for In-Car Conversational Question Answering
- 論文地址：https://arxiv.org/pdf/2310.09536v1.pdf
- 論文Github地址：
- 會議：
- 動機：大型語言模型（LLM）通過遵循自然語言指令而無需對特定領域的任務和數據進行微調，表現出了卓越的性能。然而，利用LLM進行特定領域的問題回答往往會產生幻覺。此外，由於缺乏對領域和預期輸出的認識，LLM可能會生成不適合目標領域的錯誤答案。
- 論文方法：論文提出了「CarExpert」，車內檢索增強會話問答系統利用了LLM的不同任務。具體而言，CarExpert採用LLM來控制輸入，為提取和生成回答組件提供特定領域的文檔，並控制輸出以確保安全和特定領域的答案。

Prompt 系列篇

小樣本QA問答MINPROMPT
- 論文名稱：MINPROMPT: Graph-based Minimal Prompt Data Augmentation for Few-shot Question Answering
- 論文地址：https://arxiv.org/pdf/2310.05007v1.pdf
- 論文Github地址：
- 會議：
- 動機：小樣本問答（Few-shot QA）旨在少量訓練樣本的情況下，讓模型給出令人滿意的回答。最新的研究進展主要依賴大型語言模型（LLM）。儘管預訓練階段已經讓LLM具備了強大的推理能力，但LLM仍需要進行微調以適應特定領域，以達到最佳結果。
- 論文方法：論文提出了「MinPrompt」，一個基於近似圖算法和無監督問題生成的開放域QA的最小數據增強框架。作者將原始文本轉換為圖形結構，以在不同的事實句子之間建立聯繫，然後應用圖形算法來識別原始文本中最多信息所需的最小句子集。然後，根據識別的句子子集生成問答對，並在選定的句子上訓練模型以獲得最終模型。實證結果表明，MinPrompt 能夠以高效率實現與基線相當或更好的結果。

LMMs 可解釋性篇

大模型事實性綜述(Survey on Factuality in Large Language Models)
- 論文名稱：Survey on Factuality in Large Language Models
- 論文地址：https://arxiv.org/pdf/2310.07521.pdf
- 論文Github地址：
- 會議：
- 動機：
  - 儘管LLMs 具有無與倫比的能力，其產生非事實或誤導性內容的可能也讓人產生擔憂；
  - 對一些特定領域知識或者實時事實知識的缺乏也極大限制了大模型的使用；
- 四個關鍵維度：
  - 事實性問題的定義及其影響；
  - 評估事實性的技術及其定量評估；
  - 分析LLMs 中事實性的基本機制並確定事實錯誤的根本原因；
  - 增強LLMs 事實性的方法。
- 兩個主要設置：
  - 沒有外部知識的LLMs，如ChatGPT
  - 檢索增強型LLMs，如BingChat
LLMs 研究—— LLMs 自我解釋性研究
- 論文名稱：Can Large Language Models Explain Themselves? A Study of LLM-Generated Self-Explanations
- 論文地址：https://arxiv.org/pdf/2310.11207.pdf
- 論文Github地址：
- 會議：
- 動機： LLM在自我解釋方面有多擅長？
- 論文方法：
  - 對大型語言模型（LLMs）在自我生成特徵歸因解釋方面的能力進行了嚴格評估
  - 研究使用ChatGPT和SST數據集作為測試平台，構建了能可靠生成兩種類型的LLM生成自我解釋的提示
  - 研究比較了這些解釋與傳統的解釋技術（遮蔽顯著性和LIME）在忠實度和一致性指標上的表現；
- 論文結論
  - 根據忠實度評估，無論是自動生成的解釋還是其他解釋，都沒有明顯的優勢。然而，根據一致性評估，它們之間存在很大的區別。這可能表明當前解釋方法可能不是最優的，需要開發更好的方法來產生更好的自我解釋；
  - 模型預測值和單詞歸因值都非常全面，取值如0.25，0.67，0.75等。這表明當前的評估度量可能無法充分區分好解釋和壞解釋；

LLMs4KG 篇

ChatKBQA
- 論文名稱：ChatKBQA: A Generate-then-Retrieve Framework for Knowledge Base Question Answering with Fine-tuned Large Language Models
- 論文地址：https://arxiv.org/abs/2310.08975
- Github 地址：https://github.com/LHRLAB/ChatKBQA
- 會議：
- 動機：利用微調開源大模型進行自然語言問題到邏輯形式的轉換，再利用無監督實體關係檢索生成圖數據庫查詢語言，實現自然語言的知識圖譜問答框架。
- 論文方法：提出了ChatKBQA，這是一種基於微調開源LLMs（大型語言模型），如Llama-2-7B，ChatGLM2-6B和Baichuan2-7B等，的新型生成-檢索KBQA框架；
  - 首先微調生成邏輯形式，然後對生成的邏輯形式中的實體和關係在知識庫中的實體庫和關係庫分別做檢索，避免了以前方法存在的先檢索對邏輯形式生成的影響，並提高檢索效率；
  - 在生成階段，使用指令微調技術對開源LLMs進行微調，賦予它們感知和生成邏輯形式的能力

LLMs Agents 篇

角色扮演(Role-Play)

大語言模型的角色扮演(Role-Play with Large Language Models)
- 論文名稱：Role-Play with Large Language Models
- 論文鏈接：https://arxiv.org/pdf/2305.1636
- 論文動機：
  - 使用我們描述人類行為的相同語言來描述對話agents是自然的，如：自由地使用“知道”、“理解”和“思考”等詞彙。試圖通過使用更科學精確的替代詞來避免這樣的詞彙通常會導致笨拙、難以理解的文本;
  - 如果過於在字面意義上理解這種語言，會促進人格化、誇大這些AI系統與人類之間的相似之處，而掩蓋其內在的區別。
- 論文思路：提出了兩個基本的隱喻(metaphors)來描述基於LLM的對話agents：
  - 從簡單的觀點來看，我們可以將對話agents視為扮演一個單一角色；
  - 從更細微的觀點來看，我們可以將對話agents視為角色在多元宇宙中的模擬重疊；
RoleLLM
- 論文名稱：RoleLLM: Benchmarking, Eliciting, and Enhancing Role-Playing Abilities of Large Language Models
- 論文鏈接：https://arxiv.org/abs/2310.00746
- 論文動機：
  - Few-Shot Prompting / In-Context Learning：加入few-shot examples（從該角色的歷史dialogue數據中檢索而來），有助於LLM獲取相關知識、模仿角色的風格。
- 論文思路：
  - RoleLLM 所用兩種Few-Shot方法：
    - single-turn prompt：在單輪對話中一次性引入examples
    - multi-turn prompt：RoleLLM稱之為dialogue engineering，即將對話過程以user和assistant角色交替寫入。
  - RoleLLM 數據合成方法：
    - general domain 。收集開源的general instructions（如英文領域的Super-NaturalInstruct、中文領域的COIG等），然後給到RoleGPT，讓其在通用問題上，生成模仿某個角色的對話；
    - role-specific （即論文所謂的Context-Instruct）。根據Role Profile來生成Question、Answer，這樣生成的dialogue數據更加與role本身相關，因此有role-specific的特點；
Character-LLM
- 論文名稱：Character-LLM: A Trainable Agent for Role-Playing
- 論文鏈接：https://arxiv.org/abs/2310.10158
- 論文動機：
  - Fine-Tuning的迷人之處在於：適當的數據+ 開源LLM + Fine-Tuning 有可能超過閉源LLM + In-Context Learning。
- 論文思路：
  - 將目標role在wiki上的信息，作為profile；
  - 使用LLM，根據profile來生成scene；
  - 基於scene + profile，讓LLM生成dialogue數據。其prompt示例如下，用此種方法生成的數據可以是多輪的。
ChatHaruhi
- 論文名稱：ChatHaruhi: Reviving Anime Character in Reality via Large Language Model
- 論文鏈接：https://arxiv.org/abs/2308.09597
- Github 地址：https://github.com/LC1332/Chat-Haruhi-Suzumiya/tree/main
- 優化策略：
  - 允許LLM復用few-shot examples。即允許LLM在相似場景下，直接使用角色的對話內容；
  - 在結尾額外加上一段人物性格描述，以強化生成效果。
- 論文思路：
  - 將目標role發言前的內容作為question，給到LLM，讓其繼續完成這個dialogue。同時為了優化生成效果，論文也採取了few-shot prompting的策略。在實驗中，有50%的概率會生成多輪對話。

Attention 篇

System 2 Attention
- 論文標題：System 2 Attention (is something you might need too)
- 論文鏈接：https://arxiv.org/abs/2311.11829
- Github 地址：
- 動機：大型語言模型(LLM)非常強大，但它們仍容易出現簡單的錯誤，這似乎顯示出弱的推理能力。例如，不相關的上下文或輸入提示中固有的偏好或意見，都可能使它們產生錯誤判斷，在後一種情況下，展現了一種稱為阿諛奉承的問題，即模型與輸入一致同意。
- 論文方法：論文提出了一種技術方案--System 2 Attention(S2A)，可以讓LLM決定輸入上下文的重要部分，來生成好的響應。實現這點的方法是：首先誘導LLM重新生成只包含相關部分的輸入上下文，然後關注重新生成的上下文以引出最終響應。
- 論文在實驗中證明，S2A可以成功重寫會降低最終答案質量的上下文，因此論文的方法可以同時提高事實性並減少其響應中的阿諛奉承。
- 未來的研究仍有許多空間。在論文的實驗中，採用了零樣本提示來實現S2A。其他方法可以通過考慮微調、強化學習或替代提示技術(alternative prompting techniques)來進一步優化論文的方法。成功的S2A還可以壓縮回標準LLM生成，例如：通過使用原始提示作為輸入和最終改進的S2A響應作為目標進行微調。

搜索篇

LSM：如何用好LLMs：大型搜索模型
- 論文名稱：Large Search Model: Redefining Search Stack in the Era of LLMs
- 論文地址：https://arxiv.org/abs/2310.14587
- 動機：
  - 神經網絡信息檢索基礎局限性：在生成長文本時它們傾向於產生不正確或不相關的信息；
  - 檢索增強生成局限性：RAG的最佳訓練策略仍是一個未解之謎。人們也對模型利用檢索信息的有效性表示擔憂；
- 論文框架：作者將大型搜索模型定義為一個定制的大型語言模型，它通過自然語言提示將各種搜索任務統一起來。它重新定義了由查詢理解、檢索、排名、摘要和問答等許多離散組件組成的傳統搜索堆棧。
SuperGen：用語言模型生成訓練數據：邁向零樣本語言理解
- 論文名稱：SuperGen：Generating Training Data with Language Models: Towards Zero-Shot Language Understanding
- 論文地址：https://arxiv.org/abs/2202.04538
- 方法：利用NLG模型生成數據質量高的優勢，結合NLU模型理解能力強的優勢，在多個GLUE任務上起到了不錯的效果。
DARE: 基於GPT-2的數據增強關係提取
- 論文名稱: DARE: Data Augmented Relation Extraction with GPT-2
- 論文地址：https://arxiv.org/abs/2310.14587
- 方法：用gpt2先在領域內數據上微調，然後用生成的訓練數據來提升BERT類模型在關係抽取任務上的效果。這一思路其實是和SuperGen思路是相同的，只是gpt2的模型體量更小，在相關領域上微調後生成的數據質量可能反而更好。

如何通過大模型構建“query-doc”？

解釋：對搜索數據進行數據增強就是獲取更多的“query-doc”對。一種方法是根據query生成假doc，而另一種是根據doc生成假query。

InPars: 基於大型語言模型的信息檢索數據擴充
- 論文名稱: InPars: Data Augmentation for Information Retrieval using Large Language Models
- 論文地址：https://arxiv.org/abs/2202.05144
- 方法：InPairs利用LLM的上下文學習能力，結合給出的示例，給doc生成了大量的假query，然後通過微調後的語言模型進行結果“過濾”。
InPars-v2: 大型語言模型作為信息檢索的有效數據集生成器
- 論文名稱: InPars-v2: Large Language Models as Efficient Dataset Generators for Information Retrieval
- 論文地址：https://arxiv.org/abs/2301.01820
- 方法：在inPairs-V2版本中，一個較大的變化是，其利用在檢索數據集上微調的T5-3B模型來過濾生成的查詢，而不是簡單的通過概率進行過濾，以此來提升生成數據的可靠性。
InPairs-Light：高效排名者的成本效益無監督培訓
- 論文名稱: InPairs-Light：Cost-Effective Unsupervised Training of Efficient Rankers
- 論文地址：https://arxiv.org/abs/2301.02998
- 方法：後續的inPairs-Light版本也對“過濾器”進行了瘦身，參數從30億降至2億。
InPairs-Light：從8個例子看Few-shot Dense Retrieval
- 論文名稱: Promptagator：Few-shot Dense Retrieval From 8 Examples
- 論文地址：https://arxiv.org/abs/2301.02998
- 方法：PROMPTAGATOR 利用inPairs中“生成-過濾”這一過程，在生成的樣本上微調檢索器，然後使用該檢索器過濾生成的樣本。重複這兩個步驟直到收斂，以產生高質量的訓練集。
UDAPDR：基於LLM提示和重排序的無監督域自適應
- 論文名稱: UDAPDR: Unsupervised Domain Adaptation via LLM Prompting and Distillation of Rerankers
- 論文地址：https://arxiv.org/abs/2303.00807
- 動機：在inPairs-V2版本中，研究者意識到請求LLM如chatgpt、gpt4的API進行數據增強會帶來高額的成本，開始採用開源的LLM替換API請求方式，但可能會導致增強數據的質量下降。
- 方法：UDAPDR 針對這一問題，先用高質量LLM根據doc生成高質量query，然後用高質量doc-query送入低成本LLM擴充數量，兼顧了成本和效果問題，其過程如圖所示。

如何通過大模型標註“query-doc” 正負樣例？

通過上述方法雖然能夠構建“query-doc”，但是如何辨別真假呢？這個時候可以利用LLM獲取query與doc的假label，即讓模型幫我判斷這條數據是不是正樣本，是正樣本的概率是多少？

ART：訓練Dense Passage Retriever 所需的全部問題
- 論文名稱: ART：Questions Are All You Need to Train a Dense Passage Retriever
- 論文地址：https://arxiv.org/abs/2206.10658
- 方法：先將query經過向量編碼，然後通過向量檢索器選出相關文檔，再讓模型給每個文檔與query的相關性進行打分。這一打分被作為soft label，反饋給之前的passage encoder和question encoder進行更新訓練。
ExaRanker：Explanation-Augmented Neural Ranker
- 論文名稱: ExaRanker：Explanation-Augmented Neural Ranker
- 論文地址：https://arxiv.org/abs/2206.10658
- 方法：ExaRanker 使用GPT-3.5 為檢索數據集生成解釋，隨後訓練一個seq2seq 排名模型來生成相關標籤以及給定查詢-文檔對的相應解釋。
ChatGPT-RetrievalQA：為交叉編碼器重排器生成合成文檔： ChatGPT 與人類專家的比較研究
- 論文名稱: ChatGPT-RetrievalQA：Generating Synthetic Documents for Cross-Encoder Re-Rankers: A Comparative Study of ChatGPT and Human Experts
- 論文地址：https://arxiv.org/abs/2305.02320
- 方法：我們研究了生成式大型語言模型(llm)在為交叉編碼器重新排序器生成訓練數據方面的有用性，該方向是:生成合成文檔而不是合成查詢。我們引入了一個新的數據集ChatGPT-RetrievalQA，並比較了在llm生成和人工生成數據上微調的模型的有效性。生成式llm生成的數據可用於增強訓練數據，特別是在標記數據數量較少的領域。我們基於一個現有的數據集，人類ChatGPT比較語料庫(HC3)構建ChatGPT- retrievalqa，該數據集由公共問題集合組成，其中包含來自ChatGPT的人類響應和答案。
- 實驗結果：我們在人工生成或chatgpt生成的數據上微調一系列交叉編碼器重新排名。我們對MS MARCO DEV、TREC DL'19和TREC DL'20的評估表明，在ChatGPT響應上訓練的交叉編碼器重新排序模型比在人類響應上訓練的模型更有效。在有監督的環境中，人工訓練的重新排名者的表現優於法學碩士訓練的重新排名者。我們的新發現表明，生成式llm在為神經檢索模型生成訓練數據方面具有很高的潛力。需要進一步的工作來確定在生成的響應中事實錯誤信息的影響，並測試我們的發現在開源法學碩士中的普遍性。我們為將來的工作發布數據、代碼和交叉編碼器檢查點。

如何通過大模型改寫“query-doc”？

讓LLM作為生成模型，根據用戶的query寫一段文本，將其作為改寫結果送入後續的檢索模塊，以提高最終的檢索質量。

面向信息檢索查詢擴展的神經文本生成
- 論文名稱: Neural text generation for query expansion in information retrieval
- 論文地址：https://dl.acm.org/doi/10.1145/3486622.3493957
- 動機：在LLM時代到來之前，就有不少研究利用各種生成式模型來對query進行改寫。
- 方法：利用gpt-2，根據query生成文本作為改寫結果。文章整體思路非常簡單，但是可以應用在各式各樣的搜索系統上，效果也不錯。另外，gpt-2模型體量不大，再加上cache等手段的運用，對於搜索系統整體沒有什麼額外負擔。
Query2doc:使用大語言模型進行查詢擴展
- 論文名稱: Query2doc：Query Expansion with Large Language Models
- 論文地址：https://arxiv.org/abs/2303.07678
- 動機：
- 方法：通過預定的prompt，根據用戶的query生成一段文本，用於輔助後續的檢索。相比之下，谷歌的研究有兩點不同，一是沒有利用上下文學習（ICL），二是要求LLM給出其答案的思維鏈。
通過提示大語言模型進行查詢擴展
- 論文名稱: Query Expansion by Prompting Large Language Models
- 論文地址：https://arxiv.org/abs/2305.03653
- 動機：查詢擴展是一種廣泛用於提高搜索系統查全率的技術。
- 方法：在本文中，我們提出了一種利用大型語言模型(llm)的生成能力進行查詢擴展的方法。與傳統的查詢擴展方法(如偽相關反饋(PRF))依賴於檢索一組良好的偽相關文檔來擴展查詢不同，我們依賴於LLM的生成和創造能力，並利用模型中固有的知識。我們研究了各種不同的提示，包括零彈、少彈和思維鏈(CoT)。我們發現CoT提示對於查詢擴展特別有用，因為這些提示指示模型逐步分解查詢，並且可以提供與原始查詢相關的大量術語。
- 實驗結果：；在MS-MARCO和BEIR上的實驗結果表明，llm生成的查詢擴展比傳統的查詢擴展方法更強大。
LLMCS：大語言模型了解上下文搜索意圖:會話搜索的提示框架
- 論文名稱: LLMCS：Large Language Models Know Your Contextual Search Intent: A Prompting Framework for Conversational Search
- 論文地址：https://arxiv.org/abs/2303.06573
- 動機：上述兩個方法可以應用於即席搜索（ad-hoc search）場景，而現代的搜索系統很多支持會話搜索（session search），類似於多輪對話，搜索結果會考慮一個會話中的前幾次搜索信息。
- 方法：LLMCS是一個支持會話搜索的框架，且針對於會話搜索場景下LLM輸入長度增加的問題使用了滑窗方法進行優化。
GRM: 基於相關性感知樣本估計的文檔檢索生成關聯建模
- 論文名稱: GRM：Generative Relevance Modeling Using Relevance-Aware Sample Estimation for Document Retrieval
- 論文地址：https://arxiv.org/abs/2306.09938
- 動機：儘管LLM擁有出色的文本理解和生成能力，不可否認其還是會存在幻覺問題，導致其輸出結果背離事實，引入無關噪聲影響最終檢索結果。
- 方法：GRM訓練了一個神經網絡模型，對LLM生成的結果進行相關性打分，最後將得分作為每個生成結果的權重，以減輕無關信息對最終檢索結果的影響。

如何通過大模型綜合利用PRF（偽相關反饋）+GRF（生成相關反饋）？

以上研究都是利用LLM的生成結果作為改寫結果的主要內容，我們可以將其看作是一種生成相關反饋（GRF），而不少研究也同時在模型生成或結果後處理階段加入偽相關反饋（PRF）的方法來改進改寫結果的質量。

HyDE:無關聯標籤的精確Zero-Shot Dense Retrieval
- 論文名稱: HyDE：Precise Zero-Shot Dense Retrieval without Relevance Labels
- 論文地址：https://arxiv.org/abs/2212.10496
- 動機：LLM幻覺問題
- 方法：HyDE將LLM生成的結果進行編碼，利用向量檢索器，與真實的文檔庫中的候選文檔進行相關性匹配，然後利用真實的文檔作為改寫的結果輔助查詢。可以看出，該方法實質上就是利用LLM的輸出結果而不是query去召回偽文檔。
- 優點：
  - 相比傳統的PRF方法，保證了第一次檢索的偽文檔的相關性；
  - 相比Query2doc等方法，又通過結合PRF避免了LLM可能產生幻覺的問題，保證了結果的高度真實性。
  - 類似地，LameR則是將PRF這一過程放到了LLM輸入之前。
LameR:大型語言模型是強大的零樣本檢索器
- 論文名稱: LameR：Large Language Models are Strong Zero-Shot Retriever
- 論文地址：https://arxiv.org/abs/2304.14233
- 動機：LLM幻覺問題
- 方法：
- 優點：
Rewrite-Retrieve-Read：針對檢索增強的大型語言模型的查詢重寫
- 論文名稱: Rewrite-Retrieve-Read：Query Rewriting for Retrieval-Augmented Large Language Models
- 論文地址：https://arxiv.org/abs/2305.14283
- 動機：LLM幻覺問題
- 方法：Rewrite-Retrieve-Read這一研究則是利用改寫去加強檢索增強LLM的效果。 Rewrite-Retrieve-Read圖中從左到右分別是：檢索增強LLM、帶有改寫器的檢索增強LLM、帶有強化學習改寫器的檢索增強LLM。其中Rewrite-Retrieve-Read指的是第三個。可以看出，Rewrite-Retrieve-Read方法不僅利用LLM作為改寫器增加了其檢索增強的效果，還引入了強化學習，通過最終答案的反饋，來訓練高質量LLM改寫器。
- 優點：
PRF+GRF:稀疏、稠密和學習稀疏檢索的生成和偽相關反饋
- 論文名稱: PRF+GRF：Generative and Pseudo-Relevant Feedback for Sparse, Dense and Learned Sparse Retrieval
- 論文地址：https://arxiv.org/abs/2305.07477
- 動機：LLM幻覺問題
- 方法：PRF+GRF直接結合PRF和LLM輸出的結果，然後綜合加權考慮兩者的結果作為改寫結果。
- 優點：
InteR:通過搜索引擎和大型語言模型之間的交互進行知識提煉
- 論文名稱: InteR：Knowledge Refinement via Interaction Between Search Engines and Large Language Models
- 論文地址：https://www.researchgate.net/publication/370763983_Knowledge_Refinement_via_Interaction_Between_Search_Engines_and_Large_Language_Models
- 動機：LLM幻覺問題
- 方法：InteR則是一種搜索系統和LLM多輪交互框架，通過多次PRF、LLM輸出，達到增强两過程效果的目的。
- 優點：

如何通過大模型進行召排？

何為召回？

召回（retrive）是搜索系統中的核心模塊，可分為基於統計算法的稀疏檢索（Sparse Retriever）和基於神經網絡的密集檢索（Dense Retriever）。

召回存在哪些問題？

query短且模糊
doc長且噪聲多
監督數據標註成本高
PLM模型仍存在改進空間

如何基於encoder的LLM檢索器？

基於encoder的檢索器指的是在密集檢索中，使用LLM出色的語義能力獲取query或doc的向量表示，用向量檢索器進行檢索召回。

cpt-text:通過Contrastive Pre-Training 嵌入文本和代碼
- 論文名稱: cpt-text：Text and Code Embeddings by Contrastive Pre-Training
- 論文地址：https://arxiv.org/abs/2201.10005
- 動機：
- 方法：cpt-text 在未標記的數據上使用帶負採樣的對比學習，將相鄰的文本視為正樣本，從頭訓練了四種參數級別的嵌入模型，用以產生文本的高質量向量表示。這種結合預訓練模型初始化、大批量對比學習和大規模訓練的簡單配方可以產生具有廣泛能力的高質量文本向量，甚至會超越在領域內數據上微調後的語言模型。
- 優點：
GTR：大型雙編碼器是可推廣的檢索器
- 論文名稱: GTR：Large Dual Encoders Are Generalizable Retrievers
- 論文地址：https://arxiv.org/abs/2112.07899
- 動機：但是對於大多數人來說，從頭訓練一個LLM的成本是非常高的。因此，有不少研究基於已有的LLM進行微調。
- 方法：GTR（Generalizable T5-based dense Retrievers）使用T5家族初始化雙編碼器模型參數，然後在數據集上進行微調。
- 優點：不管是cpt-text還是GTR，實驗都表明，模型尺度越大，其無監督學習和文本搜索任務的遷移學習性能越好。
TART：帶指令的任務感知檢索
- 論文名稱: TART：Task-aware Retrieval with Instructions
- 論文地址：https://arxiv.org/abs/2211.09260
- 動機：
- 方法：TART同樣基於T5，設計了一個任務感知檢索模型，可以對query的信息進行初步判斷，以選取跟該query高度相關的任務指令。然後將query與指令一起利用LLM進行編碼後再進行檢索。與改寫不同的是，LLM並沒有參與到TART的指令生成中，而是以檢索器的身份進行指令、query、doc的編碼。
- 優點：

如何基於生成式的LLM檢索器？

上面的研究都旨在利用LLM的強大語義編碼能力對query、doc等內容進行編碼。但在LLM嶄露頭角之前，就有不少研究致力於構建end2end式的檢索模型，成為生成式檢索器（Generative Retriever）。相比先編碼再檢索，生成式方法通過聯合編碼器和解碼器，直接獲取要檢索的文檔標識符

DSI:Transformer內存作為可微分搜索索引
- 論文名稱: DSI：Transformer Memory as a Differentiable Search Index
- 論文地址：https://arxiv.org/abs/2202.06991
- 動機：
- 方法：DSI就是一種典型的生成式檢索模型，在檢索數據集上微調T5模型，直接對query、doc進行編碼，然後直接解碼輸出相關文檔的id作為檢索結果。
- 優點：
LLM-URL:大型語言模型內置於自回歸搜索引擎中
- 論文名稱: LLM-URL：Large Language Models are Built-in Autoregressive Search Engines
- 論文地址：https://arxiv.org/abs/2305.09612
- 動機：
- 方法：LLM-URL研究中發現，LLM生產的URL中包含90%以上的query的相關答案，他們利用這一點，設計合適的prompt獲取LLM輸出的URL，並將其作為生成式檢索器的額外輸入，直接獲取文檔相關id。這種方式相當於進行“改寫”，只不過是基於生成式檢索器之上的。
- 優點：

如何通過大模型進行排序？

微調LLM進行相似度計算

在gpt3等超大型參數模型出現之前，不少研究都利用PLM，將排序任務看作相似度計算任務來獲得每個query和doc的相似度得分。 RankT5就是這樣一種模型，他基於T5直接計算查詢-文檔對的相關分數，並使用pairwise或listwise計算排名損失進行微調。

RankT5: 用於具有排名損失的文本排名的微調T5
- 論文名稱: RankT5：Fine-Tuning T5 for Text Ranking with Ranking Losses
- 論文地址：https://arxiv.org/abs/2202.06991
- 動機：
- 方法：RankT5有兩種得分計算方法，一種是encoder-decoder結構，另一種則是不需要解碼直接根據encoder編碼得到排序分數。
- 作者實驗證明，兩種結構效果上各有勝負，這也側面表明decoder作用其實不大，蒸餾等操作可以直接對encoder下手。類似的研究還有很多，只是把backbone換為BERT、BART、GPT等即可。

提示LLM

對超大規模LLM進行微調存在成本昂貴的明顯問題，不少研究選擇利用LLM的提示能力得到query與doc是否相似的答案。

UPR：利用零樣本問題生成改進文章檢索
- 論文名稱: UPR：Improving Passage Retrieval with Zero-Shot Question Generation
- 論文地址：https://aclanthology.org/2022.emnlp-main.249/
- 會議：ACL2022
- 動機：排序的實質是進行query和doc間的相似度計算，這一分數也可以看作是根據query獲得doc的概率。
- 方法：UPR利用這一過程的逆向思路，利用prompt提示LLM，針對每一個doc，逐一計算query中各個token的生成概率，並將這一概率作為query和doc的相似度分數。簡單理解，就是用LLM根據prompt對每個doc生成對應的query，稱為假query。然後將生成後的假query和原query送入語言模型進行打分，計算兩者的一個“相似度”。這裡的相似度並不是我們熟知的向量相似度，而是“假query復原原query”的概率，其過程如上面公式所示。最後，對這個得分進行排序以獲取最終的排序結果。
RankGTP：ChatGPT擅長搜索嗎？作為重新排序代理的大型語言模型研究
- 論文名稱: RankGTP：Is ChatGPT Good at Search? Investigating Large Language Models as Re-Ranking Agent
- 論文地址：https://aclanthology.org/2023.emnlp-main.923/
- 會議：EMNLP2023
- 動機：
- 方法：RankGPT和LLR都採用類似list-wise的方式來獲取LLM的排序結果。相比point-wise，list-wise的場景下LLM能夠關注到更多的doc信息，直接輸出文檔id的排序結果，且不需要打分模型的參與。為了解決list-wise場景下輸入的doc過長的問題，RankGPT採用了滑動窗口的方法，指定k大小的窗口來獲取最終top-k的排序結果。
LLR:基於大型語言模型的零射擊列表式文檔重排序
- 論文名稱: LLR：Zero-Shot Listwise Document Reranking with a Large Language Model
- 論文地址：https://aclanthology.org/2023.emnlp-main.923/
- 會議：ACL2023
- 動機：
- 方法：
PRP：大型語言模型是具有成對排序提示的有效文本排序器
- 論文名稱: PRP：Large Language Models are Effective Text Rankers with Pairwise Ranking Prompting
- 論文地址：https://arxiv.org/pdf/2306.17563.pdf
- 會議：
- 動機：
- 方法：PRP的作者認為相比其他兩種方式，LLM的對比理解能力更強。而且pairwise的方式既支持生成式模型，又支持打分模型，且因為要比較兩個對象，可選擇的排序算法較多，如堆排序、冒泡排序、快速排序等，整體方式方法較為靈活。
Co-Prompt：通過約束生成的離散提示優化零樣本重隨機
- 論文名稱: Co-Prompt：Discrete Prompt Optimization via Constrained Generation for Zero-shot Re-ranker
- 論文地址：https://aclanthology.org/2023.findings-acl.61.pdf
- 會議：ACL2023
- 動機：
- 方法：Co-prompt方法將soft prompt條件生成技術應用至point-wise的LLM排序任務，將PLM作為生成器生成soft prompt，然後通過LLM作為鑑別器鑑別，來條件生成最優的prompt。這一方法可以同樣被應用於其他提示LLM的任務中，有效提升LLM的提示效果。

CoT 篇

如何提升LLMs：Self-Prompted CoT
- 論文名稱：Self-prompted Chain-of-Thought on Large Language Models for Open-domain Multi-hop Reasoning
- 論文地址：https://arxiv.org/pdf/2310.13552.pdf
- 動機：
  - 開放域多跳推理（ODMR）局限性：ODMR需要通過明確的推理步驟回答多跳問題，而不依賴於任何提供的上下文。這比有上下文的多跳問答要困難得多，因為模型不能依賴於檢索相關段落；
  - 鍊式思考（CoT）局限性：
    - 在質量或多樣性上有局限性
- 論文框架：提出了一種自我提示的思維鏈（SP-CoT）自動化框架，通過大型語言模型（LLMs）自身生成高質量多樣化的思維鏈，用於開放域多輪推理（ODMR）。關鍵思想是：
  - 自動化流水線生成帶有多跳問題和推理鏈的ODMR數據集
  - 自適應採樣選擇多樣化的高質量CoTs作為示範
  - 通過上下文學習從生成的CoTs中學習自我引導的推理

微調數據工程篇

EMNLP'23大模型時代的數據標註——FreeAL
- 論文名稱：FreeAL: Towards Human-Free Active Learning in the Era of Large Language Models[J].
- 論文地址： https://arxiv.org/pdf/2311.15614
- 思路：
  1. 數據標註依然重要，完全監督、弱監督的小模型在很多場景下比（未精調）大模型強；
  2. 利用LLM進行標註是完全可行的，小模型可以協同進行過濾、精煉大模型的標籤；
  3. 弱監督學習、主動學習這兩個領域，我想依然有活著的價值。
From Quantity to Quality：如何挑選具有增強LLM指令調優潛力的數據樣例？
- 論文名稱：From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning
- 論文地址：https://arxiv.org/pdf/2308.12032.pdf
- GitHub 地址：https://github.com/MingLiiii/Cherry_LLM
- 動機：如何挑選具有增強LLM指令調優潛力的數據樣例？
- 思路：
  - Learning from Brief Experience：選取有代表性的訓練數據訓練LLaMA；
  - Evaluating Based on Experience：利用訓練好模型計算原始數據中所有IFD指標；
  - Retraining from Self-Guided Experience：批量跑得到每個樣本的IFD得分，然後選取較高得分（prompt困難樣本）的樣本，paper中稱為cherry samples，用其重新訓練模型。
Active Instruction Tuning：怎麼更好的選擇一個新任務來提高模型泛化性？
- 論文名稱：Active Instruction Tuning: Improving Cross-Task Generalization by Training on Prompt Sensitive Tasks
- 論文地址：https://arxiv.org/pdf/2311.00288.pdf
- GitHub 地址：
- 動機：如何篩選出適合當前給定這個LLM的高質量數據，也就是說高質量是和模型深度綁定的。
- 提出了一個Prompt Uncertainty 思路：假設有一個原始樣本對<prompt, response>，然後對prompt做一些擾動得到promot_v1，其中promot_v1還是要保留大部分prompt語義，然後將prompt和promot_v1分別傳給模型，分別拿到response的輸出，計算得到兩者之間的likelihood值，該值即為Prompt Uncertainty。
MoDS: 如何自動篩選高質量數據？
- 論文名稱：MoDS: Model-oriented Data Selection for Instruction Tuning
- 論文地址：https://arxiv.org/pdf/2311.15653.pdf
- GitHub 地址：https://github.com/CASIA-LM/MoDS
- 動機：如何篩選出適合當前給定這個LLM的高質量數據，也就是說高質量是和模型深度綁定的。
- “高質量”數據的標準是什麼？
  - 質量:高質量的prompt以及對應的高質量response可以很好的讓模型學會遵循指令；
  - 覆蓋率: prompt的多樣性，越多樣性越好；
  - 必要性:同一條prompt對不同基座模型的重要度和必要性是不一樣的，如果一條prompt對於基座來說已經很好的輸出response了，也就是說模型已經很好的遵循prompt了，不需要再訓練了，相反則是模型需要的。
- “高質量”數據的如何篩選？
  - Quality Evaluation：基於模型打分篩選出高質量的SFT數據；
  - Diverse Data Selection for Seed Instrucitons：在這份高質量SFT數據集中繼續過濾出一個子集，該子集的多樣性要足夠好，能表徵整個數據集；
  - Augmented Data Selection
符堯：別卷大模型訓練了，來卷數據吧！
- 論文名稱：An Initial Exploration of Theoretical Support for Language Model Data Engineering
- 論文地址：https://yaofu.notion.site/An-Initial-Exploration-of-Theoretical-Support-for-Language-Model-Data-Engineering-Part-1-Pretraini-dc480d9bf7ff4659afd8c9fb738086eb
大模型對代碼的記憶痕跡
- 論文名稱：Traces of Memorisation in Large Language Models for Code
- 論文地址：https://arxiv.org/pdf/2312.11658
- Github 地址：
- 會議：
- 論文方法：該論文主要研究了大語言模型對代碼的記憶問題，並比較了代碼模型和自然語言模型的記憶率。研究人員構建了自然語言的基準測試集，並通過識別易受攻擊的樣本構建了代碼的基準測試集。他們對多種模型運行了這兩個測試集，並進行了數據提取攻擊。研究發現，大語言模型對代碼也存在數據提取攻擊的風險。從可提取的訓練數據中，他們成功提取了CodeGen-Mono-16B代碼補全模型中的47%數據。研究還發現，隨著參數數量的增加，模型記憶的內容也增加，並且模型的預訓練數據也容易受到攻擊。數據承載者的記憶率高於普通代碼或文檔，並且不同的模型架構記憶不同的樣本。數據洩露具有嚴重後果，因此該論文敦促研究界採用更廣泛的模型和提取技術來進一步調查這一現象，以建立相應的保護措施。
避免語言模型評估中的數據污染：動態測試構建與最新材料
- 論文名稱：Avoiding Data Contamination in Language Model Evaluation: Dynamic Test Construction with Latest Materials
- 論文地址：https://arxiv.org/pdf/2312.12343
- Github 地址：
- 會議：
- 論文方法：這篇論文提出了最新評估方法（LatestEval），利用最新的文本創建無污染的閱讀理解評估，避免數據污染帶來的挑戰。最新評估通過僅使用最近時間窗口內發布的文本來避免數據污染，並確保不與預訓練語言模型的訓練語料庫重疊。論文開發了一套LatestEval自動化流程，包括：1）收集最新文本；2）識別關鍵信息；3）構建問題，同時從上下文中刪除現有答案，鼓勵模型基於剩餘上下文推斷答案而不是簡單複制粘貼。
- 實驗結果表明，相對於先前的基準測試，語言模型在最新評估上幾乎不表現出記憶行為，這表明了數據污染的風險大大降低，從而導致更可靠的評估。
GeomVerse: 對幾何推理的大型模型的系統評估
- 論文名稱：GeomVerse: A Systematic Evaluation of Large Models for Geometric Reasoning
- 機構：谷歌研究院、Google DeepMind
- 論文地址：https://arxiv.org/pdf/2312.12241
- Github 地址：
- 會議：
- 論文方法：這篇論文通過幾何問題的視角評估了視覺語言模型（VLMs）在多個方面上的推理能力。
- 通過在多個深度級別上構建該論文的基準測試，實驗結果表明，與以前的基準測試所示的推理能力相比，這些模型在幾何學（以及一般情況下需要類似推理的其他主題）方面的能力並不如人們所想的那麼強大。這在解決更高深度問題時尤為明顯，因為解決更高深度的問題需要較長的推理鏈而不是額外的記憶知識。該論文在該領域的進一步研究中發布了數據集。
僅用1%的數據完胜全量數據微調模型!
論文名稱：One Shot Learning as Instruction Data Prospector for Large Language Models
機構：
作者：Li, Yunshui and Hui, Binyuan and Xia, Xiaobo and Yang, Jiaxi and Yang, Min and Zhang, Lei and Si, Shuzheng and Liu, Junhao and Liu, Tongliang and Huang, Fei and others
論文地址：arxiv.org/pdf/2312.10302.pdf
相關領域：訓練數據構建
Github 地址：https://github.com/pldlgb/nuggets
會議：
論文方法：僅用1%的數據完胜全量數據微調模型!#不懂就問有問必答論文中提出了一種名為Nuggets”的方法，意欲從堆積如山的指令微調數據中挖掘出黃金數據。這種方法利用大語言模型(LLM)自身作為數據探索工具，通過One shot learning 或者說是Incontext learning，從龐大的指令數據集中挑選出有益的數據。直觀來說，如果某個指令對於某個特定任務的少樣本學習(Few shot learning)有幫助，那麼這個指令就值得被用於訓練。如果這個指令能對多個任務有益，那麼它就應該成為主要的數據重點另外，有研究顯示，In context learning通過提示(Demonstrations)來隱式微調模型，相當於語言模型在幕後以元優化器的角色進行梯度下降操作。因此，利用在In context learning下的性能來預測指令微調的效果是很有前景的。

高效大模型推理篇

有限內存下的高效大模型推理
- 論文名稱：LLM in a flash: Efficient Large Language Model Inference with Limited Memory
- 論文地址：https://arxiv.org/pdf/2312.11514
- Github 地址：
- 會議：
- 論文方法：這篇論文主要解決的問題是如何在有限的內存容量下高效地運行超出DRAM容量的大語言模型。通過將模型參數存儲在閃存上，並根據閃存內存行為按需將其帶入DRAM來解決這一挑戰。論文通過構建一個與閃存內存行為相協調的推理成本模型，指導該論文在兩個關鍵領域進行優化：減少從閃存傳輸的數據量和以更大、更連續的塊讀取數據。論文介紹了兩種主要技術：窗口化策略降低數據傳輸量，行-列捆綁增加從閃存讀取的數據塊大小。這些方法使得模型可以在可用DRAM容量的兩倍大小下運行，並且與CPU和GPU中的簡單加載方法相比，推理速度分別增加了4-5倍和20-25倍。該論文的稀疏意識、上下文適應加載和麵向硬件的設計為在內存有限的設備上高效推理大語言模型鋪平了道路。
ComplexityNet: 通過學習任務複雜度來提高LLM推理效率
- 論文名稱：ComplexityNet: Increasing LLM Inference Efficiency by Learning Task Complexity
- 論文地址：https://arxiv.org/pdf/2312.11511
- Github 地址：
- 會議：
- 論文方法：這篇論文主要介紹了ComplexityNet，這是一個專門用於評估任務複雜度的精簡語言模型。該模型預測了不同能力的各種語言模型的輸出準確性的可能性。作者的初步應用是在Mostly Basic Python Problems (MBPP)數據集上。他們首次創建了一組標籤來定義任務複雜度。 ComplexityNet在確定任務複雜度方面取得了顯著的79%準確率，相比於原始模型的34%準確率有了顯著改進。此外，與使用最高複雜度模型相比，ComplexityNet可以有效地減少90%的計算資源使用量，同時保持高達86.7%的代碼生成準確率。這項研究表明，通過微調較小的模型來對任務進行分類，可以在使用大型語言模型時在準確性和效率之間取得更平衡的權衡。該論文的發現為優化LLM應用指明了一個有前景的方向，尤其是在資源受限的環境下。
超越Chinchilla-Optimal: 在語言模型縮放定律中考慮推理
- 論文名稱：Beyond Chinchilla-Optimal: Accounting for Inference in Language Model Scaling Laws
- 論文地址：https://arxiv.org/pdf/2401.00448
- 相關領域：模型結構改進
- Github 地址：
- 會議：
- 論文方法：本論文修改了Chinchilla縮放定律，計算了訓練和部署具有給定推理需求和質量的語言模型所需的最佳參數數量和預訓練數據大小。研究發現，對於預計存在相當大推理需求（約10億次請求）的語言模型研究者來說，應該訓練比Chinchilla-optimal更小更長的模型。
Understanding LLMs：從訓練到推理的全面概述
- 論文名稱：Understanding LLMs: A Comprehensive Overview from Training to Inference
- 論文地址：https://arxiv.org/pdf/2401.02038
- 相關領域：模型結構改進、預訓練
- 作者：Yiheng Liu, Hao He, Tianle Han
- Github 地址：
- 會議：
- 論文方法：這篇論文討論了大語言模型（LLMs）的訓練技術和推理部署技術的演變，並探討了低成本訓練和部署LLMs在未來的發展趨勢。訓練方面的討論包括數據預處理、訓練架構、預訓練任務、並行訓練以及與模型微調相關的內容。在推理方面，論文還涵蓋了模型壓縮、並行計算、內存調度和結構優化等主題。它還探討了LLMs的應用，並對它們的未來發展提供了見解。

大模型評估篇

Catwalk: 多數據集的統一語言模型評估框架
- 論文名稱：Catwalk: A Unified Language Model Evaluation Framework for Many Datasets
- 論文地址：https://arxiv.org/pdf/2312.10253
- Github 地址：https://github.com/allenai/catwalk
- 會議：
- 論文方法：這篇論文介紹了Catwalk，一個為了解決大規模比較NLP模型在多個任務、領域和數據集上的工程挑戰而設計的統一界面。它使得在大規模實驗中進行公平和可控的比較更加容易。通過一個命令，Catwalk可以在86個數據集上對64個模型進行微調和評估，而無需編寫任何代碼。
KGLens: 一種參數化的知識圖譜解決方案，用於評估LLM所知和不知道的內容
- 論文名稱：KGLens: A Parameterized Knowledge Graph Solution to Assess What an LLM Does and Doesn't Know
- 論文地址：https://arxiv.org/pdf/2312.11539
- Github 地址：
- 會議：
- 論文方法：本文介紹了KGLens這一方法，通過以結構感知的方式從知識圖譜中生成自然語言問題，以評估LLM。 KGLens使用了參數化的知識圖譜，在該圖譜中，每個邊都附加了一個貝塔分佈，用於指導從知識圖譜中進行QA測試時如何採樣邊。隨著評估的進行，對參數化的知識圖譜的不同邊進行採樣和評估，從而收斂到更全局的LLM在知識圖譜上的性能圖景。
- 實驗中，該論文構建了三個領域特定的用於知識評估的知識圖譜，包含超過19,000個邊，700個關係和21,000個實體。結果表明，KGLens不僅可以評估整體性能，還可以提供LLM的主題、時間和關係分析。這展示了KGLens的適應性和可定制性，強調其基於特定標準的評估能力。
人工智能是否能像人類一樣具備創造力？
- Can AI Be as Creative as Humans?
- 論文地址：https://arxiv.org/pdf/2401.01623
- 機構：斯坦福大學、羅格斯大學、微軟研究院
- 作者：Haonan Wang, James Zou, Michael Mozer
- 相關領域：指令微調、模型評估
- Github 地址：
- 會議：
- 論文方法：本文探討了創造力的定義和評估的複雜性，介紹了一種新的概念——相對創造力。相對於試圖普遍定義創造力，該論文將重點放在人工智能能否與假想的人類創造能力相匹配上。這種方法有助於通過統計量化評估AI的創造力，該論文稱之為統計創造力。在此基礎上，該論文討論了統計創造力在當下的提示條件自回歸模型中的應用。除了定義和分析創造力的指標外，該論文還提出了一種可行的訓練指南，有效地將創造力的理論量化與實際模型訓練相結合。通過這些多方面的貢獻，本文建立了一個連貫、不斷演變和變革性的框架，以評估和促進AI模型的統計創造力。

大模型預訓練篇

TeleChat：一個包含30億、70億和120億參數的大型語言模型集合
- 論文名稱：TeleChat Technical Report
- 機構：
- 作者：Zihan Wang, Xinzhang Liu, Shixuan Liu
- 論文地址：arxiv.org/pdf/2401.03804
- 相關領域：模型結構改進、預訓練、指令微調、模型評估
- Github 地址：
- 會議：
- 論文方法：TeleChat是一個包含30億、70億和120億參數的大型語言模型集合。它包括預訓練的語言模型和與人類偏好一致的fine-tuned聊天模型。 TeleChat首先在包含英文和中文的各種文本的廣泛語料庫上進行預訓練，包括數万億個標記。隨後，模型通過細調以與人類偏好一致，遵循該論文描述的詳細方法。該論文對TeleChat在語言理解、數學、推理、代碼生成和基於知識的問答等各種任務中的性能進行評估。
- 實驗結果：TeleChat在廣泛的公共基準測試中達到了與其他相似規模的開源模型相當的性能。為了支持未來利用LLMs的研究和應用，該論文向公眾社區發布了TeleChat 7B和12B變種的fine-tuned模型檢查點，以及代碼和部分預訓練數據。
大模型並不是你所需要的全部
- 論文名稱：Large Language Models aren't all that you need
- 機構：印度理工學院
- 作者：Kiran Voderhobli Holla, Chaithanya Kumar, Aryan Singh
- 論文地址：arxiv.org/pdf/2401.00698
- 相關領域：模型結構改進、預訓練
- Github 地址：
- 會議：
- 論文方法：這篇論文主要探討了在解決SemEval 2023任務2：多語種複雜命名實體識別方面的架構和系統。作者評估了兩種方法，一種是傳統的CRF模型，另一種是經過定制頭部微調的大型語言模型（LLM），並進行了比較。論文探索了一些新穎的想法，包括：1）衰減輔助損失（具有殘差）- 在模型上訓練粗粒度命名實體識別的輔助任務，並將該任務作為損失函數的一部分；2）三元標記混合- 在最終的命名實體識別層中，探索了混合相鄰標記嵌入的方法；3）任務優化頭部- 探索了各種定制頭部和學習率用於LLM的最終層。作者還嘗試了多個LLM，包括GPT-3，並在最終模型上進行了多種dropout和超參數設置的實驗，最終在測試數據上獲得了0.67/0.61的micro & macro f1分數。研究結果表明，儘管預訓練的LLM相比傳統模型帶來了很大的性能提升，但通過上述額外的特徵/損失/模型工程技術對宏觀F1分數的改進是可行的。
TinyLlama: 一個開源的小型語言模型
- 論文名稱：TinyLlama: An Open-Source Small Language Model
- 機構：
- 作者：Peiyuan Zhang, Guangtao Zeng, Tianduo Wang
- 論文地址：arxiv.org/pdf/2401.02385
- 相關領域：模型結構改進、預訓練
- Github 地址：github.com/jzhang38/TinyLlama
- 會議：
- 論文方法：TinyLlama是一個在大約3個時期內在大約1萬億個標記上預訓練的緊湊1.1B語言模型。 TinyLlama建立在Llama 2的架構和分詞器之上，利用了開源社區貢獻的各種進展（例如FlashAttention），實現了更好的計算效率。儘管規模相對較小，但TinyLlama在一系列下游任務中展現了顯著的性能。它明顯優於具有相似規模的現有開源語言模型。該論文的模型檢查點和代碼公開在GitHub上，網址為https://github.com/jzhang38/TinyLlama。
LLM增強LLM：通過組合擴展能力
- 論文名稱：LLM Augmented LLMs: Expanding Capabilities through Composition
- 機構：谷歌研究院、Google DeepMind
- 作者：Rachit Bansal, Bidisha Samanta, Siddharth Dalmia
- 論文地址：arxiv.org/pdf/2401.02412
- 相關領域：模型結構改進、預訓練
- Github 地址：
- 會議：
- 論文方法：這篇論文主要探討了在大語言模型的基礎上如何通過組合來增強模型能力的問題。通過引入交叉注意力機制，將現有的模型與具有特定任務的模型進行組合，從而實現新的能力。作者提出的CALM方法在多個領域和設置下都適用，並通過將PaLM2-S與在低資源語言上訓練的較小模型進行組合，在翻譯和算術推理等任務上取得了顯著的改進。
LLaMA Pro: 帶有塊擴展的漸進式LLaMA
- 論文名稱：LLaMA Pro: Progressive LLaMA with Block Expansion
- 機構：香港大學、上海交通大學、Tencent PCG實驗室
- 作者：Chengyue Wu, Yukang Gan, Yixiao Ge
- 論文地址：arxiv.org/pdf/2401.02415
- 相關領域：模型結構改進、預訓練
- Github 地址：
- 會議：
- 論文方法：這篇論文介紹了一種新的後預訓練方法，通過擴展Transformer模塊，僅使用新語料庫進行調整，有效提升模型的知識，避免災難性遺忘。研究者在代碼和數學語料庫上進行實驗，得到了LLaMA Pro-8.3B模型，該模型基於LLaMA2-7B模型初始，在通用任務、編程和數學方面有出色表現。 LLaMA Pro及其指令遵循對應模型(LLaMA Pro-Instruct)在各項基準測試中取得了先進的性能，證明其在LLaMA系列和各種任務中具有卓越的優勢和推理能力。該研究為融合自然語言和編程語言提供了有價值的洞見，為在不同環境中有效運行的先進語言模型的開發奠定了堅實的基礎。
無需註釋的病理定位的通用視覺語言預訓練
- 論文名稱：Generalizable vision-language pre-training for annotation-free pathology localization
- 機構：香港大學、鵬城實驗室、中國科學院大學
- 作者：Hao Yang, Hong-Yu Zhou, Cheng Li
- 論文地址：arxiv.org/pdf/2401.02044
- 相關領域：預訓練
- Github 地址：
- 會議：
- 論文方法：該論文介紹了一種針對無需註釋的病理定位的通用視覺語言預訓練模型。該模型的核心優勢在於其基於圖像註釋無關的多級語義結構對比學習，將醫學報告中的多粒度醫學概念與豐富的圖像特徵全面對齊，以適應觀察到的和新出現的未知病理的多樣表達。實驗證明，該模型在4個不同的外部數據集上驗證了其泛化能力，在定位5種不同病理方面優於6種最先進的方法，甚至超過人類基準，表明其適用於復雜的臨床環境。
ChartAssistant: 通過圖表到表格預訓練和多任務指令微調的通用圖表多模態語言模型
- 論文名稱：ChartAssisstant: A Universal Chart Multimodal Language Model via Chart-to-Table Pre-training and Multitask Instruction Tuning
- 機構：香港大學、南京大學、上海交通大學
- 作者：Fanqing Meng, Wenqi Shao, Quanfeng Lu
- 論文地址：https://arxiv.org/pdf/2401.02384
- 相關領域：預訓練、指令微調
- Github 地址：https://github.com/OpenGVLab/ChartAst
- 會議：
- 論文方法：這篇論文提出了ChartAssistant，這是一個基於圖表的圖像語言模型，旨在實現圖表理解和推理的通用性。 ChartAssistant通過圖表到表格解析的預訓練和多任務指令遵循的微調，解決了通用多模態模型在泛化和任務特定微調方面的挑戰。實驗結果顯示，與最先進的UniChart方法相比，ChartAssistant在各種圖表任務上取得了顯著的性能提升，並在實際圖表數據上優於OpenAI的GPT-4V(ision)。這篇論文的內容主要是介紹了ChartAssistant的設計與訓練方法，並展示了其在圖表任務上的性能優勢。
DIALIGHT: 利用大模型輕量級開發和評估任務導向對話系統
- 論文名稱：DIALIGHT: Lightweight Multilingual Development and Evaluation of Task-Oriented Dialogue Systems with Large Language Models
- 機構：劍橋大學
- 作者：Fanqing Meng, Wenqi Shao, Quanfeng Lu
- 論文地址：https://arxiv.org/pdf/2401.02208
- 相關領域：模型結構改進、預訓練
- Github 地址：https://github.com/OpenGVLab/ChartAst
- 會議：
- 論文方法：

機器人篇

Mobile ALOHA：低成本全身遠程操作學習雙手機器人移動操作
- 論文名稱：Mobile ALOHA: Learning Bimanual Mobile Manipulation with Low-Cost Whole-Body Teleoperation
- 機構：斯坦福大學
- 作者：Zipeng Fu, Tony Z. Zhao, Chelsea Finn
- 論文地址：https://arxiv.org/pdf/2401.02117
- 相關領域：模型結構改進、預訓練
- Github 地址：
- 會議：
- 論文方法：本論文介紹了一種學習移動操作任務的系統，該任務需要雙手協作和全身控制。使用Mobile ALOHA系統進行數據採集，通過與現有的靜態ALOHA數據集聯合訓練，進行監督式行為克隆，提高了移動操作任務的性能，使得Mobile ALOHA能夠自主完成複雜的移動操作任務。通過擴展了移動底盤和全身遠程操作界面的ALOHA系統，Mobile ALOHA實現了低成本的整體身體遠程操作系統。本論文解決了傳統機器人學習中關注的桌面操作的局限性，使得機器人具備了移動和靈活性，可以完成更廣泛實用的任務。

強化學習篇

基於表徵工程的生成式語言大模型人類偏好對齊
- 論文名稱：Aligning Large Language Models with Human Preferences through Representation Engineering
- 論文鏈接：https://arxiv.org/abs/2312.15997
- 論文動機：
  - 構建類似ChatGPT生成式語言大模型一般要經過語言模型、提令精調和強化學習三個主要訓練步驟，其中第三步使用強化學習來實現人類期望對齊既有一定的技術難度，又需要多次人工標註反饋，因而實現上有一定挑戰;
  - 經過前兩步語言模型和提令精調之後，語言大模型仍然會生成帶有偏見、歧視或者令人不適的回答;
  - 為了提升大模型的安全性、可用性和可信性，與人類期望對齊是必不可少的步驟;
  - 然而目前研究表明利用人類反饋的強化學習算法[1]（RLHF）存在訓練不穩定、對超參數敏感和訓練代價較高等問題。
- 論文方法：
  - 1. 使用帶偏好註釋的數據集來讓大型語言模型“感知”人類的偏好；
  - 1. 收集模型在不同偏好“刺激”情況下的隱層激活模式；
  - 1. 利用收集到的激活模式及差異來調整模型使其與與人類偏好對齊。
ICE-GRT: 基於生成強化學習的指令上下文增強模型
- 論文名稱：ICE-GRT: Instruction Context Enhancement by Generative Reinforcement based Transformers
- 機構：字節跳動
- 作者：Chen Zheng, Ke Sun, Da Tang
- 論文地址：arxiv.org/pdf/2401.02072
- 相關領域：指令微調、獎勵模型、RLHF
- Github 地址：
- 會議：
- 論文方法：這篇論文介紹了ICE-GRT模型，利用基於鄰近策略優化（PPO）的人類反饋強化學習（RLHF）來增強大語言模型在領域特定任務中的能力。 ICE-GRT在領域內場景中展示了出色的理解和推理能力，不僅能夠生成強健的答案，還可以提供答案背後的詳細分析。該模型在領域特定任務和12個通用語言任務中表現優秀，相比於同等規模甚至更大規模的大語言模型，取得了最先進的性能。作者對ICE-GRT進行了綜合分析，突出了其對大語言模型領域的顯著進展。

數字人

從音頻到逼真的人體化：合成對話中的人類
- 論文名稱：From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations
- 機構：
- 作者：
- 論文地址：https://arxiv.org/pdf/2401.01885
- 相關領域：
- Github 地址：
- 會議：
- 論文方法：該論文提出了一個生成全身逼真的頭像的框架，根據雙方互動的對話動態進行手勢生成。通過語音音頻輸入，該論文可以輸出個體的多種手勢動作，包括面部、身體和手部的動作。該論文的方法將向量量化的樣本多樣性與擴散獲得的高頻細節相結合，生成更具動態和表現力的動作。該論文使用高度逼真的人體化頭像可視化生成的動作，可以表達手勢中的重要細微之處（例如冷笑和嘲笑）。為了促進這一研究領域的發展，該論文推出了一種首個多視角對話數據集，可用於逼真重構。實驗結果顯示，該論文的模型生成適當且多樣的手勢，優於擴散和向量量化單獨的方法。此外，該論文的感知評估凸顯了光真度（與網格相比）在準確評估對話手勢中細微動作細節方面的重要性。代碼和數據集可在網上獲得。

Long LLM 篇

從4K到400K的飛躍：用激活信標擴展LLM的上下文
- 論文名稱：Soaring from 4K to 400K: Extending LLM's Context with Activation Beacon
- 機構：中國人民大學、北京AI研究院
- 論文地址：https://arxiv.org/pdf/2401.03462
- 相關領域：模型結構
- 論文介紹：這篇論文主要介紹了一種名為激活信標（Activation Beacon）的插件模塊，用於擴展大語言模型LLM的上下文窗口長度。通過將LLM的原始激活信息壓縮為更緊湊的形式，激活信標可以在有限的上下文窗口中感知更長的上下文。它完全保留了LLM在短上下文上的原始能力，同時擁有處理長上下文的新能力。該方法使用短滑動窗口處理長上下文，在訓練和推理中達到了競爭性的內存和時間效率。
- 實驗結果：激活信標可以將Llama-2-7B的上下文長度增加100倍（從4K到400K），同時在長上下文生成和理解任務上取得了優秀的結果。
LRA
- 論文名稱：Long range arena : A benchmark for efficient transformers
- 機構：
- 作者：
- 發表時間：2020.11.08
- 論文地址：https://arxiv.org/pdf/2011.04006.pdf
- 相關領域：Transformers
- Github 地址：https://github.com/google-research/long-range-arena
- 會議：
- 論文方法：
  - Long ListOps：2k長度左右的層次化數學運算；
  - Byte-level text classification：文本被視為字節序列而不是常規的字符序列。 byte-level是為了增大input 長度
  - Byte-level document retrieval：這個任務旨在測試模型將長序列壓縮成適合基於相似性匹配的表示的能力。
  - Image classification：圖像分類任務，輸入是像素序列
  - Pathfinder：圖像任務，判斷圖上的兩個點是否被線相連。示例由16K像素組成（即128×128的圖像）
- 【Metrics】accuracy
- 【Models/Baselines】
  - Vanilla Transformer Sparse Transformers Reformers Linformers Longformers Sinkhorn Transformers Performers Synthesizers Linear Transformers BigBird
- 【Findings】
  - BigBird結果最優，但是速度沒有提升
  - Local Attention速度最快，但是效果最差
  - Performer、Linformer和Linear Transformer，在速度和性能方面似乎能夠做出更好的權衡
- 【Comments】
  - 第一個提出的long sequence benchmark，且包含了文本和圖像兩個模態
  - 主要針對transformer架構的模型進行測試
  - 時間較為久遠，缺少現有大模型的評測
SCROLLS
- 論文名稱：SCROLLS: Standardized CompaRison Over Long Language Sequences
- 機構：
- 作者：
- 發表時間：2022.10.11
- 論文地址：https://arxiv.org/pdf/2201.03533.pdf
- 相關領域：Transformers
- Github 地址：https://github.com/tau-nlp/scrolls
- 會議：
- 論文方法：
  - Summarization：包含政府報告、電視劇台詞、會議記錄等長文本，做總結任務
  - QA：包含論文、古登堡書籍、電影等的QA 數據集
  - NLI：法律領域的自然語言推理數據集，給第一個法律協議，判斷能否得出某個假設
- 【Metrics】ROUGH, F1, Exact Match
- 【Models/Baselines】
  - BART LED
- 【Comments】
  - 有評測的平台、live leaderboard進行自動評測展示結果（測試集不公開）
  - 包含的任務類型比較少
  - 測評的模型少，參考價值較少
  - 時間比較早，有數據污染的風險
  - 時間較為久遠，缺少現有大模型的評測
  - 後續的Zero-SCROLLS是在此基礎上更新的benchmark
Longbench
- 論文名稱：Longbench: A bilingual, multitask benchmark for long context understanding
- 機構：
- 作者：
- 發表時間：2023.08.28
- 論文地址：https://arxiv.org/pdf/2308.14508.pdf
- 相關領域：Transformers
- Github 地址：https://github.com/THUDM/LongBench
- 會議：
- 論文方法：
  - Single-doc QA: 單文檔的QA，文本長度比較長。從多個現有的數據集進行提取，加入了英文和中文的MultiFieldQA數據集。
  - Multi-doc QA：多文檔QA，英文測試樣本來自三個基於維基百科的多跳問答數據集：HotpotQA（包含兩個相關段落的2跳問題）、WikiMultihopQA（包含最多5跳的問題）和MuSiQue（最多4跳推理）在數據中會加入乾擾段落；中文：基於DuReader構建了一個中文數據集，該數據集是基於百度搜索和百度知道開發的，包括20萬個問題和100萬篇相關文檔。對於每個問題，我們不僅提供與問題相關的幾篇文檔，還從總文檔集中任意選擇若干篇作為乾擾文檔，直到每個問題關聯到20篇文檔。
  - Summarization：集合現有的數據集
  - Synthetic tasks
  - PassageRetrieval en & zh: 從英文的維基和中文的C4 數據集分別隨機抽取30 篇文章，選擇其中一篇用GPT3.5-turbo 進行摘要，然後讓待評測的模型判斷這個摘要是哪篇文章的
  - Code completion：模型需要根據給定的上下文，包括先前的代碼行，來預測接下來應該是什麼樣的代碼行。
- 【Metrics】ROUGH-L, F1, Exact Match
- 【Models/Baselines】
  - GPT-3.5-Turbo-16k Llama2-7B-chat-4k LongChat-v1.5-7B32k XGen-7B-8k
  - InternLM-7B-8k ChatGLM26B ChatGLM2-6B-32k Vicuna-v1.5-7B-16k
- 【Findings】
  - GPT-3.5-Turbo-16k 最優
  - scaled positional embedding (ChatGLM2-6B-32k) and continued training on longer context (LongChat-v1.5-7B-32k) 取得了還不錯的結果
  - 在6 種任務中，summarization 和code completion 缺乏區分度，幾個模型的表現都很類似
BAMBOO
- 論文名稱：BAMBOO: A Comprehensive Benchmark for Evaluating Long Text Modeling Capacities of Large Language Models
- 機構：
- 作者：
- 發表時間：2023.09.23
- 論文地址：https://arxiv.org/pdf/2309.13345v1.pdf
- 相關領域：Transformers
- Github 地址：https://github.com/RUCAIBox/BAMBOO
- 會議：
- 論文方法：
- QA：新建2 個數據集，選擇題，需要多段落綜合總結；對一些問題進行了修改，確保模型沒見過
- Hallucination detection：新建2 個數據集，數據是論文+ 一個hypothesis，提問假設是否成立
- Text sorting：給打亂的文本排序
- Language modeling：新建2 個數據集，預測一個長對話的最後一輪對話的speaker 是誰
- Code completion：基於API文檔和代碼片段完成代碼，對一些文檔進行了修改
L-Eval
- 論文名稱：L-eval: Instituting standardized evaluation for long context language models
- 機構：
- 作者：
- 發表時間：2023.10.04
- 論文地址：https://arxiv.org/pdf/2307.11088.pdf
- 相關領域：Transformers
- Github 地址：https://github.com/OpenLMLab/LEval
- 會議：
ZeroScrolls
- 論文名稱：Zeroscrolls: A zero-shot benchmark for long text understanding
- 機構：
- 作者：
- 發表時間：2023.10.14
- 論文地址：https://arxiv.org/pdf/2305.14196.pdf
- 相關領域：zero shot
- Github 地址：https://github.com/tau-nlp/zero_scrolls
- 會議：
M4LE
- 論文名稱：M4LE: A Multi-Ability Multi-Range Multi-Task Multi-Domain Long-Context Evaluation Benchmark for Large Language Models
- 機構：
- 作者：
- 發表時間：2023.10.30
- 論文地址：https://arxiv.org/pdf/2310.19240v1.pdf
- 相關領域：short to long comprehensive
- Github 地址：https://github.com/KwanWaiChung/M4LE
- 會議：
LooGLE
- 論文名稱：LooGLE: Can Long-Context Language Models Understand Long Contexts?
- 機構：
- 作者：
- 發表時間：2023.11.08
- 論文地址：https://arxiv.org/pdf/2311.04939.pdf
- 相關領域：longer texts
- Github 地址：https://github.com/bigai-nlco/LooGLE
- 會議：
Needle in a Haystack
- 論文名稱：Pressure Testing GPT-4-128K With Long Context Recall
- 機構：
- 作者：
- 發表時間：2023.11.09
- 論文地址：https://twitter.com/GregKamradt/status/1722386725635580292
- 相關領域：longer texts
- Github 地址：https://github.com/gkamradt/LLMTest_NeedleInAHaystack
- 會議：

MoE 篇

Mixtral 8x7B: 稀疏專家混合語言模型
- 標題：Mixtral of Experts
- 相關領域：模型結構改進、指令微調
- 機構：
- 作者：Albert Q. Jiang, Alexandre Sablayrolles, Antoine Roux
- 發表時間：2023.09.23
- 論文地址：arxiv.org/pdf/2401.04088
- 相關領域：Transformers
- Github 地址：
- 會議：
- 論文方法：這篇論文介紹了Mixtral 8x7B，一種稀疏專家混合語言模型（SMoE）。 Mixtral具有與Mistral 7B相同的架構，不同之處在於每個層由8個前饋塊（即專家）組成。對於每個令牌，在每個層中，路由網絡選擇兩個專家來處理當前狀態並將其輸出進行組合。儘管每個令牌只能看到兩個專家，但所選擇的專家在每個時間步驟可以不同。結果是，每個令牌可以訪問470億個參數，但在推理過程中只使用130億個活躍參數。 Mixtral使用32k令牌的上下文尺寸進行訓練，並且在所有評估基準中勝過或與Llama 2 70B和GPT-3.5相匹配。特別是，在數學、代碼生成和多語言基準測試中，Mixtral遠遠優於Llama 2 70B。該論文還提供了一個fine-tuned的模型，Mixtral 8x7B - Instruct，在人類基準測試中超過了GPT-3.5 Turbo、Claude-2.1、Gemini Pro和Llama 2 70B - chat模型。基礎模型和指令模型都是在Apache 2.0許可下發布的。

mini LLMs 篇

項目名稱：ChatLM-mini-Chinese
- 項目介紹：中文對話0.2B小模型（ChatLM-Chinese-0.2B），開源所有數據集來源、數據清洗、tokenizer訓練、模型預訓練、SFT指令微調、RLHF優化等流程的全部代碼。
- 項目地址：https://github.com/charent/ChatLM-mini-Chinese
項目名稱：TinyLlama-1.1B-Chat-v1.0
- 項目介紹：TinyLlama-1.1B-Chat-v1.0是基於1.1B參數的Llama模型TinyLlama-1.1B的最新模型版本，該模型採用與Llama 2相同的架構和分詞器，可以集成到現有基於Llama的開源項目中。此模型體積緊湊，適合計算和內存資源受限的應用。它在TinyLlama/TinyLlama-1.1B-intermediate-step-1431k-3T基礎上微調，採用Zephyr訓練方案，初步在包含ChatGPT生成對話的UltraChat數據集變體上訓練，再通過openbmb/UltraFeedback數據集上進一步優化，後者包含64k個提示和GPT-4評級的模型完成情況。
- 適用於內存、資源受限應用的模型版本
- 採用Zephyr高效訓練方案，經UltraChat數據集微調
- 項目地址: https://github.com/jzhang38/TinyLlama
項目名稱：math-codet5p-770m-py
- 項目介紹：math-codet5p-770m-py是一個基於Salesforce/codet5p-770m-py的細粒度調優模型，旨在提升數學推理能力。該項目通過Program-of-Thought蒸餾方法，從大型語言模型gpt-3.5-turbo中提取數學推理能力，並將其遷移到較小的開源代碼語言模型中，最終在GSM8K測試數據集上實現了44.88%的準確率。在使用方面，math-codet5p-770m-py可以通過AutoModelForSeq2SeqLM輕鬆加載，使用Python語言進行問題求解。
- 項目地址: https://huggingface.co/zhuxunyu/math-codet5p-770m-py
項目名稱：Qwen/Qwen-1_8B-Chat
- 項目介紹：通義千問-1.8B（Qwen-1.8B）是阿里雲研發的通義千問大模型系列的18億參數規模的模型。 Qwen-1.8B是基於Transformer的大語言模型, 在超大規模的預訓練數據上進行訓練得到。預訓練數據類型多樣，覆蓋廣泛，包括大量網絡文本、專業書籍、代碼等。同時，在Qwen-1.8B的基礎上，我們使用對齊機制打造了基於大語言模型的AI助手Qwen-1.8B-Chat。
- 項目地址：https://huggingface.co/Qwen/Qwen-1_8B-Chat

參考

文檔領域多模態大模型整理https://zhuanlan.zhihu.com/p/673470907

展開