llms_paper 다운로드 llms_paper 소스 코드 다운로드

LLMS 페이퍼 스터디 클럽

저자 : 양 XI
소개 : 창고는 주로 LLMS 알고리즘 엔지니어 (멀티 모달, PEFT, 작은 샘플 QA Q & A, RAG, LMMS 해석, 에이전트, COT)와 관련된 최고 세션 논문 연구 노트를 기록합니다.
LLMS Nine-Story Demon Tower 주소 : https://github.com/km1994/llmsninestorydemontower
LLMS Qianmeng Langjun 주소 : https://github.com/km1994/llms_interview_notes
LLMS 논문 연구 참고 사항 : https://gitee.com/km601/llms_paper
NLP 다재다능하고 다재다능한 주소 : https://github.com/km1994/nlp-interview-notes
NLP 논문 연구 참고 사항 : https://github.com/km1994/nlp_paper_study
모든면 및 모든 종류의 주소가있는 권장 시스템 : https://github.com/km1994/res-interview-notes
권장 시스템 종이 연구 참고 사항 : https://github.com/km1994/rs_paper_study
모든면 및 모든 종류의 주소가있는 검색 엔진 : https://github.com/km1994/search-engine-interview-notes [쓰기]
GCN 논문 연구 노트 : https://github.com/km1994/gcn_study
ARMS 라이브러리의 홍보 및 검색 : https://github.com/km1994/recommendation_advertisement_search

모바일 메모의 경우 공식 계정 (NLP에 대해 모르는 것) 을 따라이를 얻고 [NLP && 권장 학습 그룹]에 가입하여 함께 공부할 수 있습니다! ! !

llms 천면 Langjun 인터뷰 교환 그룹 (참고 : 편집자 WX : Yzyykm666을 추가하여 그룹에 가입 할 수 있습니다!)

LLMS 페이퍼 스터디 클럽
- 멀티 모달
  - gpt4video
- PEFT 시리즈
- GPT 시리즈
  - 테이블 분석
- 헝겊 시리즈
  - 헝겊 트릭
  - 래그 응용 분야
    - 의료 분야의 QA Q & A
    - 종교 분야의 QA Q & A
    - 상식 필드의 QA Q & A
    - 법적 분야의 QA Q & A
    - 지식 그래프 분야의 QA Q & A
    - 작업 기반 도메인의 QA Q & A
    - 자동차 분야의 QA Q & A
- 프롬프트 시리즈
- LMMS 해석 가능성
- llms4kg
- LLMS 에이전트
  - 역할극
- 주목
- 찾다
  - 큰 모델을 통해 "쿼리 DOC"를 구축하는 방법은 무엇입니까?
  - 큰 모델을 통해 "query-doc"긍정적 및 부정적인 예를 레이블을 지정하는 방법은 무엇입니까?
  - 큰 모델을 통해 "쿼리 DOC"를 다시 작성하는 방법은 무엇입니까?
  - 대형 모델을 통해 PRF (의사 관련 피드백) + GRF (관련 피드백 생성)를 포괄적으로 활용하는 방법은 무엇입니까?
  - 큰 모델을 통과하는 일정을 잡는 방법은 무엇입니까?
    - 리콜이란 무엇입니까?
    - 리콜의 문제는 무엇입니까?
    - 인코더 기반 LLM 리트리버를 사용하는 방법은 무엇입니까?
    - 생성 LLM 리트리버를 사용하는 방법은 무엇입니까?
  - 큰 모델로 정렬하는 방법?
    - 유사성 계산을위한 미세 조정 LLM
    - 프롬프트 LLM
- 간이 침대
- 미세 조정 데이터 엔지니어링
- 효율적인 큰 모델 추론
- 큰 모델 평가
- 큰 모델의 사전 훈련
- 로봇
- 강화 학습
- 디지털 사람들
- 참조하십시오

멀티 모달

Gemini : 강력한 멀티 모드 모드 가족
- 제목 : Gemini : 유능한 다중 모드 모델의 가족
- 종이 주소 : https://arxiv.org/pdf/2312.11805
- 조직 : Google
- Github 주소 :
- 회의:
- 종이 방법 :이 논문은 이미지, 오디오, 비디오 및 텍스트 이해력의 특별한 능력을 갖춘 새로운 일련의 멀티 모달 모델 인 Gemini를 소개합니다. Gemini 제품군에는 Ultra, Pro 및 Nano의 세 가지 척도가 포함되어 있으며 장치의 메모리 제한 사용 사례에 적합합니다.
- 논문 실험 결과 : 광범위한 벤치 마크 에서이 논문의 최첨단 Gemini Ultra Model은 32 개의 벤치 마크 중 30 개 중 최신 진전을 이루었습니다. 특히 처음으로 인식 된 시험 벤치 마크 MMLU에서 인간 전문가 수준에 도달하고 논문이 검사 한 20 개의 멀티 모달 벤치 마크에서 최신 기술 수준을 개선했습니다. 이 논문은 교차 모달 추론 및 언어 이해에서 Gemini 모델의 새로운 기능이 다양한 사용 사례를 지원할 수 있고 사용자에게 책임감있게 배치하는이 논문의 접근 방식에 대해 논의 할 수 있다고 생각합니다.
구조화 된 추론 작업에서 GPT4-V의 성능을 평가하십시오
- 제목 : 구조화 된 추론 작업에 대한 GPT4-V 평가
- 종이 주소 : https://arxiv.org/pdf/2312.11524
- 조직 : OpenAi
- Github 주소 :
- 회의:
- 종이 방법 :이 논문은 주로 구조화 된 추론 작업에 대한 최신 언어 모델 GPT-4V 및 5 가지 기타 벤치 마크 모델의 성능을 평가합니다. 이러한 작업에는 수학적 추론, 시각적 데이터 분석 및 코드 생성이 포함됩니다.
- 연구 결과에 따르면 시각적으로 생각한 멀티 모달 LLM의 도입이 일반 모델에 비해 크게 개선되었음을 보여줍니다. 동시에이 논문은 모델이 잘 수행되고 어렵고 어렵고 멀티 모달 추론에 직면 한 문제를 강조하는 시나리오에 대한 분석을 분류했습니다.
RIPIP : 진보적 인 도구 검색 개선 계획
- 논문 제목 : RIPIP : Progressive Tool 검색은 계획을 향상시킵니다
- 종이 주소 : https://arxiv.org/pdf/2312.10332
- 기구:
- Github 주소 :
- 회의:
- 종이 방법 :이 논문은 복잡한 다중 단계 계획 작업을위한 PRIPIP라는 진보적 인 도구 검색 프레임 워크를 소개합니다. 프레임 워크는 대비 학습을 통해 작업을 암시 적으로 분해하면서 하위 작업 공간의 원자력을 유지합니다.
- Toolbench 데이터 세트에서 CRIPIP는 도구 검색에서 ChatGpt 기반 작업 분해 방법을 능가하고 TR의 Recall@K = 10 및 계획 생성에서 41%를 24% 향상시킵니다.
llava : 클래식 멀티 모달 대형 모델
- 종이 제목 : 시각적 지시 조정
- 종이 주소 : https://arxiv.org/abs/2304.08485
- 기관 : Microsoft Research Institute 및 Columbia University
- github 주소 : https://github.com/haotian-liu/llava
- 회의:
- 동기 부여 : chatgpt와 같은 대형 언어 모델 만 텍스트 입력 만 허용하므로 어떻게 큰 언어 모델을 이미지 입력을받을 수 있습니까?
- 종이 방법 : llava는 방법을 제안하고
  - 클립을 이미지의 인코더로 사용하고 클립 뒤에 선형 매핑 레이어를 추가하십시오.
  - 클립 인코딩 된 이미지를 ZU 기능을 언어 모델 기능 공간에 매핑하여 시각적 기능 HV를 얻습니다.
  - 텍스트 인코딩 (언어 지침의 인코딩)과 함께 언어 모델로 전송됩니다.
- 훈련 방법 :
  - 1 단계 : 사전 훈련 단계 . 이 단계에서는 이미지 공간에서 언어 모델 워드 벡터 공간으로의 매핑을 배우도록 선형 매핑 레이어 (투영 W) 만 훈련됩니다 . 이 단계에서 사용 된 데이터 세트는 CC3M이고;
  - 2 단계 : 미세 조정 단계 . 이 단계에서, 비주얼 인코더의 파라미터는 동결되고 선형 매핑 레이어의 매개 변수와 큰 언어 모델이 훈련된다 . 이 단계에서 사용 된 데이터 세트는 ScienceQA 및 GPT-4 기반 데이터 세트입니다.
- 실험 효과 :이 모델은 멀티 모달 GPT-4에 가까운 일부 그래픽 및 텍스트 이해 기술을 보여줍니다. GPT-4에 비해 상대 점수 85.1%를 얻었습니다. 과학 QA에서 미세 조정이 수행되었을 때, Llava와 GPT-4의 시너지 효과는 92.53% 정확도로 새로운 SOTA를 달성했습니다.
llavar : 향상된 시각적 지시 미세 조정
- 제목 : llavar : 텍스트가 풍부한 이미지 이해를위한 향상된 시각적 지침 튜닝
- 종이 주소 : https://arxiv.org/pdf/2306.17107.pdf
- 조직 : Georgia Tech, Adobe 및 Stanford
- github 주소 : https://github.com/salt-nlp/llavar
- 회의:
- 동기 부여:
- 종이 방법 : OCR 도구를 사용하여 Laion 데이터 세트에서 텍스트 정보가 포함 된 422k 사진을 수집 한 다음 그림에서 인식되는 텍스트와 그림의 캡션을 즉각적인 단어로 사용했습니다. 텍스트 만 GPT-4를 사용하여 16K 대화가 생성되었습니다. 각 대화에는 각 그림과 관련된 질문이 포함되어 있습니다 - 답변 쌍. 텍스트에서 수집 된 이러한 대화 데이터 세트와 Llava의 대화 데이터는 그림의 장면을 신중하게 이해할 수있는 Llavar 모델을 훈련시킵니다.
- 모델 구조 :
  - Visual Encoder V : Clip-Vit-L/14는 224x224 해상도의 입력에 사용됩니다. Clip-Vit-L/14-336은 336x336 해상도의 입력에 사용됩니다. 변압기 층의 마지막 층에서 출력 된 기능은 매핑 매트릭스 W를 통해 언어 디코더의 단어 임베딩 공간에 매핑됩니다.
  - 언어 디코더 D : 라마를 기반으로 한 Vicuna-13B를 채택하십시오
- 훈련 방법 :
  - 사전 훈련 : 비주얼 인코더와 LLM 인코더 사이의 매핑 레이어 만 교육됩니다 (LLAVA 및 새로 구성된 422K 거친 데이터를 사용하여 CC3M에서 595K 그래픽 및 텍스트 필터링);
  - 미세 조정 : Visual Encoder와 LLM 인코더 사이의 매핑 레이어 및 LLM을 훈련시킵니다 (LLAVA를 사용하여 MSCOCO 158K 명령 데이터를 기반으로 한 모델의 명령 이해 기능을 훈련시키고 새로 구성된 16K 명령 데이터를 교육하고 LLM과 그래픽 사이의 매핑 계층을 미세 조정하십시오).
Vary : Vision Vocabulary Forlarge Vision-Language 모델을 확장하십시오
- 종이 제목 : Vary : 대규모 비전 언어 모델에 대한 비전 어휘 확장
- 종이 주소 : arxiv.org/abs/2312.06109
- 동기 부여:
  - PDF 문서의 어려움은 사진, 테이블, 제목, 단락 및 기타 내용을 완전히 복원하여 문서의 텍스트 버전을 형성하는 방법에 있습니다.
  - 기존 오픈 소스 멀티 모달 대형 모델의 문제
    - 결국 중국어에 대한 지원은 좋지 않습니다. 결국 대부분의 교육 데이터는 여전히 영어로되어 있습니다.
    - 문서 수준 인식 수준은 높지 않습니다. 결국, 멀티 모달 대형 모델은 단순히 OCR 작업이 아니므로 교육 데이터가 부족할 수 있습니다. 문서 이미지를 식별 할 때는 콘텐츠가 부족하여 답변의 환각이나 부정확성을 초래합니다.
- 아이디어 : 새로운 데이터를 수집하고 새로운 시각적 인코더를 훈련시킨 다음 원래 비주얼 인코더와 병합합니다.
Instruct-Imagen : 다중 모드 안내에 따른 이미지 생성
- 논문 제목 : Instruct-Imagen : 멀티 모달 지시를 가진 이미지 생성
- 조직 : Google Research Institute, Google Deepmind
- 관련 필드 : 명령 미세 조정, 다중 모드
- 종이 주소 : https://arxiv.org/pdf/2401.01952
- 저자 : Hexiang Hu, Kelvin CK Chan, Yu-Chuan SU
- 종이 방법 :이 논문은 이질적인 이미지 생성 작업을 해결하고 알 수없는 작업을 일반화 할 수있는 모델 인 Terruct-Imagen을 소개합니다. 자연 언어를 사용하여 다양한 양식 (예 : 텍스트, 가장자리, 스타일, 테마 등)을 결합하여 풍부한 이미지 생성 의도를 통합 형식으로 표준화 할 수 있도록 멀티 모달 유도 이미지 생성을 소개합니다. 저자는 2 단계 프레임 워크에서 사전에 사전 된 텍스트-이미지 확산 모델을 미세 조정하여 지시-이마겐을 구성합니다. 먼저, 저자는 검색 향상 훈련을 사용하여 모델이 외부 멀티 모달 컨텍스트를 기반으로 이미지를 생성 할 수 있도록합니다. 그런 다음 저자는 시각적 언어 (예 : 주제 기반 생성 등)를 이해해야하는 다양한 이미지 생성 작업에서 미세 조정 모델을 미세 조정했으며, 각각은 작업의 특성을 포함하는 다중 모달 지침과 쌍을 이룹니다. 다양한 이미지 생성 데이터 세트에 대한 수동 평가에 따르면 Instruct-Imagen은 도메인 내에서 이전의 작업 별 모델과 경쟁하거나 능가하며 알려지지 않은 더 복잡한 작업에 대한 유망한 일반화 기능을 보여줍니다.
llava-φ : 효율적인 멀티 모드 비서 및 소형 언어 모델
- 논문 제목 : Llava-φ : 작은 언어 모델을 가진 효율적인 멀티 모달 어시스턴트
- 기관 : 아이디어, 동서 중국 평범한 대학교
- 관련 필드 : 명령 미세 조정, 다중 모드
- 종이 주소 : arxiv.org/pdf/2401.02330
- 코드 : github.com/zhuyiche/llava-phi
- 저자 : Yichen Zhu, Minjie Zhu, Ning Liu
- 종이 방법 : Llava-φ는 최근 고급 소규모 언어 모델 PHI-2의 힘을 활용하여 멀티 모달 대화를 촉진하는 효율적인 멀티 모드 어시스턴트입니다. Llava-φ는 소형 멀티 모달 모델 분야에서 상당한 발전을 기록합니다. 2.7B 매개 변수를 가진 작은 언어 모델조차도 고품질 코퍼스로 훈련되는 한 텍스트와 시각적 요소를 혼합하는 복잡한 대화에 효과적으로 참여할 수 있음을 증명합니다. 이 논문의 모델은 시각적 이해, 추론 및 지식 기반 인식을 포함하여 공개적으로 이용 가능한 벤치 마크에 대해 칭찬할만한 성능을 가지고 있습니다. 멀티 모달 대화 작업에서 잘 수행하는 것 외에도이 논문의 모델은 시간에 민감한 환경 및 구체화 된 에이전트와 같은 실시간 상호 작용이 필요한 시스템에 대한 새로운 길을 열어줍니다. 더 높은 자원 효율성을 유지하면서 복잡한 수준의 이해와 상호 작용을 달성하기 위해 소규모 언어 모델의 잠재력을 강조합니다.
텍스트 훈련 만 사용, 제로 샘플 자막 생성에서 내 세분화 된 이미지-텍스트 정렬
- 종이 제목 : 텍스트 전용 교육을 통한 제로 샷 캡션을위한 마이닝 세부인 이미지 텍스트 정렬
- 기관 : 상하이 과학 기술 대학교
- 관련 필드 : 멀티 모달
- 종이 주소 : https://arxiv.org/pdf/2401.02347
- 코드 : https://github.com/artanic30/maccap
- 저자 : Longtian Qiu, Shan Ning, Xuming HE
- 종이 방법 :이 논문은 클립 잠재적 공간 분석을 통한 텍스트 교육 만 사용하여 제로 샘플 이미지 자막을 생성하기위한 프레임 워크를 제안합니다. 텍스트 설명에서 이미지 하위 영역의 시각적 특징 및 정보 손실을 채굴함으로써, 노이즈 주입 및 재정의 전략을 도입함으로써 모달 갭을 줄이고 자막 생성 성능을 향상시킬 수 있습니다.
시각적 언어 모델 프롬프트 학습을 배우려면 텍스트 지원을 사용하십시오
- 논문 제목 : 텍스트로 프롬프트하는 법 학습 비전 언어 모델에 대한 감독
- 기관 : Google, ETH 취리히
- 관련 필드 : 사전 훈련, 다중 모드
- 종이 주소 : https://arxiv.org/pdf/2401.02418
- 코드 : https://github.com/muzairkhattak/protext
- 저자 : Muhammad Uzair Khattak, Muhammad Ferjad Naeem, Muzammal Naseer
- 용지 방법 :이 논문은 텍스트 데이터 만 사용하여 언어 모델의 프롬프트를 학습하여 시각 정보와 대형 언어 모델의 장점을 결합합니다. 이 방법을 통해 새로운 카테고리 및 데이터 세트로의 샘플 전송을 달성하여 대형 언어 모델 프롬프트 엔지니어링의 비용을 줄일 수 있습니다.

gpt4video

gpt4video
- 논문 제목 : GPT4VIDEO : LSTRUCTION FORNOWER의 이해 및 안전 인식 세대를위한 통합 된 멀티 모달 큰 언어 모델
- 종이 주소 : https://arxiv.org/abs/2311.16511
- 논문 예 : https://gpt4video.github.io/
- 종이 배경 : 현재의 멀티 모달 대형 언어 모델 (MLLM)은 멀티 모달 데이터 융합의 효과를 확인했지만 멀티 모달 정보의 생성을 탐색하는 방법은 없습니다.
- 종이 프레임 워크 :
  - 비디오 이해 모듈. 먼저, 비디오 기능 추출기가 추출 된 다음 비디오 기능과 LLM이 비디오 추상기를 통해 정렬됩니다.
  - 큰 언어 모델. llama를 사용하여 사전에, LORA에 의한 미세 조정;
  - 비디오 생성 모듈. 생성 된 비디오를 얻으려면 LLM에서 텍스트 비디오 모델로 프롬프트 출력을 입력하십시오.

PEFT 시리즈

즉각적인
- 종이 제목 : 프롬프트 튜닝
- 종이 주소 : https://arxiv.org/pdf/2107.13586.pdf
- Github 주소 :
- 회의:
- 동기 부여 : 그러나 미리 훈련 된 대형 언어 모델의 경우 각 작업마다 사용자 정의 된 것으로 보이며 이는 매우 비효율적입니다 . 사전 훈련 된 언어 모델을 전원 공급 장치로 사용하고 전기 기기와 다른 작업을 사용하는 방법이 있습니까? 다른 소켓은 다른 전기 기기 (작업)에 따라 선택하면됩니다. 모델, 즉 다른 작업 별 매개 변수를 삽입하면 모델을 다운 스트림 작업에 조정할 수 있습니다 .
- 종이 방법 : 미리 훈련 된 언어 모델에 대한 단서/힌트를 제공하여 인간의 문제를 더 잘 이해할 수 있도록 도와줍니다.
지침
- 종이 제목 : Finetuned Language 모델은 제로 샷 학습자입니다
- 종이 주소 : https://arxiv.org/abs/2109.01652
- github 주소 : https://github.com/google-research/flan
- 회의:
- 동기 부여 : PLM은 일반적으로 소수의 샷에서 잘 수행되지만 제로 샷에서는 매우 평범합니다. 한 가지 잠재적 인 이유는 모델이 사전 훈련과 다른 형식의 제안을 실행하기가 어렵 기 때문입니다.
- 종이 방법 : 언어 모델의 이해 능력을 자극하고보다 명백한 지시/지침을 제공함으로써 모델이 올바른 조치를 이해하고 만들 수 있도록하십시오.
자기 강조
- 논문 제목 : 자체 강조 : 자체 생성 지침과 언어 모델을 정렬
- 종이 주소 : https://arxiv.org/abs/2212.10560
- github 주소 : https://github.com/yizhongw/self-instruct
- 회의:
- 동기 부여 : 훈련 된 LLM의 "교육 튜닝"은 새로운 작업에 대한 제로 샷 설정 하에서 교육 이해 능력을 일반화 할 수있는 능력이 뛰어납니다 . 그러나이 접근법은 대형 언어 모델뿐만 아니라 인간이 작성한 고치기 고정 데이터에 크게 의존하며, 이는 많은 인력과 재료 자원이 필요합니다 .
- 종이 방법 : 노출 된 LLM 인터페이스에서 자체적으로 지침을 생성하도록 모델을 안내함으로써 LLM의 능력에 따른 지시를 향상시킵니다 . 이는 LLM 시대의 효율적인 증류 방법, 즉 고품질 사전 훈련 된 LLM 인터페이스에서 감독 된 데이터를 얻고 모델을 조정하고 대형 모델에 대한 지식을 증류하고 대상 모델에 배포함으로써 감독 된 데이터를 얻음으로써 효율적인 증류 방법이었습니다.
LORA : 대형 언어 모델의 낮은 순위 적응
- 논문 제목 : LORA : 대형 언어 모델의 낮은 순위 적응
- 종이 주소 :
- github 주소 : https://github.com/microsoft/lora
- 회의:
- 동기 부여:
  - 어댑터 추가 : 주요 문제 는 추론으로 인한 추가 계산 노력과 지연입니다 .
  - 최적화 프롬프트 : 접두사 튜닝은 최적화하기 어렵고 매개 변수 수가 증가함에 따라 성능은 단조로 변하지 않습니다 .
- 종이 방법 :
  1. 원래 모델 옆에 바이 패스를 추가하여 낮은 순위 분해를 통해 매개 변수의 업데이트 양을 시뮬레이션합니다 (차원 감소 먼저, 차원 증가).
  2. 훈련하는 동안 원래 모델은 고정되어 있으며, 치수 감소 행렬 A와 치수 상승 매트릭스 B 만 훈련됩니다.
  3. 추론 할 때 BA는 추가 추론 지연을 도입하지 않고 원래 매개 변수에 추가 할 수 있습니다.
  4. 초기화, A는 가우스 분포 초기화를 채택하고 B는 모두 0으로 초기화되어 우회가 훈련 시작시 0 행렬임을 확인합니다.
  5. 플러그 가능한 스위칭 작업, 현재 작업 W0+B1A1은 LORA 부품을 빼서 B2A2로 바꾸면 작업 전환을 달성 할 수 있습니다.
Dylora : 동적 검색이없는 저 순위 적응을 사용하여 사전 미세 모델에 대한 매개 변수의 효과적인 미세 조정
- 제목 : Dylora : 동적 검색이없는 저 순위 적응을 사용한 사전 미리 모델의 매개 변수 효율적인 튜닝
- 종이 주소 : https://arxiv.org/pdf/2210.07558v2.pdf
- github 주소 : https://github.com/huawei-noah/kd-nlp/tree/main/dylora
- 회의:
- 동기 부여 : 로라의 문제 :
  - 순위의 값은 고정되어 훈련이 완료된 후에 수정할 수 없습니다.
  - 순위의 가치를 최적화하려면 많은 검색과 노력이 필요합니다.
- 종이 방법 : 동적 저급 적응 (DY-LORA) 기술이 도입되었습니다. LORA 블록은 훈련 중에 어댑터 모듈에서 배운 표현을 정렬하여 단일 순위가 아닌 일련의 순위에 대해 훈련됩니다 .
LOMO : 제한된 리소스를 사용하여 대형 언어 모델의 전체 매개 변수를 미세 조정하십시오.
- 종이 제목 : 자원이 제한된 대형 언어 모델에 대한 전체 매개 변수 미세 조정
- 종이 주소 : https://arxiv.org/abs/2306.09782
- github 주소 : https://github.com/openlmlab/lomo
- 회의:
- 동기 부여 : 로라의 문제 :
  1. 대형 언어 모델 (LLM)은 자연어 처리 (NLP)를 완전히 변경했지만 LLM을 교육하려면 많은 GPU 자원이 필요합니다 .
  2. 기존의 방법은 효율적인 매개 변수 미세 조정, 즉 소수의 매개 변수를 미세 조정하거나 추가하는 데 중점을두고 있지만, 제한된 리소스에서 LLM의 모든 매개 변수를 조정하는 데 어려움을 겪은 사람은 거의 없으며 , 전체 매개 변수 미세 조정은 효율적인 매개 변수 미세 조정보다 더 강력한 것으로 간주됩니다.
- 용지 방법 : 새로운 최적화기, LOMO (Low-Memory Optimization)가 제안되며, 이는 메모리 사용을 줄이기 위해 구배 계산 및 매개 변수 업데이트를 한 단계로 융합시킵니다 . 표준 방법 (DeepSpeed Solution)과 비교하여 LOMO를 기존 메모리 저장 기술과 통합하여 메모리 사용량이 10.8%로 줄어 듭니다. 따라서이 접근법을 사용하면 단일 시스템에서 65B 모델의 전체 매개 변수 미세 조정을 가능하게하며, 비디오 당 24GB의 비디오 메모리가 장착 된 8 × RTX 3090이 장착되어 있습니다.
Qlora
- 논문 제목 : Qlora : 양자화 된 LLM의 효율적인 미세 조정
- 종이 주소 : https://arxiv.org/pdf/2305.14314.pdf
- github 주소 : https://github.com/artidoro/qlora
- 회의:
- 동기 부여 : Lora 미세 조정에는 세 가지 고통이 있습니다.
  - 작은 매개 변수 공간 : LORA는 훈련에 참여하는 매개 변수가 적고 솔루션 공간은 더 작으며 효과는 본격적인 미세 조정과 다소 다릅니다.
  - 대형 모델을 미세 조정하는 비용은 높습니다 . 수백억 개의 매개 변수가있는 모델의 경우 LORA의 미세 조정 비용은 여전히 매우 높습니다.
  - 정확도 손실 : 두 번째 지점의 경우 int8 또는 int4를 사용하여 모델 기반의 매개 변수를 추가로 압축 할 수 있습니다. 그러나 정확도 손실 문제를 일으키고 모델 성능을 줄입니다.
- 종이 방법 :
  - 4 비트 정상 플로어 : 이론적으로 최적의 4 비트 정량적 데이터 유형을 제안하며, 이는 현재 일반적으로 사용되는 FP4 및 INT4보다 우수합니다.
  - 이중 정량화 : 현재 모델 양자화 방법과 비교하여 더 많은 비디오 메모리 공간을 절약합니다. 각 매개 변수는 평균 0.37 비트를 절약하여 65B LLAMA 모델에 대해 약 3GB의 비디오 메모리 공간을 절약 할 수 있습니다.
  - PAGED OPITIZERS : NVIDIA UNIFED 메모리를 사용하여 긴 시퀀스의 작은 배치를 처리 할 때 기울기 체크 포인트 메모리 피크를 피하십시오.
  - 어댑터 추가 : 4 비트 정상 플로트 및 이중 양자화는 많은 공간을 절약하지만 성능 손실을 가져옵니다. 저자는 더 많은 어댑터를 삽입 하여이 성능 손실을 보상합니다. LORA에서는 일반적으로 쿼리 및 값의 전체 연결 계층에 어댑터를 삽입하도록 선택됩니다. Qlora는 모든 완전히 연결된 레이어에 어댑터를 삽입하여 정확도로 인한 성능 손실을 보충하기 위해 교육 매개 변수를 추가합니다.
VERA : LORA보다 10 배 작은 조정 가능한 매개 변수를 가진 저급 미세 조정 방법
- 종이 제목 : Vera : 벡터 기반 랜덤 매트릭스 적응
- 종이 주소 : https://arxiv.org/pdf/2310.11454.pdf
- Github 주소 :
- 회의:
- 동기 부여 : Lora 미세 조정에는 세 가지 고통이 있습니다.
  - LORA : 많은 훈련 가능한 매개 변수가 필요합니다. Aghajanyan et al.의 연구에 기초하여, 고유 차원의 상한은이 방법에서 일반적으로 사용되는 순위보다 훨씬 작습니다. 따라서 매개 변수의 양을 추가로 줄일 수 있습니다.
  - Adalora : 이것은 매개 변수를 동적으로 할당함으로써 미세 조정 된 매개 변수를 더욱 줄입니다. 그러나 우리는 효과를 줄이지 않고 훈련 가능한 매개 변수를 크게 줄일 수있는 또 다른 방법이 있다고 생각합니다.
- 종이 방법 :
  - 저 순위 행렬의 재발계 화. 구체적으로, 무작위로 초기화 된 한 쌍의 매트릭스가 얼어 붙어 모든 적응 층들 사이에서 공유되는 다음 층에 의해 적응할 수있는 훈련 가능한 확장 가능한 벡터가 도입된다. 도시 된 바와 같이, LORA와 유사하게, 훈련 된 스케일링 벡터 및 저급 행렬은 원래 무게로 병합되어 추가 추론 지연이 제거 될 수있다.
다국어 지침 미세 조정은 소량의 다국어 데이터만으로 수행 할 수 있습니다.
- 종이 제목 : 다국어 지침 튜닝만의 다국어 튜닝
- 관련 필드 : 명령 미세 조정
- 기관 : Google Research Institute, Tel Aviv University
- 저자 : Uri Shaham, Jonathan Herzig, Roee Aharoni
- 종이 주소 : https://arxiv.org/pdf/2401.01854
- Github 주소 :
- 회의:
- 분석 : 다국어 대형 언어 모델 (LLM)의 기능에 따라 다국어 교육 미세 조정의 영향을 연구 함으로써이 백서는 단일 언어 미세 조정에서도 많은 언어가 다른 언어로 일부 지침을 전달할 수 있음을 발견했습니다. 또한 영어 미세 조정에 대한 40 개의 다국어 예제 만 사용하면 다국어 지침의 성능을 보거나 보이지 않는 언어에서 크게 향상 될 수 있습니다. 이러한 언어에는 교육 예제가 10 배 적이지만 전체적으로 다국어 혼합 미세 조정 전시를 사용하는 모델은 단일 언어 미세 조정 모델과 비교하여 여러 언어로 비슷하거나 더 나은 성능을 제공합니다. 마지막으로, 명령 미세 조정 세트의 언어 수를 1에서 2, 3 또는 4로 늘려서 교차 언어 보편성을 향상시킬 수 있습니다. 실험 결과는 매우 작은 다국어 명령 응답 세트를 사용함으로써 대규모 다국어 명령 미세 조정 모델을 구성 할 수 있음을 보여줍니다.

GPT 시리즈

테이블 분석

작은 샘플 QA Q & A MinPrompt
- 종이 제목 : MinPrompt : 몇 가지 샷 질문 응답을위한 그래프 기반 최소 프롬프트 데이터 증강
- 종이 주소 : https://arxiv.org/pdf/2310.05007v1.pdf
- 논문 github 주소 :
- 회의:
- 동기 부여 : LLM은 양식을 읽습니다
  - 질문 1 : 결 측값 인식
  - 질문 2 : 결 측값 인식
  - 질문 3 : 양식에 대한 질문 답변
- 종이 방법 :
  - 최적화 전략 1 : 테이블 최적화
  - 최적화 전략 2 : 데이터 세트 생성 : 합성 향상

헝겊 시리즈

헝겊 트릭

자체 경영 : 자기 반성을 통한 검색 강화 생성을위한 헝겊 전략
- 논문 제목 : 자체-래그 : 자기 반성을 통한 검색, 생성 및 비판 학습
- 종이 주소 : https://arxiv.org/abs/2310.11511
- 논문 github 주소 :
- 회의:
- 동기 부여:
  - 1. 검색 세그먼트와 쿼리 사이의 잘못된 관계 : 이러한 방법은 검색이 필요한지 또는 세그먼트가 관련되어 있는지 여부에 관계없이 특정 수의 검색 세그먼트를 무차별 적으로 병합하여 LLM의 다양성을 감소 시키거나 생성 품질이 좋지 않은 경우 (Shi et al., 2023), 사실 지원에 관계없이 세그먼트를 검색하기 때문입니다.
  - 1. 생성 된 결과는 반드시 검색된 관련 세그먼트와 반드시 일치하지는 않습니다 (Gao et al., 2023).이 모델들은 제공된 세그먼트의 사실을 활용하고 따르도록 명시 적으로 훈련되지 않기 때문입니다.
- 종이 방법 :
  - 온 디맨드 검색 및 자기 반성을 통해 LLM 생성의 품질을 향상시킵니다 .
  - 이 논문은 작업 출력 및 간헐적 인 특수 토큰 (즉, 반사 토큰)을 생성하여 자체 세대 프로세스에 반영하는 법을 배우는 엔드 투 엔드 방법으로 임의의 LLM을 훈련시킵니다 . 반사 토큰은 검색 요구 사항과 생성 품질을 나타내는 검색 및 주석 토큰으로 나뉩니다.
Active Rag : 검색 여부를 적극적으로 결정한 다음 필요할 때 검색하는 래그 전략
- 종이 제목 : 활성 검색 증강 세대
- 종이 주소 : https://arxiv.org/pdf/2305.06983.pdf
- 논문 github 주소 : https://github.com/jzbjyb/flare
- 회의:
- 동기 부여 : 모든 단계를 검색하면 분명히 약간의 중복입니다.
- 종이 방법 :
  - 방법 1 : 검색 지침이있는 플레어
  - 방법 2 : 직접 플레어
MinPrompt 문서 QA Q & A
- 제목 : Memsum-DQA : 문서 질문에 대한 효율적인 긴 문서 추출 요약자 적응
- 종이 주소 : https://arxiv.org/pdf/2310.06436v1.pdf
- 논문 github 주소 : https://github.com/nianlonggu/memsum-dqa
- 회의 : CIKM 2023
- 동기 부여:
- 종이 방법 :이 논문은 ** "Memsum-Dqa, 효율적인 문서 질문 및 답변 (DQA) 시스템"을 제안합니다.이 시스템은 밈 (긴 문서 추출 요약)을 사용하여 구문 분석 문서의 각 텍스트 블록에 제공된 질문 및 질문 유형 접두사를 추가하여 문서에서 텍스트 블록을 선택적으로 추출합니다.
PDFTRIAGE : 긴 구조화 된 문서에 대한 Q & A
- 논문 제목 : PDFTRIAGE : 길고 구조화 된 문서에 대한 답변
- 종이 주소 : https://arxiv.org/pdf/2309.08872.pdf
- 논문 github 주소 :
- 회의:
- 동기 부여 : 문서가 LLM의 제한된 컨텍스트 창에 적합하지 않은 경우 관련 컨텍스트를 얻기 위해 다른 전략을 배포 할 수 있습니다.
- 종이 방법 :
  - 1. 문서 메타 데이터 생성 : 문서의 구조적 요소를 추출하여 읽을 수있는 메타 데이터로 변환하십시오.
  - 1. LLM 기반 분류 : 문서에서 정확한 컨텐츠 (페이지, 섹션, 검색된 컨텐츠)를 선택하려면 LLM 쿼리;
  - 1. 검색된 컨텐츠를 사용하여 답변 : 질문과 검색된 내용에 따라 답을 생성하십시오.
Ragtruth : 신뢰할 수있는 검색 강화 언어 모델을 개발하기위한 변형 된 언어의 코퍼스
제목 : Ragtruth : 신뢰할 수있는 검색을위한 언어 모델을 개발하기위한 환각 코퍼스
종이 주소 : https://arxiv.org/pdf/2401.00396
관련 분야 : 모델 평가, 데이터 세트 구성
Github 주소 :
회의:
종이 방법 :이 기사는 LLM 응용 프로그램을위한 표준 래그 프레임 워크에서 다양한 분야의 단어 수준의 환상을 분석하는 전용 코퍼스 인 Ragtruth를 소개합니다. Ragtruth에는 Rag를 사용하는 다른 LLM에서 거의 18,000 개의 자연적으로 생성 된 답변이 포함되어 있습니다. 이 답변은 환각 강도 평가를 포함하여 미세하게 작성되고 수동으로 주석이납니다. 이 논문은 상이한 LLM의 환각 주파수를 벤치마킹 할뿐만 아니라 기존 환각 탐지 방법의 효과를 비판적으로 평가한다. 또한,이 논문은 Ragtruth와 같은 고품질 데이터 세트를 사용하여 비교적 작은 LLM이 미세 조정 될 수 있으며 GPT-4와 같은 최첨단 대형 언어 모델을 사용하여 기존의 프롬프트 접근법으로 환각 감지에서 경쟁력있는 성능 수준을 달성 할 수 있음을 보여줍니다.

래그 응용 분야

의료 분야의 QA Q & A

전문가 수준 의료 질문 응답
- 논문 제목 : 대형 언어 모델로 전문가 수준 의료 질문에 대한 인간인지 과정 에뮬레이션
- 종이 주소 : https://arxiv.org/ftp/arxiv/papers/2310/2310.11266.pdf
- 동기 부여 : 의료 분야의 고급 임상 문제 해결 도구에 대한 긴급한 요구를 충족시키기 위해.
- 논문 방법 :이 논문은 "LLM (Lange Language Model)을 기반으로 한 새로운 프레임 워크 인"Booksmed, Booksmed는 인간인지 과정을 시뮬레이션하고, 증거와 함께 신뢰할 수있는 반응을 제공하고 등급 (제안, 평가, 개발 및 평가) 프레임 워크를 사용하여 기본의 강도를 정량화합니다.
증거에 대한 기대에 의한 의료 질문-의료 QA에 대한 추론
- 논문 제목 : 기대에 의한 의료 질문 응답에 대한 설명 생성 증거에 대한 최대화 추론
- 종이 주소 : https://arxiv.org/pdf/2310.01299v1.pdf
- 동기 부여 : Medical Q & A (Medical QA) 시스템은 의료 종사자가 질문에 대한 답변을 찾는 데 중요한 역할을합니다. 그러나 사용자는 설명이 필요할 수 있으므로 의료 QA 시스템을 통해 답변을 제공하는 것만으로는 충분하지 않습니다. 즉, 자연어로보다 분석적인 진술을하고 해답을 뒷받침하는 요소와 컨텍스트를 설명합니다 .
- 논문 방법 :이 논문은 새로운 방법을 제안합니다 . 고품질 의학적 해석에는 추가 의료 지식이 필요하기 때문에 우리의 시스템은 해석 생성 중 의료 교과서에서 지식을 추출하여 설명의 질을 향상시킵니다.

종교 분야의 QA Q & A

Qasina 종교 분야 QA Q & A
- 제목 : Qasina : 종교 도메인 질문 Sirah Nabawiyah를 사용한 답변
- 종이 주소 : https://arxiv.org/pdf/2310.08102v1.pdf
- 동기 부여 : 대형 언어 모델 개발 (LLM). LLM은 다양한 분야에 적용될 수 있지만 이슬람 종교 분야에 적용될 때 정보 전송의 원칙과 모순됩니다. 이슬람에서는 정보의 근원이 엄격하게 규제되며 누가 그 출처를 설명 할 수 있는지 LLM이 자체 설명에 따라 답을 생성하는 방식은 이슬람 전문가 나 이슬람이 허용하지 않는 사람이 아닌 Tafseer의 개념과 유사합니다. Given the high influence of LLM, the author of this article "evaluates LLM in the religious field."
- 论文方法：论文提出了问答Sirah Nabawiyah (QASiNa)数据集，这是一个根据印尼语Sirah Nabawiyah 文献编译的新颖数据集，并使用mBERT、XLM-R和IndoBERT验证该数据集，并使用SQuAD v2.0 的印尼语翻译进行微调。

常识领域QA问答

QADYNAMICS 常识QA问答
- 论文名称：QADYNAMICS: Training Dynamics-Driven Synthetic QA Diagnostic for Zero-Shot Commonsense Question Answering
- 论文地址：https://arxiv.org/pdf/2310.11303v1.pdf
- 论文Github地址：https://github.com/HKUST-KnowComp/QaDynamics
- 动机：Zero-shot常识问答(QA) 要求模型能够进行一般情况的推理。最先进的方法一般做法是根据常识知识库(CSKB) 构建的QA对，并对语言模型进行微调，使其能够具备更多的常识知识。但在此过程中，QA对构建过程中可能会引入来自CSKB 的噪声，从而生成不符合预期的语法问答对，这会阻碍模型的泛化能力。
- 论文方法：论文提出了**「QADYNAMICS，一种用于QA诊断和改进的动态驱动框架」**。该方法分析了QA对在问答、选项两个方面上的训练动态，通过删除无信息QA对、错误标记、错误选项来简化训练检测组件。

法律领域QA问答

Long-Form Legal Question Answering 法律QA问答
- 论文名称：Interpretable Long-Form Legal Question Answering with Retrieval-Augmented Large Language Models
- 论文地址:https://arxiv.org/pdf/2309.17050v1.pdf
- 论文Github地址：https://github.com/maastrichtlawtech/lleqa
- 会议：CIKM 2023
- 动机：许多人可能在一生中的某个时刻面临法律纠纷，但他们缺乏对如何解决这些复杂问题的了解，往往使他们变得脆弱。自然语言处理的进步为通过开发自动化法律援助系统来弥合法律素养差距开辟了新途径。然而，现有的法律问答（LQA）方法往往范围狭窄，要么局限于特定的法律领域，要么仅限于简短、无信息的回答。
- 论文方法：论文提出了一种端到端的方法， 「旨在利用“先检索后阅读”的管道生成任何成文法问题的长格式答案」 。为了支持这种方法，引入并发布了长格式法律问答(LLeQA) 数据集，其中包含1,868 个由专家注释的法语法律问题，以及基于相关法律条款的详细答案。

知识图谱领域QA问答

CHATKBQA: 知识检索QA问答
- 论文名称：CHATKBQA: A GENERATE-THEN-RETRIEVE FRAMEWORK FOR KNOWLEDGE BASE QUESTION ANSWERING WITH FINE-TUNED LARGE LANGUAGE MODELS
- 论文地址:https://arxiv.org/pdf/2310.08975v1.pdf
- 论文Github地址：https://github.com/LHRLAB/ChatKBQA
- 회의:
- 동기 부여:
  - 知识检索效率低下；
  - 检索错误影响语义解析结果；
  - 先前KBQA方法的复杂性。
- 论文方法：论文提出首先使用微调的LLM生成逻辑形式，然后通过无监督检索方法检索和替换实体、关系，这直接地改进了生成和检索。

任务型领域QA问答

InstructTODS: 知识检索QA问答
- 论文名称：InstructTODS: Large Language Models for End-to-End Task-Oriented Dialogue Systems
- 论文地址：https://arxiv.org/pdf/2310.08885v1.pdf
- 论文Github地址：https://github.com/WillyHC22/InstructTODS/
- 회의:
- 动机：当前，大语言模型(LLM)已用于各种自然语言处理(NLP)任务，但对于任务导向的对话系统（TODS），特别是端到端的TODS的探索仍然存在一定的局限性。
- 论文方法：论文提出了「InstructTODS，该框架可用于Zero-Shot端到端任务导向的对话系统，无需微调即可适应不同的领域」。通过利用LLM，InstructTODS生成代理信念状态(proxy belief state)，将用户意图无缝转换为动态查询，以便与任何知识库进行高效交互。

汽车领域QA问答

CarExpert: 汽车检索增强QA问答
- 论文名称：CarExpert: Leveraging Large Language Models for In-Car Conversational Question Answering
- 论文地址：https://arxiv.org/pdf/2310.09536v1.pdf
- 论文Github地址：
- 회의:
- 动机：大型语言模型（LLM）通过遵循自然语言指令而无需对特定领域的任务和数据进行微调，表现出了卓越的性能。然而，利用LLM进行特定领域的问题回答往往会产生幻觉。此外，由于缺乏对领域和预期输出的认识，LLM可能会生成不适合目标领域的错误答案。
- 论文方法：论文提出了「CarExpert」，车内检索增强会话问答系统利用了LLM的不同任务。具体而言，CarExpert采用LLM来控制输入，为提取和生成回答组件提供特定领域的文档，并控制输出以确保安全和特定领域的答案。

Prompt 系列篇

小样本QA问答MINPROMPT
- 论文名称：MINPROMPT: Graph-based Minimal Prompt Data Augmentation for Few-shot Question Answering
- 论文地址：https://arxiv.org/pdf/2310.05007v1.pdf
- 论文Github地址：
- 회의:
- 动机：小样本问答（Few-shot QA）旨在少量训练样本的情况下，让模型给出令人满意的回答。最新的研究进展主要依赖大型语言模型（LLM）。尽管预训练阶段已经让LLM具备了强大的推理能力，但LLM仍需要进行微调以适应特定领域，以达到最佳结果。
- 论文方法：论文提出了「MinPrompt」，一个基于近似图算法和无监督问题生成的开放域QA的最小数据增强框架。作者将原始文本转换为图形结构，以在不同的事实句子之间建立联系，然后应用图形算法来识别原始文本中最多信息所需的最小句子集。然后，根据识别的句子子集生成问答对，并在选定的句子上训练模型以获得最终模型。实证结果表明，MinPrompt 能够以高效率实现与基线相当或更好的结果。

LMMs 可解释性篇

大模型事实性综述(Survey on Factuality in Large Language Models)
- 论文名称：Survey on Factuality in Large Language Models
- 论文地址：https://arxiv.org/pdf/2310.07521.pdf
- 论文Github地址：
- 회의:
- 동기 부여:
  - 尽管LLMs 具有无与伦比的能力，其产生非事实或误导性内容的可能也让人产生担忧；
  - 对一些特定领域知识或者实时事实知识的缺乏也极大限制了大模型的使用；
- 四个关键维度：
  - 事实性问题的定义及其影响；
  - 评估事实性的技术及其定量评估；
  - 分析LLMs 中事实性的基本机制并确定事实错误的根本原因；
  - 增强LLMs 事实性的方法。
- 两个主要设置：
  - 没有外部知识的LLMs，如ChatGPT
  - 检索增强型LLMs，如BingChat
LLMs 研究—— LLMs 自我解释性研究
- 论文名称：Can Large Language Models Explain Themselves? A Study of LLM-Generated Self-Explanations
- 论文地址：https://arxiv.org/pdf/2310.11207.pdf
- 论文Github地址：
- 회의:
- 动机： LLM在自我解释方面有多擅长？
- 论文方法：
  - 对大型语言模型（LLMs）在自我生成特征归因解释方面的能力进行了严格评估
  - 研究使用ChatGPT和SST数据集作为测试平台，构建了能可靠生成两种类型的LLM生成自我解释的提示
  - 研究比较了这些解释与传统的解释技术（遮蔽显著性和LIME）在忠实度和一致性指标上的表现；
- 论文结论
  - 根据忠实度评估，无论是自动生成的解释还是其他解释，都没有明显的优势。然而，根据一致性评估，它们之间存在很大的区别。这可能表明当前解释方法可能不是最优的，需要开发更好的方法来产生更好的自我解释；
  - 模型预测值和单词归因值都非常全面，取值如0.25，0.67，0.75等。这表明当前的评估度量可能无法充分区分好解释和坏解释；

LLMs4KG 篇

ChatKBQA
- 论文名称：ChatKBQA: A Generate-then-Retrieve Framework for Knowledge Base Question Answering with Fine-tuned Large Language Models
- 论文地址：https://arxiv.org/abs/2310.08975
- Github 地址：https://github.com/LHRLAB/ChatKBQA
- 회의:
- 动机：利用微调开源大模型进行自然语言问题到逻辑形式的转换，再利用无监督实体关系检索生成图数据库查询语言，实现自然语言的知识图谱问答框架。
- 论文方法：提出了ChatKBQA，这是一种基于微调开源LLMs（大型语言模型），如Llama-2-7B，ChatGLM2-6B和Baichuan2-7B等，的新型生成-检索KBQA框架；
  - 首先微调生成逻辑形式，然后对生成的逻辑形式中的实体和关系在知识库中的实体库和关系库分别做检索，避免了以前方法存在的先检索对逻辑形式生成的影响，并提高检索效率；
  - 在生成阶段，使用指令微调技术对开源LLMs进行微调，赋予它们感知和生成逻辑形式的能力

LLMs Agents 篇

角色扮演(Role-Play)

大语言模型的角色扮演(Role-Play with Large Language Models)
- 论文名称：Role-Play with Large Language Models
- 论文链接：https://arxiv.org/pdf/2305.1636
- 论文动机：
  - 使用我们描述人类行为的相同语言来描述对话agents是自然的，如：自由地使用“知道”、“理解”和“思考”等词汇。试图通过使用更科学精确的替代词来避免这样的词汇通常会导致笨拙、难以理解的文本;
  - 如果过于在字面意义上理解这种语言，会促进人格化、夸大这些AI系统与人类之间的相似之处，而掩盖其内在的区别。
- 论文思路：提出了两个基本的隐喻(metaphors)来描述基于LLM的对话agents：
  - 从简单的观点来看，我们可以将对话agents视为扮演一个单一角色；
  - 从更细微的观点来看，我们可以将对话agents视为角色在多元宇宙中的模拟重叠；
RoleLLM
- 论文名称：RoleLLM: Benchmarking, Eliciting, and Enhancing Role-Playing Abilities of Large Language Models
- 论文链接：https://arxiv.org/abs/2310.00746
- 论文动机：
  - Few-Shot Prompting / In-Context Learning：加入few-shot examples（从该角色的历史dialogue数据中检索而来），有助于LLM获取相关知识、模仿角色的风格。
- 论文思路：
  - RoleLLM 所用两种Few-Shot方法：
    - single-turn prompt：在单轮对话中一次性引入examples
    - multi-turn prompt：RoleLLM称之为dialogue engineering，即将对话过程以user和assistant角色交替写入。
  - RoleLLM 数据合成方法：
    - general domain 。收集开源的general instructions（如英文领域的Super-NaturalInstruct、中文领域的COIG等），然后给到RoleGPT，让其在通用问题上，生成模仿某个角色的对话；
    - role-specific （即论文所谓的Context-Instruct）。根据Role Profile来生成Question、Answer，这样生成的dialogue数据更加与role本身相关，因此有role-specific的特点；
Character-LLM
- 论文名称：Character-LLM: A Trainable Agent for Role-Playing
- 论文链接：https://arxiv.org/abs/2310.10158
- 论文动机：
  - Fine-Tuning的迷人之处在于：适当的数据+ 开源LLM + Fine-Tuning 有可能超过闭源LLM + In-Context Learning。
- 论文思路：
  - 将目标role在wiki上的信息，作为profile；
  - 使用LLM，根据profile来生成scene；
  - 基于scene + profile，让LLM生成dialogue数据。其prompt示例如下，用此种方法生成的数据可以是多轮的。
ChatHaruhi
- 论文名称：ChatHaruhi: Reviving Anime Character in Reality via Large Language Model
- 论文链接：https://arxiv.org/abs/2308.09597
- Github 地址：https://github.com/LC1332/Chat-Haruhi-Suzumiya/tree/main
- 优化策略：
  - 允许LLM复用few-shot examples。即允许LLM在相似场景下，直接使用角色的对话内容；
  - 在结尾额外加上一段人物性格描述，以强化生成效果。
- 论文思路：
  - 将目标role发言前的内容作为question，给到LLM，让其继续完成这个dialogue。同时为了优化生成效果，论文也采取了few-shot prompting的策略。在实验中，有50%的概率会生成多轮对话。

주목

System 2 Attention
- 论文标题：System 2 Attention (is something you might need too)
- 论文链接：https://arxiv.org/abs/2311.11829
- Github 地址：
- 动机：大型语言模型(LLM)非常强大，但它们仍容易出现简单的错误，这似乎显示出弱的推理能力。例如，不相关的上下文或输入提示中固有的偏好或意见，都可能使它们产生错误判断，在后一种情况下，展现了一种称为阿谀奉承的问题，即模型与输入一致同意。
- 论文方法：论文提出了一种技术方案--System 2 Attention(S2A)，可以让LLM决定输入上下文的重要部分，来生成好的响应。实现这点的方法是：首先诱导LLM重新生成只包含相关部分的输入上下文，然后关注重新生成的上下文以引出最终响应。
- 论文在实验中证明，S2A可以成功重写会降低最终答案质量的上下文，因此论文的方法可以同时提高事实性并减少其响应中的阿谀奉承。
- 未来的研究仍有许多空间。在论文的实验中，采用了零样本提示来实现S2A。其他方法可以通过考虑微调、强化学习或替代提示技术(alternative prompting techniques)来进一步优化论文的方法。成功的S2A还可以压缩回标准LLM生成，例如：通过使用原始提示作为输入和最终改进的S2A响应作为目标进行微调。

찾다

LSM：如何用好LLMs：大型搜索模型
- 论文名称：Large Search Model: Redefining Search Stack in the Era of LLMs
- 论文地址：https://arxiv.org/abs/2310.14587
- 동기 부여:
  - 神经网络信息检索基础局限性：在生成长文本时它们倾向于产生不正确或不相关的信息；
  - 检索增强生成局限性：RAG的最佳训练策略仍是一个未解之谜。人们也对模型利用检索信息的有效性表示担忧；
- 论文框架：作者将大型搜索模型定义为一个定制的大型语言模型，它通过自然语言提示将各种搜索任务统一起来。它重新定义了由查询理解、检索、排名、摘要和问答等许多离散组件组成的传统搜索堆栈。
SuperGen：用语言模型生成训练数据：迈向零样本语言理解
- 论文名称：SuperGen：Generating Training Data with Language Models: Towards Zero-Shot Language Understanding
- 论文地址：https://arxiv.org/abs/2202.04538
- 方法：利用NLG模型生成数据质量高的优势，结合NLU模型理解能力强的优势，在多个GLUE任务上起到了不错的效果。
DARE: 基于GPT-2的数据增强关系提取
- 论文名称: DARE: Data Augmented Relation Extraction with GPT-2
- 论文地址：https://arxiv.org/abs/2310.14587
- 方法：用gpt2先在领域内数据上微调，然后用生成的训练数据来提升BERT类模型在关系抽取任务上的效果。这一思路其实是和SuperGen思路是相同的，只是gpt2的模型体量更小，在相关领域上微调后生成的数据质量可能反而更好。

如何通过大模型构建“query-doc”？

解释：对搜索数据进行数据增强就是获取更多的“query-doc”对。一种方法是根据query生成假doc，而另一种是根据doc生成假query。

InPars: 基于大型语言模型的信息检索数据扩充
- 论文名称: InPars: Data Augmentation for Information Retrieval using Large Language Models
- 论文地址：https://arxiv.org/abs/2202.05144
- 方法：InPairs利用LLM的上下文学习能力，结合给出的示例，给doc生成了大量的假query，然后通过微调后的语言模型进行结果“过滤”。
InPars-v2: 大型语言模型作为信息检索的有效数据集生成器
- 论文名称: InPars-v2: Large Language Models as Efficient Dataset Generators for Information Retrieval
- 论文地址：https://arxiv.org/abs/2301.01820
- 方法：在inPairs-V2版本中，一个较大的变化是，其利用在检索数据集上微调的T5-3B模型来过滤生成的查询，而不是简单的通过概率进行过滤，以此来提升生成数据的可靠性。
InPairs-Light：高效排名者的成本效益无监督培训
- 论文名称: InPairs-Light：Cost-Effective Unsupervised Training of Efficient Rankers
- 论文地址：https://arxiv.org/abs/2301.02998
- 方法：后续的inPairs-Light版本也对“过滤器”进行了瘦身，参数从30亿降至2亿。
InPairs-Light：从8个例子看Few-shot Dense Retrieval
- 论文名称: Promptagator：Few-shot Dense Retrieval From 8 Examples
- 论文地址：https://arxiv.org/abs/2301.02998
- 方法：PROMPTAGATOR 利用inPairs中“生成-过滤”这一过程，在生成的样本上微调检索器，然后使用该检索器过滤生成的样本。重复这两个步骤直到收敛，以产生高质量的训练集。
UDAPDR：基于LLM提示和重排序的无监督域自适应
- 论文名称: UDAPDR: Unsupervised Domain Adaptation via LLM Prompting and Distillation of Rerankers
- 论文地址：https://arxiv.org/abs/2303.00807
- 动机：在inPairs-V2版本中，研究者意识到请求LLM如chatgpt、gpt4的API进行数据增强会带来高额的成本，开始采用开源的LLM替换API请求方式，但可能会导致增强数据的质量下降。
- 方法：UDAPDR 针对这一问题，先用高质量LLM根据doc生成高质量query，然后用高质量doc-query送入低成本LLM扩充数量，兼顾了成本和效果问题，其过程如图所示。

如何通过大模型标注“query-doc” 正负样例？

通过上述方法虽然能够构建“query-doc”，但是如何辨别真假呢？这个时候可以利用LLM获取query与doc的假label，即让模型帮我判断这条数据是不是正样本，是正样本的概率是多少？

ART：训练Dense Passage Retriever 所需的全部问题
- 论文名称: ART：Questions Are All You Need to Train a Dense Passage Retriever
- 论文地址：https://arxiv.org/abs/2206.10658
- 方法：先将query经过向量编码，然后通过向量检索器选出相关文档，再让模型给每个文档与query的相关性进行打分。这一打分被作为soft label，反馈给之前的passage encoder和question encoder进行更新训练。
ExaRanker：Explanation-Augmented Neural Ranker
- 论文名称: ExaRanker：Explanation-Augmented Neural Ranker
- 论文地址：https://arxiv.org/abs/2206.10658
- 方法：ExaRanker 使用GPT-3.5 为检索数据集生成解释，随后训练一个seq2seq 排名模型来生成相关标签以及给定查询-文档对的相应解释。
ChatGPT-RetrievalQA：为交叉编码器重排器生成合成文档： ChatGPT 与人类专家的比较研究
- 论文名称: ChatGPT-RetrievalQA：Generating Synthetic Documents for Cross-Encoder Re-Rankers: A Comparative Study of ChatGPT and Human Experts
- 论文地址：https://arxiv.org/abs/2305.02320
- 方法：我们研究了生成式大型语言模型(llm)在为交叉编码器重新排序器生成训练数据方面的有用性，该方向是:生成合成文档而不是合成查询。我们引入了一个新的数据集ChatGPT-RetrievalQA，并比较了在llm生成和人工生成数据上微调的模型的有效性。生成式llm生成的数据可用于增强训练数据，特别是在标记数据数量较少的领域。我们基于一个现有的数据集，人类ChatGPT比较语料库(HC3)构建ChatGPT- retrievalqa，该数据集由公共问题集合组成，其中包含来自ChatGPT的人类响应和答案。
- 实验结果：我们在人工生成或chatgpt生成的数据上微调一系列交叉编码器重新排名。我们对MS MARCO DEV、TREC DL'19和TREC DL'20的评估表明，在ChatGPT响应上训练的交叉编码器重新排序模型比在人类响应上训练的模型更有效。在有监督的环境中，人工训练的重新排名者的表现优于法学硕士训练的重新排名者。我们的新发现表明，生成式llm在为神经检索模型生成训练数据方面具有很高的潜力。需要进一步的工作来确定在生成的响应中事实错误信息的影响，并测试我们的发现在开源法学硕士中的普遍性。我们为将来的工作发布数据、代码和交叉编码器检查点。

如何通过大模型改写“query-doc”？

让LLM作为生成模型，根据用户的query写一段文本，将其作为改写结果送入后续的检索模块，以提高最终的检索质量。

面向信息检索查询扩展的神经文本生成
- 论文名称: Neural text generation for query expansion in information retrieval
- 论文地址：https://dl.acm.org/doi/10.1145/3486622.3493957
- 动机：在LLM时代到来之前，就有不少研究利用各种生成式模型来对query进行改写。
- 方法：利用gpt-2，根据query生成文本作为改写结果。文章整体思路非常简单，但是可以应用在各式各样的搜索系统上，效果也不错。另外，gpt-2模型体量不大，再加上cache等手段的运用，对于搜索系统整体没有什么额外负担。
Query2doc:使用大语言模型进行查询扩展
- 论文名称: Query2doc：Query Expansion with Large Language Models
- 论文地址：https://arxiv.org/abs/2303.07678
- 동기 부여:
- 方法：通过预定的prompt，根据用户的query生成一段文本，用于辅助后续的检索。相比之下，谷歌的研究有两点不同，一是没有利用上下文学习（ICL），二是要求LLM给出其答案的思维链。
通过提示大语言模型进行查询扩展
- 论文名称: Query Expansion by Prompting Large Language Models
- 论文地址：https://arxiv.org/abs/2305.03653
- 动机：查询扩展是一种广泛用于提高搜索系统查全率的技术。
- 方法：在本文中，我们提出了一种利用大型语言模型(llm)的生成能力进行查询扩展的方法。与传统的查询扩展方法(如伪相关反馈(PRF))依赖于检索一组良好的伪相关文档来扩展查询不同，我们依赖于LLM的生成和创造能力，并利用模型中固有的知识。我们研究了各种不同的提示，包括零弹、少弹和思维链(CoT)。我们发现CoT提示对于查询扩展特别有用，因为这些提示指示模型逐步分解查询，并且可以提供与原始查询相关的大量术语。
- 实验结果：；在MS-MARCO和BEIR上的实验结果表明，llm生成的查询扩展比传统的查询扩展方法更强大。
LLMCS：大语言模型了解上下文搜索意图:会话搜索的提示框架
- 论文名称: LLMCS：Large Language Models Know Your Contextual Search Intent: A Prompting Framework for Conversational Search
- 论文地址：https://arxiv.org/abs/2303.06573
- 动机：上述两个方法可以应用于即席搜索（ad-hoc search）场景，而现代的搜索系统很多支持会话搜索（session search），类似于多轮对话，搜索结果会考虑一个会话中的前几次搜索信息。
- 方法：LLMCS是一个支持会话搜索的框架，且针对于会话搜索场景下LLM输入长度增加的问题使用了滑窗方法进行优化。
GRM: 基于相关性感知样本估计的文档检索生成关联建模
- 论文名称: GRM：Generative Relevance Modeling Using Relevance-Aware Sample Estimation for Document Retrieval
- 论文地址：https://arxiv.org/abs/2306.09938
- 动机：尽管LLM拥有出色的文本理解和生成能力，不可否认其还是会存在幻觉问题，导致其输出结果背离事实，引入无关噪声影响最终检索结果。
- 方法：GRM训练了一个神经网络模型，对LLM生成的结果进行相关性打分，最后将得分作为每个生成结果的权重，以减轻无关信息对最终检索结果的影响。

如何通过大模型综合利用PRF（伪相关反馈）+GRF（生成相关反馈）？

以上研究都是利用LLM的生成结果作为改写结果的主要内容，我们可以将其看作是一种生成相关反馈（GRF），而不少研究也同时在模型生成或结果后处理阶段加入伪相关反馈（PRF）的方法来改进改写结果的质量。

HyDE:无关联标签的精确Zero-Shot Dense Retrieval
- 论文名称: HyDE：Precise Zero-Shot Dense Retrieval without Relevance Labels
- 论文地址：https://arxiv.org/abs/2212.10496
- 动机：LLM幻觉问题
- 方法：HyDE将LLM生成的结果进行编码，利用向量检索器，与真实的文档库中的候选文档进行相关性匹配，然后利用真实的文档作为改写的结果辅助查询。可以看出，该方法实质上就是利用LLM的输出结果而不是query去召回伪文档。
- 이점:
  - 相比传统的PRF方法，保证了第一次检索的伪文档的相关性；
  - 相比Query2doc等方法，又通过结合PRF避免了LLM可能产生幻觉的问题，保证了结果的高度真实性。
  - 类似地，LameR则是将PRF这一过程放到了LLM输入之前。
LameR:大型语言模型是强大的零样本检索器
- 论文名称: LameR：Large Language Models are Strong Zero-Shot Retriever
- 论文地址：https://arxiv.org/abs/2304.14233
- 动机：LLM幻觉问题
- 방법:
- 이점:
Rewrite-Retrieve-Read：针对检索增强的大型语言模型的查询重写
- 论文名称: Rewrite-Retrieve-Read：Query Rewriting for Retrieval-Augmented Large Language Models
- 论文地址：https://arxiv.org/abs/2305.14283
- 动机：LLM幻觉问题
- 方法：Rewrite-Retrieve-Read这一研究则是利用改写去加强检索增强LLM的效果。Rewrite-Retrieve-Read图中从左到右分别是：检索增强LLM、带有改写器的检索增强LLM、带有强化学习改写器的检索增强LLM。其中Rewrite-Retrieve-Read指的是第三个。可以看出，Rewrite-Retrieve-Read方法不仅利用LLM作为改写器增加了其检索增强的效果，还引入了强化学习，通过最终答案的反馈，来训练高质量LLM改写器。
- 이점:
PRF+GRF:稀疏、稠密和学习稀疏检索的生成和伪相关反馈
- 论文名称: PRF+GRF：Generative and Pseudo-Relevant Feedback for Sparse, Dense and Learned Sparse Retrieval
- 论文地址：https://arxiv.org/abs/2305.07477
- 动机：LLM幻觉问题
- 方法：PRF+GRF直接结合PRF和LLM输出的结果，然后综合加权考虑两者的结果作为改写结果。
- 이점:
InteR:通过搜索引擎和大型语言模型之间的交互进行知识提炼
- 论文名称: InteR：Knowledge Refinement via Interaction Between Search Engines and Large Language Models
- 论文地址：https://www.researchgate.net/publication/370763983_Knowledge_Refinement_via_Interaction_Between_Search_Engines_and_Large_Language_Models
- 动机：LLM幻觉问题
- 方法：InteR则是一种搜索系统和LLM多轮交互框架，通过多次PRF、LLM输出，达到增强两过程效果的目的。
- 이점:

如何通过大模型进行召排？

何为召回？

召回（retrive）是搜索系统中的核心模块，可分为基于统计算法的稀疏检索（Sparse Retriever）和基于神经网络的密集检索（Dense Retriever）。

召回存在哪些问题？

query短且模糊
doc长且噪声多
监督数据标注成本高
PLM模型仍存在改进空间

如何基于encoder的LLM检索器？

基于encoder的检索器指的是在密集检索中，使用LLM出色的语义能力获取query或doc的向量表示，用向量检索器进行检索召回。

cpt-text:通过Contrastive Pre-Training 嵌入文本和代码
- 论文名称: cpt-text：Text and Code Embeddings by Contrastive Pre-Training
- 论文地址：https://arxiv.org/abs/2201.10005
- 동기 부여:
- 方法：cpt-text 在未标记的数据上使用带负采样的对比学习，将相邻的文本视为正样本，从头训练了四种参数级别的嵌入模型，用以产生文本的高质量向量表示。这种结合预训练模型初始化、大批量对比学习和大规模训练的简单配方可以产生具有广泛能力的高质量文本向量，甚至会超越在领域内数据上微调后的语言模型。
- 이점:
GTR：大型双编码器是可推广的检索器
- 论文名称: GTR：Large Dual Encoders Are Generalizable Retrievers
- 论文地址：https://arxiv.org/abs/2112.07899
- 动机：但是对于大多数人来说，从头训练一个LLM的成本是非常高的。因此，有不少研究基于已有的LLM进行微调。
- 方法：GTR（Generalizable T5-based dense Retrievers）使用T5家族初始化双编码器模型参数，然后在数据集上进行微调。
- 优点：不管是cpt-text还是GTR，实验都表明，模型尺度越大，其无监督学习和文本搜索任务的迁移学习性能越好。
TART：带指令的任务感知检索
- 论文名称: TART：Task-aware Retrieval with Instructions
- 论文地址：https://arxiv.org/abs/2211.09260
- 동기 부여:
- 方法：TART同样基于T5，设计了一个任务感知检索模型，可以对query的信息进行初步判断，以选取跟该query高度相关的任务指令。然后将query与指令一起利用LLM进行编码后再进行检索。与改写不同的是，LLM并没有参与到TART的指令生成中，而是以检索器的身份进行指令、query、doc的编码。
- 이점:

如何基于生成式的LLM检索器？

上面的研究都旨在利用LLM的强大语义编码能力对query、doc等内容进行编码。但在LLM崭露头角之前，就有不少研究致力于构建end2end式的检索模型，成为生成式检索器（Generative Retriever）。相比先编码再检索，生成式方法通过联合编码器和解码器，直接获取要检索的文档标识符

DSI:Transformer内存作为可微分搜索索引
- 论文名称: DSI：Transformer Memory as a Differentiable Search Index
- 论文地址：https://arxiv.org/abs/2202.06991
- 동기 부여:
- 方法：DSI就是一种典型的生成式检索模型，在检索数据集上微调T5模型，直接对query、doc进行编码，然后直接解码输出相关文档的id作为检索结果。
- 이점:
LLM-URL:大型语言模型内置于自回归搜索引擎中
- 论文名称: LLM-URL：Large Language Models are Built-in Autoregressive Search Engines
- 论文地址：https://arxiv.org/abs/2305.09612
- 동기 부여:
- 方法：LLM-URL研究中发现，LLM生产的URL中包含90%以上的query的相关答案，他们利用这一点，设计合适的prompt获取LLM输出的URL，并将其作为生成式检索器的额外输入，直接获取文档相关id。这种方式相当于进行“改写”，只不过是基于生成式检索器之上的。
- 이점:

如何通过大模型进行排序？

微调LLM进行相似度计算

在gpt3等超大型参数模型出现之前，不少研究都利用PLM，将排序任务看作相似度计算任务来获得每个query和doc的相似度得分。RankT5就是这样一种模型，他基于T5直接计算查询-文档对的相关分数，并使用pairwise或listwise计算排名损失进行微调。

RankT5: 用于具有排名损失的文本排名的微调T5
- 论文名称: RankT5：Fine-Tuning T5 for Text Ranking with Ranking Losses
- 论文地址：https://arxiv.org/abs/2202.06991
- 동기 부여:
- 方法：RankT5有两种得分计算方法，一种是encoder-decoder结构，另一种则是不需要解码直接根据encoder编码得到排序分数。
- 作者实验证明，两种结构效果上各有胜负，这也侧面表明decoder作用其实不大，蒸馏等操作可以直接对encoder下手。类似的研究还有很多，只是把backbone换为BERT、BART、GPT等即可。

提示LLM

对超大规模LLM进行微调存在成本昂贵的明显问题，不少研究选择利用LLM的提示能力得到query与doc是否相似的答案。

UPR：利用零样本问题生成改进文章检索
- 论文名称: UPR：Improving Passage Retrieval with Zero-Shot Question Generation
- 论文地址：https://aclanthology.org/2022.emnlp-main.249/
- 会议：ACL2022
- 动机：排序的实质是进行query和doc间的相似度计算，这一分数也可以看作是根据query获得doc的概率。
- 方法：UPR利用这一过程的逆向思路，利用prompt提示LLM，针对每一个doc，逐一计算query中各个token的生成概率，并将这一概率作为query和doc的相似度分数。简单理解，就是用LLM根据prompt对每个doc生成对应的query，称为假query。然后将生成后的假query和原query送入语言模型进行打分，计算两者的一个“相似度”。这里的相似度并不是我们熟知的向量相似度，而是“假query复原原query”的概率，其过程如上面公式所示。最后，对这个得分进行排序以获取最终的排序结果。
RankGTP：ChatGPT擅长搜索吗？作为重新排序代理的大型语言模型研究
- 论文名称: RankGTP：Is ChatGPT Good at Search? Investigating Large Language Models as Re-Ranking Agent
- 论文地址：https://aclanthology.org/2023.emnlp-main.923/
- 会议：EMNLP2023
- 동기 부여:
- 方法：RankGPT和LLR都采用类似list-wise的方式来获取LLM的排序结果。相比point-wise，list-wise的场景下LLM能够关注到更多的doc信息，直接输出文档id的排序结果，且不需要打分模型的参与。为了解决list-wise场景下输入的doc过长的问题，RankGPT采用了滑动窗口的方法，指定k大小的窗口来获取最终top-k的排序结果。
LLR:基于大型语言模型的零射击列表式文档重排序
- 论文名称: LLR：Zero-Shot Listwise Document Reranking with a Large Language Model
- 论文地址：https://aclanthology.org/2023.emnlp-main.923/
- 会议：ACL2023
- 동기 부여:
- 방법:
PRP：大型语言模型是具有成对排序提示的有效文本排序器
- 论文名称: PRP：Large Language Models are Effective Text Rankers with Pairwise Ranking Prompting
- 论文地址：https://arxiv.org/pdf/2306.17563.pdf
- 회의:
- 동기 부여:
- 方法：PRP的作者认为相比其他两种方式，LLM的对比理解能力更强。而且pairwise的方式既支持生成式模型，又支持打分模型，且因为要比较两个对象，可选择的排序算法较多，如堆排序、冒泡排序、快速排序等，整体方式方法较为灵活。
Co-Prompt：通过约束生成的离散提示优化零样本重随机
- 论文名称: Co-Prompt：Discrete Prompt Optimization via Constrained Generation for Zero-shot Re-ranker
- 论文地址：https://aclanthology.org/2023.findings-acl.61.pdf
- 会议：ACL2023
- 동기 부여:
- 方法：Co-prompt方法将soft prompt条件生成技术应用至point-wise的LLM排序任务，将PLM作为生成器生成soft prompt，然后通过LLM作为鉴别器鉴别，来条件生成最优的prompt。这一方法可以同样被应用于其他提示LLM的任务中，有效提升LLM的提示效果。

간이 침대

如何提升LLMs：Self-Prompted CoT
- 论文名称：Self-prompted Chain-of-Thought on Large Language Models for Open-domain Multi-hop Reasoning
- 论文地址：https://arxiv.org/pdf/2310.13552.pdf
- 동기 부여:
  - 开放域多跳推理（ODMR）局限性：ODMR需要通过明确的推理步骤回答多跳问题，而不依赖于任何提供的上下文。这比有上下文的多跳问答要困难得多，因为模型不能依赖于检索相关段落；
  - 链式思考（CoT）局限性：
    - 在质量或多样性上有局限性
- 论文框架：提出了一种自我提示的思维链（SP-CoT）自动化框架，通过大型语言模型（LLMs）自身生成高质量多样化的思维链，用于开放域多轮推理（ODMR）。关键思想是：
  - 自动化流水线生成带有多跳问题和推理链的ODMR数据集
  - 自适应采样选择多样化的高质量CoTs作为示范
  - 通过上下文学习从生成的CoTs中学习自我引导的推理

微调数据工程篇

EMNLP'23大模型时代的数据标注——FreeAL
- 论文名称：FreeAL: Towards Human-Free Active Learning in the Era of Large Language Models[J].
- 论文地址： https://arxiv.org/pdf/2311.15614
- 思路：
  1. 数据标注依然重要，完全监督、弱监督的小模型在很多场景下比（未精调）大模型强；
  2. 利用LLM进行标注是完全可行的，小模型可以协同进行过滤、精炼大模型的标签；
  3. 弱监督学习、主动学习这两个领域，我想依然有活着的价值。
From Quantity to Quality：如何挑选具有增强LLM指令调优潜力的数据样例？
- 论文名称：From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning
- 论文地址：https://arxiv.org/pdf/2308.12032.pdf
- GitHub 地址：https://github.com/MingLiiii/Cherry_LLM
- 动机：如何挑选具有增强LLM指令调优潜力的数据样例？
- 思路：
  - Learning from Brief Experience：选取有代表性的训练数据训练LLaMA；
  - Evaluating Based on Experience：利用训练好模型计算原始数据中所有IFD指标；
  - Retraining from Self-Guided Experience：批量跑得到每个样本的IFD得分，然后选取较高得分（prompt困难样本）的样本，paper中称为cherry samples，用其重新训练模型。
Active Instruction Tuning：怎么更好的选择一个新任务来提高模型泛化性？
- 论文名称：Active Instruction Tuning: Improving Cross-Task Generalization by Training on Prompt Sensitive Tasks
- 论文地址：https://arxiv.org/pdf/2311.00288.pdf
- GitHub 地址：
- 动机：如何筛选出适合当前给定这个LLM的高质量数据，也就是说高质量是和模型深度绑定的。
- 提出了一个Prompt Uncertainty 思路：假设有一个原始样本对<prompt, response>，然后对prompt做一些扰动得到promot_v1，其中promot_v1还是要保留大部分prompt语义，然后将prompt和promot_v1分别传给模型，分别拿到response的输出，计算得到两者之间的likelihood值，该值即为Prompt Uncertainty。
MoDS: 如何自动筛选高质量数据？
- 论文名称：MoDS: Model-oriented Data Selection for Instruction Tuning
- 论文地址：https://arxiv.org/pdf/2311.15653.pdf
- GitHub 地址：https://github.com/CASIA-LM/MoDS
- 动机：如何筛选出适合当前给定这个LLM的高质量数据，也就是说高质量是和模型深度绑定的。
- “高质量”数据的标准是什么？
  - 质量:高质量的prompt以及对应的高质量response可以很好的让模型学会遵循指令；
  - 覆盖率: prompt的多样性，越多样性越好；
  - 必要性:同一条prompt对不同基座模型的重要度和必要性是不一样的，如果一条prompt对于基座来说已经很好的输出response了，也就是说模型已经很好的遵循prompt了，不需要再训练了，相反则是模型需要的。
- “高质量”数据的如何筛选？
  - Quality Evaluation：基于模型打分筛选出高质量的SFT数据；
  - Diverse Data Selection for Seed Instrucitons：在这份高质量SFT数据集中继续过滤出一个子集，该子集的多样性要足够好，能表征整个数据集；
  - Augmented Data Selection
符尧：别卷大模型训练了，来卷数据吧！
- 论文名称：An Initial Exploration of Theoretical Support for Language Model Data Engineering
- 论文地址：https://yaofu.notion.site/An-Initial-Exploration-of-Theoretical-Support-for-Language-Model-Data-Engineering-Part-1-Pretraini-dc480d9bf7ff4659afd8c9fb738086eb
大模型对代码的记忆痕迹
- 论文名称：Traces of Memorisation in Large Language Models for Code
- 论文地址：https://arxiv.org/pdf/2312.11658
- Github 地址：
- 회의:
- 论文方法：该论文主要研究了大语言模型对代码的记忆问题，并比较了代码模型和自然语言模型的记忆率。研究人员构建了自然语言的基准测试集，并通过识别易受攻击的样本构建了代码的基准测试集。他们对多种模型运行了这两个测试集，并进行了数据提取攻击。研究发现，大语言模型对代码也存在数据提取攻击的风险。从可提取的训练数据中，他们成功提取了CodeGen-Mono-16B代码补全模型中的47%数据。研究还发现，随着参数数量的增加，模型记忆的内容也增加，并且模型的预训练数据也容易受到攻击。数据承载者的记忆率高于普通代码或文档，并且不同的模型架构记忆不同的样本。数据泄露具有严重后果，因此该论文敦促研究界采用更广泛的模型和提取技术来进一步调查这一现象，以建立相应的保护措施。
避免语言模型评估中的数据污染：动态测试构建与最新材料
- 论文名称：Avoiding Data Contamination in Language Model Evaluation: Dynamic Test Construction with Latest Materials
- 论文地址：https://arxiv.org/pdf/2312.12343
- Github 地址：
- 회의:
- 论文方法：这篇论文提出了最新评估方法（LatestEval），利用最新的文本创建无污染的阅读理解评估，避免数据污染带来的挑战。最新评估通过仅使用最近时间窗口内发布的文本来避免数据污染，并确保不与预训练语言模型的训练语料库重叠。论文开发了一套LatestEval自动化流程，包括：1）收集最新文本；2）识别关键信息；3）构建问题，同时从上下文中删除现有答案，鼓励模型基于剩余上下文推断答案而不是简单复制粘贴。
- 实验结果表明，相对于先前的基准测试，语言模型在最新评估上几乎不表现出记忆行为，这表明了数据污染的风险大大降低，从而导致更可靠的评估。
GeomVerse: 对几何推理的大型模型的系统评估
- 论文名称：GeomVerse: A Systematic Evaluation of Large Models for Geometric Reasoning
- 机构：谷歌研究院、Google DeepMind
- 论文地址：https://arxiv.org/pdf/2312.12241
- Github 地址：
- 회의:
- 论文方法：这篇论文通过几何问题的视角评估了视觉语言模型（VLMs）在多个方面上的推理能力。
- 通过在多个深度级别上构建该论文的基准测试，实验结果表明，与以前的基准测试所示的推理能力相比，这些模型在几何学（以及一般情况下需要类似推理的其他主题）方面的能力并不如人们所想的那么强大。这在解决更高深度问题时尤为明显，因为解决更高深度的问题需要较长的推理链而不是额外的记忆知识。该论文在该领域的进一步研究中发布了数据集。
仅用1%的数据完胜全量数据微调模型!
论文名称：One Shot Learning as Instruction Data Prospector for Large Language Models
기구:
作者：Li, Yunshui and Hui, Binyuan and Xia, Xiaobo and Yang, Jiaxi and Yang, Min and Zhang, Lei and Si, Shuzheng and Liu, Junhao and Liu, Tongliang and Huang, Fei and others
论文地址：arxiv.org/pdf/2312.10302.pdf
相关领域：训练数据构建
Github 地址：https://github.com/pldlgb/nuggets
회의:
论文方法：仅用1%的数据完胜全量数据微调模型!#不懂就问有问必答论文中提出了一种名为Nuggets”的方法，意欲从堆积如山的指令微调数据中挖掘出黄金数据。这种方法利用大语言模型(LLM)自身作为数据探索工具，通过One shot learning 或者说是Incontext learning，从庞大的指令数据集中挑选出有益的数据。直观来说，如果某个指令对于某个特定任务的少样本学习(Few shot learning)有帮助，那么这个指令就值得被用于训练。如果这个指令能对多个任务有益，那么它就应该成为主要的数据重点另外，有研究显示，In context learning通过提示(Demonstrations)来隐式微调模型，相当于语言模型在幕后以元优化器的角色进行梯度下降操作。因此，利用在In context learning下的性能来预测指令微调的效果是很有前景的。

高效大模型推理篇

有限内存下的高效大模型推理
- 论文名称：LLM in a flash: Efficient Large Language Model Inference with Limited Memory
- 论文地址：https://arxiv.org/pdf/2312.11514
- Github 地址：
- 회의:
- 论文方法：这篇论文主要解决的问题是如何在有限的内存容量下高效地运行超出DRAM容量的大语言模型。通过将模型参数存储在闪存上，并根据闪存内存行为按需将其带入DRAM来解决这一挑战。论文通过构建一个与闪存内存行为相协调的推理成本模型，指导该论文在两个关键领域进行优化：减少从闪存传输的数据量和以更大、更连续的块读取数据。论文介绍了两种主要技术：窗口化策略降低数据传输量，行-列捆绑增加从闪存读取的数据块大小。这些方法使得模型可以在可用DRAM容量的两倍大小下运行，并且与CPU和GPU中的简单加载方法相比，推理速度分别增加了4-5倍和20-25倍。该论文的稀疏意识、上下文适应加载和面向硬件的设计为在内存有限的设备上高效推理大语言模型铺平了道路。
ComplexityNet: 通过学习任务复杂度来提高LLM推理效率
- 论文名称：ComplexityNet: Increasing LLM Inference Efficiency by Learning Task Complexity
- 论文地址：https://arxiv.org/pdf/2312.11511
- Github 地址：
- 회의:
- 论文方法：这篇论文主要介绍了ComplexityNet，这是一个专门用于评估任务复杂度的精简语言模型。该模型预测了不同能力的各种语言模型的输出准确性的可能性。作者的初步应用是在Mostly Basic Python Problems (MBPP)数据集上。他们首次创建了一组标签来定义任务复杂度。ComplexityNet在确定任务复杂度方面取得了显著的79%准确率，相比于原始模型的34%准确率有了显著改进。此外，与使用最高复杂度模型相比，ComplexityNet可以有效地减少90%的计算资源使用量，同时保持高达86.7%的代码生成准确率。这项研究表明，通过微调较小的模型来对任务进行分类，可以在使用大型语言模型时在准确性和效率之间取得更平衡的权衡。该论文的发现为优化LLM应用指明了一个有前景的方向，尤其是在资源受限的环境下。
超越Chinchilla-Optimal: 在语言模型缩放定律中考虑推理
- 论文名称：Beyond Chinchilla-Optimal: Accounting for Inference in Language Model Scaling Laws
- 论文地址：https://arxiv.org/pdf/2401.00448
- 相关领域：模型结构改进
- Github 地址：
- 회의:
- 论文方法：本论文修改了Chinchilla缩放定律，计算了训练和部署具有给定推理需求和质量的语言模型所需的最佳参数数量和预训练数据大小。研究发现，对于预计存在相当大推理需求（约10亿次请求）的语言模型研究者来说，应该训练比Chinchilla-optimal更小更长的模型。
Understanding LLMs：从训练到推理的全面概述
- 论文名称：Understanding LLMs: A Comprehensive Overview from Training to Inference
- 论文地址：https://arxiv.org/pdf/2401.02038
- 相关领域：模型结构改进、预训练
- 作者：Yiheng Liu, Hao He, Tianle Han
- Github 地址：
- 회의:
- 论文方法：这篇论文讨论了大语言模型（LLMs）的训练技术和推理部署技术的演变，并探讨了低成本训练和部署LLMs在未来的发展趋势。训练方面的讨论包括数据预处理、训练架构、预训练任务、并行训练以及与模型微调相关的内容。在推理方面，论文还涵盖了模型压缩、并行计算、内存调度和结构优化等主题。它还探讨了LLMs的应用，并对它们的未来发展提供了见解。

大模型评估篇

Catwalk: 多数据集的统一语言模型评估框架
- 论文名称：Catwalk: A Unified Language Model Evaluation Framework for Many Datasets
- 论文地址：https://arxiv.org/pdf/2312.10253
- Github 地址：https://github.com/allenai/catwalk
- 회의:
- 论文方法：这篇论文介绍了Catwalk，一个为了解决大规模比较NLP模型在多个任务、领域和数据集上的工程挑战而设计的统一界面。它使得在大规模实验中进行公平和可控的比较更加容易。通过一个命令，Catwalk可以在86个数据集上对64个模型进行微调和评估，而无需编写任何代码。
KGLens: 一种参数化的知识图谱解决方案，用于评估LLM所知和不知道的内容
- 论文名称：KGLens: A Parameterized Knowledge Graph Solution to Assess What an LLM Does and Doesn't Know
- 论文地址：https://arxiv.org/pdf/2312.11539
- Github 地址：
- 회의:
- 论文方法：本文介绍了KGLens这一方法，通过以结构感知的方式从知识图谱中生成自然语言问题，以评估LLM。KGLens使用了参数化的知识图谱，在该图谱中，每个边都附加了一个贝塔分布，用于指导从知识图谱中进行QA测试时如何采样边。随着评估的进行，对参数化的知识图谱的不同边进行采样和评估，从而收敛到更全局的LLM在知识图谱上的性能图景。
- 实验中，该论文构建了三个领域特定的用于知识评估的知识图谱，包含超过19,000个边，700个关系和21,000个实体。结果表明，KGLens不仅可以评估整体性能，还可以提供LLM的主题、时间和关系分析。这展示了KGLens的适应性和可定制性，强调其基于特定标准的评估能力。
人工智能是否能像人类一样具备创造力？
- Can AI Be as Creative as Humans?
- 论文地址：https://arxiv.org/pdf/2401.01623
- 机构：斯坦福大学、罗格斯大学、微软研究院
- 作者：Haonan Wang, James Zou, Michael Mozer
- 相关领域：指令微调、模型评估
- Github 地址：
- 회의:
- 论文方法：本文探讨了创造力的定义和评估的复杂性，介绍了一种新的概念——相对创造力。相对于试图普遍定义创造力，该论文将重点放在人工智能能否与假想的人类创造能力相匹配上。这种方法有助于通过统计量化评估AI的创造力，该论文称之为统计创造力。在此基础上，该论文讨论了统计创造力在当下的提示条件自回归模型中的应用。除了定义和分析创造力的指标外，该论文还提出了一种可行的训练指南，有效地将创造力的理论量化与实际模型训练相结合。通过这些多方面的贡献，本文建立了一个连贯、不断演变和变革性的框架，以评估和促进AI模型的统计创造力。

大模型预训练篇

TeleChat：一个包含30亿、70亿和120亿参数的大型语言模型集合
- 论文名称：TeleChat Technical Report
- 기구:
- 作者：Zihan Wang, Xinzhang Liu, Shixuan Liu
- 论文地址：arxiv.org/pdf/2401.03804
- 相关领域：模型结构改进、预训练、指令微调、模型评估
- Github 地址：
- 회의:
- 论文方法：TeleChat是一个包含30亿、70亿和120亿参数的大型语言模型集合。它包括预训练的语言模型和与人类偏好一致的fine-tuned聊天模型。TeleChat首先在包含英文和中文的各种文本的广泛语料库上进行预训练，包括数万亿个标记。随后，模型通过细调以与人类偏好一致，遵循该论文描述的详细方法。该论文对TeleChat在语言理解、数学、推理、代码生成和基于知识的问答等各种任务中的性能进行评估。
- 实验结果：TeleChat在广泛的公共基准测试中达到了与其他相似规模的开源模型相当的性能。为了支持未来利用LLMs的研究和应用，该论文向公众社区发布了TeleChat 7B和12B变种的fine-tuned模型检查点，以及代码和部分预训练数据。
大模型并不是你所需要的全部
- 论文名称：Large Language Models aren't all that you need
- 机构：印度理工学院
- 作者：Kiran Voderhobli Holla, Chaithanya Kumar, Aryan Singh
- 论文地址：arxiv.org/pdf/2401.00698
- 相关领域：模型结构改进、预训练
- Github 地址：
- 회의:
- 论文方法：这篇论文主要探讨了在解决SemEval 2023任务2：多语种复杂命名实体识别方面的架构和系统。作者评估了两种方法，一种是传统的CRF模型，另一种是经过定制头部微调的大型语言模型（LLM），并进行了比较。论文探索了一些新颖的想法，包括：1）衰减辅助损失（具有残差）- 在模型上训练粗粒度命名实体识别的辅助任务，并将该任务作为损失函数的一部分；2）三元标记混合- 在最终的命名实体识别层中，探索了混合相邻标记嵌入的方法；3）任务优化头部- 探索了各种定制头部和学习率用于LLM的最终层。作者还尝试了多个LLM，包括GPT-3，并在最终模型上进行了多种dropout和超参数设置的实验，最终在测试数据上获得了0.67/0.61的micro & macro f1分数。研究结果表明，尽管预训练的LLM相比传统模型带来了很大的性能提升，但通过上述额外的特征/损失/模型工程技术对宏观F1分数的改进是可行的。
TinyLlama: 一个开源的小型语言模型
- 论文名称：TinyLlama: An Open-Source Small Language Model
- 기구:
- 作者：Peiyuan Zhang, Guangtao Zeng, Tianduo Wang
- 论文地址：arxiv.org/pdf/2401.02385
- 相关领域：模型结构改进、预训练
- Github 地址：github.com/jzhang38/TinyLlama
- 회의:
- 论文方法：TinyLlama是一个在大约3个时期内在大约1万亿个标记上预训练的紧凑1.1B语言模型。TinyLlama建立在Llama 2的架构和分词器之上，利用了开源社区贡献的各种进展（例如FlashAttention），实现了更好的计算效率。尽管规模相对较小，但TinyLlama在一系列下游任务中展现了显著的性能。它明显优于具有相似规模的现有开源语言模型。该论文的模型检查点和代码公开在GitHub上，网址为https://github.com/jzhang38/TinyLlama。
LLM增强LLM：通过组合扩展能力
- 论文名称：LLM Augmented LLMs: Expanding Capabilities through Composition
- 机构：谷歌研究院、Google DeepMind
- 作者：Rachit Bansal, Bidisha Samanta, Siddharth Dalmia
- 论文地址：arxiv.org/pdf/2401.02412
- 相关领域：模型结构改进、预训练
- Github 地址：
- 회의:
- 论文方法：这篇论文主要探讨了在大语言模型的基础上如何通过组合来增强模型能力的问题。通过引入交叉注意力机制，将现有的模型与具有特定任务的模型进行组合，从而实现新的能力。作者提出的CALM方法在多个领域和设置下都适用，并通过将PaLM2-S与在低资源语言上训练的较小模型进行组合，在翻译和算术推理等任务上取得了显著的改进。
LLaMA Pro: 带有块扩展的渐进式LLaMA
- 论文名称：LLaMA Pro: Progressive LLaMA with Block Expansion
- 机构：香港大学、上海交通大学、Tencent PCG实验室
- 作者：Chengyue Wu, Yukang Gan, Yixiao Ge
- 论文地址：arxiv.org/pdf/2401.02415
- 相关领域：模型结构改进、预训练
- Github 地址：
- 회의:
- 论文方法：这篇论文介绍了一种新的后预训练方法，通过扩展Transformer模块，仅使用新语料库进行调整，有效提升模型的知识，避免灾难性遗忘。研究者在代码和数学语料库上进行实验，得到了LLaMA Pro-8.3B模型，该模型基于LLaMA2-7B模型初始，在通用任务、编程和数学方面有出色表现。LLaMA Pro及其指令遵循对应模型(LLaMA Pro-Instruct)在各项基准测试中取得了先进的性能，证明其在LLaMA系列和各种任务中具有卓越的优势和推理能力。该研究为融合自然语言和编程语言提供了有价值的洞见，为在不同环境中有效运行的先进语言模型的开发奠定了坚实的基础。
无需注释的病理定位的通用视觉语言预训练
- 论文名称：Generalizable vision-language pre-training for annotation-free pathology localization
- 机构：香港大学、鹏城实验室、中国科学院大学
- 作者：Hao Yang, Hong-Yu Zhou, Cheng Li
- 论文地址：arxiv.org/pdf/2401.02044
- 相关领域：预训练
- Github 地址：
- 회의:
- 论文方法：该论文介绍了一种针对无需注释的病理定位的通用视觉语言预训练模型。该模型的核心优势在于其基于图像注释无关的多级语义结构对比学习，将医学报告中的多粒度医学概念与丰富的图像特征全面对齐，以适应观察到的和新出现的未知病理的多样表达。实验证明，该模型在4个不同的外部数据集上验证了其泛化能力，在定位5种不同病理方面优于6种最先进的方法，甚至超过人类基准，表明其适用于复杂的临床环境。
ChartAssistant: 通过图表到表格预训练和多任务指令微调的通用图表多模态语言模型
- 论文名称：ChartAssisstant: A Universal Chart Multimodal Language Model via Chart-to-Table Pre-training and Multitask Instruction Tuning
- 机构：香港大学、南京大学、上海交通大学
- 作者：Fanqing Meng, Wenqi Shao, Quanfeng Lu
- 论文地址：https://arxiv.org/pdf/2401.02384
- 相关领域：预训练、指令微调
- Github 地址：https://github.com/OpenGVLab/ChartAst
- 회의:
- 论文方法：这篇论文提出了ChartAssistant，这是一个基于图表的图像语言模型，旨在实现图表理解和推理的通用性。ChartAssistant通过图表到表格解析的预训练和多任务指令遵循的微调，解决了通用多模态模型在泛化和任务特定微调方面的挑战。实验结果显示，与最先进的UniChart方法相比，ChartAssistant在各种图表任务上取得了显著的性能提升，并在实际图表数据上优于OpenAI的GPT-4V(ision)。这篇论文的内容主要是介绍了ChartAssistant的设计与训练方法，并展示了其在图表任务上的性能优势。
DIALIGHT: 利用大模型轻量级开发和评估任务导向对话系统
- 论文名称：DIALIGHT: Lightweight Multilingual Development and Evaluation of Task-Oriented Dialogue Systems with Large Language Models
- 机构：剑桥大学
- 作者：Fanqing Meng, Wenqi Shao, Quanfeng Lu
- 论文地址：https://arxiv.org/pdf/2401.02208
- 相关领域：模型结构改进、预训练
- Github 地址：https://github.com/OpenGVLab/ChartAst
- 회의:
- 论文方法：

机器人篇

Mobile ALOHA：低成本全身远程操作学习双手机器人移动操作
- 论文名称：Mobile ALOHA: Learning Bimanual Mobile Manipulation with Low-Cost Whole-Body Teleoperation
- 机构：斯坦福大学
- 作者：Zipeng Fu, Tony Z. Zhao, Chelsea Finn
- 论文地址：https://arxiv.org/pdf/2401.02117
- 相关领域：模型结构改进、预训练
- Github 地址：
- 회의:
- 论文方法：本论文介绍了一种学习移动操作任务的系统，该任务需要双手协作和全身控制。使用Mobile ALOHA系统进行数据采集，通过与现有的静态ALOHA数据集联合训练，进行监督式行为克隆，提高了移动操作任务的性能，使得Mobile ALOHA能够自主完成复杂的移动操作任务。通过扩展了移动底盘和全身远程操作界面的ALOHA系统，Mobile ALOHA实现了低成本的整体身体远程操作系统。本论文解决了传统机器人学习中关注的桌面操作的局限性，使得机器人具备了移动和灵活性，可以完成更广泛实用的任务。

强化学习篇

基于表征工程的生成式语言大模型人类偏好对齐
- 论文名称：Aligning Large Language Models with Human Preferences through Representation Engineering
- 论文链接：https://arxiv.org/abs/2312.15997
- 论文动机：
  - 构建类似ChatGPT生成式语言大模型一般要经过语言模型、提令精调和强化学习三个主要训练步骤，其中第三步使用强化学习来实现人类期望对齐既有一定的技术难度，又需要多次人工标注反馈，因而实现上有一定挑战;
  - 经过前两步语言模型和提令精调之后，语言大模型仍然会生成带有偏见、歧视或者令人不适的回答;
  - 为了提升大模型的安全性、可用性和可信性，与人类期望对齐是必不可少的步骤;
  - 然而目前研究表明利用人类反馈的强化学习算法[1]（RLHF）存在训练不稳定、对超参数敏感和训练代价较高等问题。
- 论文方法：
  - 1. 使用带偏好注释的数据集来让大型语言模型“感知”人类的偏好；
  - 1. 收集模型在不同偏好“刺激”情况下的隐层激活模式；
  - 1. 利用收集到的激活模式及差异来调整模型使其与与人类偏好对齐。
ICE-GRT: 基于生成强化学习的指令上下文增强模型
- 论文名称：ICE-GRT: Instruction Context Enhancement by Generative Reinforcement based Transformers
- 机构：字节跳动
- 作者：Chen Zheng, Ke Sun, Da Tang
- 论文地址：arxiv.org/pdf/2401.02072
- 相关领域：指令微调、奖励模型、RLHF
- Github 地址：
- 회의:
- 论文方法：这篇论文介绍了ICE-GRT模型，利用基于邻近策略优化（PPO）的人类反馈强化学习（RLHF）来增强大语言模型在领域特定任务中的能力。ICE-GRT在领域内场景中展示了出色的理解和推理能力，不仅能够生成强健的答案，还可以提供答案背后的详细分析。该模型在领域特定任务和12个通用语言任务中表现优秀，相比于同等规模甚至更大规模的大语言模型，取得了最先进的性能。作者对ICE-GRT进行了综合分析，突出了其对大语言模型领域的显著进展。

数字人

从音频到逼真的人体化：合成对话中的人类
- 论文名称：From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations
- 기구:
- 작가:
- 论文地址：https://arxiv.org/pdf/2401.01885
- 相关领域：
- Github 地址：
- 회의:
- 论文方法：该论文提出了一个生成全身逼真的头像的框架，根据双方互动的对话动态进行手势生成。通过语音音频输入，该论文可以输出个体的多种手势动作，包括面部、身体和手部的动作。该论文的方法将向量量化的样本多样性与扩散获得的高频细节相结合，生成更具动态和表现力的动作。该论文使用高度逼真的人体化头像可视化生成的动作，可以表达手势中的重要细微之处（例如冷笑和嘲笑）。为了促进这一研究领域的发展，该论文推出了一种首个多视角对话数据集，可用于逼真重构。实验结果显示，该论文的模型生成适当且多样的手势，优于扩散和向量量化单独的方法。此外，该论文的感知评估凸显了光真度（与网格相比）在准确评估对话手势中细微动作细节方面的重要性。代码和数据集可在网上获得。

Long LLM 篇

从4K到400K的飞跃：用激活信标扩展LLM的上下文
- 论文名称：Soaring from 4K to 400K: Extending LLM's Context with Activation Beacon
- 机构：中国人民大学、北京AI研究院
- 论文地址：https://arxiv.org/pdf/2401.03462
- 相关领域：模型结构
- 论文介绍：这篇论文主要介绍了一种名为激活信标（Activation Beacon）的插件模块，用于扩展大语言模型LLM的上下文窗口长度。通过将LLM的原始激活信息压缩为更紧凑的形式，激活信标可以在有限的上下文窗口中感知更长的上下文。它完全保留了LLM在短上下文上的原始能力，同时拥有处理长上下文的新能力。该方法使用短滑动窗口处理长上下文，在训练和推理中达到了竞争性的内存和时间效率。
- 实验结果：激活信标可以将Llama-2-7B的上下文长度增加100倍（从4K到400K），同时在长上下文生成和理解任务上取得了优秀的结果。
LRA
- 论文名称：Long range arena : A benchmark for efficient transformers
- 기구:
- 작가:
- 发表时间：2020.11.08
- 论文地址：https://arxiv.org/pdf/2011.04006.pdf
- 相关领域：Transformers
- Github 地址：https://github.com/google-research/long-range-arena
- 회의:
- 论文方法：
  - Long ListOps：2k长度左右的层次化数学运算；
  - Byte-level text classification：文本被视为字节序列而不是常规的字符序列。byte-level是为了增大input 长度
  - Byte-level document retrieval：这个任务旨在测试模型将长序列压缩成适合基于相似性匹配的表示的能力。
  - Image classification：图像分类任务，输入是像素序列
  - Pathfinder：图像任务，判断图上的两个点是否被线相连。示例由16K像素组成（即128×128的图像）
- 【Metrics】accuracy
- 【Models/Baselines】
  - Vanilla Transformer Sparse Transformers Reformers Linformers Longformers Sinkhorn Transformers Performers Synthesizers Linear Transformers BigBird
- 【Findings】
  - BigBird结果最优，但是速度没有提升
  - Local Attention速度最快，但是效果最差
  - Performer、Linformer和Linear Transformer，在速度和性能方面似乎能够做出更好的权衡
- 【Comments】
  - 第一个提出的long sequence benchmark，且包含了文本和图像两个模态
  - 主要针对transformer架构的模型进行测试
  - 时间较为久远，缺少现有大模型的评测
SCROLLS
- 论文名称：SCROLLS: Standardized CompaRison Over Long Language Sequences
- 기구:
- 작가:
- 发表时间：2022.10.11
- 论文地址：https://arxiv.org/pdf/2201.03533.pdf
- 相关领域：Transformers
- Github 地址：https://github.com/tau-nlp/scrolls
- 회의:
- 论文方法：
  - Summarization：包含政府报告、电视剧台词、会议记录等长文本，做总结任务
  - QA：包含论文、古登堡书籍、电影等的QA 数据集
  - NLI：法律领域的自然语言推理数据集，给第一个法律协议，判断能否得出某个假设
- 【Metrics】ROUGH, F1, Exact Match
- 【Models/Baselines】
  - BART LED
- 【Comments】
  - 有评测的平台、live leaderboard进行自动评测展示结果（测试集不公开）
  - 包含的任务类型比较少
  - 测评的模型少，参考价值较少
  - 时间比较早，有数据污染的风险
  - 时间较为久远，缺少现有大模型的评测
  - 后续的Zero-SCROLLS是在此基础上更新的benchmark
Longbench
- 论文名称：Longbench: A bilingual, multitask benchmark for long context understanding
- 기구:
- 작가:
- 发表时间：2023.08.28
- 论文地址：https://arxiv.org/pdf/2308.14508.pdf
- 相关领域：Transformers
- Github 地址：https://github.com/THUDM/LongBench
- 회의:
- 论文方法：
  - Single-doc QA: 单文档的QA，文本长度比较长。从多个现有的数据集进行提取，加入了英文和中文的MultiFieldQA数据集。
  - Multi-doc QA：多文档QA，英文测试样本来自三个基于维基百科的多跳问答数据集：HotpotQA（包含两个相关段落的2跳问题）、WikiMultihopQA（包含最多5跳的问题）和MuSiQue（最多4跳推理）在数据中会加入干扰段落；中文：基于DuReader构建了一个中文数据集，该数据集是基于百度搜索和百度知道开发的，包括20万个问题和100万篇相关文档。对于每个问题，我们不仅提供与问题相关的几篇文档，还从总文档集中任意选择若干篇作为干扰文档，直到每个问题关联到20篇文档。
  - Summarization：集合现有的数据集
  - Synthetic tasks
  - PassageRetrieval en & zh: 从英文的维基和中文的C4 数据集分别随机抽取30 篇文章，选择其中一篇用GPT3.5-turbo 进行摘要，然后让待评测的模型判断这个摘要是哪篇文章的
  - Code completion：模型需要根据给定的上下文，包括先前的代码行，来预测接下来应该是什么样的代码行。
- 【Metrics】ROUGH-L, F1, Exact Match
- 【Models/Baselines】
  - GPT-3.5-Turbo-16k Llama2-7B-chat-4k LongChat-v1.5-7B32k XGen-7B-8k
  - InternLM-7B-8k ChatGLM26B ChatGLM2-6B-32k Vicuna-v1.5-7B-16k
- 【Findings】
  - GPT-3.5-Turbo-16k 最优
  - scaled positional embedding (ChatGLM2-6B-32k) and continued training on longer context (LongChat-v1.5-7B-32k) 取得了还不错的结果
  - 在6 种任务中，summarization 和code completion 缺乏区分度，几个模型的表现都很类似
BAMBOO
- 论文名称：BAMBOO: A Comprehensive Benchmark for Evaluating Long Text Modeling Capacities of Large Language Models
- 기구:
- 작가:
- 发表时间：2023.09.23
- 论文地址：https://arxiv.org/pdf/2309.13345v1.pdf
- 相关领域：Transformers
- Github 地址：https://github.com/RUCAIBox/BAMBOO
- 회의:
- 论文方法：
- QA：新建2 个数据集，选择题，需要多段落综合总结；对一些问题进行了修改，确保模型没见过
- Hallucination detection：新建2 个数据集，数据是论文+ 一个hypothesis，提问假设是否成立
- Text sorting：给打乱的文本排序
- Language modeling：新建2 个数据集，预测一个长对话的最后一轮对话的speaker 是谁
- Code completion：基于API文档和代码片段完成代码，对一些文档进行了修改
L-Eval
- 论文名称：L-eval: Instituting standardized evaluation for long context language models
- 기구:
- 작가:
- 发表时间：2023.10.04
- 论文地址：https://arxiv.org/pdf/2307.11088.pdf
- 相关领域：Transformers
- Github 地址：https://github.com/OpenLMLab/LEval
- 회의:
ZeroScrolls
- 论文名称：Zeroscrolls: A zero-shot benchmark for long text understanding
- 기구:
- 작가:
- 发表时间：2023.10.14
- 论文地址：https://arxiv.org/pdf/2305.14196.pdf
- 相关领域：zero shot
- Github 地址：https://github.com/tau-nlp/zero_scrolls
- 회의:
M4LE
- 论文名称：M4LE: A Multi-Ability Multi-Range Multi-Task Multi-Domain Long-Context Evaluation Benchmark for Large Language Models
- 기구:
- 작가:
- 发表时间：2023.10.30
- 论文地址：https://arxiv.org/pdf/2310.19240v1.pdf
- 相关领域：short to long comprehensive
- Github 地址：https://github.com/KwanWaiChung/M4LE
- 회의:
LooGLE
- 论文名称：LooGLE: Can Long-Context Language Models Understand Long Contexts?
- 기구:
- 작가:
- 发表时间：2023.11.08
- 论文地址：https://arxiv.org/pdf/2311.04939.pdf
- 相关领域：longer texts
- Github 地址：https://github.com/bigai-nlco/LooGLE
- 회의:
Needle in a Haystack
- 论文名称：Pressure Testing GPT-4-128K With Long Context Recall
- 기구:
- 작가:
- 发表时间：2023.11.09
- 论文地址：https://twitter.com/GregKamradt/status/1722386725635580292
- 相关领域：longer texts
- Github 地址：https://github.com/gkamradt/LLMTest_NeedleInAHaystack
- 회의:

MoE 篇

Mixtral 8x7B: 稀疏专家混合语言模型
- 标题：Mixtral of Experts
- 相关领域：模型结构改进、指令微调
- 기구:
- 作者：Albert Q. Jiang, Alexandre Sablayrolles, Antoine Roux
- 发表时间：2023.09.23
- 论文地址：arxiv.org/pdf/2401.04088
- 相关领域：Transformers
- Github 地址：
- 회의:
- 论文方法：这篇论文介绍了Mixtral 8x7B，一种稀疏专家混合语言模型（SMoE）。Mixtral具有与Mistral 7B相同的架构，不同之处在于每个层由8个前馈块（即专家）组成。对于每个令牌，在每个层中，路由网络选择两个专家来处理当前状态并将其输出进行组合。尽管每个令牌只能看到两个专家，但所选择的专家在每个时间步骤可以不同。结果是，每个令牌可以访问470亿个参数，但在推理过程中只使用130亿个活跃参数。Mixtral使用32k令牌的上下文尺寸进行训练，并且在所有评估基准中胜过或与Llama 2 70B和GPT-3.5相匹配。特别是，在数学、代码生成和多语言基准测试中，Mixtral远远优于Llama 2 70B。该论文还提供了一个fine-tuned的模型，Mixtral 8x7B - Instruct，在人类基准测试中超过了GPT-3.5 Turbo、Claude-2.1、Gemini Pro和Llama 2 70B - chat模型。基础模型和指令模型都是在Apache 2.0许可下发布的。

mini LLMs 篇

项目名称：ChatLM-mini-Chinese
- 项目介绍：中文对话0.2B小模型（ChatLM-Chinese-0.2B），开源所有数据集来源、数据清洗、tokenizer训练、模型预训练、SFT指令微调、RLHF优化等流程的全部代码。
- 项目地址：https://github.com/charent/ChatLM-mini-Chinese
项目名称：TinyLlama-1.1B-Chat-v1.0
- 项目介绍：TinyLlama-1.1B-Chat-v1.0是基于1.1B参数的Llama模型TinyLlama-1.1B的最新模型版本，该模型采用与Llama 2相同的架构和分词器，可以集成到现有基于Llama的开源项目中。此模型体积紧凑，适合计算和内存资源受限的应用。它在TinyLlama/TinyLlama-1.1B-intermediate-step-1431k-3T基础上微调，采用Zephyr训练方案，初步在包含ChatGPT生成对话的UltraChat数据集变体上训练，再通过openbmb/UltraFeedback数据集上进一步优化，后者包含64k个提示和GPT-4评级的模型完成情况。
- 适用于内存、资源受限应用的模型版本
- 采用Zephyr高效训练方案，经UltraChat数据集微调
- 项目地址: https://github.com/jzhang38/TinyLlama
项目名称：math-codet5p-770m-py
- 项目介绍：math-codet5p-770m-py是一个基于Salesforce/codet5p-770m-py的细粒度调优模型，旨在提升数学推理能力。该项目通过Program-of-Thought蒸馏方法，从大型语言模型gpt-3.5-turbo中提取数学推理能力，并将其迁移到较小的开源代码语言模型中，最终在GSM8K测试数据集上实现了44.88%的准确率。在使用方面，math-codet5p-770m-py可以通过AutoModelForSeq2SeqLM轻松加载，使用Python语言进行问题求解。
- 项目地址: https://huggingface.co/zhuxunyu/math-codet5p-770m-py
项目名称：Qwen/Qwen-1_8B-Chat
- 项目介绍：通义千问-1.8B（Qwen-1.8B）是阿里云研发的通义千问大模型系列的18亿参数规模的模型。Qwen-1.8B是基于Transformer的大语言模型, 在超大规模的预训练数据上进行训练得到。预训练数据类型多样，覆盖广泛，包括大量网络文本、专业书籍、代码等。同时，在Qwen-1.8B的基础上，我们使用对齐机制打造了基于大语言模型的AI助手Qwen-1.8B-Chat。
- 项目地址：https://huggingface.co/Qwen/Qwen-1_8B-Chat

참조하십시오

文档领域多模态大模型整理https://zhuanlan.zhihu.com/p/673470907

확장하다