Awesome Domain LLM
自以ChatGPT為代表的大語言模型出現以後,掀起了新一輪研究和應用浪潮,出現了許多包括LLaMA、ChatGLM、Baichuan、Qwen等在內的通用模型。 隨後,來自不同領域的從業人員在通用模型的基礎上通過持續預訓練/指令微調將其應用於垂直領域。

本項目旨在收集和梳理垂直領域的開源模型、數據集及評測基準。 歡迎大家貢獻本項目未收錄的開源模型、數據集、評測基準等內容,一起推動大模型賦能各行各業!
? 更新
- [2023/11/26] 增強網絡安全大模型SecGPT、醫療大模型ChiMed-GPT、金融大模型Tongyi-Finance-14B、金融評測基準FinanceBench和CFBenchmark。
- [2023/11/01] 增加由螞蟻集團聯合北京大學發布的DevOps領域大模型DevOps-Model和評測基準DevOps-Eval。
- [2023/10/28] 增加金融大模型DISC-FinLLM、醫學大模型AlpaCare、海洋大模型MarineGPT。
- [2023/10/19] 增加心理大模型MentalLLaMA、雙語生物醫學大模型Taiyi (太一)、海洋大模型OceanGPT。
- [2023/10/10] 增加由雲智慧智能研究院和北航聯合研發的面向運維領域的大模型OWL和評測基準OWL-Bench。增加中文法律大模型評測基準LAiW。
- [2023/10/05] 增加心理大模型ChatPsychiatrist、金融大模型InvestLM、農業大模型AgriGPT和醫療大模型WiNGPT2。
- [2023/10/03] 增加兩個法律評測基準,分別為面向中國法律體系的LawBench和美國法律體系的LegalBench。
- [2023/10/01] 增加DISC-LawLLM,由複旦大學開源的旨在為用戶提供專業、智能、全面的法律服務的法律領域大模型。增加FinGLM,致力於構建一個開放的、公益的、持久的金融大模型項目,利用開源開放來促進「AI+金融」。
- [2023/9/25] 更新Qwen,新增Qwen-14B和Qwen-14B-Chat模型,並更新Qwen-7B和Qwen-7B-Chat模型。相比原版Qwen-7B,新版使用更多訓練數據(2.4T token),序列長度從2048擴展至8192。整體中文能力以及代碼能力提升較多。
- [2023/9/22] 增加InternLM(書生•浦語),上海AI實驗室與商湯科技聯合香港中文大學和復旦大學開源的多語基座模型。
- [2023/9/15] 增加Zhongjing-LLaMA (仲景),包含預訓練、有監督微調和RLHF完整訓練流程的中文醫學大模型。
- [2023/9/14] 增加WeaverBird (織工鳥),可接入本地知識與網絡搜索能力的金融領域對話大模型。
- [2023/9/13] 增加夫子•明察,由山東大學、浪潮雲、中國政法大學聯合研發的司法大模型。
目錄
? 模型
通用模型
領域模型通常在通用模型的基礎上進行持續預訓練或指令微調得到,此處整理常用的開源通用模型。
| 模型 | 大小 | 機構 | 論文 |
|---|
| LLaMA2 | 7B/7B-Chat 13B/13B-Chat 70B/70B-Chat | Meta | paper |
| ChatGLM3-6B | 6B-Base/6B/6B-32K | 清華大學 | paper |
| Qwen | 1.8B/1.8B-Chat 7B/7B-Chat 14B/14B-Chat 72B/72B-Chat | 阿里雲 | paper |
| Baichuan2 | 7B/7B-Chat 13B/13B-Chat | 百川智能 | paper |
| InternLM | 7B/7B-Chat 20B/20B-Chat | 上海AI實驗室 | paper |
? 領域模型
? 醫療
⚖ 法律
? 金融
? 教育
桃李(Taoli)
- 該項目開源了適用於國際中文教育領域的大模型,基於目前國際中文教育領域流通的500餘冊國際中文教育教材與教輔書、漢語水平考試試題以及漢語學習者詞典等,構建了國際中文教育資源庫。通過多種形式的指令構造了共計88000條的高質量國際中文教育問答數據集,並利用收集到的數據對模型進行指令微調,讓模型習得將國際中文教育知識應用到具體場景中的能力。
EduChat [paper]
- 該項目開源了針對教育垂直領域的對話大模型,主要研究以預訓練大模型為基底的教育對話大模型相關技術,融合多樣化的教育垂直領域數據,輔以指令微調、價值觀對齊等方法,提供教育場景下自動出題、作業批改、情感支持、課程輔導、高考諮詢等豐富功能,服務於廣大老師、學生和家長群體,助力實現因材施教、公平公正、富有溫度的智能教育。
➕ 其他
數據集
? 評測基準
C-Eval [paper]
- C-Eval是一個由上海交通大學發布的中文基礎模型評測基準,包含了13948個多項選擇題,涵蓋了人文,社科,理工,其他專業四個大方向,52個學科,從中學到大學研究生以及職業考試。
AGIEval [paper]
- AGIEval是一個由微軟發布的評測基準,用於評估大模型在人類認知任務中的表現,包含了20個面向普通考生的官方、公開、高標准入學和資格考試,包括普通大學入學考試(中國高考和美國SAT考試)、法學院入學考試、數學競賽和律師資格考試、國家公務員考試等。
Xiezhi (獬豸) [paper]
- Xiezhi是一個由複旦大學發布的綜合的、多學科的、能夠自動更新的領域知識評測基準,包含了哲學、經濟學、法學、教育學、文學、歷史學、自然科學、工學、農學、醫學、軍事學、管理學、藝術學這13個學科門類,516個具體學科,249587道題目。
CMMLU [paper]
- CMMLU是一個綜合性的中文評測基準,專門用於評估語言模型在中文語境下的知識和推理能力。 CMMLU涵蓋了從基礎學科到高級專業水平的67個主題。它包括:需要計算和推理的自然科學,需要知識的人文科學和社會科學,以及需要生活常識的中國駕駛規則等。此外,CMMLU中的許多任務具有中國特定的答案,可能在其他地區或語言中並不普遍適用。因此是一個完全中國化的中文測試基準。
MMCU [paper]
- MMCU是一個綜合性的中文評測基準,包括來自醫學、法律、心理學和教育等四大領域的測試。
CG-Eval [paper]
- CG-Eval是一個由甲骨易AI研究院與LanguageX AI Lab聯合發布的針對中文大模型生成能力的評測基準。包含了科技與工程、人文與社會科學、數學計算、醫師資格考試、司法考試、註冊會計師考試等六個大科目類別下的55個子科目的11000道不同類型問題。 CG-Eval包含一套複合的打分系統:對於非計算題,每一道名詞解釋題和簡答題都有標準參考答案,採用多個標準打分然後加權求和;對於計算題目,會提取最終計算結果和解題過程,然後綜合打分。
CBLUE [paper]
- CBLUE是一個中文醫學語言理解評測基準,包含8個中文醫療語言理解任務。
PromptCBLUE [paper]
- PromptCBLUE是一個面向中文醫療場景的評測基準,通過對CBLUE基准進行二次開發,將16種不同的醫療場景NLP任務全部轉化為基於提示的語言生成任務。
LAiW [paper]
- LAiW 是一個中文法律大模型評測基準,針對3大能力設計13個基礎任務:1)法律NLP 基礎能力:評測法律基礎任務、 NLP 基礎任務和法律信息抽取的能力,包括法條推送、要素識別、命名實體識別、司法要點摘要和案件識別5 個基礎任務;2)法律基礎應用能力:評測大模型對法律領域知識的基礎應用能力,包括爭議焦點挖掘、類案匹配、刑事裁判預測、民事裁判預測和法律問答5 個基礎任務;3)法律複雜應用能力:評測大模型對法律領域知識的複雜應用能力,包括司法說理生成、案情理解和法律諮詢3 個基礎任務。
LawBench [paper]
- LawBench 是一個面向中國法律體系的法律評測基準。 LawBench 模擬了司法認知的三個維度,並選擇了20個任務來評估大模型的能力。與一些僅有多項選擇題的現有基準相比,LawBench 包含了更多與現實世界應用密切相關的任務類型,如法律實體識別、閱讀理解、犯罪金額計算和諮詢等。
LegalBench [paper]
- LegalBench 是一個面向美國法律體系的法律評測基準,包含162個法律推理任務。
LEXTREME [paper]
- LEXTREME是一個多語言的法律評測基準,包含了24種語言11個評測數據集。
LexGLUE [paper]
CFBenchmark [paper]
- CFBenchmark是一個旨在評估大語言模型在中文金融場景下輔助工作的評測基準。 CFBenchmark的基礎版本包括3917個金融文本涵蓋三個方面和八個任務,從金融識別、金融分類、金融生成三個方面進行組織。
FinanceBench [paper]
- FinanceBench是一個用於評估開放式金融問題問答的評測基準,包含10,231 個有關上市公司的問題,以及相應的答案。
FinEval [paper]
- FinEval是一個金融知識評測基準,包含了4,661個高質量的多項選擇題,涵蓋金融、經濟、會計和證書等領域,34個不同的學術科目。
FLARE [paper]
- FLARE是一個金融評測基準,包含了金融知識理解和預測等任務。
CFLEB [paper]
- CFLEB是一個中文金融評測基準,包含兩項語言生成任務和四項語言理解任務。
FLUE [paper]
- FLUE是一個金融評測基準,包含5個金融領域數據集。
GeoGLUE [paper]
- GeoGLUE是一個由阿里巴巴達摩院與高德聯合發布的地理語義理解能力評測基準,旨在推動地理相關文本處理技術和社區的發展。本榜單提煉了其中多個典型場景:地圖搜索、電商物流、政府登記、金融交通,並設計了六個核心任務:門址地址要素解析、地理實體對齊、Query-POI庫召回、Query-POI相關性排序、地址Query成分分析、WhereWhat切分。
OWL-Bench [paper]
- OWL-Bench 是一個面向運維領域的雙語評測基準。它包含317 個問答題和1000 個多選題,涵蓋了該領域的眾多現實工業場景,包括信息安全、應用、系統架構、軟件架構、中間件、網絡、操作系統、基礎設施和數據庫這九個不同的子領域。以確保OWL-Bench 能夠展現出多樣性。
DevOps-Eval
- DevOps-Eval是由螞蟻集團聯合北京大學發布的面向DevOps領域的大語言模型評測基準。
? 附錄
點贊歷史
? 友情鏈接
- Awesome Code LLM
- 該項目收集了代碼大模型相關論文,並整理出一篇綜述。
- CodeFuse-ChatBot
- CodeFuse-ChatBot是由螞蟻CodeFuse團隊開發的開源AI智能助手,致力於簡化和優化軟件開發生命週期中的各個環節。
- Awesome AIGC Tutorials
- 該項目收集了關於AIGC的各種精選教程和資源,既適合初學者也適合進階AI愛好者。
- Awesome Tool Learning
- 該項目收集了關於工具學習的資源,包括論文、框架和應用。
- Awesome LLM reasoning
- 該項目收集了關於大語言模型推理方面的資源,包括論文、數據集等。