Awesome Domain LLM
自以ChatGPT为代表的大语言模型出现以后,掀起了新一轮研究和应用浪潮,出现了许多包括LLaMA、ChatGLM、Baichuan、Qwen等在内的通用模型。
随后,来自不同领域的从业人员在通用模型的基础上通过持续预训练/指令微调将其应用于垂直领域。
本项目旨在收集和梳理垂直领域的开源模型、数据集及评测基准。
欢迎大家贡献本项目未收录的开源模型、数据集、评测基准等内容,一起推动大模型赋能各行各业!
? 更新
- [2023/11/26] 增强网络安全大模型SecGPT、医疗大模型ChiMed-GPT、金融大模型Tongyi-Finance-14B、金融评测基准FinanceBench和CFBenchmark。
- [2023/11/01] 增加由蚂蚁集团联合北京大学发布的DevOps领域大模型DevOps-Model和评测基准DevOps-Eval。
- [2023/10/28] 增加金融大模型DISC-FinLLM、医学大模型AlpaCare、海洋大模型MarineGPT。
- [2023/10/19] 增加心理大模型MentalLLaMA、双语生物医学大模型Taiyi (太一)、海洋大模型OceanGPT。
- [2023/10/10] 增加由云智慧智能研究院和北航联合研发的面向运维领域的大模型OWL和评测基准OWL-Bench。增加中文法律大模型评测基准LAiW。
- [2023/10/05] 增加心理大模型ChatPsychiatrist、金融大模型InvestLM、农业大模型AgriGPT和医疗大模型WiNGPT2。
- [2023/10/03] 增加两个法律评测基准,分别为面向中国法律体系的LawBench和美国法律体系的LegalBench。
- [2023/10/01] 增加DISC-LawLLM,由复旦大学开源的旨在为用户提供专业、智能、全面的法律服务的法律领域大模型。增加FinGLM,致力于构建一个开放的、公益的、持久的金融大模型项目,利用开源开放来促进「AI+金融」。
- [2023/9/25] 更新Qwen,新增Qwen-14B和Qwen-14B-Chat模型,并更新Qwen-7B和Qwen-7B-Chat模型。相比原版Qwen-7B,新版使用更多训练数据 (2.4T token),序列长度从2048扩展至8192。整体中文能力以及代码能力提升较多。
- [2023/9/22] 增加InternLM(书生•浦语),上海AI实验室与商汤科技联合香港中文大学和复旦大学开源的多语基座模型。
- [2023/9/15] 增加Zhongjing-LLaMA (仲景),包含预训练、有监督微调和RLHF完整训练流程的中文医学大模型。
- [2023/9/14] 增加WeaverBird (织工鸟),可接入本地知识与网络搜索能力的金融领域对话大模型。
- [2023/9/13] 增加夫子•明察,由山东大学、浪潮云、中国政法大学联合研发的司法大模型。
目录
? 模型
通用模型
领域模型通常在通用模型的基础上进行持续预训练或指令微调得到,此处整理常用的开源通用模型。
| 模型 |
大小 |
机构 |
论文 |
| LLaMA2 |
7B/7B-Chat 13B/13B-Chat 70B/70B-Chat |
Meta |
paper |
| ChatGLM3-6B |
6B-Base/6B/6B-32K |
清华大学 |
paper |
| Qwen |
1.8B/1.8B-Chat 7B/7B-Chat 14B/14B-Chat 72B/72B-Chat |
阿里云 |
paper |
| Baichuan2 |
7B/7B-Chat 13B/13B-Chat |
百川智能 |
paper |
| InternLM |
7B/7B-Chat 20B/20B-Chat |
上海AI实验室 |
paper |
? 领域模型
? 医疗
⚖ 法律
? 金融
? 教育
-
桃李 (Taoli)
- 该项目开源了适用于国际中文教育领域的大模型,基于目前国际中文教育领域流通的500余册国际中文教育教材与教辅书、汉语水平考试试题以及汉语学习者词典等,构建了国际中文教育资源库。通过多种形式的指令构造了共计88000条的高质量国际中文教育问答数据集,并利用收集到的数据对模型进行指令微调,让模型习得将国际中文教育知识应用到具体场景中的能力。
-
EduChat
[paper]
- 该项目开源了针对教育垂直领域的对话大模型,主要研究以预训练大模型为基底的教育对话大模型相关技术,融合多样化的教育垂直领域数据,辅以指令微调、价值观对齐等方法,提供教育场景下自动出题、作业批改、情感支持、课程辅导、高考咨询等丰富功能,服务于广大老师、学生和家长群体,助力实现因材施教、公平公正、富有温度的智能教育。
➕ 其他
数据集
? 评测基准
-
C-Eval
[paper]
- C-Eval是一个由上海交通大学发布的中文基础模型评测基准,包含了13948个多项选择题,涵盖了人文,社科,理工,其他专业四个大方向,52个学科,从中学到大学研究生以及职业考试。
-
AGIEval
[paper]
- AGIEval是一个由微软发布的评测基准,用于评估大模型在人类认知任务中的表现,包含了20个面向普通考生的官方、公开、高标准入学和资格考试,包括普通大学入学考试 (中国高考和美国SAT考试)、法学院入学考试、数学竞赛和律师资格考试、国家公务员考试等。
-
Xiezhi (獬豸)
[paper]
- Xiezhi是一个由复旦大学发布的综合的、多学科的、能够自动更新的领域知识评测基准,包含了哲学、经济学、法学、教育学、文学、历史学、自然科学、工学、农学、医学、军事学、管理学、艺术学这13个学科门类,516个具体学科,249587道题目。
-
CMMLU
[paper]
- CMMLU是一个综合性的中文评测基准,专门用于评估语言模型在中文语境下的知识和推理能力。CMMLU涵盖了从基础学科到高级专业水平的67个主题。它包括:需要计算和推理的自然科学,需要知识的人文科学和社会科学,以及需要生活常识的中国驾驶规则等。此外,CMMLU中的许多任务具有中国特定的答案,可能在其他地区或语言中并不普遍适用。因此是一个完全中国化的中文测试基准。
-
MMCU
[paper]
- MMCU是一个综合性的中文评测基准,包括来自医学、法律、心理学和教育等四大领域的测试。
-
CG-Eval
[paper]
- CG-Eval是一个由甲骨易AI研究院与LanguageX AI Lab联合发布的针对中文大模型生成能力的评测基准。包含了科技与工程、人文与社会科学、数学计算、医师资格考试、司法考试、注册会计师考试等六个大科目类别下的55个子科目的11000道不同类型问题。CG-Eval包含一套复合的打分系统:对于非计算题,每一道名词解释题和简答题都有标准参考答案,采用多个标准打分然后加权求和;对于计算题目,会提取最终计算结果和解题过程,然后综合打分。
-
CBLUE
[paper]
- CBLUE是一个中文医学语言理解评测基准,包含8个中文医疗语言理解任务。
-
PromptCBLUE
[paper]
- PromptCBLUE是一个面向中文医疗场景的评测基准,通过对CBLUE基准进行二次开发,将16种不同的医疗场景NLP任务全部转化为基于提示的语言生成任务。
-
LAiW
[paper]
- LAiW 是一个中文法律大模型评测基准,针对3大能力设计13个基础任务:1)法律 NLP 基础能力:评测法律基础任务、 NLP 基础任务和法律信息抽取的能力,包括法条推送、要素识别、命名实体识别、司法要点摘要和案件识别 5 个基础任务;2)法律基础应用能力:评测大模型对法律领域知识的基础应用能力,包括争议焦点挖掘、类案匹配、刑事裁判预测、民事裁判预测和法律问答 5 个基础任务;3)法律复杂应用能力:评测大模型对法律领域知识的复杂应用能力,包括司法说理生成、案情理解和法律咨询 3 个基础任务。
-
LawBench
[paper]
- LawBench 是一个面向中国法律体系的法律评测基准。LawBench 模拟了司法认知的三个维度,并选择了20个任务来评估大模型的能力。与一些仅有多项选择题的现有基准相比,LawBench 包含了更多与现实世界应用密切相关的任务类型,如法律实体识别、阅读理解、犯罪金额计算和咨询等。
-
LegalBench
[paper]
- LegalBench 是一个面向美国法律体系的法律评测基准,包含162个法律推理任务。
-
LEXTREME
[paper]
- LEXTREME是一个多语言的法律评测基准,包含了24种语言11个评测数据集。
-
LexGLUE
[paper]
-
CFBenchmark
[paper]
- CFBenchmark是一个旨在评估大语言模型在中文金融场景下辅助工作的评测基准。CFBenchmark的基础版本包括3917个金融文本涵盖三个方面和八个任务,从金融识别、金融分类、金融生成三个方面进行组织。
-
FinanceBench
[paper]
- FinanceBench是一个用于评估开放式金融问题问答的评测基准,包含 10,231 个有关上市公司的问题,以及相应的答案。
-
FinEval
[paper]
- FinEval是一个金融知识评测基准,包含了4,661个高质量的多项选择题,涵盖金融、经济、会计和证书等领域,34个不同的学术科目。
-
FLARE
[paper]
- FLARE是一个金融评测基准,包含了金融知识理解和预测等任务。
-
CFLEB
[paper]
- CFLEB是一个中文金融评测基准,包含两项语言生成任务和四项语言理解任务。
-
FLUE
[paper]
- FLUE是一个金融评测基准,包含5个金融领域数据集。
-
GeoGLUE
[paper]
- GeoGLUE是一个由阿里巴巴达摩院与高德联合发布的地理语义理解能力评测基准,旨在推动地理相关文本处理技术和社区的发展。本榜单提炼了其中多个典型场景:地图搜索、电商物流、政府登记、金融交通,并设计了六个核心任务:门址地址要素解析、地理实体对齐、Query-POI库召回、Query-POI相关性排序、地址Query成分分析、WhereWhat切分。
-
OWL-Bench
[paper]
- OWL-Bench 是一个面向运维领域的双语评测基准。它包含 317 个问答题和 1000 个多选题,涵盖了该领域的众多现实工业场景,包括信息安全、应用、系统架构、软件架构、中间件、网络、操作系统、基础设施和数据库这九个不同的子领域。以确保 OWL-Bench 能够展现出多样性。
-
DevOps-Eval
- DevOps-Eval是由蚂蚁集团联合北京大学发布的面向DevOps领域的大语言模型评测基准。
? 附录
点赞历史
? 友情链接
- Awesome Code LLM
- 该项目收集了代码大模型相关论文,并整理出一篇综述。
- CodeFuse-ChatBot
- CodeFuse-ChatBot是由蚂蚁CodeFuse团队开发的开源AI智能助手,致力于简化和优化软件开发生命周期中的各个环节。
- Awesome AIGC Tutorials
- 该项目收集了关于AIGC的各种精选教程和资源,既适合初学者也适合进阶AI爱好者。
- Awesome Tool Learning
- 该项目收集了关于工具学习的资源,包括论文、框架和应用。
- Awesome LLM reasoning
- 该项目收集了关于大语言模型推理方面的资源,包括论文、数据集等。