멋진 도메인 LLM
Chatgpt가 대표하는 대형 언어 모델이 출현 한 이후, 새로운 연구 및 응용 라운드가 시작되었으며 Llama, Chatglm, Baichuan, Qwen 등을 포함한 많은 일반 모델이 등장했습니다. 그 후, 다른 필드의 실무자들은 일반 모델을 기반으로 연속 사전 훈련/명령 미세 조정을 통해 수직 필드에 적용합니다.

이 프로젝트는 수직 필드에서 오픈 소스 모델 , 데이터 세트 및 평가 벤치 마크를 수집 및 정렬하는 것을 목표로합니다. 이 프로젝트에 포함되지 않은 오픈 소스 모델, 데이터 세트, 평가 벤치 마크 및 기타 컨텐츠에 기여하고 모든 생계에서 큰 모델의 권한을 공동으로 홍보 할 수 있습니다!
? 고쳐 쓰다
- [2023/11/26] 향상된 네트워크 보안 대형 모델 Secgpt, 의료 빅 모델 Chimed-GPT, 금융 빅 모델 Tongyi-Finance-14B, 금융 평가 벤치 마크 FinanceBench 및 CFBenchmark.
- [2023/11/01] DevOps 필드 빅 모델 DevOps- 모델 및 평가 벤치 마크 DevOps-Eval ANT Group 및 Peking University가 발표했습니다.
- [2023/10/28] 재무 모델 Disc-Finllm, 의료 모델 Alpacare 및 Marine Model Marinegpt가 추가되었습니다.
- [2023/10/19] 심리적 모델 Mentalllama, 이중 언어 생물 의학 모델 Taiyi (Taiyi) 및 Ocean Model Oceangpt가 추가되었습니다.
- [2023/10/10]는 Yunzhi Intelligent Research Institute와 Beihang이 공동으로 개발 한 운영 및 유지 보수 필드에 대한 Big Model Owl 및 Evaluation Benchmark Owl-Bench를 추가했습니다. 중국 법률 모델 평가를위한 벤치 마크 LAIW를 추가했습니다.
- [2023/10/05] 심리적 모델 Chatpychiatrist, Financial Model Investlm, 농업 모델 Agrigpt 및 의료 모델 Wingpt2가 추가되었습니다.
- [2023/10/03] 두 가지 법적 평가 벤치 마크, 즉 중국 법률 시스템에 대한 Lawbench와 미국 법률 시스템의 법률 벤치가 추가되었습니다.
- [2023/10/01] Fudan University가 공개적으로 공개 된 법률 분야의 큰 모델 인 Disc-Lawllm은 사용자에게 전문적이고 지능적이며 포괄적 인 법률 서비스를 제공하는 것을 목표로했습니다. Finglm을 추가하여 공개, 공공 복지 및 지속적인 재무 모델 프로젝트를 구축하고 오픈 소스를 사용하여 "AI+금융"을 홍보하십시오.
- [2023/9/25] Qwen을 업데이트하고 Qwen-14B 및 Qwen-14B-Chat 모델을 추가하고 Qwen-7B 및 Qwen-7B-Chat 모델을 업데이트하십시오. 원래 QWEN-7B와 비교할 때 새 버전은 더 많은 교육 데이터 (2.4T 토큰)를 사용하고 시퀀스 길이는 2048 년에서 8192 년으로 확장되었습니다. 전반적인 중국어 능력과 코드 능력은 많이 개선되었습니다.
- [2023/9/22] 홍콩 중국 대학교 및 Fudan University Open Source 다국어 도크 모델과 공동으로 Internlm (Scholar Puyu), 상하이 AI 실험실 및 Sensetime 기술을 추가합니다.
- [2023/9/15]는 사전 훈련, 감독 된 미세 조정 및 RLHF 완전한 교육 과정을 가진 한약 모델 인 Zhongjing-Llama (Zhongjing)를 추가했습니다.
- [2023/9/14] Weaverbird를 추가하여 현지 지식 및 온라인 검색 기능을 통해 Financial Field 대화 모델에 액세스하십시오.
- [2023/9/13] Shandong University, Inspur Cloud 및 중국 정치 과학 및 법률 대학이 공동으로 개발 한 사법 모델 인 Master Mingzha를 추가하십시오.
목차
- ? 모델
- 일반 모델
- ? 도메인 모델
- ? 의료
- ⚖ 법률
- ? 재원
- ? 기르다
- ➕ 기타
- 데이터 세트
- ? 평가 벤치 마크
- ? 충수
? 모델
일반 모델
도메인 모델은 일반적으로 일반적인 모델을 기반으로 한 지속적인 사전 훈련 또는 미세 조정에 의해 얻어집니다. 여기서 우리는 일반적으로 사용되는 오픈 소스 일반 모델을 구성합니다.
| 모델 | 크기 | 기구 | 종이 |
|---|
| llama2 | 7B/7B-Chat 13B/13B-Chat 70B/70B-Chat | 메타 | 종이 |
| chatglm3-6b | 6B-베이스/6B/6B-32K | Tsinghua University | 종이 |
| Qwen | 1.8B/1.8B chat 7B/7B-Chat 14B/14B-chat 72B/72B-Chat | 알리바바 클라우드 | 종이 |
| Baichuan2 | 7B/7B-Chat 13B/13B-Chat | Baichuan 지능형 | 종이 |
| internlm | 7B/7B-Chat 20B/20B chat | 상하이 AI 실험실 | 종이 |
? 도메인 모델
? 의료
⚖ 법률
? 재원
? 기르다
타올리 (타올리)
- 이 프로젝트는 국제 중국 교육 분야에 적합한 대형 모델의 출처를 열어줍니다. 500 개가 넘는 국제 중국 교육 교과서 및 교육 보조원, 중국어 숙련 시험 질문 및 중국 학습자 사전 등을 기반으로 국제 중국 교육 분야에서 유통되고있는 국제 중국 교육 자원 도서관이 건설되었습니다. 총 88,000 개의 고품질 국제 중국 교육 질문 및 답변 데이터 세트가 다양한 형태의 지침을 통해 구성되었으며, 수집 된 데이터는 특정 시나리오에 국제 교육 지식을 적용 할 수있는 능력을 획득 할 수 있도록 지침을 미세 조정하는 데 사용되었습니다.
에두차 [종이]
- 이 프로젝트는 교육의 수직 분야에 대한 대화 모델의 출처, 주로 미리 훈련 된 모델을 기반으로 한 교육 대화 모델과 관련된 기술을 연구하고, 다양한 교육 수직 필드 데이터를 통합하고, 교육 미세 조정 및 가치 정렬과 같은 방법으로 보완되고, 자동 질문 설정, 숙제 교정, 감정 지원, 코스 참가자와 같은 풍부한 기능을 제공합니다. 교사, 학생 및 학부모, 적성, 공정하고 정당하며 따뜻한 지적 교육을 달성하는 데 도움을줍니다.
➕ 기타
데이터 세트
? 평가 벤치 마크
C-Eval [종이]
- C-Eval은 Shanghai Jiaotong University가 발표 한 중국 기본 모델 평가 벤치 마크입니다. 여기에는 인문학, 사회 과학, 과학 및 공학 및 기타 전공, 52 명의 과목, 중학교 대학원생 및 직업 시험의 4 가지 주요 방향을 다루는 13,948 개의 객관식 질문이 포함되어 있습니다.
Agieval [종이]
- Agieval은 Microsoft가 인간인지 작업에서 대형 모델의 성능을 평가하기 위해 발표 한 평가 벤치 마크입니다. 여기에는 일반 대학 입학 시험 (중국 대학 입학 시험 및 미국 SAT 시험), 로스쿨 입학 시험, 수학 경쟁 및 변호사 자격 시험, 국가 공무원 시험 등을 포함하여 평범한 후보자를위한 20 개의 공식, 개방형 고도대 입학 및 자격 시험이 포함됩니다.
Xiezhi (Xiezhi) [종이]
- Xiezhi는 철학, 경제, 법률, 교육, 문학, 역사, 농업, 농업, 농업, 의학, 군사, 관리 및 예술, 516 개의 특정 분야 및 249,587 개의 질문 등 13 개의 분야를 포함하여 Fudan University가 발표 한 포괄적이고 여러 분야의 여러 분야 및 자동으로 업데이트 된 현장 지식 평가 벤치 마크입니다.
CMMLU [종이]
- CMMLU는 포괄적 인 중국 평가 벤치 마크이며, 특히 중국 맥락에서 언어 모델의 지식과 추론 능력을 평가하는 데 사용됩니다. CMMLU는 기본 분야에서 고급 전문 수준에 이르기까지 67 개의 주제를 다룹니다. 여기에는 계산과 추론이 필요한 자연 과학, 지식이 필요한 인문학 및 사회 과학, 인생에서 상식이 필요한 중국 운전 규칙. Furthermore, many tasks in CMMLU have Chinese-specific answers and may not be universally applicable in other regions or languages. Therefore, it is a completely Chinese test benchmark.
MMCU [paper]
- MMCU是一个综合性的中文评测基准,包括来自医学、法律、心理学和教育等四大领域的测试。
CG-Eval [paper]
- CG-Eval是一个由甲骨易AI研究院与LanguageX AI Lab联合发布的针对中文大模型生成能力的评测基准。包含了科技与工程、人文与社会科学、数学计算、医师资格考试、司法考试、注册会计师考试等六个大科目类别下的55个子科目的11000道不同类型问题。CG-Eval包含一套复合的打分系统:对于非计算题,每一道名词解释题和简答题都有标准参考答案,采用多个标准打分然后加权求和;对于计算题目,会提取最终计算结果和解题过程,然后综合打分。
CBLUE [paper]
- CBLUE是一个中文医学语言理解评测基准,包含8个中文医疗语言理解任务。
PromptCBLUE [paper]
- PromptCBLUE是一个面向中文医疗场景的评测基准,通过对CBLUE基准进行二次开发,将16种不同的医疗场景NLP任务全部转化为基于提示的语言生成任务。
LAiW [paper]
- LAiW 是一个中文法律大模型评测基准,针对3大能力设计13个基础任务:1)法律NLP 基础能力:评测法律基础任务、 NLP 基础任务和法律信息抽取的能力,包括法条推送、要素识别、命名实体识别、司法要点摘要和案件识别5 个基础任务;2)法律基础应用能力:评测大模型对法律领域知识的基础应用能力,包括争议焦点挖掘、类案匹配、刑事裁判预测、民事裁判预测和法律问答5 个基础任务;3)法律复杂应用能力:评测大模型对法律领域知识的复杂应用能力,包括司法说理生成、案情理解和法律咨询3 个基础任务。
LawBench [paper]
- LawBench 是一个面向中国法律体系的法律评测基准。LawBench 模拟了司法认知的三个维度,并选择了20个任务来评估大模型的能力。与一些仅有多项选择题的现有基准相比,LawBench 包含了更多与现实世界应用密切相关的任务类型,如法律实体识别、阅读理解、犯罪金额计算和咨询等。
LegalBench [paper]
- LegalBench 是一个面向美国法律体系的法律评测基准,包含162个法律推理任务。
LEXTREME [paper]
- LEXTREME是一个多语言的法律评测基准,包含了24种语言11个评测数据集。
LexGLUE [paper]
CFBenchmark [paper]
- CFBenchmark是一个旨在评估大语言模型在中文金融场景下辅助工作的评测基准。CFBenchmark的基础版本包括3917个金融文本涵盖三个方面和八个任务,从金融识别、金融分类、金融生成三个方面进行组织。
FinanceBench [paper]
- FinanceBench是一个用于评估开放式金融问题问答的评测基准,包含10,231 个有关上市公司的问题,以及相应的答案。
FinEval [paper]
- FinEval是一个金融知识评测基准,包含了4,661个高质量的多项选择题,涵盖金融、经济、会计和证书等领域,34个不同的学术科目。
FLARE [paper]
- FLARE是一个金融评测基准,包含了金融知识理解和预测等任务。
CFLEB [paper]
- CFLEB是一个中文金融评测基准,包含两项语言生成任务和四项语言理解任务。
FLUE [paper]
- FLUE是一个金融评测基准,包含5个金融领域数据集。
GeoGLUE [paper]
- GeoGLUE是一个由阿里巴巴达摩院与高德联合发布的地理语义理解能力评测基准,旨在推动地理相关文本处理技术和社区的发展。本榜单提炼了其中多个典型场景:地图搜索、电商物流、政府登记、金融交通,并设计了六个核心任务:门址地址要素解析、地理实体对齐、Query-POI库召回、Query-POI相关性排序、地址Query成分分析、WhereWhat切分。
OWL-Bench [paper]
- OWL-Bench 是一个面向运维领域的双语评测基准。它包含317 个问答题和1000 个多选题,涵盖了该领域的众多现实工业场景,包括信息安全、应用、系统架构、软件架构、中间件、网络、操作系统、基础设施和数据库这九个不同的子领域。以确保OWL-Bench 能够展现出多样性。
DevOps-Eval
- DevOps-Eval是由蚂蚁集团联合北京大学发布的面向DevOps领域的大语言模型评测基准。
? 충수
点赞历史
? Friendly links
- Awesome Code LLM
- 该项目收集了代码大模型相关论文,并整理出一篇综述。
- CodeFuse-ChatBot
- CodeFuse-ChatBot是由蚂蚁CodeFuse团队开发的开源AI智能助手,致力于简化和优化软件开发生命周期中的各个环节。
- Awesome AIGC Tutorials
- 该项目收集了关于AIGC的各种精选教程和资源,既适合初学者也适合进阶AI爱好者。
- Awesome Tool Learning
- 该项目收集了关于工具学习的资源,包括论文、框架和应用。
- Awesome LLM reasoning
- 该项目收集了关于大语言模型推理方面的资源,包括论文、数据集等。