素晴らしいドメインLLM
ChatGptが代表する大規模な言語モデルの出現以来、新しいラウンドの研究とアプリケーションが発生し、Llama、Chatglm、Baichuan、Qwenなどを含む多くの一般的なモデルが出現しました。その後、異なるフィールドの実践者は、一般的なモデルに基づいて連続前トレーニング/命令の微調整を通じて垂直フィールドにそれを適用します。

このプロジェクトは、垂直フィールドでのオープンソースモデル、データセット、評価ベンチマークを収集して整理することを目的としています。誰もが、このプロジェクトに含まれていないオープンソースモデル、データセット、評価ベンチマーク、その他のコンテンツを提供し、あらゆる歩みにおいて大きなモデルのエンパワーメントを共同で促進することを歓迎します!
?更新します
- [2023/11/26]強化されたネットワークセキュリティビッグモデルSecgpt、Medical Big Model Chimed-Gpt、Financial Big Model Tongyi-Finance-14B、Financial Evaluation Benchmark FinanceBenchおよびCFBenchmark。
- [2023/11/01] DevOpsフィールドビッグモデルDevOps-Modelと評価ベンチマークDevOps-EvalがANT Group and Peking Universityがリリースします。
- [2023/10/28] Financial Model Disc-Finllm、Medical Model Alpacare、およびMarine Model Marinegptを追加しました。
- [2023/10/19]心理モデルMentalllama、バイリンガル生物医学モデルTaiyi(Taiyi)、およびOcean Model Oceangptを追加しました。
- [2023/10/10] Yunzhi Intelligent Research InstituteとBeihangが共同で開発した操作およびメンテナンス分野のために、大きなモデルOwlおよび評価ベンチマークフクロウベンチを追加しました。中国の法的モデル評価のためにベンチマークLAIWを追加しました。
- [2023/10/05]心理モデルのChatpsychiatrist、Financial Model Investlm、Agricultural Model Agrigpt、およびMedical Model Wingpt2の追加。
- [2023/10/03] 2つの法的評価ベンチマークが追加されています。つまり、中国の法制度の法律と米国の法制度の法律のベンチ。
- [2023/10/01] Fudan Universityがソースした法的分野の大きなモデルであるDisc-Lawllmを追加しました。 FINGLMを追加して、公開、公共の福祉、永続的な金融モデルプロジェクトを構築し、オープンソースを使用して「AI+Finance」を促進します。
- [2023/9/25] QWENを更新し、QWEN-14BおよびQWEN-14B-CHATモデルを追加し、QWEN-7BおよびQWEN-7B-CHATモデルを更新します。元のQWEN-7Bと比較して、新しいバージョンはより多くのトレーニングデータ(2.4Tトークン)を使用し、シーケンスの長さは2048から8192に拡張されました。中国の全体的な能力とコード能力は大幅に改善されました。
- [2023/9/22]香港の中国大学およびフダン大学のオープンソース多言語ドックモデルと共同で、internlm(Scholar Puyu)、Shanghai AI Laboratory and Sensetime Technologyを追加します。
- [2023/9/15] Zhongjing-Llama(Zhongjing)を追加しました。これは、トレーニング前、監視付きの微調整、RLHFの完全なトレーニングプロセスを備えた漢方薬モデルです。
- [2023/9/14] Weaverbirdを追加して、地元の知識とオンライン検索機能を備えたFinancial Field Dialogue Modelにアクセスします。
- [2023/9/13]シャンドン大学、Inspur Cloud、China University of Political Science and Lawが共同で開発した司法モデルであるMaster Mingzhaを追加します。
目次
?モデル
一般モデル
通常、ドメインモデルは、一般的なモデルに基づいた命令の連続的なトレーニングまたは微調整によって取得されます。ここでは、一般的に使用されるオープンソースの一般モデルを整理します。
| モデル | サイズ | 機構 | 紙 |
|---|
| llama2 | 7b/7b-chat 13b/13b-chat 70b/70b-chat | メタ | 紙 |
| chatglm3-6b | 6Bベース/6B/6B-32K | ツィンガ大学 | 紙 |
| Qwen | 1.8b/1.8b-chat 7b/7b-chat 14b/14b-chat 72b/72b-chat | アリババクラウド | 紙 |
| Baichuan2 | 7b/7b-chat 13b/13b-chat | Baichuan Intelligent | 紙 |
| internlm | 7b/7b-chat 20b/20b-chat | 上海AI研究所 | 紙 |
?ドメインモデル
?医学
⚖リーガル
?ファイナンス
?教育する
タオリ(タオリ)
- このプロジェクトは、国際中国の教育分野に適した大規模なモデルのソースを開きます。 500を超える国際的な中国の教育の教科書と教科書、中国の習熟度テストの質問、中国の学習者辞書などに基づいて、現在国際中国教育分野で流通している国際中国教育リソースライブラリが構築されています。合計88,000の高品質の国際的な中国教育の質問と回答データセットがさまざまな形式の指示を通じて構築され、収集されたデータが指示を微調整して、モデルが特定のシナリオに国際的な中国教育知識を適用する能力を獲得できるようにしました。
educhat [紙]
- このプロジェクトは、教育分野の対話モデルのソースを開き、主に訓練を受けたモデルに基づいた教育対話モデルに関連するテクノロジーを研究し、さまざまな教育垂直フィールドデータを統合し、指導の微調整や価値の調整などの方法で補足され、自動化された質問の補正、在宅勤務の補助、副検査の順に宿題を提供するなどの豊富な機能を提供する、宿題の補助、宿泊施設の補助、宿泊施設の継続的な調達、コースの継続的な補助、コースでの宿泊施設の順応、コースでのコンスウィングの順になります。教師、学生、保護者、そして適性、公正、公正、そして暖かいことに従う知的な教育を実現するのを支援します。
➕その他
データセット
?評価ベンチマーク
c-val [紙]
- C-Evalは、上海Jiaotong大学がリリースした中国の基本モデル評価ベンチマークです。 13,948の多肢選択式の質問が含まれており、人文科学、社会科学、科学と工学、およびその他の専攻、52人の主題、中学校から大学の大学院生、職業試験の4つの主要な方向性をカバーしています。
Agieval [紙]
- Agievalは、Microsoftがリリースした評価ベンチマークで、人間の認知タスクにおける大規模なモデルのパフォーマンスを評価します。これには、通常の大学入学試験(中国の大学入学試験と米国SAT試験)、ロースクールの入学試験、数学の競争とバーの資格試験、国家公務員試験などを含む、通常の候補者のための20の公式、オープン、高標準の入場および資格試験が含まれます。
Xiezhi(Xiezhi)[紙]
- Xiezhiは、哲学、経済学、法律、教育、文学、自然科学、工学、農業、医学、軍事、管理、および芸術、516特定の分野、および249,587の質問など、13の分野を含む、Fudan大学がリリースした包括的で学際的で自動的に更新されたフィールドナレッジ評価ベンチマークです。
cmmlu [紙]
- CMMLUは、中国の文脈における言語モデルの知識と推論能力を評価するために特に使用される包括的な中国の評価ベンチマークです。 CMMLUは、基本的な分野から高度な専門レベルまで、67のトピックをカバーしています。それに含まれる:計算と推論を必要とする自然科学、知識を必要とする人文科学と社会科学、および人生の常識を必要とする中国の運転規則。さらに、CMMLUの多くのタスクには中国固有の答えがあり、他の地域や言語で普遍的に適用できない場合があります。したがって、それは完全に中国のテストベンチマークです。
MMCU [paper]
- MMCU是一个综合性的中文评测基准,包括来自医学、法律、心理学和教育等四大领域的测试。
CG-Eval [paper]
- CG-Eval是一个由甲骨易AI研究院与LanguageX AI Lab联合发布的针对中文大模型生成能力的评测基准。包含了科技与工程、人文与社会科学、数学计算、医师资格考试、司法考试、注册会计师考试等六个大科目类别下的55个子科目的11000道不同类型问题。CG-Eval包含一套复合的打分系统:对于非计算题,每一道名词解释题和简答题都有标准参考答案,采用多个标准打分然后加权求和;对于计算题目,会提取最终计算结果和解题过程,然后综合打分。
CBLUE [paper]
- CBLUE是一个中文医学语言理解评测基准,包含8个中文医疗语言理解任务。
PromptCBLUE [paper]
- PromptCBLUE是一个面向中文医疗场景的评测基准,通过对CBLUE基准进行二次开发,将16种不同的医疗场景NLP任务全部转化为基于提示的语言生成任务。
LAiW [paper]
- LAiW 是一个中文法律大模型评测基准,针对3大能力设计13个基础任务:1)法律NLP 基础能力:评测法律基础任务、 NLP 基础任务和法律信息抽取的能力,包括法条推送、要素识别、命名实体识别、司法要点摘要和案件识别5 个基础任务;2)法律基础应用能力:评测大模型对法律领域知识的基础应用能力,包括争议焦点挖掘、类案匹配、刑事裁判预测、民事裁判预测和法律问答5 个基础任务;3)法律复杂应用能力:评测大模型对法律领域知识的复杂应用能力,包括司法说理生成、案情理解和法律咨询3 个基础任务。
LawBench [paper]
- LawBench 是一个面向中国法律体系的法律评测基准。LawBench 模拟了司法认知的三个维度,并选择了20个任务来评估大模型的能力。与一些仅有多项选择题的现有基准相比,LawBench 包含了更多与现实世界应用密切相关的任务类型,如法律实体识别、阅读理解、犯罪金额计算和咨询等。
LegalBench [paper]
- LegalBench 是一个面向美国法律体系的法律评测基准,包含162个法律推理任务。
LEXTREME [paper]
- LEXTREME是一个多语言的法律评测基准,包含了24种语言11个评测数据集。
LexGLUE [paper]
CFBenchmark [paper]
- CFBenchmark是一个旨在评估大语言模型在中文金融场景下辅助工作的评测基准。CFBenchmark的基础版本包括3917个金融文本涵盖三个方面和八个任务,从金融识别、金融分类、金融生成三个方面进行组织。
FinanceBench [paper]
- FinanceBench是一个用于评估开放式金融问题问答的评测基准,包含10,231 个有关上市公司的问题,以及相应的答案。
FinEval [paper]
- FinEval是一个金融知识评测基准,包含了4,661个高质量的多项选择题,涵盖金融、经济、会计和证书等领域,34个不同的学术科目。
FLARE [paper]
- FLARE是一个金融评测基准,包含了金融知识理解和预测等任务。
CFLEB [paper]
- CFLEB是一个中文金融评测基准,包含两项语言生成任务和四项语言理解任务。
FLUE [paper]
- FLUE是一个金融评测基准,包含5个金融领域数据集。
GeoGLUE [paper]
- GeoGLUE是一个由阿里巴巴达摩院与高德联合发布的地理语义理解能力评测基准,旨在推动地理相关文本处理技术和社区的发展。本榜单提炼了其中多个典型场景:地图搜索、电商物流、政府登记、金融交通,并设计了六个核心任务:门址地址要素解析、地理实体对齐、Query-POI库召回、Query-POI相关性排序、地址Query成分分析、WhereWhat切分。
OWL-Bench [paper]
- OWL-Bench 是一个面向运维领域的双语评测基准。它包含317 个问答题和1000 个多选题,涵盖了该领域的众多现实工业场景,包括信息安全、应用、系统架构、软件架构、中间件、网络、操作系统、基础设施和数据库这九个不同的子领域。以确保OWL-Bench 能够展现出多样性。
DevOps-Eval
- DevOps-Eval是由蚂蚁集团联合北京大学发布的面向DevOps领域的大语言模型评测基准。
?付録
点赞历史
?フレンドリーなリンク
- Awesome Code LLM
- 该项目收集了代码大模型相关论文,并整理出一篇综述。
- CodeFuse-ChatBot
- CodeFuse-ChatBot是由蚂蚁CodeFuse团队开发的开源AI智能助手,致力于简化和优化软件开发生命周期中的各个环节。
- Awesome AIGC Tutorials
- 该项目收集了关于AIGC的各种精选教程和资源,既适合初学者也适合进阶AI爱好者。
- Awesome Tool Learning
- 该项目收集了关于工具学习的资源,包括论文、框架和应用。
- Awesome LLM reasoning
- 该项目收集了关于大语言模型推理方面的资源,包括论文、数据集等。