LLM Domain Luar Biasa
Sejak munculnya model bahasa besar yang diwakili oleh ChatGPT, putaran baru penelitian dan aplikasi telah berangkat, dan banyak model umum termasuk Llama, Chatglm, Baichuan, Qwen, dll. Telah muncul. Selanjutnya, praktisi dari bidang yang berbeda menerapkannya pada bidang vertikal melalui fine-tuning pra-pelatihan/instruksi terus menerus berdasarkan model umum.

Proyek ini bertujuan untuk mengumpulkan dan memilah model open source , set data , dan tolok ukur evaluasi di bidang vertikal. Setiap orang dipersilakan untuk menyumbangkan model open source, set data, tolok ukur evaluasi dan konten lain yang tidak termasuk dalam proyek ini, dan bersama -sama mempromosikan pemberdayaan model besar di semua lapisan masyarakat!
? memperbarui
- [2023/11/26] Peningkatan Keamanan Jaringan Big Model Big SecGpt, Medis Big Model Chimed-GPT, Financial Big Model Tongyi-FINANCE-14B, Benchmark Evaluasi Keuangan FinanceBench dan CFBenchmark.
- [2023/11/01] Tambahkan DevOps Field Big Model DevOps-Model dan Benchmark Evaluasi DevOps-Eval Dirilis oleh Ant Group dan Peking University.
- [2023/10/28] Menambahkan model keuangan disc-finllm, Medical Model Alpacare, dan Marine Model Marinegpt.
- [2023/10/19] Menambahkan model psikologis mentalllama, model biomedis bilingual Taiyi (Taiyi), dan model laut Oceangpt.
- [2023/10/10] menambahkan model besar burung hantu dan evaluasi Benchmark Owl-Bench untuk bidang operasi dan pemeliharaan yang dikembangkan bersama oleh Yunzhi Intelligent Research Institute dan Beihang. Menambahkan Benchmark Laiw untuk evaluasi model hukum Tiongkok.
- [2023/10/05] Menambahkan model psikologis Chatpsychiatrist, Model Keuangan Investlm, model pertanian Agrigpt dan Medical Model Wingpt2.
- [2023/10/03] Dua tolok ukur evaluasi hukum ditambahkan, yaitu Lawbench untuk sistem hukum Tiongkok dan LegalBench untuk sistem hukum AS.
- [2023/10/01] Menambahkan Disc-Lawllm, model besar bidang hukum yang bersumber dari Universitas Fudan bertujuan untuk memberikan pengguna layanan hukum yang profesional, cerdas, dan komprehensif. Tambahkan Finglm untuk membangun proyek model keuangan yang terbuka, kesejahteraan, dan langgeng, dan gunakan open source untuk mempromosikan "AI+Finance".
- [2023/9/25] Perbarui Qwen, tambahkan model QWEN-14B dan QWEN-14B-CAT, dan perbarui model QWEN-7B dan QWEN-7B-CAT. Dibandingkan dengan QWEN-7B asli, versi baru ini menggunakan lebih banyak data pelatihan (Token 2.4T), dan panjang urutan telah diperluas dari tahun 2048 menjadi 8192. Kemampuan China secara keseluruhan dan kemampuan kode telah banyak ditingkatkan.
- [2023/9/22] Tambahkan Internlm (Cendekiawan Puyu), Laboratorium Shanghai AI dan Teknologi Sensetime bersama dengan Universitas Tiongkok Hong Kong dan Model Dock Multilingual Open Source University.
- [2023/9/15] menambahkan Zhongjing-Llama (Zhongjing), model obat Cina dengan pra-pelatihan, penyetelan fine-tuning dan proses pelatihan lengkap RLHF.
- [2023/9/14] Tambahkan Weaverbird untuk mengakses model dialog bidang keuangan dengan pengetahuan lokal dan kemampuan pencarian online.
- [2023/9/13] Tambahkan Master Mingzha, sebuah model peradilan yang dikembangkan bersama oleh Universitas Shandong, Inspur Cloud dan Universitas Ilmu Politik dan Hukum Politik.
Daftar isi
- ? Model
- Model Umum
- ? Model domain
- ? Medis
- ⚖ legal
- ? keuangan
- ? mendidik
- ➕ Lainnya
- Dataset
- ? Benchmark Evaluasi
- ? Lampiran
- Seperti sejarah
- ? Tautan yang ramah
? Model
Model Umum
Model domain biasanya diperoleh dengan pra-pelatihan kontinu atau penyempurnaan instruksi berdasarkan model umum. Di sini kami mengatur model umum open source yang umum digunakan.
| Model | ukuran | mekanisme | kertas |
|---|
| Llama2 | 7b/7b-chat 13B/13B-CHAT 70B/70B-CHAT | Meta | kertas |
| Chatglm3-6b | 6b-base/6b/6b-32k | Universitas Tsinghua | kertas |
| Qwen | 1.8B/1.8B-CHAT 7b/7b-chat 14B/14B-CHAT 72b/72b-chat | ALIBABA Cloud | kertas |
| Baichuan2 | 7b/7b-chat 13B/13B-CHAT | Baichuan Intelligent | kertas |
| Internlm | 7b/7b-chat 20B/20B-CHAT | Laboratorium Shanghai AI | kertas |
? Model domain
? Medis
Chimed-GPT [kertas]
- Chimed-GPT adalah model medis Tiongkok berdasarkan Ziya-V2. Berdasarkan Ziya-V2, pra-pelatihan, fine-tuning (SFT) dan pembelajaran penguatan (RLHF) dari umpan balik manusia dilakukan secara komprehensif.
Alpacare [kertas]
- Proyek Open Sumber Medical Mockup Alpacare, yang disesuaikan di Llama.
Taiyi (taiyi) [kertas]
- Proyek Open Source of Chinese-English Bilingual Biomedical Mockup Taiyi (Taiyi), bertujuan untuk mengeksplorasi kemampuan multitasking bahasa alami bilingual di bidang biomedis.
Mentalllama [kertas]
- Proyek Open Source Mental Mockup Mentalllama, yang dapat digunakan untuk analisis kesehatan mental yang dapat ditafsirkan di media sosial.
Wingpt2
- WingPT adalah model vertikal medis berbasis GPT, yang bertujuan untuk mengintegrasikan pengetahuan medis profesional, informasi medis dan data, menyediakan layanan informasi yang cerdas seperti T&J medis, dukungan diagnostik dan pengetahuan medis untuk meningkatkan diagnosis dan efisiensi perawatan dan kualitas layanan medis.
Chatpsychiatrist [kertas]
- Proyek Open Source Chatpsychiatrist, model psikologis yang didasarkan pada penyempurnaan LLAMA-7B, dapat dengan cepat mengidentifikasi masalah psikologis dan memberikan rekomendasi perawatan yang dibuat khusus.
Zhongjing-llama (zhongjing) [kertas]
- Proyek Open Sumber Model Besar Kedokteran Tiongkok pertama yang mencakup pra-pelatihan, fine-tuning dan proses pelatihan lengkap RLHF, menunjukkan kemampuan generalisasi yang baik dan bahkan mendekati tingkat profesional dokter profesional dalam beberapa skenario dialog. Selain itu, dataset percakapan multi-putaran yang berisi 70.000 sepenuhnya dari percakapan dokter-pasien nyata juga bersumber terbuka. Dataset ini berisi sejumlah besar kalimat pertanyaan proaktif dokter, yang membantu meningkatkan kemampuan penyelidikan medis proaktif model.
Doctorglm [kertas]
- Berdasarkan model konsultasi China dari ChatGLM-6B, fine-tuning dan penyebaran set data dialog medis Tiongkok dicapai melalui penyempurnaan dan penyebaran Lora, p-tuningv2, dll.
Bentsao (bahan herbal) [kertas]
- Proyek ini membuka sumber rangkaian model bahasa besar yang telah disetel dengan instruksi medis Tiongkok, termasuk Llama, alpaca-Cina, mekar, model jenis bergerak, dll. Berdasarkan grafik pengetahuan medis dan literatur medis, kami dikombinasikan dengan model CATGPT untuk membuat model-model dasar medis, dan menggunakan ini untuk berbagai instruksi.
Med-catglm
- Model Proyek Open Source ChatGLM-6B disesuaikan dengan instruksi medis Tiongkok, dan data penyempurnaannya sama dengan Bentsao.
Bianque (Bianque) [kertas]
- Proyek ini membuka sumber model besar kesehatan ruang tamu. Dikombinasikan dengan set data Q&A medis Open Source Chinese saat ini (Meddialog-CN, IMCS-V2, ChIP-MDCFNPC, MEDDG, CMEDQA2, DATA-MEDICAL-MEDICAL-DIALOGLE-DATA), DATA PENGHATIAN BIANDED BESAR, DAN KARODAL PENGETAHAN BIANDECE DATERED DATA DOLUSI, DAN DAN KOMBINGIN DATA SINGLEC DATA DOKTOR SEMULAD DIALIZE, DAN DAN Kombinasikan Rentang Self-Built Lifeor Dianalisis, dan dikombinasikan dengan self-round swado-round-Built Living. dari jutaan level dibangun. Berdasarkan Bianque Health Big Data Bianquecorpus, ChatGLM-6B dipilih sebagai model inisialisasi, dan Bianque diperoleh melalui pelatihan penyempurnaan instruksi parameter penuh.
HUATUOGPT (HUA TUO) [Kertas]
- Proyek Open Sumber Medis Big Model Hituatuogpt, termasuk pelatihan Huatuogpt-7b berdasarkan pelatihan Baichuan-7b dan Huatuogpt-13b berdasarkan pelatihan Ziya-Lama-13b-Pretrain-V1.
Qizhengpt
- Proyek ini menggunakan dataset instruksi medis Tiongkok yang dibangun oleh basis pengetahuan medis Qizhen, dan berdasarkan ini, instruksi disesuaikan dengan model Cina-Llama-plus-7b, CAMA-13B, dan ChatGLM-6B, sangat meningkatkan efek model dalam skenario medis Tiongkok.
Chatmed
- Proyek Open Sumber Medis Medis Medis Besar Chatmed-Consult, yang menggunakan konsultasi online 50W + + CHATGPT Balas dari Konsultasi Data Medis Medis Tiongkok Set Data ChatMed_Consult_Dataset sebagai set pelatihan, dan diperoleh dengan menggunakan fine-tuning Lora berdasarkan LLAMA-7B.
Shennong-tcm-llm (shennong)
- Proyek Open Source Chinese Tradition Medicine Model Besar Shennong-tcm-llm. Berdasarkan grafik Pengetahuan Open Source Tradition Chinese, ia mengadopsi metode instruksi diri yang berpusat pada entitas, dan memanggil chatgpt untuk mendapatkan dataset instruksi obat Cina 2.6W+ Tradisional Chataset chatmed_tcm_dataset. Berdasarkan dataset, ini didasarkan pada llama dan penyempurnaan menggunakan Lora.
Xrayglm
- Proyek ini membuka set data dan model medis multimoda Cina, yang menunjukkan potensi luar biasa dalam diagnosis pencitraan medis dan beberapa putaran dialog interaktif.
MedicalGpt
- Proyek Open Source Medical Model MedicalGPT, yang mencakup pra-pelatihan tambahan, fine-tuning yang diawasi, RLHF (pemodelan hadiah, pelatihan pembelajaran penguatan) dan DPO (optimasi preferensi langsung).
Sunsimiao (Sun Simiao)
- Proyek Open Source Model Medis Tiongkok Sunsimiao, yang disesuaikan berdasarkan model dasar Baichuan-7B dan ChatGLM-6B dalam data medis Cina berkualitas tinggi sebesar 100.000.
Pengasuhan
- Proyek Open Source Medical Model Obegpt (CAREGPT), yang juga menyatukan lusinan set data penyempurnaan medis yang tersedia untuk umum dan model bahasa medis besar yang tersedia secara terbuka, termasuk pelatihan LLM, evaluasi, penyebaran, dll. Untuk mempromosikan perkembangan pesat medis LLM.
DISC-MEDLLM [kertas]
- Proyek ini adalah model medis dan kumpulan data bidang medis yang dirancang untuk skenario dialog medis dan kesehatan yang dirilis oleh Fudan University. Model ini diperoleh dengan menyempurnakan dataset Disc-MED-SFT berdasarkan instruksi Baichuan-13B-Base, secara efektif menyelaraskan preferensi manusia dalam skenario medis dan menjembatani kesenjangan antara output model bahasa umum dan dialog medis dunia nyata.
PMC-llama [kertas]
- Proyek Open Source Medical Mockup PMC-Llama, termasuk versi pra-terlatih dari Medllama_13b dan versi PMC_LLAM_13B yang disesuaikan.
Chatdoctor [kertas]
- Proyek Open Source Medical Model Chatdoctor, yang dilatih di Llama.
Ming (Ming Medical)
- Proyek Open Medical Medical Big Ming Ming, yang didasarkan pada penyesuaian instruksi Bloomz-7b untuk mendapatkan Ming-7B, dan mendukung T&J medis, konsultasi cerdas dan fungsi lainnya.
Ivygpt
- Proyek Open Source Medical Mockup IvyGpt, yang diawasi disempurnakan pada data T&J medis berkualitas tinggi dan dilatih menggunakan pembelajaran penguatan dari umpan balik manusia.
DETAK
- Proyek Open Source Chinese Medical Model Pulse, yang menggunakan sekitar 4.000.000 data penyesuaian arahan dari kedokteran Cina dan bidang umum untuk mendukung berbagai tugas pemrosesan bahasa alami di bidang medis, termasuk pendidikan kesehatan, pertanyaan ujian dokter, interpretasi laporan, catatan medis terstruktur, dan diagnosis dan perawatan simulasi.
Huangdi (Kaisar)
- Proyek ini membuka sumber obat Big Model Tiongkok Huangdi (Kaisar). Model ini pertama-tama menambahkan buku teks obat Cina, data situs web obat Cina, dan corpus lainnya berdasarkan model dasar Ziya-llama-13b-V1 untuk melatih model pra-pelatihan dengan pemahaman pengetahuan obat Cina. Kemudian, atas dasar ini, itu diawasi dan disesuaikan melalui sejumlah besar data dialog instruksi buku kuno Tiongkok dan data instruksi umum, sehingga model tersebut memiliki kemampuan untuk menjawab pengetahuan buku kuno obat Cina.
Zhongjing (Zhongjing)
- Proyek ini membuka model pengobatan Tiongkok Zhongjing (Zhongjing), yang bertujuan untuk mengklarifikasi pengetahuan mendalam tentang pengobatan tradisional Tiongkok, mewarisi kebijaksanaan kuno dan inovasi teknologi modern, dan pada akhirnya menyediakan alat yang dapat dipercaya dan profesional untuk bidang medis.
Tcmllm
- Proyek ini berencana untuk mewujudkan tugas -tugas diagnosis tambahan klinis dan pengobatan pengobatan tradisional Tiongkok (diagnosis penyakit, rekomendasi resep, dll.) Dan pertanyaan dan jawaban pengetahuan obat tradisional Cina lainnya melalui model besar, dan mempromosikan perkembangan cepat dari pertanyaan dan jawaban pengetahuan obat tradisional, diagnosis tambahan dan bidang perawatan. Saat ini, sebagai tanggapan terhadap tugas rekomendasi resep dalam diagnosis cerdas klinis dan pengobatan pengobatan tradisional Tiongkok, TCMLLM-Pr Model Rekomendasi Resep Pengobatan Tradisional Tiongkok dilepaskan. Dengan mengintegrasikan catatan klinis dunia nyata, klasik medis dan buku teks obat tradisional Tiongkok dan data lainnya, set rekomendasi resep Fine-Tuning Data set yang berisi entri data 68K dibangun, dan penyempurnaan disempurnakan diperoleh pada model besar ChatGLM.
Mechat [kertas]
- Proyek Open Sumber Model Dialog Dukungan Kesehatan Mental Cina dan Dataset. Model ini disesuaikan dengan instruksi CATGLM-6B LORA 16-bit. Dataset menggunakan chatgpt untuk menulis ulang QA reksa psikologis nyata untuk mendukung beberapa putaran dialog untuk beberapa putaran kesehatan mental. Dataset berisi 56k dialog multi-putaran, dan tema dialognya, kosa kata dan semantik bab lebih kaya dan lebih beragam, yang lebih sesuai dengan skenario aplikasi dari dialog multi-putaran jangka panjang.
Soulchat (hati spiritual) [kertas]
- Proyek Open mengambil model kesehatan mental Soulchat (Spiritual Heart), yang menggunakan ChatGLM-6B sebagai model inisialisasi dan disesuaikan dengan instruksi bersama dari teks panjang dalam bahasa Cina di bidang konseling psikologis dalam skala sejuta dan berbagai putaran data dialog empati.
Mindchat (arsip)
- Proyek open source dari model psikologis MindChat (Anime Talk), yang menggunakan sekitar 200.000 data dialog psikologis multi-putaran berkualitas tinggi secara manual untuk pelatihan, mencakup pekerjaan, keluarga, belajar, kehidupan, sosial, keselamatan, dan aspek lainnya. Diharapkan untuk membantu orang meringankan stres psikologis dan memecahkan kebingungan psikologis dari empat dimensi: konseling psikologis, evaluasi psikologis, diagnosis psikologis, dan perawatan psikologis, dan meningkatkan tingkat kesehatan mental mereka.
Qiaoban (王子)
- Proyek open source dari dialog emosional anak -anak model besar Qiaoban. Ini didasarkan pada model umum open source, menggunakan dialog human-computer domain umum, data instruksi roda tunggal, dan data dialog pendamping emosional anak-anak untuk menyempurnakan instruksi, dan mengembangkan model besar yang cocok untuk persahabatan emosional anak-anak.
⚖ legal
? keuangan
Tongyi-FINANCE-14B
- Tongyi Finance-14b (Tongyi-FINANCE-14B) adalah model bahasa besar yang diluncurkan untuk industri keuangan. Ini didasarkan pada model dasar Tongyi Qianwen untuk melakukan pembelajaran tambahan dari corpus industri, memperkuat kemampuan untuk menerapkan pengetahuan dan skenario di bidang keuangan, dan mencakup kemampuan kuadran seperti pertanyaan dan jawaban pengetahuan keuangan, klasifikasi teks, ekstraksi informasi, penciptaan teks, pemahaman membaca, penalaran logis, multimoda, dan pengkodean.
Disc-finllm [kertas]
- Disc-Finllm adalah model bahasa besar di bidang keuangan. Ini adalah sistem keuangan pintar multi-ahli yang terdiri dari empat modul untuk berbagai skenario keuangan: konsultasi keuangan, analisis teks keuangan, komputasi keuangan, dan pengambilan pengetahuan keuangan T&A. Modul-modul ini menunjukkan keunggulan yang jelas dalam empat evaluasi, termasuk tugas NLP keuangan, pertanyaan tes manusia, analisis data dan analisis urusan saat ini, membuktikan bahwa disk-finllm dapat memberikan dukungan kuat untuk berbagai bidang keuangan.
Investlm [kertas]
- Proyek Open Sumber Model Keuangan Bahasa Inggris berdasarkan fine-tuning LLAMA-65B.
Finglm
- Kami berkomitmen untuk membangun proyek model keuangan yang terbuka, kesejahteraan dan masa keuangan, dan menggunakan open source dan keterbukaan untuk mempromosikan "AI+Financial".
Weaverbird (Weaverbird) [kertas]
- Proyek Open Source adalah model besar dialog di bidang keuangan berdasarkan penyempurnaan corpus lapangan keuangan bilingual Cina-Inggris, dan juga dapat mengakses basis pengetahuan lokal dan mesin pencari online.
BBT-Fincuge-Applications [Paper]
- Proyek Open Sumber Lapangan Keuangan Cina Corpus BBT-Fincorpus, model besar yang ditingkatkan pengetahuan BBT-FINT5 dan Benchmark Evaluasi CFLEB.
Cornucopia (Cornery of Cornucopia)
- Proyek ini membangun kumpulan data instruksi berdasarkan data Q&A bidang keuangan publik dan merangkak, dan atas dasar ini, menyempurnakan instruksi pada model sistem LLAMA, meningkatkan efek tanya jawab LLAMA di bidang keuangan.
Xuanyuan (Xuanyuan) [kertas]
- Xuanyuan adalah model dialog China open source pertama dengan model dialog Tiongkok tingkat miliaran di Cina, dan juga merupakan model dialog Cina open source pertama yang dioptimalkan untuk bidang keuangan Cina. Berdasarkan Bloom-176b, Xuanyuan telah melakukan pra-pelatihan dan penyesuaian yang ditargetkan untuk bidang umum Cina dan bidang keuangan. Ini tidak hanya dapat menangani masalah di bidang umum, tetapi juga menjawab berbagai pertanyaan terkait keuangan, memberikan pengguna informasi dan saran keuangan yang akurat dan komprehensif.
Pixiu (pixiu) [kertas]
- Proyek open source dari Instruksi Finance Instruksi Fine-Tuning Dataset Fit, Model Besar FINMA dan Benchmark Flare Evaluasi.
Fingpt [paper1] [paper2]
- Proyek ini membuka beberapa model keuangan, termasuk chatglm2-6b+lora dan llama2-7b+lora, dan mengumpulkan data pelatihan Cina dan Inggris termasuk berita keuangan, media sosial, laporan keuangan, dll.
Flang [kertas]
- Proyek Open Sumber Model Keuangan Flang dan evaluasi Benchmark Flue.
? mendidik
Taoli (Taoli)
- Proyek ini membuka sumber model besar yang cocok untuk bidang pendidikan Tiongkok internasional. Berdasarkan lebih dari 500 buku teks pendidikan Cina internasional dan alat bantu pengajaran, pertanyaan tes kecakapan Tiongkok, dan kamus pelajar Cina, dll. Saat ini beredar di bidang pendidikan Cina internasional, perpustakaan sumber daya pendidikan Cina internasional telah dibangun. Sebanyak 88.000 kumpulan data dan jawaban pendidikan Tiongkok berkualitas tinggi dibangun melalui berbagai bentuk instruksi, dan data yang dikumpulkan digunakan untuk menyempurnakan instruksi untuk memungkinkan model memperoleh kemampuan menerapkan pengetahuan pendidikan Cina internasional ke skenario tertentu.
Educhat [kertas]
- Proyek ini membuka sumber model dialog untuk bidang pendidikan vertikal, terutama mempelajari teknologi yang terkait dengan model dialog pendidikan berdasarkan model pra-terlatih, mengintegrasikan beragam data lapangan vertikal pendidikan, ditambah dengan metode seperti penyesuaian instruksi dan penyelarasan value, dan menyediakan fungsi yang kaya dalam konsultasi pendidik, koreksi pekerjaan rumah, koreksi pekerjaan, dan penyesuaian value. dan orang tua, dan membantu mencapai pendidikan cerdas yang sesuai dengan bakat, adil, adil, dan hangat.
➕ Lainnya
Dataset
? Benchmark Evaluasi
C-eval [kertas]
- C-Eval adalah tolok ukur evaluasi model dasar Cina yang dirilis oleh Universitas Shanghai Jiaotong. Ini berisi 13.948 pertanyaan pilihan ganda, mencakup empat arah utama: humaniora, ilmu sosial, sains dan teknik, dan jurusan lainnya, 52 mata pelajaran, dari sekolah menengah hingga mahasiswa pascasarjana universitas dan ujian kejuruan.
AGeval [kertas]
- Agieval adalah tolok ukur evaluasi yang dirilis oleh Microsoft untuk mengevaluasi kinerja model besar dalam tugas kognitif manusia. Ini mencakup 20 ujian resmi, penerimaan standar tinggi dan kualifikasi untuk kandidat biasa, termasuk ujian masuk universitas biasa (ujian masuk perguruan tinggi Cina dan ujian SAT AS), ujian masuk sekolah hukum, kompetisi matematika dan ujian kualifikasi bar, ujian layanan sipil nasional, dll.
Xiezhi (xiezhi) [kertas]
- Xiezhi adalah tolok ukur evaluasi pengetahuan lapangan yang komprehensif, multidisiplin, dan secara otomatis diperbarui secara otomatis yang dirilis oleh Universitas Fudan, termasuk 13 disiplin ilmu: filsafat, ekonomi, hukum, pendidikan, sastra, sejarah, ilmu alam, teknik, pertanian, kedokteran, militer, manajemen, dan seni, 516 disiplin spesifik, dan 249.587.
Cmmlu [kertas]
- CMMLU adalah tolok ukur evaluasi Cina yang komprehensif, secara khusus digunakan untuk mengevaluasi pengetahuan dan kemampuan penalaran model bahasa dalam konteks Cina. CMMLU mencakup 67 topik dari disiplin dasar hingga tingkat profesional tingkat lanjut. Ini termasuk: ilmu alam yang membutuhkan perhitungan dan penalaran, humaniora dan ilmu sosial yang membutuhkan pengetahuan, dan aturan penggerak Cina yang membutuhkan akal sehat dalam hidup. Selain itu, banyak tugas di CMMLU memiliki jawaban khusus Cina dan mungkin tidak berlaku secara universal di wilayah atau bahasa lain. Therefore, it is a completely Chinese test benchmark.
MMCU [paper]
- MMCU是一个综合性的中文评测基准,包括来自医学、法律、心理学和教育等四大领域的测试。
CG-Eval [paper]
- CG-Eval是一个由甲骨易AI研究院与LanguageX AI Lab联合发布的针对中文大模型生成能力的评测基准。包含了科技与工程、人文与社会科学、数学计算、医师资格考试、司法考试、注册会计师考试等六个大科目类别下的55个子科目的11000道不同类型问题。CG-Eval包含一套复合的打分系统:对于非计算题,每一道名词解释题和简答题都有标准参考答案,采用多个标准打分然后加权求和;对于计算题目,会提取最终计算结果和解题过程,然后综合打分。
CBLUE [paper]
- CBLUE是一个中文医学语言理解评测基准,包含8个中文医疗语言理解任务。
PromptCBLUE [paper]
- PromptCBLUE是一个面向中文医疗场景的评测基准,通过对CBLUE基准进行二次开发,将16种不同的医疗场景NLP任务全部转化为基于提示的语言生成任务。
LAiW [paper]
- LAiW 是一个中文法律大模型评测基准,针对3大能力设计13个基础任务:1)法律NLP 基础能力:评测法律基础任务、 NLP 基础任务和法律信息抽取的能力,包括法条推送、要素识别、命名实体识别、司法要点摘要和案件识别5 个基础任务;2)法律基础应用能力:评测大模型对法律领域知识的基础应用能力,包括争议焦点挖掘、类案匹配、刑事裁判预测、民事裁判预测和法律问答5 个基础任务;3)法律复杂应用能力:评测大模型对法律领域知识的复杂应用能力,包括司法说理生成、案情理解和法律咨询3 个基础任务。
LawBench [paper]
- LawBench 是一个面向中国法律体系的法律评测基准。LawBench 模拟了司法认知的三个维度,并选择了20个任务来评估大模型的能力。与一些仅有多项选择题的现有基准相比,LawBench 包含了更多与现实世界应用密切相关的任务类型,如法律实体识别、阅读理解、犯罪金额计算和咨询等。
LegalBench [paper]
- LegalBench 是一个面向美国法律体系的法律评测基准,包含162个法律推理任务。
LEXTREME [paper]
- LEXTREME是一个多语言的法律评测基准,包含了24种语言11个评测数据集。
LexGLUE [paper]
CFBenchmark [paper]
- CFBenchmark是一个旨在评估大语言模型在中文金融场景下辅助工作的评测基准。CFBenchmark的基础版本包括3917个金融文本涵盖三个方面和八个任务,从金融识别、金融分类、金融生成三个方面进行组织。
FinanceBench [paper]
- FinanceBench是一个用于评估开放式金融问题问答的评测基准,包含10,231 个有关上市公司的问题,以及相应的答案。
FinEval [paper]
- FinEval是一个金融知识评测基准,包含了4,661个高质量的多项选择题,涵盖金融、经济、会计和证书等领域,34个不同的学术科目。
FLARE [paper]
- FLARE是一个金融评测基准,包含了金融知识理解和预测等任务。
CFLEB [paper]
- CFLEB是一个中文金融评测基准,包含两项语言生成任务和四项语言理解任务。
FLUE [paper]
- FLUE是一个金融评测基准,包含5个金融领域数据集。
GeoGLUE [paper]
- GeoGLUE是一个由阿里巴巴达摩院与高德联合发布的地理语义理解能力评测基准,旨在推动地理相关文本处理技术和社区的发展。本榜单提炼了其中多个典型场景:地图搜索、电商物流、政府登记、金融交通,并设计了六个核心任务:门址地址要素解析、地理实体对齐、Query-POI库召回、Query-POI相关性排序、地址Query成分分析、WhereWhat切分。
OWL-Bench [paper]
- OWL-Bench 是一个面向运维领域的双语评测基准。它包含317 个问答题和1000 个多选题,涵盖了该领域的众多现实工业场景,包括信息安全、应用、系统架构、软件架构、中间件、网络、操作系统、基础设施和数据库这九个不同的子领域。以确保OWL-Bench 能够展现出多样性。
DevOps-Eval
- DevOps-Eval是由蚂蚁集团联合北京大学发布的面向DevOps领域的大语言模型评测基准。
? Lampiran
点赞历史
? Tautan yang ramah
- Awesome Code LLM
- 该项目收集了代码大模型相关论文,并整理出一篇综述。
- CodeFuse-ChatBot
- CodeFuse-ChatBot是由蚂蚁CodeFuse团队开发的开源AI智能助手,致力于简化和优化软件开发生命周期中的各个环节。
- Awesome AIGC Tutorials
- 该项目收集了关于AIGC的各种精选教程和资源,既适合初学者也适合进阶AI爱好者。
- Awesome Tool Learning
- 该项目收集了关于工具学习的资源,包括论文、框架和应用。
- Awesome LLM reasoning
- 该项目收集了关于大语言模型推理方面的资源,包括论文、数据集等。