Domaine génial LLM
Depuis l'émergence du modèle de grande langue représenté par Chatgpt, une nouvelle série de recherches et d'applications s'est déclenchée, et de nombreux modèles généraux, notamment LLAMA, ChatGlm, Baichuan, Qwen, etc. ont émergé. Par la suite, les praticiens de différents champs l'appliquent au champ vertical par le biais de réglage continu de pré-formation / instruction basé sur un modèle général.

Ce projet vise à collecter et à trier les modèles open source , les ensembles de données et les repères d'évaluation dans les champs verticaux. Tout le monde est invité à contribuer des modèles open source, des ensembles de données, des références d'évaluation et d'autres contenus qui ne sont pas inclus dans ce projet, et favorisent conjointement l'autonomisation des grands modèles dans tous les domaines de la vie!
? renouveler
- [2023/11/26] Secgpt de sécurité du réseau amélioré Secgpt, Medical Big Model Samid-GPT, Financial Model Tongyi-Finance-14b, Financial Evaluation Benchmark Financebench et CFBenchmark.
- [2023/11/01] Ajouter DevOps Field Big Model DevOps-Model and Evaluation Benchmark DevOps-Eval sorti par Ant Group et Peking University.
- [2023/10/28] Ajout d'un disque du modèle financier, du modèle médical Alpacare et du modèle marin Marinegpt.
- [2023/10/19] Ajout du mentalllama psychologique, du modèle biomédical bilingue Taiyi (Taiyi) et Ocean Model Oceangpt.
- [2023/10/10] Ajout du Big Model Owl and Evaluation Benchmark Owl Bench pour le champ de fonctionnement et de maintenance développé conjointement par Yunzhi Intelligent Research Institute et Beihang. Ajout de la référence Laiw pour l'évaluation du modèle juridique chinois.
- [2023/10/05] Ajout du modèle psychologique ChatPsychiatre, Financial Model Investlm, Agricultural Model Agrigpt and Medical Model Wingpt2.
- [2023/10/03] Deux références d'évaluation juridique sont ajoutées, à savoir Lawbench pour le système juridique chinois et le bench juridique pour le système juridique américain.
- [2023/10/01] Ajout du disque-lawllm, un grand modèle du terrain légal ouvert par Fudan University vise à fournir aux utilisateurs des services juridiques professionnels, intelligents et complets. Ajoutez Finglm pour construire un projet de modèle financier ouvert et durable et durable, et utilisez Open Source pour promouvoir "AI + Finance".
- [2023/9/25] Mettez à jour le QWEN, ajoutez les modèles QWEN-14B et QWEN-14B-CAT et mettez à jour les modèles QWEN-7B et QWEN-7B-CHAT. Par rapport au QWEN-7B d'origine, la nouvelle version utilise plus de données de formation (jeton 2.4T), et la longueur de séquence a été élargie de 2048 à 8192. La capacité globale chinoise et la capacité de code ont beaucoup été améliorée.
- [2023/9/22] Ajouter Internlm (Scholar Puyu), Shanghai AI Laboratory and Sensetime Technology conjointement avec le modèle de quai multilingue open source de l'Université chinoise de l'Université de Hong Kong et de l'Université Fudan.
- [2023/9/15] Ajout de Zhongjing-Llama (Zhongjing), un modèle de médecine chinoise avec un processus de formation complet pré-formation, supervisé et RLHF.
- [2023/9/14] Ajoutez Weaverbird pour accéder au modèle de dialogue financier avec les connaissances locales et les capacités de recherche en ligne.
- [2023/9/13] Ajoutez Master Mingzha, un modèle judiciaire développé conjointement par l'Université du Shandong, l'inspur cloud et l'Université de science politique et de droit de la Chine.
Table des matières
- ? Modèle
- Modèle général
- ? Modèle de domaine
- ? Médical
- ⚖ Légalé
- ? finance
- ? éduquer
- ➕ Autres
- Ensemble de données
- ? Référence d'évaluation
- ? Appendice
- Comme l'histoire
- ? Liens amicaux
? Modèle
Modèle général
Les modèles de domaine sont généralement obtenus par pré-formation continue ou affinage fin des instructions basées sur des modèles généraux. Ici, nous organisons les modèles généraux open source couramment utilisés.
| Modèle | taille | mécanisme | papier |
|---|
| Lama2 | 7b / 7b 13b / 13b 70b / 70b | Méta | papier |
| Chatglm3-6b | 6B-base / 6b / 6b-32k | Université Tsinghua | papier |
| Qwen | 1,8b / 1,8b-chat 7b / 7b 14b / 14b 72b / 72b | Nuage d'alibaba | papier |
| Baichuan2 | 7b / 7b 13b / 13b | Baichuan intelligent | papier |
| Interne | 7b / 7b 20b / 20b | Laboratoire de Shanghai AI | papier |
? Modèle de domaine
? Médical
Gimed-gpt [papier]
- Snimped-GPT est un modèle médical chinois basé sur Ziya-V2. Sur la base du ziya-v2, la pré-entraînement et le réglage fin supervisé (SFT) et l'apprentissage par renforcement (RLHF) de la rétroaction humaine ont été réalisés de manière complète.
Alpacare [papier]
- Le projet ouvert a acheté l'alpacare de maquette médicale, qui a été affinée sur Llama.
Taiyi (Taiyi) [papier]
- Le projet open source de la maquette biomédicale bilingue chinois-anglais Taiyi (Taiyi), vise à explorer la capacité du traitement du transformation du langage naturel bilingue dans le domaine de la biomédicale.
Mentalllama [papier]
- Le projet de la maquette mentale open source, qui peut être utilisé pour une analyse de santé mentale interprétable sur les réseaux sociaux.
Wingpt2
- WingPT est un modèle vertical médical basé sur le GPT, visant à intégrer des connaissances médicales professionnelles, des informations médicales et des données, fournit des services d'information intelligents tels que les questions et réponses médicales, le soutien du diagnostic et les connaissances médicales pour améliorer l'efficacité du diagnostic et du traitement et la qualité des services médicaux.
ChatPsychiatre [papier]
- Le projet Open Source ChatPsychiatrist, un modèle psychologique basé sur le réglage fin de LLAMA-7B, peut rapidement identifier les problèmes psychologiques et fournir des recommandations de traitement sur mesure.
Zhongjing-Llama (Zhongjing) [papier]
- Le projet ouvert a provoqué le premier modèle de grande médecine chinoise qui comprend la pré-formation, le réglage fin supervisé et le processus de formation complet du RLHF, montrant une bonne capacité de généralisation et même l'approche du niveau professionnel des médecins professionnels dans certains scénarios de dialogue. De plus, un ensemble de données de conversation multi-ronde contenant 70 000 entièrement provenant de véritables conversations-patients a également été ouverte. Cet ensemble de données contient un grand nombre de phrases de questionnement proactives des médecins, ce qui contribue à améliorer les capacités de recherche médicale proactive du modèle.
DoctorGlm [papier]
- Sur la base du modèle de consultation chinois de chatGLM-6B, le réglage fin et le déploiement des ensembles de données de dialogue médical chinois sont obtenus par le réglage fin et le déploiement de Lora, P-Tuningv2, etc.
BENTSAO (HERBEAU MATÉRIEL) [Papier]
- Le projet ouvre la source d'un ensemble de modèles de langues en grande langue qui a été finement réglé par des instructions médicales chinoises, notamment le lama, l'alpaca-chinois, la floraison, le modèle de type mobile, etc. Sur la base du graphique de connaissances médicales et de la littérature médicale, et nous avons combiné avec l'API Chatgpt pour améliorer les instructions médicales chinoises de l'ensemble de données sur les questions et les questions de base de la mise en place des instructions.
Chat-chat
- Le modèle Open Source ChatGLM-6B a été affiné par les instructions médicales chinoises, et les données de réglage fin sont les mêmes que BENTSAO.
Bianque (Bianque) [papier]
- Le projet ouvre la source d'un grand modèle de santé de l'espace de vie. Combined with the current open source Chinese medical Q&A data sets (MedDialog-CN, IMCS-V2, CHIP-MDCFNPC, MedDG, cMedQA2, Chinese-medical-dialogue-data), the single-round/multi-round characteristics and doctor inquiry characteristics were analyzed, and combined with the self-built living space health dialogue big data, BianQue Health Big Data BianQueCorpus of tens of Des millions de niveaux ont été construits. Sur la base de Bianque Health Big Data Bianquecorpus, le chatGLM-6B a été sélectionné comme modèle d'initialisation, et Bianque a été obtenu par une formation de réglage fin de l'instruction de paramètres complets.
Huatuogpt (Hua Tuo) [papier]
- Le projet ouvert a acheté le grand modèle médical Huatuogpt, notamment Huatuogpt-7b formé sur la base de Baichuan-7b et Huatuogpt-13b formés sur la base de Ziya-Llama-13b-prétraigne-V1.
Qizhengpt
- Ce projet utilise l'ensemble de données d'instructions médicales chinois construit par Qizhen Medical Knowledge Base, et sur la base de cela, les instructions sont affinées sur les modèles chinois-llama-plus-7b, CAMA-13B et chatGLM-6B, améliorant considérablement l'effet du modèle dans les scénarios médicaux chinois.
ChatMed
- Le projet a ouvert le Big Model chinois Chatmed-consulte, qui utilise la consultation de 50W + en ligne + la réponse de la réponse de la consultation en ligne médicale chinoise Chatmed_consult_dataset comme ensemble de formation, et est obtenu à l'aide de Lora Fine-tuning basé sur LLAMA-7B.
Shennong-TCM-llm (Shennong)
- Le projet Open Source Chinois traditionnel chinois Médecine Big Model Shennong-TCM-llm. Basé sur le graphique de connaissances traditionnelles de la médecine chinoise traditionnelle, il adopte la méthode d'auto-instruction centrée sur l'entité et appelle Chatgpt pour obtenir le jeu de données d'instructions traditionnel de la médecine chinoise traditionnelle Chatmed_TCM_DATASET. Sur la base de l'ensemble de données, il est basé sur LLAMA et le réglage fin à l'aide de LORA.
Xrayglm
- Le projet ouvre des ensembles et des modèles de données médicales multimodales chinoises, qui montrent un potentiel extraordinaire dans le diagnostic d'imagerie médicale et plusieurs cycles de dialogue interactif.
Médical
- Le modèle médical Open Source MedicalGPT, qui comprend une pré-formation incrémentale, un réglage fin supervisé, RLHF (modélisation des récompenses, formation d'apprentissage par renforcement) et DPO (optimisation directe des préférences).
Sunsimiao (Sun Simiao)
- Le projet Open Source Chine Medical Model Sunsimiao, qui est affiné sur la base des modèles de base Baichuan-7B et ChatGLM-6B dans des données médicales chinoises de haute qualité de 100 000.
Soigner
- Le modèle médical Open Source Caregpt (CareGpt), qui rassemble également des dizaines d'ensembles de données d'adaptation médicale accessibles au public et les modèles de langage médical ouvertement disponibles, y compris la formation LLM, l'évaluation, le déploiement, etc. pour promouvoir le développement rapide de la LLM médicale.
Disque-medllm [papier]
- Ce projet est un grand modèle et un ensemble de données sur le terrain médical conçu pour les scénarios de dialogue médical et de santé publiés par l'Université Fudan. Le modèle est obtenu par un réglage fin de l'ensemble de données disque-med-sft basé sur l'instruction Baichuan-13B-base, alignant efficacement les préférences humaines dans les scénarios médicaux et le combler l'écart entre la sortie du modèle de langue commune et le dialogue médical réel.
PMC-LALAMA [papier]
- Le projet Open Source Medical Mockup PMC-LALAMA, y compris une version pré-formée de Medllama_13b et une version affinée de PMC_LLAMA_13B.
Chatdoctor [papier]
- Le modèle médical Open Source, Chatdoctor, qui est formé sur Llama.
Ming (Ming Medical)
- Le projet Open Source Medical Big Model Ming, qui est basé sur le réglage fin de l'instruction Bloomz-7B pour obtenir le Ming-7B, et soutient les questions et réponses médicales, la consultation intelligente et d'autres fonctions.
Ivygpt
- Le projet Open Source Medical Mockup Ivygpt, qui est supervisé au réglage fin sur les données de questions-réponses médicales de haute qualité et formée à l'aide de l'apprentissage du renforcement de la rétroaction humaine.
IMPULSION
- Le modèle de modèle médical chinois open source, qui utilise environ 4 000 000 de données de réglage des directives de la médecine chinoise et des domaines généraux pour soutenir une variété de tâches de traitement du langage naturel dans le domaine médical, notamment l'éducation à la santé, les questions d'examen des médecins, l'interprétation des rapports, les dossiers médicaux structurés et le diagnostic et le traitement simulés.
Huangdi (empereur)
- Le projet ouvre la source du grand modèle de médecine chinoise Huangdi (empereur). Le modèle ajoute d'abord des manuels de médecine chinoise, des données sur le site Web de la médecine chinoise et d'autres corpus sur la base du modèle de base Ziya-Llama-13B-V1 pour former un modèle pré-formation avec la compréhension des connaissances en médecine chinoise. Ensuite, sur cette base, il est supervisé et affiné à travers une grande quantité de données de dialogue d'instructions de livres anciens de médecine chinoise et de données d'instruction générale, afin que le modèle ait la capacité de répondre aux connaissances de la médecine chinoise ancienne.
Zhongjing (Zhongjing)
- Le projet ouvre le modèle de médecine chinoise Zhongjing (Zhongjing), qui vise à clarifier la connaissance profonde de la médecine traditionnelle chinoise, hériter de la sagesse ancienne et de l'innovation technologique moderne, et finalement fournir des outils de confiance et professionnels pour le domaine médical.
Tcmllm
- Le projet prévoit de réaliser les tâches du diagnostic auxiliaire clinique et du traitement de la médecine traditionnelle chinoise (diagnostic de la maladie, recommandation de prescription, etc.) et d'autres questions et réponses de connaissances traditionnelles de la médecine chinoise par le biais d'un grand modèle, et de favoriser le développement rapide des questions et réponses de connaissances de la médecine chinoise traditionnelle, des zones de diagnostic et de traitement auxiliaires cliniques. À l'heure actuelle, en réponse à la tâche de recommandation de prescription dans le diagnostic intelligent clinique et le traitement de la médecine traditionnelle chinoise, le modèle de recommandation de recommandation de prescription de médecine traditionnelle de la médecine chinoise a été publié. En intégrant les dossiers cliniques du monde réel, les classiques médicaux et les manuels traditionnels de médecine chinoise et d'autres données, un ensemble de données d'instruction de recommandation de prescription contenant 68 000 entrées de données a été construit et un réglage fin a été obtenu sur le modèle Big Big.
Mechat [papier]
- Le projet ouvert a obtenu un modèle de dialogue et un ensemble de données de soutien en santé mentale chinoise. Le modèle est affiné par l'instruction CHATGLM-6B LORA 16 bits. L'ensemble de données utilise ChatGpt pour réécrire le véritable QA psychologique d'aide mutuelle pour soutenir plusieurs cycles de dialogues pour plusieurs cycles de santé mentale. L'ensemble de données contient des dialogues multi-rondes de 56k, et ses thèmes de dialogue, son vocabulaire et sa sémantique de chapitre sont plus riches et plus diversifiés, ce qui est plus conforme aux scénarios d'application des dialogues à long terme à long terme.
Soulchat (cœur spirituel) [papier]
- Le projet a ouvert le modèle de santé mentale Soulchat (cœur spirituel), qui utilise le chatGLM-6B comme modèle d'initialisation et est affiné par les instructions conjointes du texte long en chinois dans le domaine du conseil psychologique à un million d'échelles et plusieurs cycles de données de dialogue d'empathie.
Mindchat (Archive)
- Le projet open source du modèle psychologique Mindchat (Anime Talk), qui utilise environ 200 000 données de dialogue psychologique multi-ronde de haute qualité manuellement pour la formation, la couverture du travail, de la famille, de l'étude, de la vie, du social, de la sécurité et d'autres aspects. Il est censé aider les gens à soulager le stress psychologique et à résoudre la confusion psychologique de quatre dimensions: le conseil psychologique, l'évaluation psychologique, le diagnostic psychologique et le traitement psychologique, et améliorer leur niveau de santé mentale.
Qiaoban (王子)
- Le projet open source du dialogue émotionnel des enfants Big Model Qiaoban. Il est basé sur le modèle général open source, en utilisant le dialogue de composition humain du domaine général, les données d'enseignement unique et les données de dialogue de compagnie émotionnelle des enfants pour affiner les instructions et développer un grand modèle adapté à la compagnie émotionnelle des enfants.
⚖ Légalé
? finance
Tongyi-finance-14b
- Tongyi Finance-14b (Tongyi-Finance-14b) est un modèle de langue large lancé pour l'industrie financière. Il est basé sur le modèle de base de Tongyi Qianwen pour effectuer l'apprentissage incrémentiel du corpus de l'industrie, renforce la capacité d'appliquer les connaissances et les scénarios dans le domaine financier, et couvre les quadrants de capacité tels que les questions et réponses financières, la classification du texte, l'extraction des informations, la création de texte, la compréhension de la lecture, le raisonnement logique, le multimodal et le codage.
Disque-finllm [papier]
- Le disque-finllm est un modèle de langue large dans le domaine financier. Il s'agit d'un système financier intelligent multi-experts composé de quatre modules pour différents scénarios financiers: conseil financier, analyse de texte financier, informatique financière et Q&R de récupération des connaissances financières. Ces modules présentent des avantages évidents dans quatre évaluations, notamment les tâches Financières des PNL, les questions de test humain, l'analyse des données et l'analyse des affaires courantes, prouvant que le disque-finllm peut fournir un fort soutien à un large éventail de domaines financiers.
Investlm [papier]
- Le projet ouvert a obtenu un modèle financier anglais basé sur le réglage fin de LLAMA-65B.
Finglm
- Nous nous engageons à construire un projet de modèle financier ouvert et public et durable, et en utilisant l'open source et l'ouverture pour promouvoir "AI + Financial".
Weaverbird (Weaverbird) [papier]
- L'open source du projet est un grand modèle de dialogue dans le domaine financier basé sur le réglage fin du corpus de champ financier bilingue chinois-anglais, et peut également accéder aux bases de connaissances locales et aux moteurs de recherche en ligne.
BBT-Fincuge-Applications [Paper]
- Le projet ouvert a acheté le Corpus financier chinois BBT-Fincorpus, le grand modèle amélioré des connaissances BBT-FINT5 et le Benchmark Cfleb.
Corne d'abondance (corne de corne d'abondance)
- Le projet construit un ensemble de données d'instructions basé sur les données publiques et rampées sur le terrain financier chinois, et sur cette base, affinez les instructions sur le modèle du système LLAMA, améliorant l'effet de questions-réponses du lama dans le domaine financier.
Xuanyuan (Xuanyuan) [papier]
- Xuanyuan est le premier modèle de dialogue chinois open source avec un modèle de dialogue chinois de niveau d'un milliard en Chine, et c'est également le premier modèle de dialogue chinois open source optimisé pour le domaine financier chinois. Sur la base de Bloom-176b, Xuanyuan a effectué une pré-formation et un réglage fin ciblés pour le domaine général chinois et le domaine financier. Il peut non seulement faire face aux problèmes dans le domaine général, mais également à répondre à diverses questions financières, offrant aux utilisateurs des informations et suggestions financières précises et complètes.
Pixiu (pixiu) [papier]
- Le projet open source de l'instruction financière d'instruction ajusté de l'ensemble de données affinés, du grand modèle Finma et de l'évaluation de référence d'évaluation.
Fingpt [Paper1] [Paper2]
- Le projet a ouvert plusieurs modèles financiers, dont ChatGLM2-6B + LORA et LLAMA2-7B + LORA, et collecté des données de formation chinoise et anglaise, notamment les nouvelles financières, les médias sociaux, les rapports financiers, etc.
Fang [papier]
- Le projet ouvert a acheté le modèle de modèle financier et le conduit de référence d'évaluation.
? éduquer
Taoli (Taoli)
- Le projet ouvre la source d'un grand modèle adapté au domaine international de l'éducation chinoise. Sur la base de plus de 500 manuels internationaux de l'éducation chinoise et des aides pédagogiques, des questions de test de compétence chinois et du dictionnaire chinois de l'apprenant, etc. circulant actuellement dans le domaine international de l'éducation chinoise, une bibliothèque internationale de ressources en éducation chinoise a été construite. Au total, 88 000 ensembles de données internationaux de haute qualité en matière d'éducation chinoise et de réponse ont été construits par diverses formes d'instructions, et les données collectées ont été utilisées pour affiner les instructions pour permettre au modèle d'acquérir la capacité d'appliquer des connaissances internationales sur l'éducation chinoise à des scénarios spécifiques.
Educhat [papier]
- The project opens the source of dialogue models for the vertical field of education, mainly studying technologies related to education dialogue models based on pre-trained models, integrating diverse educational vertical field data, supplemented by methods such as instruction fine-tuning and value alignment, and providing rich functions such as automatic question setting, homework correction, emotional support, course tutoring, and college entrance examination consultation in educational scenarios, serving the vast number of teachers, students and Les parents, et aidant à réaliser une éducation intelligente conforme à l'aptitude, juste, juste et chaleureuse.
➕ Autres
Ensemble de données
? Référence d'évaluation
C-Eval [papier]
- C-Eval est un référence d'évaluation de base de base chinois publié par l'Université de Shanghai Jiaotong. Il contient 13 948 questions à choix multiples, couvrant quatre directions majeures: les sciences humaines, les sciences sociales, les sciences et l'ingénierie, et d'autres majors, 52 matières, du collège aux étudiants diplômés universitaires et des examens professionnels.
Agieval [papier]
- Agieval est une référence d'évaluation publiée par Microsoft pour évaluer les performances de grands modèles dans les tâches cognitives humaines. Il comprend 20 examens officiels, ouverts et très standard et de qualification pour les candidats ordinaires, y compris les examens d'entrée universitaire ordinaire (examens d'entrée du collège chinois et examens des États-Unis SAT), les examens d'entrée en droit, les concours de mathématiques et les examens de qualification du barreau, les examens nationaux de la fonction publique, etc.
XIEZHI (XIEZHI) [Papier]
- Xiezhi est une référence complète, multidisciplinaire et automatiquement mise à jour des connaissances sur le terrain publié par l'Université Fudan, dont 13 disciplines: philosophie, économie, droit, éducation, littérature, histoire, sciences naturelles, ingénierie, agriculture, médecine, militaire, gestion et art, 516 disciplines spécifiques et 249587 questions.
Cmmlu [papier]
- CMMLU est une référence complète d'évaluation chinoise, spécifiquement utilisée pour évaluer les connaissances et la capacité de raisonnement des modèles linguistiques dans le contexte chinois. CMMLU couvre 67 sujets des disciplines de base aux niveaux professionnels avancés. Il comprend: les sciences naturelles qui nécessitent du calcul et du raisonnement, des sciences humaines et des sciences sociales qui nécessitent des connaissances, et des règles de conduite chinoises qui nécessitent du bon sens dans la vie. En outre, de nombreuses tâches de CMMLU ont des réponses spécifiques au chinois et peuvent ne pas être universellement applicables dans d'autres régions ou langues. Therefore, it is a completely Chinese test benchmark.
MMCU [paper]
- MMCU是一个综合性的中文评测基准,包括来自医学、法律、心理学和教育等四大领域的测试。
CG-Eval [paper]
- CG-Eval是一个由甲骨易AI研究院与LanguageX AI Lab联合发布的针对中文大模型生成能力的评测基准。包含了科技与工程、人文与社会科学、数学计算、医师资格考试、司法考试、注册会计师考试等六个大科目类别下的55个子科目的11000道不同类型问题。CG-Eval包含一套复合的打分系统:对于非计算题,每一道名词解释题和简答题都有标准参考答案,采用多个标准打分然后加权求和;对于计算题目,会提取最终计算结果和解题过程,然后综合打分。
CBLUE [paper]
- CBLUE是一个中文医学语言理解评测基准,包含8个中文医疗语言理解任务。
PromptCBLUE [paper]
- PromptCBLUE是一个面向中文医疗场景的评测基准,通过对CBLUE基准进行二次开发,将16种不同的医疗场景NLP任务全部转化为基于提示的语言生成任务。
LAiW [paper]
- LAiW 是一个中文法律大模型评测基准,针对3大能力设计13个基础任务:1)法律NLP 基础能力:评测法律基础任务、 NLP 基础任务和法律信息抽取的能力,包括法条推送、要素识别、命名实体识别、司法要点摘要和案件识别5 个基础任务;2)法律基础应用能力:评测大模型对法律领域知识的基础应用能力,包括争议焦点挖掘、类案匹配、刑事裁判预测、民事裁判预测和法律问答5 个基础任务;3)法律复杂应用能力:评测大模型对法律领域知识的复杂应用能力,包括司法说理生成、案情理解和法律咨询3 个基础任务。
LawBench [paper]
- LawBench 是一个面向中国法律体系的法律评测基准。LawBench 模拟了司法认知的三个维度,并选择了20个任务来评估大模型的能力。与一些仅有多项选择题的现有基准相比,LawBench 包含了更多与现实世界应用密切相关的任务类型,如法律实体识别、阅读理解、犯罪金额计算和咨询等。
LegalBench [paper]
- LegalBench 是一个面向美国法律体系的法律评测基准,包含162个法律推理任务。
LEXTREME [paper]
- LEXTREME是一个多语言的法律评测基准,包含了24种语言11个评测数据集。
LexGLUE [paper]
CFBenchmark [paper]
- CFBenchmark是一个旨在评估大语言模型在中文金融场景下辅助工作的评测基准。CFBenchmark的基础版本包括3917个金融文本涵盖三个方面和八个任务,从金融识别、金融分类、金融生成三个方面进行组织。
FinanceBench [paper]
- FinanceBench是一个用于评估开放式金融问题问答的评测基准,包含10,231 个有关上市公司的问题,以及相应的答案。
FinEval [paper]
- FinEval是一个金融知识评测基准,包含了4,661个高质量的多项选择题,涵盖金融、经济、会计和证书等领域,34个不同的学术科目。
FLARE [paper]
- FLARE是一个金融评测基准,包含了金融知识理解和预测等任务。
CFLEB [paper]
- CFLEB是一个中文金融评测基准,包含两项语言生成任务和四项语言理解任务。
FLUE [paper]
- FLUE是一个金融评测基准,包含5个金融领域数据集。
GeoGLUE [paper]
- GeoGLUE是一个由阿里巴巴达摩院与高德联合发布的地理语义理解能力评测基准,旨在推动地理相关文本处理技术和社区的发展。本榜单提炼了其中多个典型场景:地图搜索、电商物流、政府登记、金融交通,并设计了六个核心任务:门址地址要素解析、地理实体对齐、Query-POI库召回、Query-POI相关性排序、地址Query成分分析、WhereWhat切分。
OWL-Bench [paper]
- OWL-Bench 是一个面向运维领域的双语评测基准。它包含317 个问答题和1000 个多选题,涵盖了该领域的众多现实工业场景,包括信息安全、应用、系统架构、软件架构、中间件、网络、操作系统、基础设施和数据库这九个不同的子领域。以确保OWL-Bench 能够展现出多样性。
DevOps-Eval
- DevOps-Eval是由蚂蚁集团联合北京大学发布的面向DevOps领域的大语言模型评测基准。
? Appendice
点赞历史
? Liens amicaux
- Awesome Code LLM
- 该项目收集了代码大模型相关论文,并整理出一篇综述。
- CodeFuse-ChatBot
- CodeFuse-ChatBot是由蚂蚁CodeFuse团队开发的开源AI智能助手,致力于简化和优化软件开发生命周期中的各个环节。
- Awesome AIGC Tutorials
- 该项目收集了关于AIGC的各种精选教程和资源,既适合初学者也适合进阶AI爱好者。
- Awesome Tool Learning
- 该项目收集了关于工具学习的资源,包括论文、框架和应用。
- Awesome LLM reasoning
- 该项目收集了关于大语言模型推理方面的资源,包括论文、数据集等。