Domínio incrível LLM
Desde que o surgimento do grande modelo de idioma representado pelo ChatGPT, uma nova rodada de pesquisa e aplicação disparou, e muitos modelos gerais, incluindo lhama, chatglm, Baichuan, Qwen, etc. surgiram. Posteriormente, os profissionais de diferentes campos o aplicam ao campo vertical por meio de ajuste fino de pré-treinamento/instrução contínuo com base em um modelo geral.

Este projeto tem como objetivo coletar e classificar modelos de código aberto , conjuntos de dados e referências de avaliação em campos verticais. Todos são convidados a contribuir com modelos de código aberto, conjuntos de dados, parâmetros de avaliação e outros conteúdos que não estão incluídos neste projeto e promovem em conjunto o empoderamento de grandes modelos em todas as esferas da vida!
? renovar
- [2023/11/26] Segurança de rede aprimorada Big Model SECGPT, Medical Big Model Chimed-GPT, Modelo Financeiro Tongyi-Finance-14b, Referência de Avaliação Financeira FinanceBench e CFbenchmark.
- [2023/11/01] Adicione o campo DevOps Big Model DevOps-Model e avaliação de DevOps-Eval liberados pela ANT Group e pela Universidade Pequim.
- [2023/10/28] adicionaram modelo financeiro disco-finllm, modelo médico alpacare e marine marine marinegpt.
- [2023/10/19] adicionaram modelo psicológico mentallama, modelo biomédico bilíngue Taiyi (Taiyi) e o Ocean Model OceanGpt.
- [2023/10/10] Adicionou o Big Model OWL e a avaliação de referência da coruja para o campo de operação e manutenção desenvolvido em conjunto pelo Instituto de Pesquisa Inteligente Yunzhi e Beihang. Adicionado o Laiw de referência para avaliação do modelo legal chinês.
- [2023/10/05] adicionou modelo psicológico chatpsychiatrist, modelo financeiro Investlm, modelo agrícola e modelo médico Wingpt2.
- [2023/10/03] Dois parâmetros de avaliação legal são adicionados, a saber, a Lawbench para o sistema jurídico chinês e a bancada legal para o sistema jurídico dos EUA.
- [2023/10/01] Adicionou-se a Lawllm, um grande modelo do campo legal aberto pela Fudan University pretende fornecer aos usuários serviços legais profissionais, inteligentes e abrangentes. Adicione o Finglm para construir um projeto de modelo financeiro aberto, de bem -estar público e duradouro e use o código aberto para promover "AI+Finance".
- [2023/9/25] Atualize QWEN, Adicione os modelos QWEN-14B e QWEN-14B-CAT e atualize os modelos QWEN-7B e QWEN-7B-CAT. Comparado com o QWEN-7B original, a nova versão usa mais dados de treinamento (token 2.4T) e o comprimento da sequência foi expandido de 2048 para 8192. A habilidade geral chinesa e a capacidade de código foram muito aprimoradas.
- [2023/9/22] Adicionar Internlm (Scholar Puyu), Laboratório de Xangai AI e tecnologia Sensetime em conjunto com a Universidade Chinesa de Hong Kong e o modelo de dock multilíngue da Universidade de Hong Kong e Fudan.
- [2023/9/15] acrescentou Zhongjing-Llama (Zhongjing), um modelo de medicina chinesa com processo de treinamento completo de pré-treinamento, ajuste fino e RLHF.
- [2023/9/14] Adicione o Weaverbird para acessar o modelo de diálogo em campo financeiro com conhecimento local e recursos de pesquisa on -line.
- [2023/9/13] Adicionar mestre Mingzha, um modelo judicial desenvolvido em conjunto pela Universidade de Shandong, Inspur Cloud e China University of Political Science and Law.
Índice
- ? Modelo
- Modelo Geral
- ? Modelo de domínio
- ? Médico
- ⚖ Legal
- ? financiar
- ? educar
- ➕ Outros
- Conjunto de dados
- ? Benchmark de avaliação
- ? Apêndice
- Como a história
- ? Links amigáveis
? Modelo
Modelo Geral
Os modelos de domínio são geralmente obtidos por pré-treinamento contínuo ou ajuste fino de instruções com base em modelos gerais. Aqui organizamos os modelos gerais de código aberto comumente usados.
| Modelo | tamanho | mecanismo | papel |
|---|
| Llama2 | 7b/7b-bate-papo 13b/13b-bate-papo 70B/70B-Chat | Meta | papel |
| Chatglm3-6b | 6B-BASE/6B/6B-32K | Universidade de Tsinghua | papel |
| Qwen | 1,8b/1,8b-chat 7b/7b-bate-papo 14b/14b-bate-papo 72b/72b-chat | Cloud Alibaba | papel |
| Baichuan2 | 7b/7b-bate-papo 13b/13b-bate-papo | Baichuan inteligente | papel |
| Internlm | 7b/7b-bate-papo 20b/20b-bats | Laboratório de Xangai AI | papel |
? Modelo de domínio
? Médico
Chimed-GPT [papel]
- O Chimed-GPT é um modelo médico chinês baseado em Ziya-V2. Com base no Ziya-V2, pré-treinamento, ajuste fino supervisionado (SFT) e aprendizado de reforço (RLHF) do feedback humano, foram realizados de maneira abrangente.
Alpacare [papel]
- O Projeto abriu o Medical Mockup Alpacare, que foi ajustado em lhama.
Taiyi (Taiyi) [Artigo]
- O código aberto do projeto do maquete biomédico bilíngue chinês-inglês Taiyi (Taiyi), visa explorar a capacidade de processamento de linguagem natural bilíngue multitarefa no campo biomédico.
Mentalllama [artigo]
- O projector de maquete mental de código aberto mentallama, que pode ser usado para análises interpretáveis de saúde mental nas mídias sociais.
Wingpt2
- O Wingpt é um modelo vertical médico baseado em GPT, com o objetivo de integrar conhecimentos médicos profissionais, informações e dados médicos, fornecem serviços de informação inteligente, como perguntas e respostas médicas, suporte de diagnóstico e conhecimento médico para melhorar o diagnóstico e a eficiência do tratamento e a qualidade do serviço médico.
ChatPsychiatrist [Paper]
- O projeto de código aberto ChatPsychiatrist, um modelo psicológico baseado no ajuste fino da LLAMA-7B, pode identificar rapidamente problemas psicológicos e fornecer recomendações de tratamento sob medida.
Zhongjing-llama (Zhongjing) [Paper]
- O projeto abre o primeiro modelo de grande medicina chinesa que inclui o pré-treinamento, o ajuste fino supervisionado e o processo de treinamento completo da RLHF, mostrando boa capacidade de generalização e até mesmo abordando o nível profissional de médicos profissionais em alguns cenários de diálogo. Além disso, um conjunto de dados de conversas com várias rodadas contendo 70.000 inteiramente de conversas reais de médicos pacientes também foi de origem aberta. Esse conjunto de dados contém um grande número de frases de questionamento proativas dos médicos, o que ajuda a melhorar os recursos proativos de consulta médica do modelo.
Doctorglm [papel]
- Com base no modelo de consulta chinês do ChatGLM-6B, o ajuste fino e a implantação dos conjuntos de dados de diálogo médico chinês são alcançados através de ajustes finos e implantação de Lora, P-Tuningv2, etc.
Bentsao (Material Herbal) [Paper]
- The project opens the source of a large language model set that has been finely tuned by Chinese medical instructions, including LLaMA, Alpaca-Chinese, Bloom, movable type model, etc. Based on the medical knowledge graph and medical literature, we combined with the ChatGPT API to construct a Chinese medical instruction fine-tuning data set, and used this to fine-tune the instructions of various basic models, improving the question-and-answer effect of the basic model in the medical field.
Med-Chatglm
- O modelo ChatGlm-6b de código aberto do projeto é ajustado por instruções médicas chinesas, e os dados de ajuste fino são os mesmos que Bentsao.
Bianque (Bianque) [papel]
- O projeto abre a fonte de um grande modelo de saúde do espaço. Combined with the current open source Chinese medical Q&A data sets (MedDialog-CN, IMCS-V2, CHIP-MDCFNPC, MedDG, cMedQA2, Chinese-medical-dialogue-data), the single-round/multi-round characteristics and doctor inquiry characteristics were analyzed, and combined with the self-built living space health dialogue big data, BianQue Health Big Data BianQueCorpus of tens of Milhões de níveis foram construídos. Com base no BIANQE Health Big Data Bianquecorpus, o ChatGLM-6B foi selecionado como modelo de inicialização e Bianque foi obtido através do treinamento de ajuste fino de instrução de parâmetros completos.
Huatuogpt (hua tuo) [papel]
- O projeto abriu o grande modelo médico Huatuogpt, incluindo o treinamento Huatuogpt-7b com base no treinamento de Baichuan-7b e Huatuogpt-13B com base no treinamento Ziya-lama-13b-pré-reta-vetrain-v1.
Qizhengpt
- Este projeto usa o conjunto de dados de instruções médicas chinês construído pela Base de Conhecimento Médico Qizhen e, com base nisso, as instruções são ajustadas nos modelos chineses-lama-plus-7B, CAMA-13B e Chatglm-6b, melhorando bastante o efeito do modelo nos cenários médicos chineses.
Chatmed
- O projeto abriu o modelo médico chinês Big Model Chatmed-Consult, que usa a consulta on-line 50W + Online + Chatgpt Responder do conjunto de dados de consulta on-line chinesa Chatmed_Consult_DataSet como conjunto de treinamento e é obtido usando o ajuste fino LORA com base no LLAMA-7B.
Shennong-tcm-llm (Shennong)
- O projeto aberto de medicina tradicional chinesa de código aberto chinesa grande modelo Shennong-tcm-llm. Com base no gráfico de conhecimento da medicina tradicional de código aberto, ele adota o método de auto-instrução centrado na entidade e chama o ChatGPT para obter o conjunto de dados de instrução de medicina tradicional de 2.6W+ tradicional para a medicina chinesa Chatmed_TCM_Dataset. Com base no conjunto de dados, ele é baseado em lhama e ajuste fino usando o LORA.
Xrayglm
- O Projeto abete os conjuntos e modelos de dados médicos multimodais de origem médica, que mostram um potencial extraordinário no diagnóstico de imagens médicas e várias rodadas de diálogo interativo.
MedicalGpt
- O Modelo Médico de código aberto do projeto, que inclui pré-treinamento incremental, ajuste fino supervisionado, RLHF (modelagem de recompensa, treinamento de aprendizado de reforço) e DPO (otimização direta de preferência).
Sunsimiao (Sun Simiao)
- O modelo de modelo médico chinês de código aberto Sunsimiao, que é ajustado com base nos modelos básicos Baichuan-7b e ChatGLM-6B em dados médicos chineses de alta qualidade de 100.000.
Caregpt
- O Modelo Médico de código aberto do projeto CareGPT (CARGPT), que também reúne dezenas de conjuntos de dados de ajuste fino médicos disponíveis e disponíveis abertamente grandes modelos de idiomas médicos, incluindo treinamento, avaliação, implantação, etc. para promover o rápido desenvolvimento do Medical LLM.
Disc-Medllm [Paper]
- Este projeto é um grande modelo de campo e um conjunto de dados projetado para cenários de diálogo médico e de saúde divulgados pela Fudan University. O modelo é obtido por ajuste fino do conjunto de dados de Medd-SFF com base na instrução Baichuan-13b-Base, alinhando efetivamente as preferências humanas em cenários médicos e a ponte entre a saída do modelo de linguagem comum e o diálogo médico do mundo real.
PMC-Llama [artigo]
- O Projeto Open Source Medical Mockup PMC-LLAMA, incluindo uma versão pré-treinada do Medllama_13b e uma versão ajustada do PMC_LLAMA_13B.
ChatDoctor [Paper]
- O modelo de código aberto de código aberto Chatdoctor, que é treinado em lhama.
Ming (Ming Medical)
- O projeto Open Medical Big Model Ming, que é baseado no ajuste fino da instrução Bloomz-7b para obter o Ming-7b, e suporta perguntas e respostas médicas, consulta inteligente e outras funções.
Ivygpt
- O Projeto Open Source Medical Mockup Ivygpt, que é supervisionado o ajuste fino em perguntas e perguntas e respostas médicas de alta qualidade e treinado usando o aprendizado de reforço com o feedback humano.
PULSO
- O modelo de modelo médico chinês de código aberto, que usa cerca de 4.000.000 de dados de ajuste fino da medicina chinesa e campos gerais para apoiar uma variedade de tarefas de processamento de linguagem natural no campo médico, incluindo educação em saúde, questões de exames do médico, interpretação de relatórios, registros médicos estruturados e diagnóstico e tratamento simulados.
Huangdi (imperador)
- O projeto abre a fonte do grande modelo da medicina chinesa Huangdi (imperador). O modelo adiciona primeiro livros de medicina chinesa, dados do site da Medicina Chinesa e outros corpus com base no modelo base Ziya-llama-13b-V1 para treinar um modelo de pré-treinamento com entendimento do conhecimento da medicina chinesa. Então, com base nisso, é supervisionado e ajustado por uma grande quantidade de dados de diálogo de instrução antiga da medicina chinesa e dados de instruções gerais, para que o modelo tenha a capacidade de responder ao conhecimento do livro antigo da medicina chinesa.
Zhongjing (Zhongjing)
- O projeto abre o modelo de medicina chinesa Zhongjing (Zhongjing), que visa esclarecer o profundo conhecimento da medicina tradicional chinesa, herdar a sabedoria antiga e a inovação tecnológica moderna e, finalmente, fornecer ferramentas confiáveis e profissionais para o campo médico.
Tcmllm
- O projeto planeja realizar as tarefas de diagnóstico auxiliar clínico e tratamento da medicina tradicional chinesa (diagnóstico de doenças, recomendação de prescrição, etc.) e outras perguntas e respostas tradicionais sobre o conhecimento da medicina chinesa por meio de um grande modelo, e promover o rápido desenvolvimento de questões e respostas tradicionais de conhecimento em medicina chinesa, áreas de diagnóstico e tratamento auxiliares clínicos. Atualmente, em resposta à tarefa de recomendação de prescrição no diagnóstico inteligente clínico e tratamento da medicina tradicional chinesa, foi lançado o TCMLLM-PR do modelo de recomendação de prescrição de medicina chinesa tradicional. Ao integrar registros clínicos do mundo real, clássicos médicos e livros tradicionais de medicina chinesa e outros dados, foi construída uma instrução de recomendação de prescrição, foi construída e foi obtida o ajuste fino no modelo de bate-papo.
Mechat [papel]
- O projeto abre um modelo de diálogo e conjunto de dados de apoio à saúde mental chinesa. O modelo é ajustado pela instrução ChatGlm-6b Lora de 16 bits. O conjunto de dados usa o ChatGPT para reescrever o controle de qualidade de ajuda mútua psicológica real para apoiar várias rodadas de diálogos para várias rodadas de saúde mental. O conjunto de dados contém 56 mil diálogos de várias rodadas, e seus temas de diálogo, vocabulário e semântica do capítulo são mais ricos e diversificados, o que está mais alinhado com os cenários de aplicação de diálogos de várias rodadas.
Soulchat (coração espiritual) [artigo]
- O projeto abre o modelo de saúde mental Soulchat (Spiritual Heart), que usa o ChatGLM-6b como modelo de inicialização e é ajustado pelas instruções conjuntas do texto longo em chinês no campo do aconselhamento psicológico em um milhão de escalas e várias rodadas de dados de diálogo de empatia.
MindChat (arquivo)
- O projeto aberto do projeto do modelo psicológico MindChat (Anime Talk), que usa cerca de 200.000 dados de diálogo psicológico de alta qualidade manualmente para treinamento, abrangendo trabalho, família, estudo, vida, social, segurança e outros aspectos. Espera -se ajudar as pessoas a aliviar o estresse psicológico e resolver a confusão psicológica de quatro dimensões: aconselhamento psicológico, avaliação psicológica, diagnóstico psicológico e tratamento psicológico e melhorar seu nível de saúde mental.
Qiaoban (王子)
- O projeto aberto do projeto do diálogo emocional das crianças Big Model Qiaoban. É baseado no modelo geral de código aberto, usando diálogo humano-computador de domínio geral, dados de instruções de rodas únicas e dados de diálogo emocional das crianças para ajustar instruções ajustadas e desenvolver um grande modelo adequado para a companhia emocional das crianças.
⚖ Legal
? financiar
Tongyi-Finance-14b
- Tongyi Finance-14b (Tongyi-Finance-14b) é um grande modelo de idioma lançado para o setor financeiro. É baseado no modelo básico de Tongyi Qianwen para conduzir o aprendizado incremental do corpus da indústria, fortalece a capacidade de aplicar conhecimento e cenários no campo financeiro e abrange os quadrantes de habilidade, como perguntas e respostas de conhecimento financeiro, classificação de texto, extração de informações, criação de texto, compreensão de leitura, raciocínio lógico, multimodal e codificação.
Disco-finllm [papel]
- O DISC-FINLLM é um grande modelo de linguagem no campo financeiro. É um sistema financeiro inteligente multi-Expert, composto por quatro módulos para diferentes cenários financeiros: consultoria financeira, análise de texto financeiro, computação financeira e perguntas e respostas de recuperação de conhecimento financeiro. Esses módulos mostram vantagens óbvias em quatro avaliações, incluindo tarefas financeiras de PNL, questões de teste humano, análise de dados e análise de assuntos atuais, provando que o DISC-Finllm pode fornecer um forte suporte para uma ampla gama de campos financeiros.
Investlm [artigo]
- O projeto abriu um modelo financeiro inglês baseado no ajuste fino da LLAMA-65B.
Finglm
- Estamos comprometidos em construir um projeto de modelo financeiro aberto, de bem -estar público e duradouro e usar o código aberto e a abertura para promover "AI+Financial".
Weaverbird (Weaverbird) [papel]
- O código aberto do projeto é um grande modelo de diálogo no campo financeiro com base no ajuste fino do corpus financeiro bilíngue chinês-inglês e também pode acessar as bases de conhecimento local e os mecanismos de pesquisa on-line.
BBT-Fincuge-Applications [Paper]
- O projeto abriu o campo financeiro chinês Corpus BBT-Fincorpus, o Big Model BBT5 com o conhecimento do conhecimento e o referência de avaliação CFLEB.
Cornucopia (Corneria da Cornucopia)
- O projeto constrói um conjunto de dados de instruções com base nas perguntas e perguntas e respostas de campo financeiro chinês público e rastreadas e, nessa base, ajustam as instruções sobre o modelo do sistema de llama, melhorando o efeito de llama do LLAMA no campo financeiro.
Xuanyuan (Xuanyuan) [Papel]
- Xuanyuan é o primeiro modelo de diálogo chinês de código aberto com um modelo de diálogo chinês de bilhão de níveis na China, e também é o primeiro modelo de diálogo chinês de código aberto otimizado para o campo financeiro chinês. Com base no Bloom-176b, Xuanyuan realizou o pré-treinamento e o ajuste fino para o campo geral chinês e o campo financeiro. Ele não pode apenas lidar com problemas no campo geral, mas também responder a várias perguntas relacionadas financeiras, fornecendo aos usuários informações e sugestões financeiras precisas e abrangentes.
Pixiu (Pixiu) [papel]
- O projeto aberto do projeto da instrução Financial Instruções de ajuste fino de ajuste, modelo Finma e referência de avaliação.
Fingpt [Paper1] [Paper2]
- O projeto abriu vários modelos financeiros, incluindo Chatglm2-6b+Lora e LLAMA2-7B+LORA, e coletou dados de treinamento em chinês e inglês, incluindo notícias financeiras, mídia social, relatórios financeiros etc.
Flang [papel]
- O projeto abre o modelo financeiro Flang e a avaliação de referência.
? educar
TAOLI (TAOLI)
- O projeto abre a fonte de um grande modelo adequado para o campo da educação chinesa internacional. Com base em mais de 500 livros internacionais de educação chinesa e auxiliares de ensino, perguntas de teste de proficiência chinesa e dicionário de aprendiz chinês, etc. Atualmente circulando no campo internacional de educação chinesa, uma biblioteca internacional de recursos educacionais chinesa foi construída. Um total de 88.000 conjuntos de dados de educação e resposta internacionais de alta qualidade foram construídos através de várias formas de instruções, e os dados coletados foram usados para ajustar as instruções para permitir que o modelo adquirisse a capacidade de aplicar o conhecimento da educação chinesa internacional a cenários específicos.
Educhat [papel]
- The project opens the source of dialogue models for the vertical field of education, mainly studying technologies related to education dialogue models based on pre-trained models, integrating diverse educational vertical field data, supplemented by methods such as instruction fine-tuning and value alignment, and providing rich functions such as automatic question setting, homework correction, emotional support, course tutoring, and college entrance examination consultation in educational scenarios, serving the vast number of Professores, alunos e pais e ajudando a alcançar a educação inteligente que está de acordo com a aptidão, justa, justa e quente.
➕ Outros
Conjunto de dados
? Benchmark de avaliação
C-EVAL [papel]
- O C-EVAL é um benchmark de avaliação de modelo básico chinês divulgado pela Universidade de Xangai Jiaotong. Ele contém 13.948 perguntas de múltipla escolha, cobrindo quatro direções principais: Humanidades, Ciências Sociais, Ciência e Engenharia e outros cursos, 52 disciplinas, do ensino médio a estudantes de pós-graduação universitários e exames profissionais.
AGIEVAL [artigo]
- A Agieval é um benchmark de avaliação divulgado pela Microsoft para avaliar o desempenho de grandes modelos em tarefas cognitivas humanas. Inclui 20 exames oficiais, abertos, de admissão de alto padrão e qualificação para candidatos comuns, incluindo exames de entrada da universidade comuns (exames de admissão de faculdades chinesas e exames nos EUA), exames de entrada da faculdade de direito, competições de matemática e exames de qualificação, exames nacionais do serviço público, etc.
Xiezhi (Xiezhi) [Papel]
- A Xiezhi é uma referência abrangente, multidisciplinar e de avaliação de conhecimento de campo atualizada automaticamente divulgada pela Universidade Fudan, incluindo 13 disciplinas: filosofia, economia, direito, educação, literatura, história, ciências naturais, engenharia, agricultura.
Cmmlu [papel]
- O CMMLU é uma referência abrangente de avaliação chinesa, usada especificamente para avaliar o conhecimento e a capacidade de raciocínio dos modelos de linguagem no contexto chinês. A CMMLU abrange 67 tópicos de disciplinas básicas a níveis profissionais avançados. Inclui: ciências naturais que requerem cálculo e raciocínio, humanidades e ciências sociais que requerem conhecimento e regras de direção chinesa que exigem senso comum na vida. Furthermore, many tasks in CMMLU have Chinese-specific answers and may not be universally applicable in other regions or languages. Therefore, it is a completely Chinese test benchmark.
MMCU [paper]
- MMCU是一个综合性的中文评测基准,包括来自医学、法律、心理学和教育等四大领域的测试。
CG-Eval [paper]
- CG-Eval是一个由甲骨易AI研究院与LanguageX AI Lab联合发布的针对中文大模型生成能力的评测基准。包含了科技与工程、人文与社会科学、数学计算、医师资格考试、司法考试、注册会计师考试等六个大科目类别下的55个子科目的11000道不同类型问题。CG-Eval包含一套复合的打分系统:对于非计算题,每一道名词解释题和简答题都有标准参考答案,采用多个标准打分然后加权求和;对于计算题目,会提取最终计算结果和解题过程,然后综合打分。
CBLUE [paper]
- CBLUE是一个中文医学语言理解评测基准,包含8个中文医疗语言理解任务。
PromptCBLUE [paper]
- PromptCBLUE是一个面向中文医疗场景的评测基准,通过对CBLUE基准进行二次开发,将16种不同的医疗场景NLP任务全部转化为基于提示的语言生成任务。
LAiW [paper]
- LAiW 是一个中文法律大模型评测基准,针对3大能力设计13个基础任务:1)法律NLP 基础能力:评测法律基础任务、 NLP 基础任务和法律信息抽取的能力,包括法条推送、要素识别、命名实体识别、司法要点摘要和案件识别5 个基础任务;2)法律基础应用能力:评测大模型对法律领域知识的基础应用能力,包括争议焦点挖掘、类案匹配、刑事裁判预测、民事裁判预测和法律问答5 个基础任务;3)法律复杂应用能力:评测大模型对法律领域知识的复杂应用能力,包括司法说理生成、案情理解和法律咨询3 个基础任务。
LawBench [paper]
- LawBench 是一个面向中国法律体系的法律评测基准。LawBench 模拟了司法认知的三个维度,并选择了20个任务来评估大模型的能力。与一些仅有多项选择题的现有基准相比,LawBench 包含了更多与现实世界应用密切相关的任务类型,如法律实体识别、阅读理解、犯罪金额计算和咨询等。
LegalBench [paper]
- LegalBench 是一个面向美国法律体系的法律评测基准,包含162个法律推理任务。
LEXTREME [paper]
- LEXTREME是一个多语言的法律评测基准,包含了24种语言11个评测数据集。
LexGLUE [paper]
CFBenchmark [paper]
- CFBenchmark是一个旨在评估大语言模型在中文金融场景下辅助工作的评测基准。CFBenchmark的基础版本包括3917个金融文本涵盖三个方面和八个任务,从金融识别、金融分类、金融生成三个方面进行组织。
FinanceBench [paper]
- FinanceBench是一个用于评估开放式金融问题问答的评测基准,包含10,231 个有关上市公司的问题,以及相应的答案。
FinEval [paper]
- FinEval是一个金融知识评测基准,包含了4,661个高质量的多项选择题,涵盖金融、经济、会计和证书等领域,34个不同的学术科目。
FLARE [paper]
- FLARE是一个金融评测基准,包含了金融知识理解和预测等任务。
CFLEB [paper]
- CFLEB是一个中文金融评测基准,包含两项语言生成任务和四项语言理解任务。
FLUE [paper]
- FLUE是一个金融评测基准,包含5个金融领域数据集。
GeoGLUE [paper]
- GeoGLUE是一个由阿里巴巴达摩院与高德联合发布的地理语义理解能力评测基准,旨在推动地理相关文本处理技术和社区的发展。本榜单提炼了其中多个典型场景:地图搜索、电商物流、政府登记、金融交通,并设计了六个核心任务:门址地址要素解析、地理实体对齐、Query-POI库召回、Query-POI相关性排序、地址Query成分分析、WhereWhat切分。
OWL-Bench [paper]
- OWL-Bench 是一个面向运维领域的双语评测基准。它包含317 个问答题和1000 个多选题,涵盖了该领域的众多现实工业场景,包括信息安全、应用、系统架构、软件架构、中间件、网络、操作系统、基础设施和数据库这九个不同的子领域。以确保OWL-Bench 能够展现出多样性。
DevOps-Eval
- DevOps-Eval是由蚂蚁集团联合北京大学发布的面向DevOps领域的大语言模型评测基准。
? Apêndice
点赞历史
? Friendly links
- Awesome Code LLM
- 该项目收集了代码大模型相关论文,并整理出一篇综述。
- CodeFuse-ChatBot
- CodeFuse-ChatBot是由蚂蚁CodeFuse团队开发的开源AI智能助手,致力于简化和优化软件开发生命周期中的各个环节。
- Awesome AIGC Tutorials
- 该项目收集了关于AIGC的各种精选教程和资源,既适合初学者也适合进阶AI爱好者。
- Awesome Tool Learning
- 该项目收集了关于工具学习的资源,包括论文、框架和应用。
- Awesome LLM reasoning
- 该项目收集了关于大语言模型推理方面的资源,包括论文、数据集等。