Dominio impresionante LLM
Desde la aparición del modelo de lenguaje grande representado por ChatGPT, ha presentado una nueva ronda de investigación y aplicación, y han surgido muchos modelos generales, incluidos LLAMA, ChatGlm, Baichuan, Qwen, etc. Posteriormente, los profesionales de diferentes campos lo aplican al campo vertical a través de la capacitación/instrucción continua/ajuste fino basado en un modelo general.

Este proyecto tiene como objetivo recopilar y ordenar modelos de código abierto , conjuntos de datos y puntos de referencia de evaluación en campos verticales. Todos son bienvenidos a contribuir con modelos de código abierto, conjuntos de datos, puntos de referencia de evaluación y otro contenido que no se incluyen en este proyecto, ¡y promueve conjuntamente el empoderamiento de grandes modelos en todos los ámbitos de la vida!
? renovar
- [2023/11/26] Seguridad de red mejorada Modelo Big SECGPT, Modional Big Model Chimed-GPT, Financial Big Model Tongyi-Finance-14b, Financial Evaluation Benchmark FinanceBench y CFBenchmark.
- [2023/11/01] Agregar DevOps Field Big Model Model-Model y Benchmark de evaluación DevOps-Eval Lanzado por Ant Group y Peking University.
- [2023/10/28] agregó el modelo financiero DISC-FINLLM, el modelo médico Alpacare y el modelo marino Marinegpt.
- [2023/10/19] agregó el modelo psicológico MentallLama, el modelo biomédico bilingüe Taiyi (Taiyi) y Ocean Model OceanGPT.
- [2023/10/10] agregó el BLOD Model Owl y el Banco de Owl de Benche de evaluación para el campo de operación y mantenimiento desarrollado conjuntamente por Yunzhi Intelligent Research Institute y Beihang. Se agregó el LAIW de referencia para la evaluación del modelo legal chino.
- [2023/10/05] agregó el modelo psicológico ChatPsiquiatra, el modelo financiero InvestlM, el modelo agrícola Agrigpt y el modelo médico Wingpt2.
- [2023/10/03] Se agregan dos puntos de referencia de evaluación legal, a saber, LawBench para el sistema legal chino y LegalBench para el sistema legal de los Estados Unidos.
- [2023/10/01] Se agregó DISCLAWLLM, un gran modelo del campo legal abierto de origen por la Universidad de Fudan tiene como objetivo proporcionar a los usuarios servicios legales profesionales, inteligentes e integrales. Agregue FingLM para construir un proyecto de bienestar público abierto y público duradero, y use el código abierto para promover "AI+Finance".
- [2023/9/25] Actualice QWEN, agregue los modelos QWEN-14B y QWEN-14B-CHAT, y actualice los modelos QWEN-7B y QWEN-7B-CHAT. En comparación con el QWEN-7B original, la nueva versión utiliza más datos de entrenamiento (token de 2.4t), y la longitud de la secuencia se ha ampliado de 2048 a 8192. La capacidad y la capacidad de código chino en general se han mejorado mucho.
- [2023/9/22] Agregue Internlm (Scholar Puyu), Shanghai AI Laboratory and Sensretime Technology con el modelo de muelle multilingüe de la Universidad China de la Universidad de Hong Kong y la Universidad Fudan.
- [2023/9/15] agregó Zhongjing-Llama (Zhongjing), un modelo de medicina china con pre-entrenamiento, ajuste fino supervisado y proceso de capacitación completo RLHF.
- [2023/9/14] Agregue WeaverBird para acceder al modelo de diálogo de campo financiero con conocimiento local y capacidades de búsqueda en línea.
- [2023/9/13] Agregue el Maestro Mingzha, un modelo judicial desarrollado conjuntamente por la Universidad de Shandong, Inspur Cloud y la Universidad de Ciencias Políticas y Derecho de China.
Tabla de contenido
- ? Modelo
- Modelo general
- ? Modelo de dominio
- ? Médico
- ⚖ Legal
- ? finanzas
- ? educar
- ➕ Otros
- Conjunto de datos
- ? Punto de referencia de evaluación
- ? Apéndice
- Como la historia
- ? Enlaces amistosos
? Modelo
Modelo general
Los modelos de dominio generalmente se obtienen mediante el pre-entrenamiento continuo o el ajuste fino de las instrucciones basadas en modelos generales. Aquí organizamos los modelos generales de código abierto comúnmente utilizados.
| Modelo | tamaño | mecanismo | papel |
|---|
| Llama2 | 7b/7b chat 13B/13B-chat 70B/70B-chat | Meta | papel |
| Chatglm3-6b | 6b-base/6B/6B-32K | Universidad de Tsinghua | papel |
| Qwen | 1.8b/1.8b chat 7b/7b chat 14b/14b chat 72B/72B-chat | Nube de alibaba | papel |
| Baichuan2 | 7b/7b chat 13B/13B-chat | Baichuan inteligente | papel |
| Prostituta | 7b/7b chat 20B/20B-chat | Laboratorio de Shanghai AI | papel |
? Modelo de dominio
? Médico
Chimed-gpt [papel]
- Chimed-GPT es un modelo médico chino basado en Ziya-V2. Basado en Ziya-V2, el pre-entrenamiento, el ajuste fino (SFT) supervisado y el aprendizaje de refuerzo (RLHF) a partir de la retroalimentación humana se llevaron a cabo de manera integral.
Alpacare [papel]
- El proyecto Open obtuvo la maqueta médica Alpacare, que estaba ajustada en la llama.
Taiyi (Taiyi) [papel]
- El Proyecto de código abierto de la maqueta biomédica bilingüe china-inglés Taiyi (Taiyi), tiene como objetivo explorar la capacidad de la multitarea de procesamiento de lenguaje natural bilingüe en el campo de la biomédica.
MentallLama [papel]
- El Proyecto de Mockup Mockup de código abierto MentallLama, que puede usarse para un análisis de salud mental interpretable en las redes sociales.
Wingpt2
- WINGPT es un modelo vertical médico basado en GPT, con el objetivo de integrar el conocimiento médico profesional, la información y los datos médicos, proporcionar servicios de información inteligente, como preguntas y respuestas médicas, apoyo de diagnóstico y conocimiento médico para mejorar el diagnóstico y la eficiencia del tratamiento y la calidad del servicio médico.
ChatPsychiatrist [papel]
- El Project Open Source ChatPsychiatrist, un modelo psicológico basado en el ajuste fino LLAMA-7B, puede identificar rápidamente problemas psicológicos y proporcionar recomendaciones de tratamiento a medida.
Zhongjing-llama (Zhongjing) [papel]
- El proyecto Open obtuvo el primer modelo de medicina china que incluye pre-entrenamiento, ajuste fino supervisado y un proceso de capacitación completo de RLHF, mostrando una buena capacidad de generalización e incluso acercarse al nivel profesional de médicos profesionales en algunos escenarios de diálogo. Además, un conjunto de datos de conversación de múltiples rondas que contenía 70,000 completamente de conversaciones reales de médico-paciente también fue de origen abierto. Este conjunto de datos contiene una gran cantidad de oraciones de preguntas proactivas de los médicos, lo que ayuda a mejorar las capacidades proactivas de consulta médica del modelo.
Doctorglm [papel]
- Basado en el modelo de consulta china de ChatGLM-6B, el ajuste y el despliegue de conjuntos de datos de diálogo médico chino se logran a través del ajuste y el despliegue de Lora, P-Tuningv2, etc.
Bentsao (herbal material) [papel]
- El proyecto abre la fuente de un conjunto de modelos de idiomas grandes que ha sido finamente ajustado por las instrucciones médicas chinas, incluidas las llamas, alpaca-china, floración, modelo de tipo móvil, etc. Según el gráfico de conocimiento médico y la literatura médica, combinamos con la API de CHATGPT para construir un conjunto de datos de instrucciones médicas chinas, y utilizamos esto para poner fin a las instrucciones de diversos modelos básicos, mejorando el efecto de las cuestiones y las preguntas del campo de las cuestiones y el de los modelos básicos.
Med-Chatglm
- El modelo de código abierto del proyecto CHATGLM-6B ajustado por instrucciones médicas chinas, y los datos de ajuste fino son los mismos que Bentsao.
Bianque (Bianque) [papel]
- El proyecto abre la fuente de un gran modelo de salud del espacio vital. Combinado con los conjuntos de datos médicos de preguntas y respuestas médicas chinas actuales de código abierto (Meddialog-CN, IMCS-V2, ChIP-MDCFNPC, MEDDG, CMEDQA2, Datos de Dialogue-Dialogue-Dialogado chino), las características de la salud de la ronda única/big data de la salud de la ronda y el médico. Se construyeron millones de niveles. Basado en Bianque Biancocorpus de Bianque Health, ChatGLM-6B se seleccionó como modelo de inicialización, y Bianque se obtuvo a través de instrucciones de capacitación de ajuste de parámetros completos.
Huatuogpt (Hua Tuo) [Documento]
- El proyecto Open obtuvo el modelo médico Medical Huatuogpt, incluida la capacitación Huatuogpt-7B basada en el entrenamiento Baichuan-7B y Huatuogpt-13b basado en el entrenamiento Ziya-Llama-13B Pretrain-V1.
Qizhengpt
- Este proyecto utiliza el conjunto de datos de instrucciones médicas chinas construido por la base de conocimiento médico Qizhen, y en base a esto, las instrucciones están ajustadas en los modelos chinos-llama-plus-7b, CAMA-13B y ChatGLM-6B, mejorando en gran medida el efecto del modelo en escenarios médicos chinos.
Chated
- El proyecto Open obtuvo el modelo médico chino ChatMed-Consult, que utiliza la consulta en línea 50W + + Respuesta ChatGPT del conjunto de datos de consulta en línea médica china chatmed_consult_dataset como el conjunto de capacitación, y se obtiene utilizando Lora FINATING basado en LLAMA-7B.
Shennong-tcm-llm (Shennong)
- El Proyecto de código abierto Medicina tradicional china Gran modelo Shennong-TCM-LLM. Basado en el gráfico de conocimiento de medicina tradicional de código abierto, adopta el método de autoinstrucción centrado en la entidad, y llama a ChatGPT para obtener el conjunto de datos de instrucciones de medicina china 2.6W+ Chatmed_tcm_dataset. Basado en el conjunto de datos, se basa en LLAMA y ajuste fino usando Lora.
Xrayglm
- El proyecto Open abiertos conjuntos de datos médicos multimodales chinos y modelos, que muestran un potencial extraordinario en el diagnóstico de imágenes médicas y múltiples rondas de diálogo interactivo.
Médico
- El modelo de código médico de código abierto Project MedicalgpT, que incluye pretruamiento incremental, ajuste fino supervisado, RLHF (modelado de recompensas, capacitación de aprendizaje de refuerzo) y DPO (optimización de preferencias directas).
Sunsimiao (Sun Simiao)
- El Proyecto Modelo médico chino de código abierto Sunsimiao, que está ajustado en función de los modelos base Baichuan-7B y ChatGlm-6B en datos médicos chinos de alta calidad de 100,000.
Cuidadón
- El Modelo médico de código abierto del Proyecto, CAREGPT (CAREGPT), que también reúne docenas de conjuntos de datos médicos de ajuste médico disponibles públicamente y modelos de lenguaje médico médico abiertamente disponible, incluida la capacitación, evaluación, despliegue, despliegue, etc. para promover el desarrollo rápido de la LLM médica.
Disco-medllm [papel]
- Este proyecto es un modelo de campo de medicina y un conjunto de datos diseñado para escenarios de diálogo médico y de salud publicados por la Universidad de Fudan. El modelo se obtiene mediante el ajuste del conjunto de datos DISC-MED-SFT basado en la instrucción Baichuan-13B-Base, alineando efectivamente las preferencias humanas en escenarios médicos y cerrando la brecha entre la salida del modelo de lenguaje común y el diálogo médico del mundo real.
PMC-LLAMA [PAPEL]
- La maqueta médica del Proyecto de código abierto PMC-LLAMA, incluida una versión previamente capacitada de MEDLLAMA_13B y una versión ajustada de PMC_LLAMA_13B.
Chatdoctor [papel]
- El Modelo médico de código abierto Project Chatdoctor, que está capacitado en LLAMA.
Ming (Ming Medical)
- El Proyecto Big Model de Project Open Source Medical Ming, que se basa en el ajuste de la instrucción BOOMZ-7B para obtener MING-7B, y apoya preguntas y respuestas médicas, consulta inteligente y otras funciones.
Ivygpt
- El Project Open Source Mockup Mockup IVYGPT, que se supervisa el ajuste fino en los datos médicos de preguntas y respuestas médicas de alta calidad y se capacita utilizando el aprendizaje de refuerzo de la retroalimentación humana.
LEGUMBRES
- El modelo de código abierto de código abierto del proyecto Pulse, que utiliza aproximadamente 4,000,000 de datos de ajuste fino de la Directiva de la medicina china y los campos generales para apoyar una variedad de tareas de procesamiento del lenguaje natural en el campo médico, incluida la educación en salud, las preguntas sobre el examen del médico, la interpretación de informes, los registros médicos estructurados y el diagnóstico y el tratamiento simulados.
Huangdi (Emperador)
- El proyecto abre la fuente del gran modelo de medicina china Huangdi (Emperor). El modelo primero agrega libros de texto de medicina china, datos del sitio web de medicina china y otro corpus sobre la base del modelo base Ziya-Llama-13B-V1 para capacitar un modelo de pre-entrenamiento con comprensión del conocimiento de la medicina china. Luego, sobre esta base, se supervisa y se ajusta a través de una gran cantidad de datos de diálogo de instrucción de libros antiguos de medicina china y datos de instrucciones generales, de modo que el modelo tiene la capacidad de responder a la medicina china conocimiento antiguo del libro.
Zhongjing (Zhongjing)
- El proyecto abre el modelo de medicina china Zhongjing (Zhongjing), cuyo objetivo es aclarar el profundo conocimiento de la medicina tradicional china, heredar la sabiduría antigua y la innovación tecnológica moderna, y finalmente proporcionar herramientas confiables y profesionales para el campo médico.
Tcmllm
- El proyecto planea realizar las tareas del diagnóstico auxiliar clínico y el tratamiento de la medicina tradicional china (diagnóstico de enfermedades, recomendación de prescripción, etc.) y otras preguntas y respuestas tradicionales de conocimiento de la medicina china a través de un modelo grande, y promueven el rápido desarrollo de las preguntas y respuestas de conocimiento de la medicina china tradicional, el diagnóstico auxiliar clínico y las áreas de tratamiento. En la actualidad, en respuesta a la tarea de recomendación de prescripción en el diagnóstico inteligente clínico y el tratamiento de la medicina tradicional china, se lanzó el modelo de recomendación de prescripción de medicina tradicional de la medicina china. Al integrar los registros clínicos del mundo real, los clásicos médicos y los libros de texto de la medicina tradicional china y otros datos, se construyó un conjunto de datos de ajuste de recomendación de prescripción que contenía 68k entradas de datos, y se obtuvo el ajuste fino en el modelo Big GHGLM.
Mechat [papel]
- El proyecto Open obtuvo un modelo de diálogo y conjunto de datos de soporte de salud mental chino. El modelo está ajustado por la instrucción CHATGLM-6B Lora de 16 bits. El conjunto de datos utiliza ChatGPT para reescribir el verdadero QA de ayuda mutua psicológica para apoyar múltiples rondas de diálogos para múltiples rondas de salud mental. El conjunto de datos contiene 56k diálogos de ronda múltiple, y sus temas de diálogo, el vocabulario y la semántica del capítulo son más ricos y diversos, lo que está más en línea con los escenarios de la aplicación de los diálogos de ronda múltiple a largo plazo.
Soulchat (corazón espiritual) [papel]
- El proyecto Open obtuvo el modelo de salud mental Soulchat (corazón espiritual), que utiliza ChatGLM-6B como el modelo de inicialización y está ajustado por las instrucciones conjuntas de texto largo en chino en el campo del asesoramiento psicológico en una escala y múltiples rondas de datos de diálogo de empatía.
Mindchat (Archivo)
- El código abierto del proyecto del modelo psicológico Mindchat (charla de anime), que utiliza alrededor de 200,000 datos de diálogo psicológico de ronda múltiple de alta calidad manualmente para capacitar, cubrir el trabajo, la familia, el estudio, la vida, la seguridad, la seguridad y otros aspectos. Se espera que ayude a las personas a aliviar el estrés psicológico y a resolver la confusión psicológica de cuatro dimensiones: asesoramiento psicológico, evaluación psicológica, diagnóstico psicológico y tratamiento psicológico, y mejorar su nivel de salud mental.
Qiaoban (王子)
- El Proyecto de código abierto del diálogo emocional de los niños Big Model Qiaoban. Se basa en el modelo general de código abierto, utilizando el diálogo de dominio general de dominio humano, datos de instrucciones de una sola rueda y datos de diálogos complementarios emocionales de los niños para ajustar las instrucciones y desarrollar un modelo grande adecuado para la compañía emocional de los niños.
⚖ Legal
? finanzas
Tongyi-finance-14b
- Tongyi Finance-14b (Tongyi-Finance-14b) es un modelo de lenguaje grande lanzado para la industria financiera. Se basa en el modelo básico de Tongyi Qianwen para llevar a cabo el aprendizaje incremental del corpus de la industria, fortalece la capacidad de aplicar conocimiento y escenarios en el campo financiero y cubre los cuadrantes de capacidad como preguntas y respuestas de conocimiento financiero, clasificación de texto, extracción de información, creación de texto, comprensión de lectura, razonamiento lógico, multimodal y codificación.
Disco-finllm [papel]
- DISC-FINLLM es un modelo de lenguaje grande en el campo financiero. Es un sistema financiero inteligente de varios expertos compuesto por cuatro módulos para diferentes escenarios financieros: consultoría financiera, análisis de texto financiero, computación financiera y preguntas y respuestas de recuperación de conocimiento financiero. Estos módulos muestran ventajas obvias en cuatro evaluaciones, incluidas las tareas financieras de la PNL, las preguntas de las pruebas humanas, el análisis de datos y el análisis de asuntos actuales, lo que demuestra que DISC-FINLLM puede proporcionar un fuerte apoyo para una amplia gama de campos financieros.
Investlm [documento]
- El proyecto Open obtuvo un modelo financiero inglés basado en el ajuste fino LLAMA-65B.
Finglm
- Estamos comprometidos a construir un proyecto de bienestar público abierto y de bienestar público duradero, y usar código abierto y apertura para promover "AI+Financial".
Weaverbird (Weaverbird) [papel]
- El Proyecto Open Source es un gran modelo de diálogo en el campo financiero basado en el ajuste del Corpus de campo financiero bilingüe chino-inglés, y también puede acceder a bases de conocimiento locales y motores de búsqueda en línea.
BBT-Fincuge-Applications [documento]
- El proyecto Open obtuvo el Corpus de Campo Financiero Chino BBT-Fincorpus, el Big Model BBT-FINT5 mejorado por el conocimiento y el Benchmark de evaluación CFLEB.
Cornucopia (esquina de la cornucopia)
- El proyecto construye un conjunto de datos de instrucciones basado en datos públicos y rastreados de preguntas y respuestas de campo financiero chino, y sobre esta base, ajusta las instrucciones en el modelo del sistema de LLAMA, mejorando el efecto de respuesta-respuesta de la llama en el campo financiero.
Xuanyuan (Xuanyuan) [Documento]
- Xuanyuan es el primer modelo de diálogo chino de código abierto con un modelo de diálogo chino de mil millones de niveles en China, y también es el primer modelo de diálogo chino de código abierto optimizado para el campo financiero chino. Basado en Bloom-176b, Xuanyuan ha llevado a cabo un pre-entrenamiento y ajuste finos para el campo general chino y el campo financiero. No solo puede lidiar con problemas en el campo general, sino también responder varias preguntas relacionadas con el financiamiento, proporcionando a los usuarios información y sugerencias financieras precisas e integrales.
Pixiu (Pixiu) [papel]
- El código abierto del proyecto de la instrucción de campo financiero ajuste del conjunto de datos de ajuste fino, gran modelo finma modelo y un destello de referencia de evaluación.
Fingpt [Paper1] [Paper2]
- El proyecto abierto obtuvo varios modelos financieros, incluidos ChatGlm2-6b+Lora y Llama2-7B+Lora, y recopiló datos de capacitación china e inglesa, incluidas noticias financieras, redes sociales, informes financieros, etc.
Brida [papel]
- El proyecto Open obtuvo el rayo del modelo financiero y la bomba de referencia de evaluación.
? educar
Taoli (taoli)
- El proyecto abre la fuente de un modelo grande adecuado para el campo de educación internacional de la educación china. Basado en más de 500 libros de texto de educación china internacional y ayudas de enseñanza, preguntas de pruebas de competencia china y el diccionario chino de alumnos, etc., se ha construido actualmente en el campo de educación internacional de educación china, se ha construido una Biblioteca Internacional de Recursos de Educación China. Se construyeron un total de 88,000 conjuntos de datos internacionales de educación y respuestas de la educación china de alta calidad a través de diversas formas de instrucciones, y los datos recopilados se usaron para ajustar las instrucciones para permitir que el modelo adquiera la capacidad de aplicar el conocimiento internacional de educación china a escenarios específicos.
Educhat [papel]
- El proyecto abre la fuente de los modelos de diálogo para el campo vertical de la educación, principalmente estudiar tecnologías relacionadas con modelos de diálogo educativo basados en modelos previamente capacitados, integrando diversos datos de campo vertical vertical, complementado por métodos como el ajuste de instrucciones y la alineación de valor, y proporcionando funciones ricas en cuestión, como el trabajo automático, el trabajo de la tarea, el apoyo emocional, la tutoría de la universidad y la consulta de la universidad en la consulta en la consulta en la educación en la educación en la escenario de la escenario de la educación. maestros, estudiantes y padres, y ayudando a lograr una educación inteligente que esté de acuerdo con la aptitud, justa, justa y cálida.
➕ Otros
Conjunto de datos
? Punto de referencia de evaluación
C-Eval [papel]
- C-EVAL es un punto de referencia de evaluación de modelo básico chino publicado por la Universidad de Shanghai Jiaotong. Contiene 13,948 preguntas de opción múltiple, que cubre cuatro direcciones principales: humanidades, ciencias sociales, ciencia e ingeniería y otras especialidades, 52 asignaturas, desde la escuela intermedia hasta los estudiantes de posgrado universitario y los exámenes vocacionales.
Agieval [papel]
- Agieval es un punto de referencia de evaluación publicado por Microsoft para evaluar el rendimiento de los grandes modelos en tareas cognitivas humanas. Incluye 20 exámenes de admisión y calificación oficiales, abiertos, altos estándares para candidatos ordinarios, incluidos los exámenes de ingreso a la universidad ordinaria (exámenes de ingreso a la universidad china y exámenes SAT de los EE. UU.), Exámenes de ingreso a la facultad de derecho, competiciones de matemáticas y exámenes de calificación de abogados, exámenes nacionales de servicio civil, etc.
Xiezhi (xiezhi) [papel]
- Xiezhi es un punto de referencia de evaluación de conocimiento de campo integral, multidisciplinario y automáticamente actualizado publicado por la Universidad de Fudan, incluidas 13 disciplinas: filosofía, economía, derecho, educación, literatura, historia, ciencias naturales, ingeniería, agricultura, medicina, militar, manejo y arte, 516 disciplinas específicas y 249,587 preguntas.
Cmmlu [papel]
- CMMLU es un punto de referencia de evaluación chino integral, utilizado específicamente para evaluar el conocimiento y la capacidad de razonamiento de los modelos de idiomas en el contexto chino. CMMLU cubre 67 temas desde disciplinas básicas hasta niveles profesionales avanzados. Incluye: ciencias naturales que requieren cálculo y razonamiento, humanidades y ciencias sociales que requieren conocimiento, y reglas de conducción china que requieren sentido común en la vida. Furthermore, many tasks in CMMLU have Chinese-specific answers and may not be universally applicable in other regions or languages. Therefore, it is a completely Chinese test benchmark.
MMCU [paper]
- MMCU是一个综合性的中文评测基准,包括来自医学、法律、心理学和教育等四大领域的测试。
CG-Eval [paper]
- CG-Eval是一个由甲骨易AI研究院与LanguageX AI Lab联合发布的针对中文大模型生成能力的评测基准。包含了科技与工程、人文与社会科学、数学计算、医师资格考试、司法考试、注册会计师考试等六个大科目类别下的55个子科目的11000道不同类型问题。CG-Eval包含一套复合的打分系统:对于非计算题,每一道名词解释题和简答题都有标准参考答案,采用多个标准打分然后加权求和;对于计算题目,会提取最终计算结果和解题过程,然后综合打分。
CBLUE [paper]
- CBLUE是一个中文医学语言理解评测基准,包含8个中文医疗语言理解任务。
PromptCBLUE [paper]
- PromptCBLUE是一个面向中文医疗场景的评测基准,通过对CBLUE基准进行二次开发,将16种不同的医疗场景NLP任务全部转化为基于提示的语言生成任务。
LAiW [paper]
- LAiW 是一个中文法律大模型评测基准,针对3大能力设计13个基础任务:1)法律NLP 基础能力:评测法律基础任务、 NLP 基础任务和法律信息抽取的能力,包括法条推送、要素识别、命名实体识别、司法要点摘要和案件识别5 个基础任务;2)法律基础应用能力:评测大模型对法律领域知识的基础应用能力,包括争议焦点挖掘、类案匹配、刑事裁判预测、民事裁判预测和法律问答5 个基础任务;3)法律复杂应用能力:评测大模型对法律领域知识的复杂应用能力,包括司法说理生成、案情理解和法律咨询3 个基础任务。
LawBench [paper]
- LawBench 是一个面向中国法律体系的法律评测基准。LawBench 模拟了司法认知的三个维度,并选择了20个任务来评估大模型的能力。与一些仅有多项选择题的现有基准相比,LawBench 包含了更多与现实世界应用密切相关的任务类型,如法律实体识别、阅读理解、犯罪金额计算和咨询等。
LegalBench [paper]
- LegalBench 是一个面向美国法律体系的法律评测基准,包含162个法律推理任务。
LEXTREME [paper]
- LEXTREME是一个多语言的法律评测基准,包含了24种语言11个评测数据集。
LexGLUE [paper]
CFBenchmark [paper]
- CFBenchmark是一个旨在评估大语言模型在中文金融场景下辅助工作的评测基准。CFBenchmark的基础版本包括3917个金融文本涵盖三个方面和八个任务,从金融识别、金融分类、金融生成三个方面进行组织。
FinanceBench [paper]
- FinanceBench是一个用于评估开放式金融问题问答的评测基准,包含10,231 个有关上市公司的问题,以及相应的答案。
FinEval [paper]
- FinEval是一个金融知识评测基准,包含了4,661个高质量的多项选择题,涵盖金融、经济、会计和证书等领域,34个不同的学术科目。
FLARE [paper]
- FLARE是一个金融评测基准,包含了金融知识理解和预测等任务。
CFLEB [paper]
- CFLEB是一个中文金融评测基准,包含两项语言生成任务和四项语言理解任务。
FLUE [paper]
- FLUE是一个金融评测基准,包含5个金融领域数据集。
GeoGLUE [paper]
- GeoGLUE是一个由阿里巴巴达摩院与高德联合发布的地理语义理解能力评测基准,旨在推动地理相关文本处理技术和社区的发展。本榜单提炼了其中多个典型场景:地图搜索、电商物流、政府登记、金融交通,并设计了六个核心任务:门址地址要素解析、地理实体对齐、Query-POI库召回、Query-POI相关性排序、地址Query成分分析、WhereWhat切分。
OWL-Bench [paper]
- OWL-Bench 是一个面向运维领域的双语评测基准。它包含317 个问答题和1000 个多选题,涵盖了该领域的众多现实工业场景,包括信息安全、应用、系统架构、软件架构、中间件、网络、操作系统、基础设施和数据库这九个不同的子领域。以确保OWL-Bench 能够展现出多样性。
DevOps-Eval
- DevOps-Eval是由蚂蚁集团联合北京大学发布的面向DevOps领域的大语言模型评测基准。
? Apéndice
点赞历史
? Friendly links
- Awesome Code LLM
- 该项目收集了代码大模型相关论文,并整理出一篇综述。
- CodeFuse-ChatBot
- CodeFuse-ChatBot是由蚂蚁CodeFuse团队开发的开源AI智能助手,致力于简化和优化软件开发生命周期中的各个环节。
- Awesome AIGC Tutorials
- 该项目收集了关于AIGC的各种精选教程和资源,既适合初学者也适合进阶AI爱好者。
- Awesome Tool Learning
- 该项目收集了关于工具学习的资源,包括论文、框架和应用。
- Awesome LLM reasoning
- 该项目收集了关于大语言模型推理方面的资源,包括论文、数据集等。