Descarga PyCLUE - Descargar el código fuente PyCLUE

PyCLUE

Código Fuente de IA

1.0.0

Descargar

Piclo

Python Toolkit para la comprensión del idioma chino de referencia de evaluación de evaluación.

El conjunto de herramientas de Python para el idioma chino, comprensión de la evaluación de referencia de referencia puede evaluar rápidamente los conjuntos de datos representativos y los modelos de referencia (previamente), y seleccionar modelos de referencia apropiados (previamente) para sus propios datos para la aplicación rápida.

Sobre la pista

conjuntos de datos, líneas de base, modelos previamente capacitados, corpus y tabla de clasificación

Los puntos de referencia de evaluación de la evaluación del idioma chino, incluidos conjuntos de datos representativos, modelos de referencia (previos a los petróleo), corpus y clasificaciones.

Seleccionaremos una serie de conjuntos de datos correspondientes a ciertas tareas representativas como el conjunto de datos para nuestro punto de referencia de prueba. Estos conjuntos de datos cubren diferentes tareas, volumen de datos y dificultades de tareas.

Instalar Piclo

Ahora, el piclo se puede instalar a través de PIP:

pip install --upgrade PyCLUE

O instalar directamente Pyclue por Git Clone:

pip install git+https://www.github.com/CLUEBenchmark/PyCLUE.git

Modelo de punto de referencia (previamente)

Se admiten modelos de idiomas previamente capacitados

Bert-zh
Bert-wwm-ext
Albert_xlarge_Zh_Brightmart
albert_large_zh_brightmart
albert_base_zh_brightmart
albert_base_ext_zh_brightmart
albert_small_zh_brightmart
albert_tiny_zh_brightmart
ROBERTA_ZH_BRIGHTMART
ROBERTA_WWM_EXT_ZH_BRIGHTMART
ROBERTA_WWM_EXT_LARGE_ZH_BRIGHTMART

Esperando apoyo

Xlnet_mid
Ernie_Base

Evaluar rápidamente los conjuntos de datos de Clue

Introducción y descarga del conjunto de datos

Nota: El conjunto de datos es consistente con el conjunto de datos proporcionado por CLUEBISHMARK y solo se modifica en consecuencia en el formato para adaptarse al proyecto de Piclo.

1. AFQMC Ant Semántica Semántica Financiera

Introducción de datos

数据量：训练集（34334）验证集（4316）测试集（3861）
例子：
{"sentence1": "双十一花呗提额在哪", "sentence2": "里可以提花呗额度", "label": "0"}
每一条数据有三个属性，从前往后分别是 句子1，句子2，句子相似度标签。其中label标签，1 表示sentence1和sentence2的含义类似，0表示两个句子的含义不同。

Enlace: https://pan.baidu.com/s/1it1simjbsrnl1deoboogxg Código de extracción: KSD1

Guión de evaluación

Modelo de entrenamiento Ubicación del script: Pyclue/CLUE/SENTENCE_PAIR/AFQMC/TRAIN.IPYNB

Referencia: https://github.com/cluebenchmark/pyclue/blob/master/clue/sentence_pair/afqmc/train.ipynb

Envíe la ubicación del script del archivo: pyclue/p. CLUE/sentence_pair/afqmc/predict.ipynb

Referencia: https://github.com/cluebenchmark/pyclue/blob/master/clue/sentence_pair/afqmc/predict.ipynb

2. Titulares de TNEWS Las noticias chinas de los titulares (texto corto) clasificados de texto corto clasificados para noticias

Introducción de datos

Este conjunto de datos proviene de la sección de noticias de Toutiao, y se extrajeron un total de 15 categorías de noticias, incluidos turismo, educación, finanzas, militares, etc.

数据量：训练集(266,000)，验证集(57,000)，测试集(57,000)
例子：
{"label": "102", "label_des": "news_entertainment", "sentence": "江疏影甜甜圈自拍，迷之角度竟这么好看，美吸引一切事物"}
每一条数据有三个属性，从前往后分别是 分类ID，分类名称，新闻字符串（仅含标题）。

Enlace: https://pan.baidu.com/s/1rs9oxolokgwi-rgns_gtqq Código de extracción: S9GO

Guión de evaluación

Modelo de entrenamiento Ubicación del script: Pyclue/Clue/Classification/TNews/Train.ipynb

Referencia: https://github.com/cluebenchmark/pyclue/blob/master/clue/classification/tnews/train.ipynb

Envíe la ubicación del script del archivo: Pyclue/Clue/Classification/TNews/Predict.ipynb

Referencia: https://github.com/cluebenchmark/pyclue/blob/master/clue/classification/tnews/predict.ipynb

3. Iflytek 'Clasificación de texto largo

Introducción de datos

Hay más de 17,000 datos etiquetados por texto largo sobre las descripciones de aplicaciones de aplicaciones en este conjunto de datos, incluidos varios temas de aplicación relacionados con la vida diaria, con un total de 119 categorías: "Taxi": 0, "Navegación de mapas": 1, "wifi gratuito": 2, "alquiler de automóviles": 3, ...., "mujer": 115, "negocios": 116, "recopilación de efectivo": 117, "otros": 118 (representado (representado (representado representado)))).

数据量：训练集(12,133)，验证集(2,599)，测试集(2,600)
例子：
{"label": "110", "label_des": "社区超市", "sentence": "朴朴快送超市创立于2016年，专注于打造移动端30分钟即时配送一站式购物平台，商品品类包含水果、蔬菜、肉禽蛋奶、海鲜水产、粮油调味、酒水饮料、休闲食品、日用品、外卖等。朴朴公司希望能以全新的商业模式，更高效快捷的仓储配送模式，致力于成为更快、更好、更多、更省的在线零售平台，带给消费者更好的消费体验，同时推动中国食品安全进程，成为一家让社会尊敬的互联网公司。,朴朴一下，又好又快,1.配送时间提示更加清晰友好2.保障用户隐私的一些优化3.其他提高使用体验的调整4.修复了一些已知bug"}
每一条数据有三个属性，从前往后分别是 类别ID，类别名称，文本内容。

Enlace: https://pan.baidu.com/s/1ekthxmgt1t038qto9vkr3a Código de extracción: U00V

Guión de revisión

Modelo de entrenamiento Ubicación del script: Pyclue/Clue/Classification/Iflytek/Train.ipynb

Referencia: https://github.com/cluebenchmark/pyclue/blob/master/clue/classification/iflytek/train.ipynb

Envíe la ubicación del script del archivo: Pyclue/Clue/Classification/Iflytek/Predict.ipynb

Referencia: https://github.com/cluebenchmark/pyclue/blob/master/clue/classification/iflytek/predict.ipynb

4.

Introducción de datos

Los datos de CMNLI constan de dos partes: Xnli y Mnli. Los datos provienen de ficción, teléfono, viajes, gobierno, pizarra, etc. Los datos MNLI originales y los datos XNLI se transformaron en chino e inglés, reteniendo el conjunto de capacitación original, combinando el desarrollo en XNLI y coincidentes en Mnli como dev de CMNLI, combinando la prueba en XNLI y no lograron en Mnli como CMnli Test, y enrructuando el orden. Este conjunto de datos se puede utilizar para determinar la relación entre las dos oraciones dadas que son implicaciones, neutrales y contradictorios.

数据量：train(391,782)，matched(12,426)，mismatched(13,880)
例子：
{"sentence1": "新的权利已经足够好了", "sentence2": "每个人都很喜欢最新的福利", "label": "neutral"}
每一条数据有三个属性，从前往后分别是 句子1，句子2，蕴含关系标签。其中label标签有三种：neutral，entailment，contradiction。

Enlace: https://pan.baidu.com/s/1mft31cbs2g6e69as6h65dq Código de extracción: Kigh

Guión de revisión

Modelo de entrenamiento Ubicación del script: Pyclue/Clue/Sentence_Pair/Cmnli/Train.ipynb

Referencia: https://github.com/cluebenchmark/pyclue/blob/master/clue/sentence_pair/cmnli/train.ipynb

Envíe la ubicación del script del archivo: pyclue/p. CLUE/sentence_pair/cmnli/predict.ipynb

Referencia: https://github.com/cluebenchmark/pyclue/blob/master/clue/sentence_pair/cmnli/predict.ipynb

5. Diagnóstico establecido Clue_diagnóstics test_set

Introducción de datos

Conjuntos de diagnóstico utilizados para evaluar el rendimiento de los diferentes modelos en fenómenos de idioma chino resumidos por 9 lingüistas.

Usando el modelo entrenado en CMNLI, los resultados en este conjunto de diagnóstico se predicen directamente. El formato de envío es consistente con CMNLI. Puede ver los resultados en la página Detalles de clasificación. (Nota: este conjunto de datos contiene el conjunto de capacitación y el conjunto de pruebas de CMNLI)

Enlace: https://pan.baidu.com/s/1dydugo6xn_4xat0y4ansiw Código de extracción: U194

Guión de revisión

Modelo de entrenamiento Ubicación del script: Pyclue/Clue/Sentence_pair/Diagnostics/Train.ipynb

Referencia: https://github.com/cluebenchmark/pyclue/blob/master/clue/sentence_pair/diagnostics/train.ipynb

Envíe la ubicación del script del archivo: pyclue/p. CLUE/sentence_pair/diagnóstico/predicto.ipynb

Referencia: https://github.com/cluebenchmark/pyclue/blob/master/clue/sentence_pair/diagnostics/predict.ipynb

6. conjuntos de datos compatibles con otras pistas

Suplementario.

Aplicar a las tareas personalizadas

1. Clasificación de clase múltiple

Descripción de la tarea

Las tareas de clasificación múltiple, como la clasificación de texto, la clasificación de emociones, etc., pueden aceptar dos formularios: entrada de oración única y entrada de par de oraciones.

Requisitos de datos

El directorio de datos debe contener al menos Train.txt, Dev.txt y Labels.txt archivos, y se pueden agregar los archivos test.txt.

Guardar referencia de formulario:

Entrada de oración única (correspondiente a task_type = 'single' en el script de evaluación): pyclue/ejemplos/clasificación/sencillo_data_templates/, https://github.com/cluebenchmark/pyclue/blob/examples/classification/single_data_templates

Entrada del par de oraciones (correspondiente a task_type = 'pairs' en el script de evaluación): pyclue/ejemplos/clasificación/pars_data_templates/, https://github.com/cluebenchmark/pyclue/blob/examples/classification/pairs_data_templates

Nota: t debe usarse como separador.

Guión de revisión

Modelo de entrenamiento Ubicación del script: Pyclo/ejemplos/clasificación/trenes.ipynb

Referencia: https://github.com/cluebenchmark/pyclue/blob/master/examples/classification/train.ipynb

Ubicación del script predicho: piclo/ejemplos/clasificación/predicto.ipynb

Referencia: https://github.com/cluebenchmark/pyclue/blob/master/examples/classification/predict.ipynb

2. Tarea de par de oraciones (Twin Network) Par de oraciones (siamese)

Descripción de la tarea

Oración a tarea (red gemela), como oración similar a la tarea, etc. , diferente del modelo de oración a entrada en tareas de clasificación múltiple: las oraciones en tareas de clasificación múltiple utilizan un formulario de empalme similar a Bert para ingresar la tarea, mientras que esta tarea usa la forma de una red gemela.

Requisitos de datos

El directorio de datos debe contener al menos Train.txt, Dev.txt y Labels.txt archivos, y se pueden agregar los archivos test.txt.

Guardar referencia de formulario:

Ingrese: pyclue/ejemplos/sentence_pair/data_templates/, https://github.com/cluebenchmark/pyclue/blob/master/examples/sentence_pair/data_templates

Nota: t debe usarse como separador.

Guión de revisión

Modelo de entrenamiento Ubicación del script: piclo/ejemplos/orents_pair/trenes.ipynb

Referencia: https://github.com/cluebenchmark/pyclue/blob/master/examples/sentence_pair/train.ipynb

Ubicación del script predicho: piclo/ejemplos/orentence_pair/predicto.ipynb

Referencia: https://github.com/cluebenchmark/pyclue/blob/master/examples/sentence_pair/predict.ipynb

3. Tarea de texto de texto (Twin Network) Matriota de texto (siamese)

ilustrar

Tareas de coincidencia de texto (red gemela), como la búsqueda de preguntas frecuentes, la búsqueda de coincidencia de QQ y otras tareas, use la red gemela para generar información de incrustación para oraciones de entrada y use HNSWLIB para recuperar las oraciones más similares.

Requisitos de datos

El directorio de datos debe contener al menos los archivos Cache.txt, Train.txt, dev.txt y labels.txt, y puede agregar archivos test.txt.

Guardar referencia de formulario:

Entrada: pyclue/ejemplos/text_matching/data_templates/, https://github.com/cluebenchmark/pyclue/blob/master/examples/text_matching/data_templates

Nota: t debe usarse como separador.

Guión de revisión

Ubicación del script del modelo de entrenamiento: Pyclue/ejemplos/text_matching/trenes.ipynb

Referencia: https://github.com/cluebenchmark/pyclue/blob/master/examples/text_matching/train.ipynb

Ubicación del script predicho: piclo/ejemplos/text_matching/predicto.ipynb

Referencia: https://github.com/cluebenchmark/pyclue/blob/master/examples/text_matching/predict.ipynb

La capacitación genera archivos

1. Archivo modelo

El archivo modelo contiene 10 últimos archivos de modelo de punto de control y archivos de modelo PB (10 archivos de modelo de punto de control que mejor funcionan en el conjunto de prueba dev.txt).

2. Indicadores de procesos de capacitación

Los archivos indicadores (Train_Metrics.png) generados por el proceso de entrenamiento son la precisión, Total_loss, Batch_loss, Precision, Retiro y F1 Indicadores.

3. Verifique los indicadores de proceso

Si hay un archivo de verificación test.txt y cada línea del archivo de verificación comienza con True_Label, se imprime el indicador del mejor modelo en el archivo de verificación.

Documentación de API

Actualizado.

Otras instrucciones

Dirección oficial: https://github.com/cluebenchmark/pyclue

Dirección de depuración: https://github.com/liushaoweihua/pyclue

Línea de tiempo

Registro de actualizaciones

2019.12.05
- La primera versión de Pyclue se utiliza para evaluar rápidamente los conjuntos de datos de pista (clasificación de texto, oración a tarea);
2020.05.10
- Se revisa el código y se fusiona el código redundante (Versión de prueba: TensorFlow 1.15.2). Para simplificar la API, el soporte de TPU se elimina temporalmente en tareas aguas abajo;
- Admite la versión múltiple de los modelos Bert, Albert y Roberta, y se puede descargar y cargar automáticamente de acuerdo con el nombre del lenguaje previamente capacitado especificado;
- Admite clasificación de texto, emparejamiento de oraciones y tareas de coincidencia de texto;
- Se utiliza para evaluar rápidamente el conjunto de datos de Clue (AFQMC/TNEWS/IFLYTEK/CMNLI) y generar los archivos de envío aceptables de CLUEBISHMARK;
- Solicite tareas personalizadas, genere rápida y rápidamente en el punto de control y los formatos de archivo del modelo PB que sirven a TensorFlow que admiten implementados, y pueden cargar archivos del modelo PB para su predicción; Admite la inspección de calidad del formato de archivo y guarda los resultados de reconocimiento de errores al directorio especificado.

Plan de actualización

2020.05 ~ 2020.08
- Admite otra clasificación de texto, emparejamiento de oraciones y tareas de coincidencia de texto;
- Admite tareas de etiquetado de secuencia;
- Admite XLNet, Ernie, Electra, etc.;
- Admite el modelo de vector de palabras previamente capacitado (Word2Vec, etc.), y admite múltiples redes aguas abajo;
2020.08 ~ 2020.10
- Apoyar tareas de comprensión de lectura;
- Admite TF 2.0;
2020.10 ~ 2020.12
- Conéctese al proyecto de evaluación de modelos pequeños NLPCC 2020 LightLM de alto rendimiento, admitiendo múltiples modelos pequeños;
- Integra el modelo Pytorch que Clue ya ha admitido.

Expandir

Información adicional

Versión 1.0.0
Tipo Código Fuente de IA
Fecha de actualización 2025-09-07
tamaño 136.25KB
Proviene de Github

Aplicaciones relacionadas

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
ML stack

Código Fuente de IA

1.0.0
awesome free chatgpt

Código Fuente de IA

1.0.0
pywin_contextmenu

Código Fuente de IA

Version update
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo