Chino simplificado | Inglés

Macbert chino | Electra chino | Chino xlnet | Herramienta de destilación de conocimiento TextBrewer | Herramienta de corte de modelos Pruner de texto
Más recursos publicados por HFL: https://github.com/ymcui/hfl-anthology
2023/3/28 Open Source chino Llama y Alpaca Big Model, que se puede implementar y experimentar rápidamente en PC, Ver: https://github.com/ymcui/chinese-llama-alpaca
2022/3/30 lanzó un nuevo modelo previamente entrenado PERT: https://github.com/ymcui/pert
2021/12/17 lanzó la herramienta de cultivo modelo Textpruner: https://github.com/airaria/TextPruner
2021/10/24 lanzó el primer modelo previamente entrenado para lenguas minoritarias étnicas: https://github.com/ymcui/chinese-minority-plm
2021/7/21 El libro "Procesamiento del lenguaje natural: métodos basados en modelos previamente capacitados" se publicó oficialmente.
Se ha lanzado 2020/11/3 Macbert chino previamente capacitado y su método de uso es el mismo que el de Bert.
2020/9/15 El documento "Revisando modelos previamente capacitados para el procesamiento del lenguaje natural chino" fue contratado como un artículo largo por los hallazgos de EMNLP.
| capítulo | describir |
|---|---|
| Introducción | Breve introducción a Macbert |
| descargar | Descargar MacBert |
| Carga rápida | Cómo usar transformadores de carga rápidamente modelos |
| Efecto de referencia | Efectos en las tareas chinas de PNL |
| Preguntas frecuentes | Preguntas frecuentes |
| Cita | Información de citas de artículo |
MacBert es una versión mejorada de Bert, que introduce la tarea de pre-entrenamiento del modelo de lenguaje de máscara con corrección de errores (MLM AS Corrección, Mac), aliviando el problema de las "tareas previas al entrenamiento-descendente".
En el modelo de lenguaje de máscara (MLM), la etiqueta [Mask] se introduce para enmascarar, pero la etiqueta [Mask] no aparece en las tareas aguas abajo. En Macbert, usamos palabras similares para reemplazar la etiqueta [máscara] . Las palabras similares se obtienen mediante la herramienta de herramientas de sinónimos (Wang y Hu, 2017), y el algoritmo se calcula en función de Word2Vec (Mikolov et al., 2013). Al mismo tiempo, también hemos introducido tecnologías de enmascaramiento de palabras enteras (WWM) y enmascaramiento de N-Gram. Al enmascarar n-gram, buscamos palabras similares para cada palabra en n-gram. Cuando no hay palabras similares para reemplazar, usaremos palabras aleatorias para el reemplazo.
El siguiente es un ejemplo de muestra de entrenamiento.
| ejemplo | |
|---|---|
| Oración original | Utilizamos un modelo de idioma para predecir la probabilidad de la siguiente palabra. |
| MLM | Usamos un idioma [m] a [m] ## di ## ct la capacidad pro [m] ## de la siguiente palabra. |
| Enmascaramiento de palabras enteras | Usamos un lenguaje [m] a [m] [m] [m] el [m] [m] de la siguiente palabra. |
| Enmascaramiento de N-gram | Usamos un [m] [m] a [m] [m] el [m] [m] el [m] [m] [m] siguiente palabra. |
| MLM como corrección | Utilizamos un sistema de texto a CA ## lc ## Ulate el po ## si ## habilidad de la siguiente palabra. |
El marco principal de Macbert es exactamente el mismo que Bert, lo que permite transiciones perfectas sin modificar el código existente.
Para obtener más detalles, consulte nuestro artículo: Revisando modelos previamente capacitados para el procesamiento de lenguaje natural chino
Principalmente proporciona descargas de modelos para la versión TensorFlow 1.x.
MacBERT-large, Chinese : 24 capas, 1024 escondidas, 16 cabezas, 324m parámetrosMacBERT-base, Chinese : 12 capas, 768 escondidas, 12 cabezas, 102m parámetros| Modelo | Google Drive | Disco de Baidu | tamaño |
|---|---|---|---|
MacBERT-large, Chinese | Flujo tensor | TensorFlow (PW: ZEJF) | 1.2g |
MacBERT-base, Chinese | Flujo tensor | TensorFlow (PW: 61GA) | 383m |
Si necesita la versión Pytorch o TensorFlow2 del modelo:
Descargar pasos (también puede clonar todo el directorio directamente usando GIT):
Los modelos Macbert se pueden cargar rápidamente a través de transformadores.
tokenizer = BertTokenizer.from_pretrained("MODEL_NAME")
model = BertModel.from_pretrained("MODEL_NAME")
Nota: ¡Utilice BertTokenizer y Bertmodel para cargar modelos MacBert!
El MODEL_NAME correspondiente es el siguiente:
| Modelo original | Nombre de llamado modelo |
|---|---|
| Macbert-Large | HFL/China-Macbert-Large |
| Masa-base | HFL/China-Macbert-Base |
Aquí hay una visualización del efecto de MacBert en 6 tareas aguas abajo (consulte el documento para obtener más resultados):
Para garantizar la estabilidad de los resultados, damos el valor promedio (entre paréntesis) y el valor máximo del independiente se ejecuta 10 veces al mismo tiempo.
El conjunto de datos CMRC 2018 son los datos chinos de comprensión de lectura a máquina publicadas por el Laboratorio Conjunto del Instituto de Tecnología de Harbin. Según una pregunta dada, el sistema necesita extraer fragmentos del capítulo como la respuesta, en la misma forma que el escuadrón. Los indicadores de evaluación son: EM / F1
| Modelo | Desarrollo | Prueba | Desafío | #Params |
|---|---|---|---|---|
| Base | 65.5 (64.4) / 84.5 (84.0) | 70.0 (68.7) / 87.0 (86.3) | 18.6 (17.0) / 43.3 (41.3) | 102m |
| Bert-wwm | 66.3 (65.0) / 85.6 (84.7) | 70.5 (69.1) / 87.4 (86.7) | 21.0 (19.3) / 47.0 (43.9) | 102m |
| Bert-wwm-ext | 67.1 (65.6) / 85.7 (85.0) | 71.4 (70.0) / 87.7 (87.0) | 24.0 (20.0) / 47.3 (44.6) | 102m |
| Roberta-wwm-ext | 67.4 (66.5) / 87.2 (86.5) | 72.6 (71.4) / 89.4 (88.8) | 26.2 (24.6) / 51.0 (49.1) | 102m |
| Electra-base | 68.4 (68.0) / 84.8 (84.6) | 73.1 (72.7) / 87.1 (86.9) | 22.6 (21.7) / 45.0 (43.8) | 102m |
| Masa-base | 68.5 (67.3) / 87.9 (87.1) | 73.2 (72.4) / 89.5 (89.2) | 30.2 (26.4) / 54.0 (52.2) | 102m |
| Electra-grande | 69.1 (68.2) / 85.2 (84.5) | 73.9 (72.8) / 87.1 (86.6) | 23.0 (21.6) / 44.2 (43.2) | 324m |
| Roberta-wwm-ext-large | 68.5 (67.6) / 88.4 (87.9) | 74.2 (72.4) / 90.6 (90.0) | 31.5 (30.1) / 60.1 (57.5) | 324m |
| Macbert-Large | 70.7 (68.6) / 88.9 (88.2) | 74.8 (73.2) / 90.7 (90.1) | 31.9 (29.6) / 60.2 (57.6) | 324m |
El conjunto de datos DRCD fue publicado por Delta Research Institute, Taiwán, China. Su forma es la misma que el escuadrón y es un conjunto de datos de comprensión de lectura extraída basado en el chino tradicional. Dado que los caracteres chinos tradicionales se eliminan de Ernie, no se recomienda usar Ernie (o convertirlo en chino simplificado y luego procesarlo) en los datos tradicionales chinos. Los indicadores de evaluación son: EM / F1
| Modelo | Desarrollo | Prueba | #Params |
|---|---|---|---|
| Base | 83.1 (82.7) / 89.9 (89.6) | 82.2 (81.6) / 89.2 (88.8) | 102m |
| Bert-wwm | 84.3 (83.4) / 90.5 (90.2) | 82.8 (81.8) / 89.7 (89.0) | 102m |
| Bert-wwm-ext | 85.0 (84.5) / 91.2 (90.9) | 83.6 (83.0) / 90.4 (89.9) | 102m |
| Roberta-wwm-ext | 86.6 (85.9) / 92.5 (92.2) | 85.6 (85.2) / 92.0 (91.7) | 102m |
| Electra-base | 87.5 (87.0) / 92.5 (92.3) | 86.9 (86.6) / 91.8 (91.7) | 102m |
| Masa-base | 89.4 (89.2) / 94.3 (94.1) | 89.5 (88.7) / 93.8 (93.5) | 102m |
| Electra-grande | 88.8 (88.7) / 93.3 (93.2) | 88.8 (88.2) / 93.6 (93.2) | 324m |
| Roberta-wwm-ext-large | 89.6 (89.1) / 94.8 (94.4) | 89.6 (88.9) / 94.5 (94.1) | 324m |
| Macbert-Large | 91.2 (90.8) / 95.6 (95.3) | 91.7 (90.9) / 95.6 (95.3) | 324m |
En la tarea de inferencia del lenguaje natural, adoptamos datos XNLI , que requieren que el texto se divide en tres categorías: entailment , neutral y contradictory . El indicador de evaluación es: precisión
| Modelo | Desarrollo | Prueba | #Params |
|---|---|---|---|
| Base | 77.8 (77.4) | 77.8 (77.5) | 102m |
| Bert-wwm | 79.0 (78.4) | 78.2 (78.0) | 102m |
| Bert-wwm-ext | 79.4 (78.6) | 78.7 (78.3) | 102m |
| Roberta-wwm-ext | 80.0 (79.2) | 78.8 (78.3) | 102m |
| Electra-base | 77.9 (77.0) | 78.4 (77.8) | 102m |
| Masa-base | 80.3 (79.7) | 79.3 (78.8) | 102m |
| Electra-grande | 81.5 (80.8) | 81.0 (80.9) | 324m |
| Roberta-wwm-ext-large | 82.1 (81.3) | 81.2 (80.6) | 324m |
| Macbert-Large | 82.4 (81.8) | 81.3 (80.6) | 324m |
En la tarea de análisis de sentimientos, el conjunto de datos de clasificación de emoción binaria Chnsenticorp. El indicador de evaluación es: precisión
| Modelo | Desarrollo | Prueba | #Params |
|---|---|---|---|
| Base | 94.7 (94.3) | 95.0 (94.7) | 102m |
| Bert-wwm | 95.1 (94.5) | 95.4 (95.0) | 102m |
| Bert-wwm-ext | 95.4 (94.6) | 95.3 (94.7) | 102m |
| Roberta-wwm-ext | 95.0 (94.6) | 95.6 (94.8) | 102m |
| Electra-base | 93.8 (93.0) | 94.5 (93.5) | 102m |
| Masa-base | 95.2 (94.8) | 95.6 (94.9) | 102m |
| Electra-grande | 95.2 (94.6) | 95.3 (94.8) | 324m |
| Roberta-wwm-ext-large | 95.8 (94.9) | 95.8 (94.9) | 324m |
| Macbert-Large | 95.7 (95.0) | 95.9 (95.1) | 324m |
LCQMC fue publicado por el Centro de Investigación de Computación Inteligente del Instituto Harbin de Tecnología Shenzhen Graduate School. El indicador de evaluación es: precisión
| Modelo | Desarrollo | Prueba | #Params |
|---|---|---|---|
| Bert | 89.4 (88.4) | 86.9 (86.4) | 102m |
| Bert-wwm | 89.4 (89.2) | 87.0 (86.8) | 102m |
| Bert-wwm-ext | 89.6 (89.2) | 87.1 (86.6) | 102m |
| Roberta-wwm-ext | 89.0 (88.7) | 86.4 (86.1) | 102m |
| Electra-base | 90.2 (89.8) | 87.6 (87.3) | 102m |
| Masa-base | 89.5 (89.3) | 87.0 (86.5) | 102m |
| Electra-grande | 90.7 (90.4) | 87.3 (87.2) | 324m |
| Roberta-wwm-ext-large | 90.4 (90.0) | 87.0 (86.8) | 324m |
| Macbert-Large | 90.6 (90.3) | 87.6 (87.1) | 324m |
BQ Corpus es publicado por el Centro de Investigación de Computación Inteligente del Instituto Harbin de Tecnología Shenzhen Graduate School y es un conjunto de datos para el campo bancario. El indicador de evaluación es: precisión
| Modelo | Desarrollo | Prueba | #Params |
|---|---|---|---|
| Bert | 86.0 (85.5) | 84.8 (84.6) | 102m |
| Bert-wwm | 86.1 (85.6) | 85.2 (84.9) | 102m |
| Bert-wwm-ext | 86.4 (85.5) | 85.3 (84.8) | 102m |
| Roberta-wwm-ext | 86.0 (85.4) | 85.0 (84.6) | 102m |
| Electra-base | 84.8 (84.7) | 84.5 (84.0) | 102m |
| Masa-base | 86.0 (85.5) | 85.2 (84.9) | 102m |
| Electra-grande | 86.7 (86.2) | 85.1 (84.8) | 324m |
| Roberta-wwm-ext-large | 86.3 (85.7) | 85.8 (84.9) | 324m |
| Macbert-Large | 86.2 (85.7) | 85.6 (85.0) | 324m |
P1: ¿Hay una versión en inglés de Macbert?
A1: Ninguno en este momento.
P2: ¿Cómo usar MacBert?
A2: Al igual que con Bert, solo necesita reemplazar el archivo del modelo y configurarlo para usarlo. Por supuesto, también puede capacitar aún más a otros modelos previos a la pretrada cargando nuestro modelo (es decir, la sección Inicialización de transformadores).
P3: ¿Puede proporcionar código de capacitación MacBert?
A3: Todavía no hay un plan de código abierto.
P4: ¿Puedo abrir el corpus previamente capacitado de código abierto?
A4: No podemos abre Corpus de entrenamiento de código abierto porque no hay derecho a volver a liberar en consecuencia. Hay algunos recursos de Corpus de Corpus de código abierto en GitHub, a los que puede prestar más atención y usar.
P5: ¿Hay algún plan para entrenar a Macbert en un corpus más grande y un código abierto?
A5: No tenemos planes por el momento.
Si los recursos en este proyecto son útiles para su investigación, cite el siguiente documento.
@inproceedings{cui-etal-2020-revisiting,
title = "Revisiting Pre-Trained Models for {C}hinese Natural Language Processing",
author = "Cui, Yiming and
Che, Wanxiang and
Liu, Ting and
Qin, Bing and
Wang, Shijin and
Hu, Guoping",
booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: Findings",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.findings-emnlp.58",
pages = "657--668",
}
o:
@journal{cui-etal-2021-pretrain,
title={Pre-Training with Whole Word Masking for Chinese BERT},
author={Cui, Yiming and Che, Wanxiang and Liu, Ting and Qin, Bing and Yang, Ziqing},
journal={IEEE Transactions on Audio, Speech and Language Processing},
year={2021},
url={https://ieeexplore.ieee.org/document/9599397},
doi={10.1109/TASLP.2021.3124365},
}
Gracias a Google TPU Research Cloud (TFRC) por su soporte de recursos informáticos.
Si tiene alguna pregunta, envíelo en el problema de GitHub.