Descargar MacBERT - Descargar el código fuente de MacBERT

MacBERT

Otro código fuente

1.0.0

Descargar

Chino simplificado | Inglés

Este directorio contiene ** Modelo priorizado por MacBert **, que introduce una tarea de pre-entrenamiento del modelo de lenguaje de máscara corrigido por error (MAC), aliviando el problema de la inconsistencia de "tareas previas al entrenamiento descendente". MacBert ha logrado mejoras significativas de rendimiento en una variedad de tareas de PNL.

Revisando modelos previamente capacitados para el procesamiento de lenguaje natural chino
Yiming Cui, Wanxiang Che, Ting Liu, Bing Qin, Shijin Wang, Guoping Hu
Publicado en Hallazgos de EMNLP 2020

Macbert chino | Electra chino | Chino xlnet | Herramienta de destilación de conocimiento TextBrewer | Herramienta de corte de modelos Pruner de texto

Más recursos publicados por HFL: https://github.com/ymcui/hfl-anthology

Noticias

2023/3/28 Open Source chino Llama y Alpaca Big Model, que se puede implementar y experimentar rápidamente en PC, Ver: https://github.com/ymcui/chinese-llama-alpaca

2022/3/30 lanzó un nuevo modelo previamente entrenado PERT: https://github.com/ymcui/pert

2021/12/17 lanzó la herramienta de cultivo modelo Textpruner: https://github.com/airaria/TextPruner

2021/10/24 lanzó el primer modelo previamente entrenado para lenguas minoritarias étnicas: https://github.com/ymcui/chinese-minority-plm

2021/7/21 El libro "Procesamiento del lenguaje natural: métodos basados en modelos previamente capacitados" se publicó oficialmente.

Se ha lanzado 2020/11/3 Macbert chino previamente capacitado y su método de uso es el mismo que el de Bert.

2020/9/15 El documento "Revisando modelos previamente capacitados para el procesamiento del lenguaje natural chino" fue contratado como un artículo largo por los hallazgos de EMNLP.

Tabla de contenido

capítulo	describir
Introducción	Breve introducción a Macbert
descargar	Descargar MacBert
Carga rápida	Cómo usar transformadores de carga rápidamente modelos
Efecto de referencia	Efectos en las tareas chinas de PNL
Preguntas frecuentes	Preguntas frecuentes
Cita	Información de citas de artículo

Introducción

MacBert es una versión mejorada de Bert, que introduce la tarea de pre-entrenamiento del modelo de lenguaje de máscara con corrección de errores (MLM AS Corrección, Mac), aliviando el problema de las "tareas previas al entrenamiento-descendente".

En el modelo de lenguaje de máscara (MLM), la etiqueta [Mask] se introduce para enmascarar, pero la etiqueta [Mask] no aparece en las tareas aguas abajo. En Macbert, usamos palabras similares para reemplazar la etiqueta [máscara] . Las palabras similares se obtienen mediante la herramienta de herramientas de sinónimos (Wang y Hu, 2017), y el algoritmo se calcula en función de Word2Vec (Mikolov et al., 2013). Al mismo tiempo, también hemos introducido tecnologías de enmascaramiento de palabras enteras (WWM) y enmascaramiento de N-Gram. Al enmascarar n-gram, buscamos palabras similares para cada palabra en n-gram. Cuando no hay palabras similares para reemplazar, usaremos palabras aleatorias para el reemplazo.

El siguiente es un ejemplo de muestra de entrenamiento.

	ejemplo
Oración original	Utilizamos un modelo de idioma para predecir la probabilidad de la siguiente palabra.
MLM	Usamos un idioma [m] a [m] ## di ## ct la capacidad pro [m] ## de la siguiente palabra.
Enmascaramiento de palabras enteras	Usamos un lenguaje [m] a [m] [m] [m] el [m] [m] de la siguiente palabra.
Enmascaramiento de N-gram	Usamos un [m] [m] a [m] [m] el [m] [m] el [m] [m] [m] siguiente palabra.
MLM como corrección	Utilizamos un sistema de texto a CA ## lc ## Ulate el po ## si ## habilidad de la siguiente palabra.

El marco principal de Macbert es exactamente el mismo que Bert, lo que permite transiciones perfectas sin modificar el código existente.

Para obtener más detalles, consulte nuestro artículo: Revisando modelos previamente capacitados para el procesamiento de lenguaje natural chino

descargar

Principalmente proporciona descargas de modelos para la versión TensorFlow 1.x.

MacBERT-large, Chinese : 24 capas, 1024 escondidas, 16 cabezas, 324m parámetros
MacBERT-base, Chinese : 12 capas, 768 escondidas, 12 cabezas, 102m parámetros

Modelo	Google Drive	Disco de Baidu	tamaño
`MacBERT-large, Chinese`	Flujo tensor	TensorFlow (PW: ZEJF)	1.2g
`MacBERT-base, Chinese`	Flujo tensor	TensorFlow (PW: 61GA)	383m

Versión de pytorch/tensorflow2

Si necesita la versión Pytorch o TensorFlow2 del modelo:

Usar transformadores para convertir
O descargarlo de https://huggingface.co/hfl

Descargar pasos (también puede clonar todo el directorio directamente usando GIT):

Después de ingresar https://huggingface.co/hfl, seleccione un modelo MacBert, como MacBert-Base: https://huggingface.co/hfl/chinese-macbert-base
Seleccione la pestaña "Archivos y versiones"
Haga clic en el bin/json y otros archivos que necesita descargar

Carga rápida

Los modelos Macbert se pueden cargar rápidamente a través de transformadores.

 tokenizer = BertTokenizer.from_pretrained("MODEL_NAME")
model = BertModel.from_pretrained("MODEL_NAME")

Nota: ¡Utilice BertTokenizer y Bertmodel para cargar modelos MacBert!

El MODEL_NAME correspondiente es el siguiente:

Modelo original	Nombre de llamado modelo
Macbert-Large	HFL/China-Macbert-Large
Masa-base	HFL/China-Macbert-Base

Efecto de referencia

Aquí hay una visualización del efecto de MacBert en 6 tareas aguas abajo (consulte el documento para obtener más resultados):

CMRC 2018 (Cui et al., 2019) : Comprensión de lectura extraída (chino simplificado)
DRCD (Shao et al., 2018) : Comprensión de lectura extraída (chino tradicional)
Xnli (Conneau et al., 2018) : Inferencia del lenguaje natural
Chnsenticorp : clasificación emocional
LCQMC (Liu et al., 2018) : coincidencia de pares de oraciones
BQ Corpus (Chen et al., 2018) : coincidencia de pares de oraciones

Para garantizar la estabilidad de los resultados, damos el valor promedio (entre paréntesis) y el valor máximo del independiente se ejecuta 10 veces al mismo tiempo.

CMRC 2018

El conjunto de datos CMRC 2018 son los datos chinos de comprensión de lectura a máquina publicadas por el Laboratorio Conjunto del Instituto de Tecnología de Harbin. Según una pregunta dada, el sistema necesita extraer fragmentos del capítulo como la respuesta, en la misma forma que el escuadrón. Los indicadores de evaluación son: EM / F1

Modelo	Desarrollo	Prueba	Desafío	#Params
Base	65.5 (64.4) / 84.5 (84.0)	70.0 (68.7) / 87.0 (86.3)	18.6 (17.0) / 43.3 (41.3)	102m
Bert-wwm	66.3 (65.0) / 85.6 (84.7)	70.5 (69.1) / 87.4 (86.7)	21.0 (19.3) / 47.0 (43.9)	102m
Bert-wwm-ext	67.1 (65.6) / 85.7 (85.0)	71.4 (70.0) / 87.7 (87.0)	24.0 (20.0) / 47.3 (44.6)	102m
Roberta-wwm-ext	67.4 (66.5) / 87.2 (86.5)	72.6 (71.4) / 89.4 (88.8)	26.2 (24.6) / 51.0 (49.1)	102m
Electra-base	68.4 (68.0) / 84.8 (84.6)	73.1 (72.7) / 87.1 (86.9)	22.6 (21.7) / 45.0 (43.8)	102m
Masa-base	68.5 (67.3) / 87.9 (87.1)	73.2 (72.4) / 89.5 (89.2)	30.2 (26.4) / 54.0 (52.2)	102m
Electra-grande	69.1 (68.2) / 85.2 (84.5)	73.9 (72.8) / 87.1 (86.6)	23.0 (21.6) / 44.2 (43.2)	324m
Roberta-wwm-ext-large	68.5 (67.6) / 88.4 (87.9)	74.2 (72.4) / 90.6 (90.0)	31.5 (30.1) / 60.1 (57.5)	324m
Macbert-Large	70.7 (68.6) / 88.9 (88.2)	74.8 (73.2) / 90.7 (90.1)	31.9 (29.6) / 60.2 (57.6)	324m

Guarnalda

El conjunto de datos DRCD fue publicado por Delta Research Institute, Taiwán, China. Su forma es la misma que el escuadrón y es un conjunto de datos de comprensión de lectura extraída basado en el chino tradicional. Dado que los caracteres chinos tradicionales se eliminan de Ernie, no se recomienda usar Ernie (o convertirlo en chino simplificado y luego procesarlo) en los datos tradicionales chinos. Los indicadores de evaluación son: EM / F1

Modelo	Desarrollo	Prueba	#Params
Base	83.1 (82.7) / 89.9 (89.6)	82.2 (81.6) / 89.2 (88.8)	102m
Bert-wwm	84.3 (83.4) / 90.5 (90.2)	82.8 (81.8) / 89.7 (89.0)	102m
Bert-wwm-ext	85.0 (84.5) / 91.2 (90.9)	83.6 (83.0) / 90.4 (89.9)	102m
Roberta-wwm-ext	86.6 (85.9) / 92.5 (92.2)	85.6 (85.2) / 92.0 (91.7)	102m
Electra-base	87.5 (87.0) / 92.5 (92.3)	86.9 (86.6) / 91.8 (91.7)	102m
Masa-base	89.4 (89.2) / 94.3 (94.1)	89.5 (88.7) / 93.8 (93.5)	102m
Electra-grande	88.8 (88.7) / 93.3 (93.2)	88.8 (88.2) / 93.6 (93.2)	324m
Roberta-wwm-ext-large	89.6 (89.1) / 94.8 (94.4)	89.6 (88.9) / 94.5 (94.1)	324m
Macbert-Large	91.2 (90.8) / 95.6 (95.3)	91.7 (90.9) / 95.6 (95.3)	324m

Xnli

En la tarea de inferencia del lenguaje natural, adoptamos datos XNLI , que requieren que el texto se divide en tres categorías: entailment , neutral y contradictory . El indicador de evaluación es: precisión

Modelo	Desarrollo	Prueba	#Params
Base	77.8 (77.4)	77.8 (77.5)	102m
Bert-wwm	79.0 (78.4)	78.2 (78.0)	102m
Bert-wwm-ext	79.4 (78.6)	78.7 (78.3)	102m
Roberta-wwm-ext	80.0 (79.2)	78.8 (78.3)	102m
Electra-base	77.9 (77.0)	78.4 (77.8)	102m
Masa-base	80.3 (79.7)	79.3 (78.8)	102m
Electra-grande	81.5 (80.8)	81.0 (80.9)	324m
Roberta-wwm-ext-large	82.1 (81.3)	81.2 (80.6)	324m
Macbert-Large	82.4 (81.8)	81.3 (80.6)	324m

Chnsenticorp

En la tarea de análisis de sentimientos, el conjunto de datos de clasificación de emoción binaria Chnsenticorp. El indicador de evaluación es: precisión

Modelo	Desarrollo	Prueba	#Params
Base	94.7 (94.3)	95.0 (94.7)	102m
Bert-wwm	95.1 (94.5)	95.4 (95.0)	102m
Bert-wwm-ext	95.4 (94.6)	95.3 (94.7)	102m
Roberta-wwm-ext	95.0 (94.6)	95.6 (94.8)	102m
Electra-base	93.8 (93.0)	94.5 (93.5)	102m
Masa-base	95.2 (94.8)	95.6 (94.9)	102m
Electra-grande	95.2 (94.6)	95.3 (94.8)	324m
Roberta-wwm-ext-large	95.8 (94.9)	95.8 (94.9)	324m
Macbert-Large	95.7 (95.0)	95.9 (95.1)	324m

LCQMC

LCQMC fue publicado por el Centro de Investigación de Computación Inteligente del Instituto Harbin de Tecnología Shenzhen Graduate School. El indicador de evaluación es: precisión

Modelo	Desarrollo	Prueba	#Params
Bert	89.4 (88.4)	86.9 (86.4)	102m
Bert-wwm	89.4 (89.2)	87.0 (86.8)	102m
Bert-wwm-ext	89.6 (89.2)	87.1 (86.6)	102m
Roberta-wwm-ext	89.0 (88.7)	86.4 (86.1)	102m
Electra-base	90.2 (89.8)	87.6 (87.3)	102m
Masa-base	89.5 (89.3)	87.0 (86.5)	102m
Electra-grande	90.7 (90.4)	87.3 (87.2)	324m
Roberta-wwm-ext-large	90.4 (90.0)	87.0 (86.8)	324m
Macbert-Large	90.6 (90.3)	87.6 (87.1)	324m

BQ Corpus

BQ Corpus es publicado por el Centro de Investigación de Computación Inteligente del Instituto Harbin de Tecnología Shenzhen Graduate School y es un conjunto de datos para el campo bancario. El indicador de evaluación es: precisión

Modelo	Desarrollo	Prueba	#Params
Bert	86.0 (85.5)	84.8 (84.6)	102m
Bert-wwm	86.1 (85.6)	85.2 (84.9)	102m
Bert-wwm-ext	86.4 (85.5)	85.3 (84.8)	102m
Roberta-wwm-ext	86.0 (85.4)	85.0 (84.6)	102m
Electra-base	84.8 (84.7)	84.5 (84.0)	102m
Masa-base	86.0 (85.5)	85.2 (84.9)	102m
Electra-grande	86.7 (86.2)	85.1 (84.8)	324m
Roberta-wwm-ext-large	86.3 (85.7)	85.8 (84.9)	324m
Macbert-Large	86.2 (85.7)	85.6 (85.0)	324m

Preguntas frecuentes

P1: ¿Hay una versión en inglés de Macbert?

A1: Ninguno en este momento.

P2: ¿Cómo usar MacBert?

A2: Al igual que con Bert, solo necesita reemplazar el archivo del modelo y configurarlo para usarlo. Por supuesto, también puede capacitar aún más a otros modelos previos a la pretrada cargando nuestro modelo (es decir, la sección Inicialización de transformadores).

P3: ¿Puede proporcionar código de capacitación MacBert?

A3: Todavía no hay un plan de código abierto.

P4: ¿Puedo abrir el corpus previamente capacitado de código abierto?

A4: No podemos abre Corpus de entrenamiento de código abierto porque no hay derecho a volver a liberar en consecuencia. Hay algunos recursos de Corpus de Corpus de código abierto en GitHub, a los que puede prestar más atención y usar.

P5: ¿Hay algún plan para entrenar a Macbert en un corpus más grande y un código abierto?

A5: No tenemos planes por el momento.

Cita

Si los recursos en este proyecto son útiles para su investigación, cite el siguiente documento.

 @inproceedings{cui-etal-2020-revisiting,
    title = "Revisiting Pre-Trained Models for {C}hinese Natural Language Processing",
    author = "Cui, Yiming  and
      Che, Wanxiang  and
      Liu, Ting  and
      Qin, Bing  and
      Wang, Shijin  and
      Hu, Guoping",
    booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: Findings",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.findings-emnlp.58",
    pages = "657--668",
}

o:

 @journal{cui-etal-2021-pretrain,
  title={Pre-Training with Whole Word Masking for Chinese BERT},
  author={Cui, Yiming and Che, Wanxiang and Liu, Ting and Qin, Bing and Yang, Ziqing},
  journal={IEEE Transactions on Audio, Speech and Language Processing},
  year={2021},
  url={https://ieeexplore.ieee.org/document/9599397},
  doi={10.1109/TASLP.2021.3124365},
 }

Expresiones de gratitud

Gracias a Google TPU Research Cloud (TFRC) por su soporte de recursos informáticos.

Comentarios de preguntas

Si tiene alguna pregunta, envíelo en el problema de GitHub.

Antes de enviar la pregunta, verifique si las preguntas frecuentes pueden resolver el problema. También se recomienda verificar si el problema anterior puede resolver su problema.
Las reproducciones repetidas y los problemas no relacionados con este proyecto serán procesados por [Estable-Bot] (Marketplace rancio · Github), por favor comprenda.
Responderemos a sus preguntas tanto como sea posible, pero no podemos garantizar que sus preguntas sean respondidas.
Haga preguntas cortésmente y cree una comunidad de discusión armoniosa.

Expandir

Información adicional

Versión 1.0.0
Tipo Otro código fuente
Fecha de actualización 2025-04-18
tamaño 134.22KB
Proviene de Github

Aplicaciones relacionadas

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo