Descargar Chinese BERT wwm - Descargar el código fuente Chinese BERT wwm

Chinese BERT wwm

Otro código fuente

1.0.0

Descargar

¡La versión china-llama-alpaca-2 v1.0 se ha lanzado oficialmente!

Descripción china | Inglés

En el campo del procesamiento del lenguaje natural, los modelos de lenguaje previamente capacitados (modelos de lenguaje previamente capacitados) se han convertido en una tecnología básica muy importante. Para promover aún más la investigación y el desarrollo del procesamiento de la información china, lanzamos el modelo chino pre-entrenado Bert-WWM basado en tecnología de enmascaramiento de palabras enteras, así como modelos estrechamente relacionados con esta tecnología: Bert-WWM-Ext, Roberta-WWM-Ext, Roberta-WWM-Ext-Large, RBT3, RBTL3, etc.

Pre-entrenamiento con enmascaramiento de palabras enteras para Bert chino
Yiming Cui, Wanxiang Che, Ting Liu, Bing Qin, Ziqing Yang
Publicado en IEEE/ACM Transactions on Audio, Speech and Language Processing (TASLP)

Este proyecto se basa en el Bert oficial de Google: https://github.com/google-research/bert

Ver más recursos publicados por IFL del Harbin Institute of Technology (HFL): https://github.com/ymcui/hfl-anthology

noticias

2023/3/28 Open Source chino Llama y Alpaca Big Model, que se puede implementar y experimentar rápidamente en PC, Ver: https://github.com/ymcui/chinese-llama-alpaca

2023/3/9 Proponemos un modelo multimodal VLE en gráficos y texto, Ver: https://github.com/iflytek/vle

2022/11/15 Proponemos el pequeño modelo pre-entrenado chino minirbt. Ver: https://github.com/iflytek/minirbt

2022/10/29 Proponemos un modelo de modelo previamente capacitado que integra información lingüística. Ver: https://github.com/ymcui/lert

2022/3/30 Open Source Un nuevo modelo previamente capacitado PERT. Ver: https://github.com/ymcui/pert

Noticias históricas

2021/12/17 Iflytek Conjunto Laboratorio de comunicación lanza el modelo de herramienta de corte Textpruner. Ver: https://github.com/airaria/textpruner

2021/10/24 Laboratorio Conjunto de Iflytek liberó un modelo Cino previamente capacitado para idiomas minoritarios étnicos. Ver: https://github.com/ymcui/chinese-minority-plm

2021/7/21 "Procesamiento del lenguaje natural: métodos basados en modelos de pre-entrenamiento" escritos por muchos académicos del Harbin Institute of Technology Scir, y todos pueden comprarlo.

2021/1/27 Todos los modelos han admitido TensorFlow 2, llamándolo o descargándolo a través de la Biblioteca Transformers. https://huggingface.co/hfl

2020/9/15 Nuestro documento "Revisando modelos previamente capacitados para el procesamiento del lenguaje natural chino" fue contratado como un artículo largo por hallazgos de EMNLP.

2020/8/27 El laboratorio conjunto IFL encabezó la lista en la evaluación de comprensión del lenguaje natural del pegamento general, consulte la lista de pegamento, noticias.

2020/3/23 El modelo lanzado en este directorio se ha conectado a Paddlepaddlehub para ver la carga rápida

2020/3/11 Para comprender mejor las necesidades, está invitado a completar el cuestionario para proporcionarle mejores recursos.

2020/2/26 Iflytek Laboratorio conjunto Liberación de la herramienta de destilación de conocimiento TextBrewer

2020/1/20 les deseo buena suerte en el año de la rata. Esta vez, RBT3 y RBTL3 (3 capas Roberta-WWM-EXT/grande) fueron liberados para ver el modelo de cantidad de parámetros pequeños.

2019/12/19 El modelo publicado en este directorio se ha conectado a Huggingface-Transformers para ver la carga rápida

2019/10/14 Lanzamiento El modelo Roberta-WWM-Ext-Large, vea la descarga del modelo chino

2019/9/10 Lanza el modelo Roberta-WWM-EXT y ver la descarga del modelo chino

2019/7/30 proporciona el modelo chino BERT-wwm-ext capacitado en un corpus general más grande (recuento de palabras 5.4B), ver la descarga del modelo chino

Versión inicial 2019/6/20, el modelo se puede descargar a través de Google, y el disco de nube nacional también se ha cargado. Revise la descarga del modelo chino

Guía de contenido

capítulo	describir
Introducción	Introducción a los principios básicos de Bert-WWM
Descarga del modelo chino	Proporciona la dirección de descarga de Bert-WWM
Carga rápida	Cómo usar transformadores y modelos de carga rápidamente de Paddlehub
Comparación de modelos	Proporciona una comparación de los parámetros del modelo en este directorio
Efecto del sistema de referencia chino	Enumere algunos efectos de los sistemas de referencia chinos
Modelo de cantidad de parámetros pequeños	Enumere los efectos del modelo de cantidad de parámetros pequeños (transformador de 3 capas)
Recomendaciones para su uso	Se proporcionan varias sugerencias para el uso de modelos pre-capacitados chinos.
Descargar modelo en inglés	Dirección oficial de descarga de Bert-WWM en inglés de Google
Preguntas frecuentes	Preguntas frecuentes y respuestas
Cita	Informes técnicos en este directorio

Introducción

Enmascaramiento de palabras enteras (WWM) , traducida temporalmente como全词Mask o整词Mask , es una versión actualizada de Bert lanzada por Google el 31 de mayo de 2019, que cambia principalmente la estrategia de generación de muestras de entrenamiento en la etapa original de pre-entrenamiento. En pocas palabras, el método original de segmentación de palabras basado en la obra de palabras dividirá una palabra completa en varias subasis. Al generar muestras de entrenamiento, estas subvenciones separadas se enmascararán al azar. En全词Mask , si la subvención de una palabra de palabra de una palabra completa está enmascarada, otras partes de la misma palabra están enmascaradas, es decir,全词Mask .

Cabe señalar que la máscara aquí se refiere a la máscara generalizada (reemplazada con [máscara]; mantenga el vocabulario original; reemplazado al azar con otra palabra), y no se limita al caso donde la palabra se reemplaza con la etiqueta [MASK] . Para descripciones y ejemplos más detallados, consulte: #4

Del mismo modo, dado que Google lanzó oficialmente BERT-base, Chinese , el chino se divide por los personajes como granularidad, y no tiene en cuenta el participio chino (CWS) en la PNL tradicional. Aplicamos el método de máscara de palabra completa en chino, usó Wikipedia china (incluido el chino simplificado y tradicional) para la capacitación, y utilizamos Harbin Institute of Technology LTP como una herramienta de segmentación de palabras, es decir, todos los caracteres chinos que conforman la misma palabra están asignados.

El siguiente texto muestra una generación de muestra de全词Mask . Nota: En aras de una fácil comprensión, solo el caso de reemplazar la etiqueta [máscara] se considera en los siguientes ejemplos.

ilustrar	Muestra
Texto original	Use modelos de lenguaje para predecir la probabilidad de la siguiente palabra.
Texto del participio de las palabras	Use modelos de lenguaje para predecir la probabilidad de la siguiente palabra.
Entrada de máscara original	Use el tipo de idioma [máscara] para probar el pro [máscara] de la siguiente palabra pro [máscara] ## lity.
Entrada de máscara de palabra completa	Use el idioma [máscara] [máscara] para [máscara] [máscara] la siguiente palabra [máscara] [máscara].

Descarga del modelo chino

Este directorio contiene principalmente modelos base, por lo que no etiquetamos la palabra base en la abreviatura del modelo. Para modelos de otros tamaños, las etiquetas correspondientes (por ejemplo, grandes) están marcadas.

BERT-large模型: 24 capas, 1024 escondidas, 16 cabezas, 330m parámetros
BERT-base模型: 12 capas, 768 escondidas, 12 cabezas, 110m parámetros

Nota: La versión de código abierto no contiene el peso de las tareas MLM; Si necesita realizar tareas de MLM, use datos adicionales para la capacitación secundaria (como otras tareas aguas abajo).

Abreviatura del modelo	Materiales	Descarga de Google	Descargar Baidu NetDisk
`RBT6, Chinese`	Datos ext ^[1]	-	TensorFlow (contraseña hniy)
`RBT4, Chinese`	Datos ext ^[1]	-	TensorFlow (contraseña SJPT)
`RBTL3, Chinese`	Datos ext ^[1]	Flujo tensor Pytorch	TensorFlow (contraseña S6CU)
`RBT3, Chinese`	Datos ext ^[1]	Flujo tensor Pytorch	TensorFlow (contraseña 5A57)
`RoBERTa-wwm-ext-large, Chinese`	Datos ext ^[1]	Flujo tensor Pytorch	TensorFlow (contraseña DQQE)
`RoBERTa-wwm-ext, Chinese`	Datos ext ^[1]	Flujo tensor Pytorch	TensorFlow (contraseña VYBQ)
`BERT-wwm-ext, Chinese`	Datos ext ^[1]	Flujo tensor Pytorch	TensorFlow (contraseña WGNT)
`BERT-wwm, Chinese`	Wiki chino	Flujo tensor Pytorch	TensorFlow (contraseña QFH8)
`BERT-base, Chinese` ^Google chino	Wiki chino	Google Cloud	-
`BERT-base, Multilingual Cased` ^Google multilingüe en escala	Wiki multilingüe	Google Cloud	-
`BERT-base, Multilingual Uncased` ^Google sin base multilingüe	Wiki multilingüe	Google Cloud	-

[1] Los datos EXT incluyen: Wikipedia china, otras enciclopedias, noticias, preguntas y respuestas y otros datos, con un número total de palabras que alcanzan 5.4b.

Versión de pytorch

Si necesita la versión de Pytorch,

1) Convívelo usted mismo a través del script de conversión proporcionado por Transformers.

2) o descargue directamente Pytorch a través del sitio web oficial de Huggingface: https://huggingface.co/hfl

Método de descarga: haga clic en cualquier modelo que desee descargar → Seleccione la pestaña "Archivos y versiones" → Descargue el archivo de modelo correspondiente.

Instrucciones de uso

Se recomienda utilizar puntos de descarga Baidu NetDisk en China continental, y se recomienda a los usuarios en el extranjero usar puntos de descarga de Google. El tamaño del archivo del modelo base es de aproximadamente 400 m . Tomar la versión TensorFlow de BERT-wwm, Chinese como ejemplo, después de descargar, descomprima el archivo zip para obtener:

 chinese_wwm_L-12_H-768_A-12.zip
    |- bert_model.ckpt      # 模型权重
    |- bert_model.meta      # 模型meta信息
    |- bert_model.index     # 模型index信息
    |- bert_config.json     # 模型参数
    |- vocab.txt            # 词表

Entre ellos, bert_config.json y vocab.txt son exactamente lo mismo que BERT-base, Chinese original de Google. La versión de Pytorch contiene archivos pytorch_model.bin , bert_config.json y vocab.txt .

Carga rápida

Usar Huggingface-Transformers

Confiando en la biblioteca de los transformadores, los modelos anteriores se pueden llamar fácilmente.

 tokenizer = BertTokenizer.from_pretrained("MODEL_NAME")
model = BertModel.from_pretrained("MODEL_NAME")

Nota: Todos los modelos en este directorio se cargan con BertTokenizer y Bertmodel. ¡No use RobertatOkenizer/RobertAmodel!

La lista correspondiente de MODEL_NAME es la siguiente:

Nombre del modelo	Model_name
Roberta-wwm-ext-large	HFL/chino-roBerta-wwm-ext-large
Roberta-wwm-ext	HFL/China-Roberta-WWM-EXT
Bert-wwm-ext	HFL/chino-bert-wwm-ext
Bert-wwm	HFL/chino-bert-wwm
RBT3	HFL/RBT3
Rbtl3	hfl/rbtl3

Usando PaddleHub

Confiando en Paddlehub, puede descargar e instalar el modelo con solo una línea de código, y más de diez líneas de código pueden completar tareas como clasificación de texto, anotación de secuencia, comprensión de lectura, etc.

 import paddlehub as hub
module = hub.Module(name=MODULE_NAME)

La lista correspondiente de MODULE_NAME es la siguiente:

Nombre del modelo	Módulo_name
Roberta-wwm-ext-large	chino-roBerta-wwm-ext-large
Roberta-wwm-ext	chino-roBerta-wwm-ext
Bert-wwm-ext	chino-bert-wwm-ext
Bert-wwm	chino-bert-wwm
RBT3	RBT3
Rbtl3	rbtl3

Comparación de modelos

El siguiente es un resumen de algunos de los detalles del modelo que todos están más preocupados.

-	Bert ^Google	Bert-wwm	Bert-wwm-ext	Roberta-wwm-ext	Roberta-wwm-ext-large
Enmascaramiento	Obra de palabras	Wwm ^[1]	WWM	WWM	WWM
Tipo	base	base	base	base	Grande
Fuente de datos	Wiki	Wiki	wiki+ext ^[2]	wiki+ext	wiki+ext
Tokens de entrenamiento #	0.4b	0.4b	5.4b	5.4b	5.4b
Dispositivo	TPU POD V2	TPU V3	TPU V3	TPU V3	TPU POD V3-32 ^[3]
Pasos de entrenamiento	?	100k ^max128 +100k ^max512	1M ^Max128 +400k ^max512	1M ^Max512	2M ^Max512
Tamaño por lotes	?	2,560 / 384	2,560 / 384	384	512
Optimizador	Adamw	CORDERO	CORDERO	Adamw	Adamw
Vocabulario	21,128	~ Bert ^[4]	~ Bert	~ Bert	~ Bert
Punto de control de inicio	Init aleatorio	~ Bert	~ Bert	~ Bert	Init aleatorio

[1] wwm = enmascaramiento de palabras enteras
[2] Ext = datos extendidos
[3] TPU POD V3-32 (512G HBM) es equivalente a 4 TPU V3 (128G HBM)
[4] ~BERT significa heredar los atributos del Bert chino original de Google

Efecto del sistema de referencia chino

Para comparar los efectos de referencia, lo probamos en los siguientes conjuntos de datos chinos, incluidas las tareas句子级y篇章级. Para BERT-wwm-ext , RoBERTa-wwm-ext y RoBERTa-wwm-ext-large , no ajustamos aún más la tasa de aprendizaje óptima , pero utilizamos directamente la tasa de aprendizaje óptima de BERT-wwm .

La mejor tarifa de aprendizaje:

Modelo	Bert	Ernie	Bert-wwm*
CMRC 2018	3E-5	8E-5	3E-5
Guarnalda	3E-5	8E-5	3E-5
CJRC	4E-5	8E-5	4E-5
Xnli	3E-5	5E-5	3E-5
Chnsenticorp	2E-5	5E-5	2E-5
LCQMC	2E-5	3E-5	2E-5
BQ Corpus	3E-5	5E-5	3E-5
Tucnews	2E-5	5E-5	2E-5

*Representa todos los modelos de la serie WWM (Bert-WWM, Bert-WWM-EXT, Roberta-WWM-EXT, Roberta-WWM-Ext-Large)

Solo algunos resultados se enumeran a continuación. Consulte nuestro informe técnico para obtener los resultados completos.

CMRC 2018 : Comprensión de lectura de la extracción de fragmentos del capítulo (chino simplificado)
DRCD : Comprensión de lectura de la extracción de fragmentos del capítulo (chino tradicional)
CJRC : Comprensión de lectura legal (chino simplificado)
Xnli : inferencia del lenguaje natural
Chnsenticorp : análisis Senti
LCQMC : coincidencia de pares de oraciones
BQ Corpus : pareja de pares de oraciones
Tucnews : Clasificación de texto a nivel de capítulo

Nota: Para garantizar la confiabilidad de los resultados, para el mismo modelo, ejecutamos 10 veces (diferentes semillas aleatorias) para informar los valores máximos y promedio de rendimiento del modelo (los valores promedio en los soportes). Si no ocurre nada inesperado, el resultado de su operación debe estar en este rango.

En el indicador de evaluación, el valor promedio se representa en los soportes y el valor máximo se representa entre paréntesis externos.

Comprensión de lectura china simplificada: CMRC 2018

El conjunto de datos CMRC 2018 son los datos chinos de comprensión de lectura a máquina publicadas por el Laboratorio Conjunto del Instituto de Tecnología de Harbin. Según una pregunta dada, el sistema necesita extraer fragmentos del capítulo como la respuesta, en la misma forma que el escuadrón. Los indicadores de evaluación son: EM / F1

Modelo	Conjunto de desarrollo	Set de prueba	Conjunto de desafío
Bert	65.5 (64.4) / 84.5 (84.0)	70.0 (68.7) / 87.0 (86.3)	18.6 (17.0) / 43.3 (41.3)
Ernie	65.4 (64.3) / 84.7 (84.2)	69.4 (68.2) / 86.6 (86.1)	19.6 (17.0) / 44.3 (42.8)
Bert-wwm	66.3 (65.0) / 85.6 (84.7)	70.5 (69.1) / 87.4 (86.7)	21.0 (19.3) / 47.0 (43.9)
Bert-wwm-ext	67.1 (65.6) / 85.7 (85.0)	71.4 (70.0) / 87.7 (87.0)	24.0 (20.0) / 47.3 (44.6)
Roberta-wwm-ext	67.4 (66.5) / 87.2 (86.5)	72.6 (71.4) / 89.4 (88.8)	26.2 (24.6) / 51.0 (49.1)
Roberta-wwm-ext-large	68.5 (67.6) / 88.4 (87.9)	74.2 (72.4) / 90.6 (90.0)	31.5 (30.1) / 60.1 (57.5)

Comprensión de lectura tradicional china: DRCD

El conjunto de datos DRCD fue publicado por Delta Research Institute, Taiwán, China. Su forma es la misma que el escuadrón y es un conjunto de datos de comprensión de lectura extraída basado en el chino tradicional. Dado que los caracteres chinos tradicionales se eliminan de Ernie, no se recomienda usar Ernie (o convertirlo en chino simplificado y luego procesarlo) en los datos tradicionales chinos. Los indicadores de evaluación son: EM / F1

Modelo	Conjunto de desarrollo	Set de prueba
Bert	83.1 (82.7) / 89.9 (89.6)	82.2 (81.6) / 89.2 (88.8)
Ernie	73.2 (73.0) / 83.9 (83.8)	71.9 (71.4) / 82.5 (82.3)
Bert-wwm	84.3 (83.4) / 90.5 (90.2)	82.8 (81.8) / 89.7 (89.0)
Bert-wwm-ext	85.0 (84.5) / 91.2 (90.9)	83.6 (83.0) / 90.4 (89.9)
Roberta-wwm-ext	86.6 (85.9) / 92.5 (92.2)	85.6 (85.2) / 92.0 (91.7)
Roberta-wwm-ext-large	89.6 (89.1) / 94.8 (94.4)	89.6 (88.9) / 94.5 (94.1)

Comprensión de lectura judicial: CJRC

El conjunto de datos CJRC son los datos chinos de comprensión de lectura máquina para el campo judicial publicado por el Laboratorio Conjunto de Iflytek. Cabe señalar que los datos utilizados en el experimento no son los datos finales publicados por el funcionario, y los resultados son solo de referencia. Los indicadores de evaluación son: EM / F1

Modelo	Conjunto de desarrollo	Set de prueba
Bert	54.6 (54.0) / 75.4 (74.5)	55.1 (54.1) / 75.2 (74.3)
Ernie	54.3 (53.9) / 75.3 (74.6)	55.0 (53.9) / 75.0 (73.9)
Bert-wwm	54.7 (54.0) / 75.2 (74.8)	55.1 (54.1) / 75.4 (74.4)
Bert-wwm-ext	55.6 (54.8) / 76.0 (75.3)	55.6 (54.9) / 75.8 (75.0)
Roberta-wwm-ext	58.7 (57.6) / 79.1 (78.3)	59.0 (57.8) / 79.0 (78.0)
Roberta-wwm-ext-large	62.1 (61.1) / 82.4 (81.6)	62.4 (61.4) / 82.2 (81.0)

Inferencia del lenguaje natural: xnli

En la tarea de inferencia del lenguaje natural, adoptamos datos XNLI , que requieren que el texto se divide en tres categorías: entailment , neutral y contradictory . El indicador de evaluación es: precisión

Modelo	Conjunto de desarrollo	Set de prueba
Bert	77.8 (77.4)	77.8 (77.5)
Ernie	79.7 (79.4)	78.6 (78.2)
Bert-wwm	79.0 (78.4)	78.2 (78.0)
Bert-wwm-ext	79.4 (78.6)	78.7 (78.3)
Roberta-wwm-ext	80.0 (79.2)	78.8 (78.3)
Roberta-wwm-ext-large	82.1 (81.3)	81.2 (80.6)

Senticorp

En la tarea de análisis de sentimientos, el conjunto de datos de clasificación de emoción binaria Chnsenticorp. El indicador de evaluación es: precisión

Modelo	Conjunto de desarrollo	Set de prueba
Bert	94.7 (94.3)	95.0 (94.7)
Ernie	95.4 (94.8)	95.4 (95.3)
Bert-wwm	95.1 (94.5)	95.4 (95.0)
Bert-wwm-ext	95.4 (94.6)	95.3 (94.7)
Roberta-wwm-ext	95.0 (94.6)	95.6 (94.8)
Roberta-wwm-ext-large	95.8 (94.9)	95.8 (94.9)

Clasificación del par de oraciones: LCQMC, BQ Corpus

Los siguientes dos conjuntos de datos deben clasificar un par de oraciones para determinar si la semántica de las dos oraciones es la misma (tarea de clasificación binaria).

LCQMC

LCQMC fue publicado por el Centro de Investigación de Computación Inteligente del Instituto Harbin de Tecnología Shenzhen Graduate School. El indicador de evaluación es: precisión

Modelo	Conjunto de desarrollo	Set de prueba
Bert	89.4 (88.4)	86.9 (86.4)
Ernie	89.8 (89.6)	87.2 (87.0)
Bert-wwm	89.4 (89.2)	87.0 (86.8)
Bert-wwm-ext	89.6 (89.2)	87.1 (86.6)
Roberta-wwm-ext	89.0 (88.7)	86.4 (86.1)
Roberta-wwm-ext-large	90.4 (90.0)	87.0 (86.8)

BQ Corpus

BQ Corpus es publicado por el Centro de Investigación de Computación Inteligente del Instituto Harbin de Tecnología Shenzhen Graduate School y es un conjunto de datos para el campo bancario. El indicador de evaluación es: precisión

Modelo	Conjunto de desarrollo	Set de prueba
Bert	86.0 (85.5)	84.8 (84.6)
Ernie	86.3 (85.5)	85.0 (84.6)
Bert-wwm	86.1 (85.6)	85.2 (84.9)
Bert-wwm-ext	86.4 (85.5)	85.3 (84.8)
Roberta-wwm-ext	86.0 (85.4)	85.0 (84.6)
Roberta-wwm-ext-large	86.3 (85.7)	85.8 (84.9)

Clasificación de texto a nivel de capítulo: Tucnews

Para las tareas de clasificación de texto a nivel de capítulo, seleccionamos a Thucnews, un conjunto de datos de noticias publicado por el Laboratorio de Procesamiento de Lenguas Naturales de la Universidad de Tsinghua. Estamos tomando uno de los subconjuntos y necesitamos dividir las noticias en una de las 10 categorías. El indicador de evaluación es: precisión

Modelo	Conjunto de desarrollo	Set de prueba
Bert	97.7 (97.4)	97.8 (97.6)
Ernie	97.6 (97.3)	97.5 (97.3)
Bert-wwm	98.0 (97.6)	97.8 (97.6)
Bert-wwm-ext	97.7 (97.5)	97.7 (97.5)
Roberta-wwm-ext	98.3 (97.9)	97.7 (97.5)
Roberta-wwm-ext-large	98.3 (97.7)	97.8 (97.6)

Modelo de cantidad de parámetros pequeños

Los siguientes son los resultados experimentales en varias tareas de PNL, y solo la comparación de los resultados del conjunto de pruebas se proporciona en la tabla.

Modelo	CMRC 2018	Guarnalda	Xnli	CSC	LCQMC	Bq	promedio	Cantidad de parámetros
Roberta-wwm-ext-large	74.2 / 90.6	89.6 / 94.5	81.2	95.8	87.0	85.8	87.335	325m
Roberta-wwm-ext	72.6 / 89.4	85.6 / 92.0	78.8	95.6	86.4	85.0	85.675	102m
Rbtl3	63.3 / 83.4	77.2 / 85.6	74.0	94.2	85.1	83.6	80.800	61m (59.8%)
RBT3	62.2 / 81.8	75.0 / 83.9	72.3	92.8	85.1	83.3	79.550	38m (37.3%)

Comparación de efectos relativos:

Modelo	CMRC 2018	Guarnalda	Xnli	CSC	LCQMC	Bq	promedio	Promedio de clasificación
Roberta-wwm-ext-large	102.2% / 101.3%	104.7% / 102.7%	103.0%	100.2%	100.7%	100.9%	101.9%	101.2%
Roberta-wwm-ext	100% / 100%	100% / 100%	100%	100%	100%	100%	100%	100%
Rbtl3	87.2% / 93.3%	90.2% / 93.0%	93.9%	98.5%	98.5%	98.4%	94.3%	97.35%
RBT3	85.7% / 91.5%	87.6% / 91.2%	91.8%	97.1%	98.5%	98.0%	92.9%	96.35%

La cantidad de parámetros se calcula en función de la tarea de clasificación XNLI
El porcentaje de parámetros en los soportes se basa en el modelo base original (es decir, Roberta-WWM-EXT)
RBT3: Inicializado por Roberta-WWM-EXT CAPA 3, y continuó entrenando durante 1 m pasos.
RBTL3: Inicializado por la capa 3 de Roberta-WWM-Large, y continuó entrenando durante 1 millones de pasos.
El nombre de RBT se compone de tres iniciales de sílabas de Roberta, y L representa el modelo grande
El uso directo de las primeras tres capas de Roberta-WWM-Ext-Large para la inicialización y el entrenamiento de tareas aguas abajo reducirá significativamente el efecto. Por ejemplo, en CMRC 2018, el conjunto de pruebas solo puede llegar a 42.9/65.3, mientras que RBTL3 puede llegar a 63.3/83.4

Bienvenido al pequeño modelo de entrenamiento pre-entrenado chino con mejores resultados: https://github.com/iflytek/minirbt

Recomendaciones para su uso

La tasa de aprendizaje inicial es un parámetro muy importante (ya sea BERT u otros modelos) y debe ajustarse de acuerdo con la tarea objetivo.
La tasa de aprendizaje óptima de ERNIE es bastante diferente de BERT / BERT-wwm , así que asegúrese de ajustar la tasa de aprendizaje al usar ERNIE (en base a los resultados experimentales anteriores, la tasa de aprendizaje inicial requerida por ERNIE es relativamente alta).
Dado que BERT / BERT-wwm usa datos de Wikipedia para capacitación, son mejores para modelar textos formales; Mientras que ERNIE utiliza datos de red adicionales como Baidu TieBa y Zhi, que tiene ventajas en el modelado de textos informales (como Weibo, etc.).
En tareas de modelado de texto largo, como la comprensión de lectura, la clasificación de documentos, BERT y BERT-wwm tienen mejores resultados.
Si los datos de la tarea de destino son diferentes de los campos del modelo previamente capacitado, realice una capacitación previa en su propio conjunto de datos.
Si desea procesar los datos tradicionales chinos, use BERT o BERT-wwm . Porque encontramos que casi no hay chino tradicional en la lista de vocabulario de ERNIE .

Descargar modelo en inglés

Para facilitar a todos la descarga, traiga el modelo inglés BERT-large (wwm) publicado oficialmente por Google :

BERT-Large, Uncased (Whole Word Masking) : 24 capas, 1024 escondidas, 16 cabezas, 340m parámetros
BERT-Large, Cased (Whole Word Masking) : 24 capas, 1024 escondidas, 16 cabezas, 340m parámetros

Preguntas frecuentes

P: ¿Cómo usar este modelo?
R: Cómo usar el Bert chino lanzado por Google, cómo usar esto. El texto no necesita pasar por la segmentación de palabras, y WWM solo afecta el proceso de pre-entrenamiento y no afecta la entrada de tareas aguas abajo.

P: ¿Se proporciona algún código previo a la capacitación?
R: Desafortunadamente, no puedo proporcionar un código relevante. Puede consultar #10 y #13 para su implementación.

P: ¿Dónde descargar cierto conjunto de datos?
R: Consulte el directorio data . README.md en el directorio de tareas indica la fuente de datos. Para obtener contenido con derechos de autor, busque usted mismo o comuníquese con el autor original para obtener datos.

P: ¿Habrá planes para lanzar un modelo más grande? Por ejemplo, ¿la versión Bert-Large-WWM?
R: Si obtenemos mejores resultados del experimento, consideraremos lanzar una versión más grande.

P: ¡Estás mintiendo! ¿No puede reproducir el resultado?
R: En la tarea posterior, adoptamos el modelo más simple. Por ejemplo, para las tareas de clasificación, usamos directamente run_classifier.py (proporcionado por Google). Si no se puede alcanzar el valor promedio, significa que hay un error en el experimento en sí. Por favor, revise con cuidado. Hay muchos factores aleatorios para el valor más alto, y no podemos garantizar que podamos alcanzar el valor más alto. Otro factor reconocido: la reducción del tamaño del lote reducirá significativamente el efecto experimental. Para más detalles, consulte el tema relevante del directorio Bert y XLNet.

P: ¡Obtendré mejores resultados que tú!
A: Felicitaciones.

P: ¿Cuánto tiempo se tarda en entrenar y qué equipo entró?
R: La capacitación se completó en Google TPU V3 Versión (128G HBM). El entrenamiento Bert-WWM lleva aproximadamente 1,5 días, mientras que Bert-WWM-EXT lleva varias semanas (se usan más datos para iterar más). Cabe señalar que durante la etapa previa al entrenamiento, utilizamos LAMB Optimizer (implementación de la versión TensorFlow). Este optimizador tiene un buen soporte para lotes grandes. Al ajustar las tareas aguas abajo, utilizamos AdamWeightDecayOptimizer predeterminado de Bert.

P: ¿Quién es Ernie?
R: El modelo Ernie en este proyecto se refiere específicamente al Ernie propuesto por Baidu, en lugar del Ernie publicado por la Universidad de Tsinghua en ACL 2019.

P: El efecto de Bert-WWM no es muy bueno en todas las tareas
R: El propósito de este proyecto es proporcionar a los investigadores modelos pre-entrenados diversificados, seleccionando libremente Bert, Ernie o Bert-WWM. Solo proporcionamos datos experimentales, y todavía tenemos que hacer nuestro mejor esfuerzo constante en nuestras propias tareas para sacar conclusiones. Un modelo más, una opción más.

P: ¿Por qué no se prueban algunos conjuntos de datos?
R: Para ser franco, no estoy de humor para encontrar más datos; 2) No tengo que hacerlo; 3) No tengo dinero;

P: Evaluemos brevemente estos modelos
R: Cada uno tiene su propio enfoque y sus propias fortalezas. La investigación y el desarrollo del procesamiento del lenguaje natural chino requieren esfuerzos conjuntos de todas las partes.

P: ¿Cuál es el nombre del próximo modelo previo al petróleo que predice?
A: Tal vez se llama Zoe. Zoe: incrustaciones de disparo cero del modelo de lenguaje

P: ¿Más detalles sobre RoBERTa-wwm-ext ?
R: Integramos las ventajas de Roberta y Bert-WWM para hacer una combinación natural de los dos. La diferencia entre los modelos en este directorio es la siguiente:
1) Use la estrategia WWM para enmascarar en la etapa previa a la capacitación (pero sin enmascaramiento dinámico)
2) simplemente cancele la pérdida de predicción de la oración (NSP)
3) Ya no usa el modo de entrenamiento de max_len = 128 y luego max_len = 512, entrena directamente max_len = 512
4) Extienda los pasos de entrenamiento adecuadamente

Cabe señalar que este modelo no es el modelo Roberta original, sino que es solo un modelo de Bert entrenado en un método de entrenamiento de Roberta similar, a saber, Bert como Roberta. Por lo tanto, al usar tareas aguas abajo y convertir modelos, procesarlos en Bert, en lugar de Roberta.

Cita

Si los recursos o tecnologías en este proyecto son útiles para su trabajo de investigación, consulte el siguiente documento en el documento.

Preferred (Revista Explore): https://ieeexplore.ieee.org/document/9599397

 @journal{cui-etal-2021-pretrain,
  title={Pre-Training with Whole Word Masking for Chinese BERT},
  author={Cui, Yiming and Che, Wanxiang and Liu, Ting and Qin, Bing and Yang, Ziqing},
  journal={IEEE Transactions on Audio, Speech and Language Processing},
  year={2021},
  url={https://ieeexplore.ieee.org/document/9599397},
  doi={10.1109/TASLP.2021.3124365},
 }

O (versión de la conferencia): https://www.aclweb.org/anthology/2020.findings-emnlp.58

 @inproceedings{cui-etal-2020-revisiting,
    title = "Revisiting Pre-Trained Models for {C}hinese Natural Language Processing",
    author = "Cui, Yiming  and
      Che, Wanxiang  and
      Liu, Ting  and
      Qin, Bing  and
      Wang, Shijin  and
      Hu, Guoping",
    booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: Findings",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.findings-emnlp.58",
    pages = "657--668",
}

Expresiones de gratitud

El primer autor está parcialmente financiado por el programa TPU Research Cloud de Google .

Descargo de responsabilidad

Este proyecto no es el modelo chino Bert-WWM publicado oficialmente por Google. Al mismo tiempo, este proyecto no es un producto oficial del Harbin Institute of Technology o Iflytek. Los resultados experimentales presentados en el informe técnico solo muestran que el rendimiento bajo un conjunto de datos específico y la combinación de hiperparameter no representa la naturaleza de cada modelo. Los resultados experimentales pueden cambiar debido a semillas de números aleatorios y dispositivos de computación. El contenido en este proyecto es solo para referencia de investigación técnica y no se utiliza como base final. Los usuarios pueden usar el modelo en cualquier momento dentro del alcance de la licencia, pero no somos responsables de las pérdidas directas o indirectas causadas por el uso del contenido del proyecto.