Descripción china | Inglés

En el campo del procesamiento del lenguaje natural, los modelos de lenguaje previamente capacitados (modelos de lenguaje previamente capacitados) se han convertido en una tecnología básica muy importante. Para promover aún más la investigación y el desarrollo del procesamiento de la información china, lanzamos el modelo chino pre-entrenado Bert-WWM basado en tecnología de enmascaramiento de palabras enteras, así como modelos estrechamente relacionados con esta tecnología: Bert-WWM-Ext, Roberta-WWM-Ext, Roberta-WWM-Ext-Large, RBT3, RBTL3, etc.
Este proyecto se basa en el Bert oficial de Google: https://github.com/google-research/bert
Lert chino | Inglés chino Pert | Macbert chino | Electra chino | Chino xlnet | Bert chino | Herramienta de destilación de conocimiento TextBrewer | Herramienta de corte de modelos Pruner de texto
Ver más recursos publicados por IFL del Harbin Institute of Technology (HFL): https://github.com/ymcui/hfl-anthology
2023/3/28 Open Source chino Llama y Alpaca Big Model, que se puede implementar y experimentar rápidamente en PC, Ver: https://github.com/ymcui/chinese-llama-alpaca
2023/3/9 Proponemos un modelo multimodal VLE en gráficos y texto, Ver: https://github.com/iflytek/vle
2022/11/15 Proponemos el pequeño modelo pre-entrenado chino minirbt. Ver: https://github.com/iflytek/minirbt
2022/10/29 Proponemos un modelo de modelo previamente capacitado que integra información lingüística. Ver: https://github.com/ymcui/lert
2022/3/30 Open Source Un nuevo modelo previamente capacitado PERT. Ver: https://github.com/ymcui/pert
2021/10/24 Laboratorio Conjunto de Iflytek liberó un modelo Cino previamente capacitado para idiomas minoritarios étnicos. Ver: https://github.com/ymcui/chinese-minority-plm
2021/7/21 "Procesamiento del lenguaje natural: métodos basados en modelos de pre-entrenamiento" escritos por muchos académicos del Harbin Institute of Technology Scir, y todos pueden comprarlo.
2021/1/27 Todos los modelos han admitido TensorFlow 2, llamándolo o descargándolo a través de la Biblioteca Transformers. https://huggingface.co/hfl
2020/9/15 Nuestro documento "Revisando modelos previamente capacitados para el procesamiento del lenguaje natural chino" fue contratado como un artículo largo por hallazgos de EMNLP.
2020/8/27 El laboratorio conjunto IFL encabezó la lista en la evaluación de comprensión del lenguaje natural del pegamento general, consulte la lista de pegamento, noticias.
2020/3/23 El modelo lanzado en este directorio se ha conectado a Paddlepaddlehub para ver la carga rápida
2020/3/11 Para comprender mejor las necesidades, está invitado a completar el cuestionario para proporcionarle mejores recursos.
2020/2/26 Iflytek Laboratorio conjunto Liberación de la herramienta de destilación de conocimiento TextBrewer
2020/1/20 les deseo buena suerte en el año de la rata. Esta vez, RBT3 y RBTL3 (3 capas Roberta-WWM-EXT/grande) fueron liberados para ver el modelo de cantidad de parámetros pequeños.
2019/12/19 El modelo publicado en este directorio se ha conectado a Huggingface-Transformers para ver la carga rápida
2019/10/14 Lanzamiento El modelo Roberta-WWM-Ext-Large, vea la descarga del modelo chino
2019/9/10 Lanza el modelo Roberta-WWM-EXT y ver la descarga del modelo chino
2019/7/30 proporciona el modelo chino BERT-wwm-ext capacitado en un corpus general más grande (recuento de palabras 5.4B), ver la descarga del modelo chino
Versión inicial 2019/6/20, el modelo se puede descargar a través de Google, y el disco de nube nacional también se ha cargado. Revise la descarga del modelo chino
| capítulo | describir |
|---|---|
| Introducción | Introducción a los principios básicos de Bert-WWM |
| Descarga del modelo chino | Proporciona la dirección de descarga de Bert-WWM |
| Carga rápida | Cómo usar transformadores y modelos de carga rápidamente de Paddlehub |
| Comparación de modelos | Proporciona una comparación de los parámetros del modelo en este directorio |
| Efecto del sistema de referencia chino | Enumere algunos efectos de los sistemas de referencia chinos |
| Modelo de cantidad de parámetros pequeños | Enumere los efectos del modelo de cantidad de parámetros pequeños (transformador de 3 capas) |
| Recomendaciones para su uso | Se proporcionan varias sugerencias para el uso de modelos pre-capacitados chinos. |
| Descargar modelo en inglés | Dirección oficial de descarga de Bert-WWM en inglés de Google |
| Preguntas frecuentes | Preguntas frecuentes y respuestas |
| Cita | Informes técnicos en este directorio |
Enmascaramiento de palabras enteras (WWM) , traducida temporalmente como全词Mask o整词Mask , es una versión actualizada de Bert lanzada por Google el 31 de mayo de 2019, que cambia principalmente la estrategia de generación de muestras de entrenamiento en la etapa original de pre-entrenamiento. En pocas palabras, el método original de segmentación de palabras basado en la obra de palabras dividirá una palabra completa en varias subasis. Al generar muestras de entrenamiento, estas subvenciones separadas se enmascararán al azar. En全词Mask , si la subvención de una palabra de palabra de una palabra completa está enmascarada, otras partes de la misma palabra están enmascaradas, es decir,全词Mask .
Cabe señalar que la máscara aquí se refiere a la máscara generalizada (reemplazada con [máscara]; mantenga el vocabulario original; reemplazado al azar con otra palabra), y no se limita al caso donde la palabra se reemplaza con la etiqueta [MASK] . Para descripciones y ejemplos más detallados, consulte: #4
Del mismo modo, dado que Google lanzó oficialmente BERT-base, Chinese , el chino se divide por los personajes como granularidad, y no tiene en cuenta el participio chino (CWS) en la PNL tradicional. Aplicamos el método de máscara de palabra completa en chino, usó Wikipedia china (incluido el chino simplificado y tradicional) para la capacitación, y utilizamos Harbin Institute of Technology LTP como una herramienta de segmentación de palabras, es decir, todos los caracteres chinos que conforman la misma palabra están asignados.
El siguiente texto muestra una generación de muestra de全词Mask . Nota: En aras de una fácil comprensión, solo el caso de reemplazar la etiqueta [máscara] se considera en los siguientes ejemplos.
| ilustrar | Muestra |
|---|---|
| Texto original | Use modelos de lenguaje para predecir la probabilidad de la siguiente palabra. |
| Texto del participio de las palabras | Use modelos de lenguaje para predecir la probabilidad de la siguiente palabra. |
| Entrada de máscara original | Use el tipo de idioma [máscara] para probar el pro [máscara] de la siguiente palabra pro [máscara] ## lity. |
| Entrada de máscara de palabra completa | Use el idioma [máscara] [máscara] para [máscara] [máscara] la siguiente palabra [máscara] [máscara]. |
Este directorio contiene principalmente modelos base, por lo que no etiquetamos la palabra base en la abreviatura del modelo. Para modelos de otros tamaños, las etiquetas correspondientes (por ejemplo, grandes) están marcadas.
BERT-large模型: 24 capas, 1024 escondidas, 16 cabezas, 330m parámetrosBERT-base模型: 12 capas, 768 escondidas, 12 cabezas, 110m parámetrosNota: La versión de código abierto no contiene el peso de las tareas MLM; Si necesita realizar tareas de MLM, use datos adicionales para la capacitación secundaria (como otras tareas aguas abajo).
| Abreviatura del modelo | Materiales | Descarga de Google | Descargar Baidu NetDisk |
|---|---|---|---|
RBT6, Chinese | Datos ext [1] | - | TensorFlow (contraseña hniy) |
RBT4, Chinese | Datos ext [1] | - | TensorFlow (contraseña SJPT) |
RBTL3, Chinese | Datos ext [1] | Flujo tensor Pytorch | TensorFlow (contraseña S6CU) |
RBT3, Chinese | Datos ext [1] | Flujo tensor Pytorch | TensorFlow (contraseña 5A57) |
RoBERTa-wwm-ext-large, Chinese | Datos ext [1] | Flujo tensor Pytorch | TensorFlow (contraseña DQQE) |
RoBERTa-wwm-ext, Chinese | Datos ext [1] | Flujo tensor Pytorch | TensorFlow (contraseña VYBQ) |
BERT-wwm-ext, Chinese | Datos ext [1] | Flujo tensor Pytorch | TensorFlow (contraseña WGNT) |
BERT-wwm, Chinese | Wiki chino | Flujo tensor Pytorch | TensorFlow (contraseña QFH8) |
BERT-base, Chinese Google chino | Wiki chino | Google Cloud | - |
BERT-base, Multilingual Cased Google multilingüe en escala | Wiki multilingüe | Google Cloud | - |
BERT-base, Multilingual Uncased Google sin base multilingüe | Wiki multilingüe | Google Cloud | - |
[1] Los datos EXT incluyen: Wikipedia china, otras enciclopedias, noticias, preguntas y respuestas y otros datos, con un número total de palabras que alcanzan 5.4b.
Si necesita la versión de Pytorch,
1) Convívelo usted mismo a través del script de conversión proporcionado por Transformers.
2) o descargue directamente Pytorch a través del sitio web oficial de Huggingface: https://huggingface.co/hfl
Método de descarga: haga clic en cualquier modelo que desee descargar → Seleccione la pestaña "Archivos y versiones" → Descargue el archivo de modelo correspondiente.
Se recomienda utilizar puntos de descarga Baidu NetDisk en China continental, y se recomienda a los usuarios en el extranjero usar puntos de descarga de Google. El tamaño del archivo del modelo base es de aproximadamente 400 m . Tomar la versión TensorFlow de BERT-wwm, Chinese como ejemplo, después de descargar, descomprima el archivo zip para obtener:
chinese_wwm_L-12_H-768_A-12.zip
|- bert_model.ckpt # 模型权重
|- bert_model.meta # 模型meta信息
|- bert_model.index # 模型index信息
|- bert_config.json # 模型参数
|- vocab.txt # 词表
Entre ellos, bert_config.json y vocab.txt son exactamente lo mismo que BERT-base, Chinese original de Google. La versión de Pytorch contiene archivos pytorch_model.bin , bert_config.json y vocab.txt .
Confiando en la biblioteca de los transformadores, los modelos anteriores se pueden llamar fácilmente.
tokenizer = BertTokenizer.from_pretrained("MODEL_NAME")
model = BertModel.from_pretrained("MODEL_NAME")
Nota: Todos los modelos en este directorio se cargan con BertTokenizer y Bertmodel. ¡No use RobertatOkenizer/RobertAmodel!
La lista correspondiente de MODEL_NAME es la siguiente:
| Nombre del modelo | Model_name |
|---|---|
| Roberta-wwm-ext-large | HFL/chino-roBerta-wwm-ext-large |
| Roberta-wwm-ext | HFL/China-Roberta-WWM-EXT |
| Bert-wwm-ext | HFL/chino-bert-wwm-ext |
| Bert-wwm | HFL/chino-bert-wwm |
| RBT3 | HFL/RBT3 |
| Rbtl3 | hfl/rbtl3 |
Confiando en Paddlehub, puede descargar e instalar el modelo con solo una línea de código, y más de diez líneas de código pueden completar tareas como clasificación de texto, anotación de secuencia, comprensión de lectura, etc.
import paddlehub as hub
module = hub.Module(name=MODULE_NAME)
La lista correspondiente de MODULE_NAME es la siguiente:
| Nombre del modelo | Módulo_name |
|---|---|
| Roberta-wwm-ext-large | chino-roBerta-wwm-ext-large |
| Roberta-wwm-ext | chino-roBerta-wwm-ext |
| Bert-wwm-ext | chino-bert-wwm-ext |
| Bert-wwm | chino-bert-wwm |
| RBT3 | RBT3 |
| Rbtl3 | rbtl3 |
El siguiente es un resumen de algunos de los detalles del modelo que todos están más preocupados.
| - | Bert Google | Bert-wwm | Bert-wwm-ext | Roberta-wwm-ext | Roberta-wwm-ext-large |
|---|---|---|---|---|---|
| Enmascaramiento | Obra de palabras | Wwm [1] | WWM | WWM | WWM |
| Tipo | base | base | base | base | Grande |
| Fuente de datos | Wiki | Wiki | wiki+ext [2] | wiki+ext | wiki+ext |
| Tokens de entrenamiento # | 0.4b | 0.4b | 5.4b | 5.4b | 5.4b |
| Dispositivo | TPU POD V2 | TPU V3 | TPU V3 | TPU V3 | TPU POD V3-32 [3] |
| Pasos de entrenamiento | ? | 100k max128 +100k max512 | 1M Max128 +400k max512 | 1M Max512 | 2M Max512 |
| Tamaño por lotes | ? | 2,560 / 384 | 2,560 / 384 | 384 | 512 |
| Optimizador | Adamw | CORDERO | CORDERO | Adamw | Adamw |
| Vocabulario | 21,128 | ~ Bert [4] | ~ Bert | ~ Bert | ~ Bert |
| Punto de control de inicio | Init aleatorio | ~ Bert | ~ Bert | ~ Bert | Init aleatorio |
[1] wwm = enmascaramiento de palabras enteras
[2] Ext = datos extendidos
[3] TPU POD V3-32 (512G HBM) es equivalente a 4 TPU V3 (128G HBM)
[4]~BERTsignifica heredar los atributos del Bert chino original de Google
Para comparar los efectos de referencia, lo probamos en los siguientes conjuntos de datos chinos, incluidas las tareas句子级y篇章级. Para BERT-wwm-ext , RoBERTa-wwm-ext y RoBERTa-wwm-ext-large , no ajustamos aún más la tasa de aprendizaje óptima , pero utilizamos directamente la tasa de aprendizaje óptima de BERT-wwm .
La mejor tarifa de aprendizaje:
| Modelo | Bert | Ernie | Bert-wwm* |
|---|---|---|---|
| CMRC 2018 | 3E-5 | 8E-5 | 3E-5 |
| Guarnalda | 3E-5 | 8E-5 | 3E-5 |
| CJRC | 4E-5 | 8E-5 | 4E-5 |
| Xnli | 3E-5 | 5E-5 | 3E-5 |
| Chnsenticorp | 2E-5 | 5E-5 | 2E-5 |
| LCQMC | 2E-5 | 3E-5 | 2E-5 |
| BQ Corpus | 3E-5 | 5E-5 | 3E-5 |
| Tucnews | 2E-5 | 5E-5 | 2E-5 |
*Representa todos los modelos de la serie WWM (Bert-WWM, Bert-WWM-EXT, Roberta-WWM-EXT, Roberta-WWM-Ext-Large)
Solo algunos resultados se enumeran a continuación. Consulte nuestro informe técnico para obtener los resultados completos.
Nota: Para garantizar la confiabilidad de los resultados, para el mismo modelo, ejecutamos 10 veces (diferentes semillas aleatorias) para informar los valores máximos y promedio de rendimiento del modelo (los valores promedio en los soportes). Si no ocurre nada inesperado, el resultado de su operación debe estar en este rango.
En el indicador de evaluación, el valor promedio se representa en los soportes y el valor máximo se representa entre paréntesis externos.
El conjunto de datos CMRC 2018 son los datos chinos de comprensión de lectura a máquina publicadas por el Laboratorio Conjunto del Instituto de Tecnología de Harbin. Según una pregunta dada, el sistema necesita extraer fragmentos del capítulo como la respuesta, en la misma forma que el escuadrón. Los indicadores de evaluación son: EM / F1
| Modelo | Conjunto de desarrollo | Set de prueba | Conjunto de desafío |
|---|---|---|---|
| Bert | 65.5 (64.4) / 84.5 (84.0) | 70.0 (68.7) / 87.0 (86.3) | 18.6 (17.0) / 43.3 (41.3) |
| Ernie | 65.4 (64.3) / 84.7 (84.2) | 69.4 (68.2) / 86.6 (86.1) | 19.6 (17.0) / 44.3 (42.8) |
| Bert-wwm | 66.3 (65.0) / 85.6 (84.7) | 70.5 (69.1) / 87.4 (86.7) | 21.0 (19.3) / 47.0 (43.9) |
| Bert-wwm-ext | 67.1 (65.6) / 85.7 (85.0) | 71.4 (70.0) / 87.7 (87.0) | 24.0 (20.0) / 47.3 (44.6) |
| Roberta-wwm-ext | 67.4 (66.5) / 87.2 (86.5) | 72.6 (71.4) / 89.4 (88.8) | 26.2 (24.6) / 51.0 (49.1) |
| Roberta-wwm-ext-large | 68.5 (67.6) / 88.4 (87.9) | 74.2 (72.4) / 90.6 (90.0) | 31.5 (30.1) / 60.1 (57.5) |
El conjunto de datos DRCD fue publicado por Delta Research Institute, Taiwán, China. Su forma es la misma que el escuadrón y es un conjunto de datos de comprensión de lectura extraída basado en el chino tradicional. Dado que los caracteres chinos tradicionales se eliminan de Ernie, no se recomienda usar Ernie (o convertirlo en chino simplificado y luego procesarlo) en los datos tradicionales chinos. Los indicadores de evaluación son: EM / F1
| Modelo | Conjunto de desarrollo | Set de prueba |
|---|---|---|
| Bert | 83.1 (82.7) / 89.9 (89.6) | 82.2 (81.6) / 89.2 (88.8) |
| Ernie | 73.2 (73.0) / 83.9 (83.8) | 71.9 (71.4) / 82.5 (82.3) |
| Bert-wwm | 84.3 (83.4) / 90.5 (90.2) | 82.8 (81.8) / 89.7 (89.0) |
| Bert-wwm-ext | 85.0 (84.5) / 91.2 (90.9) | 83.6 (83.0) / 90.4 (89.9) |
| Roberta-wwm-ext | 86.6 (85.9) / 92.5 (92.2) | 85.6 (85.2) / 92.0 (91.7) |
| Roberta-wwm-ext-large | 89.6 (89.1) / 94.8 (94.4) | 89.6 (88.9) / 94.5 (94.1) |
El conjunto de datos CJRC son los datos chinos de comprensión de lectura máquina para el campo judicial publicado por el Laboratorio Conjunto de Iflytek. Cabe señalar que los datos utilizados en el experimento no son los datos finales publicados por el funcionario, y los resultados son solo de referencia. Los indicadores de evaluación son: EM / F1
| Modelo | Conjunto de desarrollo | Set de prueba |
|---|---|---|
| Bert | 54.6 (54.0) / 75.4 (74.5) | 55.1 (54.1) / 75.2 (74.3) |
| Ernie | 54.3 (53.9) / 75.3 (74.6) | 55.0 (53.9) / 75.0 (73.9) |
| Bert-wwm | 54.7 (54.0) / 75.2 (74.8) | 55.1 (54.1) / 75.4 (74.4) |
| Bert-wwm-ext | 55.6 (54.8) / 76.0 (75.3) | 55.6 (54.9) / 75.8 (75.0) |
| Roberta-wwm-ext | 58.7 (57.6) / 79.1 (78.3) | 59.0 (57.8) / 79.0 (78.0) |
| Roberta-wwm-ext-large | 62.1 (61.1) / 82.4 (81.6) | 62.4 (61.4) / 82.2 (81.0) |
En la tarea de inferencia del lenguaje natural, adoptamos datos XNLI , que requieren que el texto se divide en tres categorías: entailment , neutral y contradictory . El indicador de evaluación es: precisión
| Modelo | Conjunto de desarrollo | Set de prueba |
|---|---|---|
| Bert | 77.8 (77.4) | 77.8 (77.5) |
| Ernie | 79.7 (79.4) | 78.6 (78.2) |
| Bert-wwm | 79.0 (78.4) | 78.2 (78.0) |
| Bert-wwm-ext | 79.4 (78.6) | 78.7 (78.3) |
| Roberta-wwm-ext | 80.0 (79.2) | 78.8 (78.3) |
| Roberta-wwm-ext-large | 82.1 (81.3) | 81.2 (80.6) |
En la tarea de análisis de sentimientos, el conjunto de datos de clasificación de emoción binaria Chnsenticorp. El indicador de evaluación es: precisión
| Modelo | Conjunto de desarrollo | Set de prueba |
|---|---|---|
| Bert | 94.7 (94.3) | 95.0 (94.7) |
| Ernie | 95.4 (94.8) | 95.4 (95.3) |
| Bert-wwm | 95.1 (94.5) | 95.4 (95.0) |
| Bert-wwm-ext | 95.4 (94.6) | 95.3 (94.7) |
| Roberta-wwm-ext | 95.0 (94.6) | 95.6 (94.8) |
| Roberta-wwm-ext-large | 95.8 (94.9) | 95.8 (94.9) |
Los siguientes dos conjuntos de datos deben clasificar un par de oraciones para determinar si la semántica de las dos oraciones es la misma (tarea de clasificación binaria).
LCQMC fue publicado por el Centro de Investigación de Computación Inteligente del Instituto Harbin de Tecnología Shenzhen Graduate School. El indicador de evaluación es: precisión
| Modelo | Conjunto de desarrollo | Set de prueba |
|---|---|---|
| Bert | 89.4 (88.4) | 86.9 (86.4) |
| Ernie | 89.8 (89.6) | 87.2 (87.0) |
| Bert-wwm | 89.4 (89.2) | 87.0 (86.8) |
| Bert-wwm-ext | 89.6 (89.2) | 87.1 (86.6) |
| Roberta-wwm-ext | 89.0 (88.7) | 86.4 (86.1) |
| Roberta-wwm-ext-large | 90.4 (90.0) | 87.0 (86.8) |
BQ Corpus es publicado por el Centro de Investigación de Computación Inteligente del Instituto Harbin de Tecnología Shenzhen Graduate School y es un conjunto de datos para el campo bancario. El indicador de evaluación es: precisión
| Modelo | Conjunto de desarrollo | Set de prueba |
|---|---|---|
| Bert | 86.0 (85.5) | 84.8 (84.6) |
| Ernie | 86.3 (85.5) | 85.0 (84.6) |
| Bert-wwm | 86.1 (85.6) | 85.2 (84.9) |
| Bert-wwm-ext | 86.4 (85.5) | 85.3 (84.8) |
| Roberta-wwm-ext | 86.0 (85.4) | 85.0 (84.6) |
| Roberta-wwm-ext-large | 86.3 (85.7) | 85.8 (84.9) |
Para las tareas de clasificación de texto a nivel de capítulo, seleccionamos a Thucnews, un conjunto de datos de noticias publicado por el Laboratorio de Procesamiento de Lenguas Naturales de la Universidad de Tsinghua. Estamos tomando uno de los subconjuntos y necesitamos dividir las noticias en una de las 10 categorías. El indicador de evaluación es: precisión
| Modelo | Conjunto de desarrollo | Set de prueba |
|---|---|---|
| Bert | 97.7 (97.4) | 97.8 (97.6) |
| Ernie | 97.6 (97.3) | 97.5 (97.3) |
| Bert-wwm | 98.0 (97.6) | 97.8 (97.6) |
| Bert-wwm-ext | 97.7 (97.5) | 97.7 (97.5) |
| Roberta-wwm-ext | 98.3 (97.9) | 97.7 (97.5) |
| Roberta-wwm-ext-large | 98.3 (97.7) | 97.8 (97.6) |
Los siguientes son los resultados experimentales en varias tareas de PNL, y solo la comparación de los resultados del conjunto de pruebas se proporciona en la tabla.
| Modelo | CMRC 2018 | Guarnalda | Xnli | CSC | LCQMC | Bq | promedio | Cantidad de parámetros |
|---|---|---|---|---|---|---|---|---|
| Roberta-wwm-ext-large | 74.2 / 90.6 | 89.6 / 94.5 | 81.2 | 95.8 | 87.0 | 85.8 | 87.335 | 325m |
| Roberta-wwm-ext | 72.6 / 89.4 | 85.6 / 92.0 | 78.8 | 95.6 | 86.4 | 85.0 | 85.675 | 102m |
| Rbtl3 | 63.3 / 83.4 | 77.2 / 85.6 | 74.0 | 94.2 | 85.1 | 83.6 | 80.800 | 61m (59.8%) |
| RBT3 | 62.2 / 81.8 | 75.0 / 83.9 | 72.3 | 92.8 | 85.1 | 83.3 | 79.550 | 38m (37.3%) |
Comparación de efectos relativos:
| Modelo | CMRC 2018 | Guarnalda | Xnli | CSC | LCQMC | Bq | promedio | Promedio de clasificación |
|---|---|---|---|---|---|---|---|---|
| Roberta-wwm-ext-large | 102.2% / 101.3% | 104.7% / 102.7% | 103.0% | 100.2% | 100.7% | 100.9% | 101.9% | 101.2% |
| Roberta-wwm-ext | 100% / 100% | 100% / 100% | 100% | 100% | 100% | 100% | 100% | 100% |
| Rbtl3 | 87.2% / 93.3% | 90.2% / 93.0% | 93.9% | 98.5% | 98.5% | 98.4% | 94.3% | 97.35% |
| RBT3 | 85.7% / 91.5% | 87.6% / 91.2% | 91.8% | 97.1% | 98.5% | 98.0% | 92.9% | 96.35% |
Bienvenido al pequeño modelo de entrenamiento pre-entrenado chino con mejores resultados: https://github.com/iflytek/minirbt
BERT u otros modelos) y debe ajustarse de acuerdo con la tarea objetivo.ERNIE es bastante diferente de BERT / BERT-wwm , así que asegúrese de ajustar la tasa de aprendizaje al usar ERNIE (en base a los resultados experimentales anteriores, la tasa de aprendizaje inicial requerida por ERNIE es relativamente alta).BERT / BERT-wwm usa datos de Wikipedia para capacitación, son mejores para modelar textos formales; Mientras que ERNIE utiliza datos de red adicionales como Baidu TieBa y Zhi, que tiene ventajas en el modelado de textos informales (como Weibo, etc.).BERT y BERT-wwm tienen mejores resultados.BERT o BERT-wwm . Porque encontramos que casi no hay chino tradicional en la lista de vocabulario de ERNIE . Para facilitar a todos la descarga, traiga el modelo inglés BERT-large (wwm) publicado oficialmente por Google :
BERT-Large, Uncased (Whole Word Masking) : 24 capas, 1024 escondidas, 16 cabezas, 340m parámetros
BERT-Large, Cased (Whole Word Masking) : 24 capas, 1024 escondidas, 16 cabezas, 340m parámetros
P: ¿Cómo usar este modelo?
R: Cómo usar el Bert chino lanzado por Google, cómo usar esto. El texto no necesita pasar por la segmentación de palabras, y WWM solo afecta el proceso de pre-entrenamiento y no afecta la entrada de tareas aguas abajo.
P: ¿Se proporciona algún código previo a la capacitación?
R: Desafortunadamente, no puedo proporcionar un código relevante. Puede consultar #10 y #13 para su implementación.
P: ¿Dónde descargar cierto conjunto de datos?
R: Consulte el directorio data . README.md en el directorio de tareas indica la fuente de datos. Para obtener contenido con derechos de autor, busque usted mismo o comuníquese con el autor original para obtener datos.
P: ¿Habrá planes para lanzar un modelo más grande? Por ejemplo, ¿la versión Bert-Large-WWM?
R: Si obtenemos mejores resultados del experimento, consideraremos lanzar una versión más grande.
P: ¡Estás mintiendo! ¿No puede reproducir el resultado?
R: En la tarea posterior, adoptamos el modelo más simple. Por ejemplo, para las tareas de clasificación, usamos directamente run_classifier.py (proporcionado por Google). Si no se puede alcanzar el valor promedio, significa que hay un error en el experimento en sí. Por favor, revise con cuidado. Hay muchos factores aleatorios para el valor más alto, y no podemos garantizar que podamos alcanzar el valor más alto. Otro factor reconocido: la reducción del tamaño del lote reducirá significativamente el efecto experimental. Para más detalles, consulte el tema relevante del directorio Bert y XLNet.
P: ¡Obtendré mejores resultados que tú!
A: Felicitaciones.
P: ¿Cuánto tiempo se tarda en entrenar y qué equipo entró?
R: La capacitación se completó en Google TPU V3 Versión (128G HBM). El entrenamiento Bert-WWM lleva aproximadamente 1,5 días, mientras que Bert-WWM-EXT lleva varias semanas (se usan más datos para iterar más). Cabe señalar que durante la etapa previa al entrenamiento, utilizamos LAMB Optimizer (implementación de la versión TensorFlow). Este optimizador tiene un buen soporte para lotes grandes. Al ajustar las tareas aguas abajo, utilizamos AdamWeightDecayOptimizer predeterminado de Bert.
P: ¿Quién es Ernie?
R: El modelo Ernie en este proyecto se refiere específicamente al Ernie propuesto por Baidu, en lugar del Ernie publicado por la Universidad de Tsinghua en ACL 2019.
P: El efecto de Bert-WWM no es muy bueno en todas las tareas
R: El propósito de este proyecto es proporcionar a los investigadores modelos pre-entrenados diversificados, seleccionando libremente Bert, Ernie o Bert-WWM. Solo proporcionamos datos experimentales, y todavía tenemos que hacer nuestro mejor esfuerzo constante en nuestras propias tareas para sacar conclusiones. Un modelo más, una opción más.
P: ¿Por qué no se prueban algunos conjuntos de datos?
R: Para ser franco, no estoy de humor para encontrar más datos; 2) No tengo que hacerlo; 3) No tengo dinero;
P: Evaluemos brevemente estos modelos
R: Cada uno tiene su propio enfoque y sus propias fortalezas. La investigación y el desarrollo del procesamiento del lenguaje natural chino requieren esfuerzos conjuntos de todas las partes.
P: ¿Cuál es el nombre del próximo modelo previo al petróleo que predice?
A: Tal vez se llama Zoe. Zoe: incrustaciones de disparo cero del modelo de lenguaje
P: ¿Más detalles sobre RoBERTa-wwm-ext ?
R: Integramos las ventajas de Roberta y Bert-WWM para hacer una combinación natural de los dos. La diferencia entre los modelos en este directorio es la siguiente:
1) Use la estrategia WWM para enmascarar en la etapa previa a la capacitación (pero sin enmascaramiento dinámico)
2) simplemente cancele la pérdida de predicción de la oración (NSP)
3) Ya no usa el modo de entrenamiento de max_len = 128 y luego max_len = 512, entrena directamente max_len = 512
4) Extienda los pasos de entrenamiento adecuadamente
Cabe señalar que este modelo no es el modelo Roberta original, sino que es solo un modelo de Bert entrenado en un método de entrenamiento de Roberta similar, a saber, Bert como Roberta. Por lo tanto, al usar tareas aguas abajo y convertir modelos, procesarlos en Bert, en lugar de Roberta.
Si los recursos o tecnologías en este proyecto son útiles para su trabajo de investigación, consulte el siguiente documento en el documento.
@journal{cui-etal-2021-pretrain,
title={Pre-Training with Whole Word Masking for Chinese BERT},
author={Cui, Yiming and Che, Wanxiang and Liu, Ting and Qin, Bing and Yang, Ziqing},
journal={IEEE Transactions on Audio, Speech and Language Processing},
year={2021},
url={https://ieeexplore.ieee.org/document/9599397},
doi={10.1109/TASLP.2021.3124365},
}
@inproceedings{cui-etal-2020-revisiting,
title = "Revisiting Pre-Trained Models for {C}hinese Natural Language Processing",
author = "Cui, Yiming and
Che, Wanxiang and
Liu, Ting and
Qin, Bing and
Wang, Shijin and
Hu, Guoping",
booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: Findings",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.findings-emnlp.58",
pages = "657--668",
}
El primer autor está parcialmente financiado por el programa TPU Research Cloud de Google .
Este proyecto no es el modelo chino Bert-WWM publicado oficialmente por Google. Al mismo tiempo, este proyecto no es un producto oficial del Harbin Institute of Technology o Iflytek. Los resultados experimentales presentados en el informe técnico solo muestran que el rendimiento bajo un conjunto de datos específico y la combinación de hiperparameter no representa la naturaleza de cada modelo. Los resultados experimentales pueden cambiar debido a semillas de números aleatorios y dispositivos de computación. El contenido en este proyecto es solo para referencia de investigación técnica y no se utiliza como base final. Los usuarios pueden usar el modelo en cualquier momento dentro del alcance de la licencia, pero no somos responsables de las pérdidas directas o indirectas causadas por el uso del contenido del proyecto.
Bienvenido a seguir la cuenta oficial oficial de WeChat del Laboratorio Conjunto de Iflytek para conocer las últimas tendencias técnicas.

Si tiene alguna pregunta, envíelo en el problema de GitHub.