Al limpiar la parte china de Common Crawl, finalmente obtuvimos 100 GB de corpus pre-entrenado chino de alta calidad. Los modelos producidos por el experimento se muestran en: modelos chinos pre-entrenados de alta calidad, modelos grandes, ultra pequeños y de similitud previamente capacitados.
Para obtener más detalles, consulte nuestro informe técnico https://arxiv.org/pdf/2003.01355

Las estadísticas del vocabulario chino original de Google y el pequeño vocabulario que publicamos son las siguientes:
| Tipo de token | CLAVE | |
|---|---|---|
| Chino simplificado | 11378 | 5689 |
| Chino tradicional | 3264 | ✗ |
| Inglés | 3529 | 1320 |
| japonés | 573 | ✗ |
| coreano | 84 | ✗ |
| Emoji | 56 | ✗ |
| Números | 1179 | 140 |
| Tokens especiales | 106 | 106 |
| Otras fichas | 959 | 766 |
| Total | 21128 | 8021 |
Comparación de los efectos sobre Bert-Base utilizando pequeños conjuntos de datos:
| Modelo | Vocabulario | Datos | Pasos | AFQMC | TNews ' | Iflytek ' | Cmnli | Aviso |
|---|---|---|---|---|---|---|---|---|
| Base | Wiki (1 GB) | 125k | 69.93% | 54.77% | 57.54% | 75.64% | 64.47% | |
| Base | C5 (1 GB) | 125k | 69.63% | 55.72% | 58.87% | 75.75% | 64.99% | |
| Base | CLAVE | C5 (1 GB) | 125k | 69.00% | 55.04% | 59.07% | 75.84% | 64.74% |
| Bert-base mm | C5 (1 GB) | 125k | 69.57% | 55.17% | 59.69% | 75.86% | 65.07% | |
| Base | C5 (1 GB) | 375k | 69.85% | 55.97% | 59.62% | 76.41% | 65.46% | |
| Base | CLAVE | C5 (1 GB) | 375k | 69.93% | 56.38% | 59.35% | 76.58% | 65.56% |
| Base | C5 (3 GB) | 375k | 70.22% | 56.41% | 59.58% | 76.70% | 65.73% | |
| Base | CLAVE | C5 (3 GB) | 375k | 69.49% | 55.97% | 60.12% | 77.66% | 65.81% |
Para obtener más resultados y análisis experimentales, consulte: cluePretRainedModels
Método de aplicación: el propósito y el propósito de utilizar la investigación de corpus, los planes, las instituciones de investigación y las presentaciones de los solicitantes se enviarán a la dirección de correo electrónico y se prometirá que no la proporcionará a terceros.
Correo electrónico: [email protected], el título es: CLUECORPUS2020 200G Corpus
Se puede utilizar para el modelado de lenguaje, la capacitación previa o las tareas generativas, etc. El volumen de datos excede los 14 g, casi 4,000 archivos TXT bien definidos y 5 mil millones de palabras. La parte principal proviene del proyecto nlp_chinese_corpus
El corpus actual se procesa en [formato de pre-entrenamiento] y contiene múltiples carpetas; Cada carpeta tiene muchos archivos pequeños de no más de 4 m de tamaño, y el formato de archivo cumple con el formato previo a la capacitación: una línea por oración, separada por líneas en blanco entre documentos.
Contiene el siguiente sub-Corpus (14G Corpus en total):
1. News Corpus News2016ZH_Corpus: 8G Corpus, dividido en dos partes superior e inferior, con un total de 2,000 archivos pequeños. Contraseña: MZLK
2. Interacción comunitaria-Corpus WebText2019ZH_Corpus: Corpus 3G, que contiene texto 3G y un total de más de 900 archivos pequeños. Contraseña: QVLQ
3. Wikipedia-Corpus Wiki2019zh_corpus: aproximadamente 1.1g de texto, que contiene alrededor de 300 archivos pequeños. Contraseña: XV7E
4. Datos de comentarios - Comentarios de Corpus2019ZH_Corpus: texto alrededor de 2.3G, un total de 784 archivos pequeños, incluidos 547 comentarios y 227 comentarios de Amazon, fusionan múltiples datos de comentarios de Chinesenlpcorpus, limpieza, formatos de conversión y divididos en archivos pequeños. Contraseña: GC3M
Puede enviar un problema y unirse al grupo de discusión (QQ: 836811304)
O envíe un correo electrónico a [email protected]
Investigación apoyada con TPUS de Cloud de la Cloud de Investigación TensorFlow (TFRC) de Google de Google de Google de Google de Google de Google
@article{CLUECorpus2020,
title={CLUECorpus2020: A Large-scale Chinese Corpus for Pre-training Language Model},
author={Liang Xu and Xuanwei Zhang and Qianqian Dong},
journal={ArXiv},
year={2020},
volume={abs/2003.01355}
}
Clue es una organización de código abierto dedicada al procesamiento de lenguaje natural chino. Si cree que nuestro trabajo es útil para su estudio o negocio, espera obtener su patrocinio para que podamos proporcionarle un trabajo de código abierto más útil en el futuro. Hagamos todo lo posible para el desarrollo y el progreso del procesamiento del lenguaje natural chino ~
Tenga en cuenta la organización y el nombre de los donantes, ¡muchas gracias!
| Alipay | Veloz |
|---|---|
![]() | ![]() |