En nettoyant la partie chinoise de la rampe commune, nous avons finalement obtenu 100 Go de corpus pré-entraîné chinois de haute qualité. Les modèles produits par l'expérience sont présentés dans: des modèles chinois pré-formés de haute qualité, des modèles grands, ultra-petit et de similitude pré-formés.
Pour plus de détails, veuillez consulter notre rapport technique https://arxiv.org/pdf/2003.01355

Les statistiques du vocabulaire chinois d'origine de Google et le petit vocabulaire que nous avons publié sont les suivants:
| Type de jeton | INDICE | |
|---|---|---|
| Chinois simplifié | 11378 | 5689 |
| Chinois traditionnel | 3264 | ✗ |
| Anglais | 3529 | 1320 |
| japonais | 573 | ✗ |
| coréen | 84 | ✗ |
| Emoji | 56 | ✗ |
| Nombres | 1179 | 140 |
| Jetons spéciaux | 106 | 106 |
| Autres jetons | 959 | 766 |
| Total | 21128 | 8021 |
Comparaison des effets sur la base Bert à l'aide de petits ensembles de données:
| Modèle | Vocab | Données | Mesures | Afqmc | Tnews ' | Iflytek ' | Cmnli | AVG |
|---|---|---|---|---|---|---|---|---|
| Bascule | Wiki (1 Go) | 125k | 69,93% | 54,77% | 57,54% | 75,64% | 64,47% | |
| Bascule | C5 (1 Go) | 125k | 69,63% | 55,72% | 58,87% | 75,75% | 64,99% | |
| Bascule | INDICE | C5 (1 Go) | 125k | 69,00% | 55,04% | 59,07% | 75,84% | 64,74% |
| Bert-base mm | C5 (1 Go) | 125k | 69,57% | 55,17% | 59,69% | 75,86% | 65,07% | |
| Bascule | C5 (1 Go) | 375k | 69,85% | 55,97% | 59,62% | 76,41% | 65,46% | |
| Bascule | INDICE | C5 (1 Go) | 375k | 69,93% | 56,38% | 59,35% | 76,58% | 65,56% |
| Bascule | C5 (3 Go) | 375k | 70,22% | 56,41% | 59,58% | 76,70% | 65,73% | |
| Bascule | INDICE | C5 (3 Go) | 375k | 69,49% | 55,97% | 60,12% | 77,66% | 65,81% |
Pour plus de résultats et d'analyses expérimentales, veuillez vous référer à: CluePredrainedModels
Méthode de l'application: Le but et l'objectif de l'utilisation de la recherche, des plans, des institutions de recherche et des introductions des candidats seront envoyés à l'adresse e-mail, et ont promis de ne pas les fournir à des tiers.
Courriel: [email protected], le titre est: ClueCorpus2020 200G Corpus
Il peut être utilisé pour la modélisation du langage, les tâches de pré-formation ou de génération, etc. Le volume de données dépasse 14 g, près de 4 000 fichiers TXT bien définis et 5 milliards de mots. La partie principale vient du projet NLP_Chinese_Corpus
Le corpus actuel est traité au [format de pré-formation] et contient plusieurs dossiers; Chaque dossier dispose de nombreux petits fichiers de la taille pas plus de 4 m, et le format de fichier répond au format de pré-formation: une ligne par phrase, séparée par des lignes vides entre les documents.
Contient le sous-corpus suivant (corpus 14G au total):
1. News Corpus News2016ZH_CORPUS: 8G Corpus, divisé en deux parties supérieures et inférieures, avec un total de 2 000 petits fichiers. Mot de passe: mzlk
2. Mot de passe: QVLQ
3. Wikipedia-corpus wiki2019zh_corpus: environ 1,1 g de texte, contenant environ 300 petits fichiers. Mot de passe: xv7e
4. Données de commentaire - Corpus Commentaires2019ZH_CORPUS: texte autour de 2,3 g, un total de 784 petits fichiers, dont 547 commentaires et 227 commentaires Amazon, fusionnent plusieurs données de commentaires à partir de Chinesenlpcorpus, nettoyer, convertir les formats et se diviser en petits fichiers. Mot de passe: GC3M
Vous pouvez soumettre un problème et rejoindre le groupe de discussion (QQ: 836811304)
Ou envoyez un e-mail à [email protected]
Recherche soutenue avec les TPU cloud à partir du cloud de recherche Tensorflow de Google (TFRC)
@article{CLUECorpus2020,
title={CLUECorpus2020: A Large-scale Chinese Corpus for Pre-training Language Model},
author={Liang Xu and Xuanwei Zhang and Qianqian Dong},
journal={ArXiv},
year={2020},
volume={abs/2003.01355}
}
L'indice est une organisation open source dédiée au traitement chinois du langage naturel. Si vous pensez que notre travail est utile à votre étude ou à votre entreprise, vous espérez obtenir votre parrainage afin que nous puissions vous fournir un travail open source plus utile à l'avenir. Faisons de notre mieux pour le développement et les progrès du traitement chinois du langage naturel ~
Veuillez noter l'organisation et le nom des donateurs, merci beaucoup!
| Alipay | |
|---|---|
![]() | ![]() |