Durch die Reinigung des chinesischen Teils des gemeinsamen Kriechens erhielten wir schließlich 100 GB hochwertiges chinesisches vorgebildetes Korpus. Die vom Experiment erzeugten Modelle sind in: hochwertige chinesische vorgebreitete Modelle, große, ultra-kleine und Ähnlichkeit vorgebrachte Modelle.
Weitere Informationen finden Sie in unserem technischen Bericht https://arxiv.org/pdf/2003.01355

Die Statistiken des ursprünglichen chinesischen Wortschatzes von Google und des von uns veröffentlichten kleinen Wortschatzes sind wie folgt:
| Token -Typ | HINWEIS | |
|---|---|---|
| Vereinfachtes Chinesisch | 11378 | 5689 |
| Traditionelles Chinesisch | 3264 | ✗ |
| Englisch | 3529 | 1320 |
| japanisch | 573 | ✗ |
| Koreanisch | 84 | ✗ |
| Emoji | 56 | ✗ |
| Zahlen | 1179 | 140 |
| Spezielle Token | 106 | 106 |
| Andere Token | 959 | 766 |
| Gesamt | 21128 | 8021 |
Vergleich der Effekte auf Bert-Base unter Verwendung kleiner Datensätze:
| Modell | Wortschatz | Daten | Schritte | AFQMC | Tnews ' | Iflytek ' | Cmnli | Avg |
|---|---|---|---|---|---|---|---|---|
| Bert-Base | Wiki (1 GB) | 125k | 69,93% | 54,77% | 57,54% | 75,64% | 64,47% | |
| Bert-Base | C5 (1 GB) | 125k | 69,63% | 55,72% | 58,87% | 75,75% | 64,99% | |
| Bert-Base | HINWEIS | C5 (1 GB) | 125k | 69,00% | 55,04% | 59,07% | 75,84% | 64,74% |
| Bert-Base MM | C5 (1 GB) | 125k | 69,57% | 55,17% | 59,69% | 75,86% | 65,07% | |
| Bert-Base | C5 (1 GB) | 375K | 69,85% | 55,97% | 59,62% | 76,41% | 65,46% | |
| Bert-Base | HINWEIS | C5 (1 GB) | 375K | 69,93% | 56,38% | 59,35% | 76,58% | 65,56% |
| Bert-Base | C5 (3 GB) | 375K | 70,22% | 56,41% | 59,58% | 76,70% | 65,73% | |
| Bert-Base | HINWEIS | C5 (3 GB) | 375K | 69,49% | 55,97% | 60,12% | 77,66% | 65,81% |
Weitere experimentelle Ergebnisse und Analysen finden Sie unter: CluePretrainainedModels
Anwendungsmethode: Der Zweck und Zweck der Verwendung von Corpus -Forschung, Plänen, Forschungsinstitutionen und Einführungen für Antragsteller werden an die E -Mail -Adresse gesendet und versprochen, sie nicht an Dritte zu geben.
E -Mail: [email protected], Titel ist: Cluecorpus2020 200g Corpus
Es kann für Sprachmodellierung, Voraussetzungs- oder Generativaufgaben usw. verwendet werden. Das Datenvolumen übersteigt 14 g, fast 4.000 gut definierte TXT-Dateien und 5 Milliarden Wörter. Der Hauptteil stammt aus dem Projekt NLP_Chinese_Corpus
Das aktuelle Korpus wird im [Vorauslaufformat] verarbeitet und enthält mehrere Ordner. Jeder Ordner verfügt über viele kleine Dateien mit einer Größe von nicht mehr als 4 m, und das Dateiformat erfüllt das Vor-Training-Format: eine Zeile pro Satz, die durch leere Zeilen zwischen den Dokumenten getrennt ist.
Enthält den folgenden Sub-Corpus (insgesamt 14G-Korpus):
1. News Corpus News2016zh_corpus: 8G Corpus, unterteilt in zwei obere und untere Teile mit insgesamt 2.000 kleinen Dateien. Passwort: MZLK
2. Community Interaction-Corpus WebText2019zh_corpus: 3G Corpus, enthält 3G-Text und insgesamt mehr als 900 kleine Dateien. Passwort: QVLQ
3.. Passwort: xv7e
4. Kommentardaten - Corpus Comments2019ZH_CORPUS: Text um 2.3 g, insgesamt 784 kleine Dateien, einschließlich 547 Kommentare und 227 Amazon -Kommentare, fusionieren Sie mehrere Kommentardaten von Chinesenlpcorpus, Clean, konvertieren Formate und unterteilt in kleine Dateien. Passwort: GC3M
Sie können ein Problem einreichen und sich der Diskussionsgruppe anschließen (QQ: 836811304)
Oder senden Sie eine E -Mail an [email protected]
Forschungsarbeiten mit Cloud -TPUs von Googles TensorFlow Research Cloud (TFRC) unterstützt
@article{CLUECorpus2020,
title={CLUECorpus2020: A Large-scale Chinese Corpus for Pre-training Language Model},
author={Liang Xu and Xuanwei Zhang and Qianqian Dong},
journal={ArXiv},
year={2020},
volume={abs/2003.01355}
}
Hinweis ist eine Open -Source -Organisation, die sich der chinesischen Verarbeitung natürlicher Sprache widmet. Wenn Sie der Meinung sind, dass unsere Arbeit für Ihr Studium oder Ihr Geschäft hilfreich ist, hoffen Sie, Ihr Sponsoring zu erhalten, damit wir Ihnen in Zukunft nützlichere Open -Source -Arbeit bieten können. Lassen Sie uns unser Bestes zur Entwicklung und dem Fortschritt der chinesischen Verarbeitung natürlicher Sprache ~ tun ~
Bitte beachten Sie die Spenderorganisation und den Namen, vielen Dank!
| Alipay | |
|---|---|
![]() | ![]() |