通過對Common Crawl的中文部分進行語料清洗,最終得到100GB的高質量中文預訓練語料。實驗產出的模型見:高質量中文預訓練模型,大號、超小和相似度預訓練模型。
更多細節請參考我們的技術報告https://arxiv.org/pdf/2003.01355

Google原始中文詞表和我們發布的小詞表的統計信息如下:
| Token Type | CLUE | |
|---|---|---|
| Simplified Chinese | 11378 | 5689 |
| Traditional Chinese | 3264 | ✗ |
| English | 3529 | 1320 |
| Japanese | 573 | ✗ |
| Korean | 84 | ✗ |
| Emoji | 56 | ✗ |
| Numbers | 1179 | 140 |
| Special Tokens | 106 | 106 |
| Other Tokens | 959 | 766 |
| Total | 21128 | 8021 |
使用小數據集在BERT-base上的效果對比:
| Model | Vocab | Data | Steps | AFQMC | TNEWS' | IFLYTEK' | CMNLI | AVG |
|---|---|---|---|---|---|---|---|---|
| BERT-base | Wiki (1 GB) | 125K | 69.93% | 54.77% | 57.54% | 75.64% | 64.47% | |
| BERT-base | C5 (1 GB) | 125K | 69.63% | 55.72% | 58.87% | 75.75% | 64.99% | |
| BERT-base | CLUE | C5 (1 GB) | 125K | 69.00% | 55.04% | 59.07% | 75.84% | 64.74% |
| BERT-base mm | C5 (1 GB) | 125K | 69.57% | 55.17% | 59.69% | 75.86% | 65.07% | |
| BERT-base | C5 (1 GB) | 375K | 69.85% | 55.97% | 59.62% | 76.41% | 65.46% | |
| BERT-base | CLUE | C5 (1 GB) | 375K | 69.93% | 56.38% | 59.35% | 76.58% | 65.56% |
| BERT-base | C5 (3 GB) | 375K | 70.22% | 56.41% | 59.58% | 76.70% | 65.73% | |
| BERT-base | CLUE | C5 (3 GB) | 375K | 69.49% | 55.97% | 60.12% | 77.66% | 65.81% |
更多實驗結果和分析可以參考:CLUEPretrainedModels
申請方式: 將使用語料研究目的和用途,計劃、研究機構和申請者介紹,發送到郵箱,並承諾不向第三方提供。
郵箱: [email protected],標題是:CLUECorpus2020 200G語料庫
可用於語言建模、預訓練或生成型任務等,數據量超過14G,近4000個定義良好的txt文件、50億個字。主要部分來自於nlp_chinese_corpus項目
當前語料庫按照【預訓練格式】處理,內含有多個文件夾;每個文件夾有許多不超過4M大小的小文件,文件格式符合預訓練格式:每句話一行,文檔間空行隔開。
包含如下子語料庫(總共14G語料):
1、新聞語料news2016zh_corpus: 8G語料,分成兩個上下兩部分,總共有2000個小文件。 密碼:mzlk
2、社區互動-語料webText2019zh_corpus:3G語料,包含3G文本,總共有900多個小文件。 密碼:qvlq
3、維基百科-語料wiki2019zh_corpus:1.1G左右文本,包含300左右小文件。 密碼:xv7e
4、評論數據-語料comments2019zh_corpus:2.3G左右文本,共784個小文件,包括點評評論547個、亞馬遜評論227個,合併ChineseNLPCorpus的多個評論數據,清洗、格式轉換、拆分成小文件。 密碼:gc3m
可以提交issue,加入討論群(QQ:836811304)
或發送郵件[email protected]
Research supported with Cloud TPUs from Google's TensorFlow Research Cloud (TFRC)
@article{CLUECorpus2020,
title={CLUECorpus2020: A Large-scale Chinese Corpus for Pre-training Language Model},
author={Liang Xu and Xuanwei Zhang and Qianqian Dong},
journal={ArXiv},
year={2020},
volume={abs/2003.01355}
}
CLUE是一個致力於中文自然語言處理的開源組織,如果您覺得我們的工作對您的學習或者業務等有幫助,希望能得到您的讚助,以便我們後續為大家提供更多更有用的開源工作,讓我們一起為中文自然語言處理的發展和進步,盡一份力~
請備註捐贈者機構和姓名,非常感謝!
| 支付寶 | 微信 |
|---|---|
![]() | ![]() |