一般的なクロールの中国の部分を掃除することにより、最終的に100GBの高品質の中国の事前訓練を受けたコーパスを取得しました。実験によって生成されたモデルは、高品質の中国の事前訓練モデル、大規模で超小さい小規模、および類似性の事前訓練モデルに示されています。
詳細については、テクニカルレポートhttps://arxiv.org/pdf/2003.01355を参照してください。

Googleの元の中国の語彙と私たちが公開した小さな語彙の統計は次のとおりです。
| トークンタイプ | グーグル | 手がかり |
|---|---|---|
| 単純化された中国人 | 11378 | 5689 |
| 伝統的な中国人 | 3264 | ✗ |
| 英語 | 3529 | 1320 |
| 日本語 | 573 | ✗ |
| 韓国語 | 84 | ✗ |
| 絵文字 | 56 | ✗ |
| 数字 | 1179 | 140 |
| 特別なトークン | 106 | 106 |
| 他のトークン | 959 | 766 |
| 合計 | 21128 | 8021 |
小さなデータセットを使用したBert-Baseの効果の比較:
| モデル | 語彙 | データ | ステップ | AFQMC | tnews ' | iflytek ' | cmnli | 平均 |
|---|---|---|---|---|---|---|---|---|
| バートベース | グーグル | wiki(1 gb) | 125k | 69.93% | 54.77% | 57.54% | 75.64% | 64.47% |
| バートベース | グーグル | C5(1 GB) | 125k | 69.63% | 55.72% | 58.87% | 75.75% | 64.99% |
| バートベース | 手がかり | C5(1 GB) | 125k | 69.00% | 55.04% | 59.07% | 75.84% | 64.74% |
| バートベースmm | グーグル | C5(1 GB) | 125k | 69.57% | 55.17% | 59.69% | 75.86% | 65.07% |
| バートベース | グーグル | C5(1 GB) | 375k | 69.85% | 55.97% | 59.62% | 76.41% | 65.46% |
| バートベース | 手がかり | C5(1 GB) | 375k | 69.93% | 56.38% | 59.35% | 76.58% | 65.56% |
| バートベース | グーグル | C5(3 GB) | 375k | 70.22% | 56.41% | 59.58% | 76.70% | 65.73% |
| バートベース | 手がかり | C5(3 GB) | 375k | 69.49% | 55.97% | 60.12% | 77.66% | 65.81% |
より実験的な結果と分析については、次を参照してください。
申請方法:コーパスの研究、計画、研究機関、申請者の紹介を使用する目的と目的は、電子メールアドレスに送信され、第三者にそれを提供しないことを約束します。
電子メール:[email protected]、タイトルIS:Cluecorpus2020 200Gコーパス
言語モデリング、事前トレーニング、または生成タスクなどに使用できます。データボリュームは14G、4,000近くの明確なTXTファイル、50億語を超えています。主な部分は、nlp_chinese_corpusプロジェクトから来ています
現在のコーパスは[トレーニング前の形式]で処理され、複数のフォルダーが含まれています。各フォルダーには4mサイズ以下の多くの小さなファイルがあり、ファイル形式は、ドキュメント間の空白行で区切られた、文ごとに1行のトレーニング前の形式を満たしています。
次のサブコルパス(合計14Gコーパス)が含まれています。
1。NEWSCORPUS NEWS2016ZH_CORPUS:8Gコーパス、2つの上部と下部に分割され、合計2,000個の小さなファイルがあります。パスワード:MZLK
2。CommunityInteraction-Corpus webtext2019zh_corpus:3Gコーパス、3Gテキスト、合計900を超える小さなファイルを含む。パスワード:QVLQ
3。Wikipedia-Corpus wiki2019zh_corpus:約300個の小さなファイルを含む約1.1gのテキスト。パスワード:xv7e
4。コメントデータ-Corpus Comments2019Zh_Corpus:約2.3g、547コメントと227のAmazonコメントを含む合計784個の小さなファイルをテキストで、ChinesenlpCorpusからの複数のコメントデータをマージし、形式をクリーン、変換し、小さなファイルに分割します。パスワード:GC3M
問題を提出してディスカッショングループに参加できます(QQ:836811304)
または、[email protected]にメールを送信します
GoogleのTensorflow Research Cloud(TFRC)のクラウドTPUでサポートされている研究
@article{CLUECorpus2020,
title={CLUECorpus2020: A Large-scale Chinese Corpus for Pre-training Language Model},
author={Liang Xu and Xuanwei Zhang and Qianqian Dong},
journal={ArXiv},
year={2020},
volume={abs/2003.01355}
}
Clueは、中国の自然言語処理に特化したオープンソース組織です。私たちの仕事があなたの勉強やビジネスに役立つと思うなら、あなたはあなたのスポンサーシップを取得して、将来より有用なオープンソースの仕事を提供できるようにしたいと考えています。中国の自然言語加工の発展と進歩に最善を尽くしましょう〜
ドナーの組織と名前に注意してください、どうもありがとうございました!
| アリパイ | |
|---|---|
![]() | ![]() |