Dengan membersihkan bagian Cina dari perayapan umum, kami akhirnya memperoleh 100GB korpus pra-terlatih Cina berkualitas tinggi. Model yang diproduksi oleh percobaan ditunjukkan pada: model pra-terlatih Cina berkualitas tinggi, model pra-terlatih yang besar, ultra-kecil dan kesamaan.
Untuk detail lebih lanjut, silakan merujuk ke laporan teknis kami https://arxiv.org/pdf/2003.01355

Statistik kosakata Cina asli Google dan kosakata kecil yang kami terbitkan adalah sebagai berikut:
| Tipe token | PETUNJUK | |
|---|---|---|
| Cina yang disederhanakan | 11378 | 5689 |
| Cina tradisional | 3264 | ✗ |
| Bahasa inggris | 3529 | 1320 |
| Jepang | 573 | ✗ |
| Korea | 84 | ✗ |
| Emoji | 56 | ✗ |
| Angka | 1179 | 140 |
| Token Khusus | 106 | 106 |
| Token lain | 959 | 766 |
| Total | 21128 | 8021 |
Perbandingan efek pada base-base menggunakan dataset kecil:
| Model | Vocab | Data | Tangga | AFQMC | Tnews ' | Iflytek ' | Cmnli | Rata -rata |
|---|---|---|---|---|---|---|---|---|
| Bert-base | Wiki (1 GB) | 125k | 69,93% | 54,77% | 57,54% | 75,64% | 64,47% | |
| Bert-base | C5 (1 GB) | 125k | 69,63% | 55,72% | 58,87% | 75,75% | 64,99% | |
| Bert-base | PETUNJUK | C5 (1 GB) | 125k | 69,00% | 55,04% | 59,07% | 75,84% | 64,74% |
| Bert-base mm | C5 (1 GB) | 125k | 69,57% | 55,17% | 59,69% | 75,86% | 65,07% | |
| Bert-base | C5 (1 GB) | 375K | 69,85% | 55,97% | 59,62% | 76,41% | 65,46% | |
| Bert-base | PETUNJUK | C5 (1 GB) | 375K | 69,93% | 56,38% | 59,35% | 76,58% | 65,56% |
| Bert-base | C5 (3 GB) | 375K | 70,22% | 56,41% | 59,58% | 76,70% | 65,73% | |
| Bert-base | PETUNJUK | C5 (3 GB) | 375K | 69,49% | 55,97% | 60,12% | 77,66% | 65,81% |
Untuk lebih banyak hasil dan analisis eksperimen, silakan merujuk ke: cluepretrainedmodels
Metode Aplikasi: Tujuan dan tujuan menggunakan penelitian corpus, rencana, lembaga penelitian dan perkenalan pelamar akan dikirim ke alamat email, dan dijanjikan untuk tidak memberikannya kepada pihak ketiga.
Email: [email protected], judul adalah: cluecorpus2020 200g corpus
Ini dapat digunakan untuk pemodelan bahasa, tugas pra-pelatihan atau generatif, dll. Volume data melebihi 14G, hampir 4.000 file TXT yang terdefinisi dengan baik dan 5 miliar kata. Bagian utama berasal dari proyek NLP_CHINESE_CORPUS
Korpus saat ini diproses dalam [format pra-pelatihan] dan berisi beberapa folder; Setiap folder memiliki banyak file kecil dengan ukuran tidak lebih dari 4m, dan format file memenuhi format pra-pelatihan: satu baris per kalimat, dipisahkan oleh garis kosong antara dokumen.
Berisi sub-corpus berikut (total corpus 14G):
1. News Corpus News2016zh_corpus: 8G Corpus, dibagi menjadi dua bagian atas dan bawah, dengan total 2.000 file kecil. Kata sandi: MZLK
2. Interaksi Komunitas-Corpus WebText2019ZH_CORPUS: 3G Corpus, berisi teks 3G, dan total lebih dari 900 file kecil. Kata Sandi: QVLQ
3. Wikipedia-Corpus Wiki2019zh_corpus: sekitar 1.1g teks, berisi sekitar 300 file kecil. Kata sandi: xv7e
4. Data Komentar - Corpus Comments2019ZH_CORPUS: Teks sekitar 2.3g, total 784 file kecil, termasuk 547 komentar dan 227 komentar Amazon, gabungkan beberapa data komentar dari chinesenlpcorpus, bersih, format konversi, dan dibagi menjadi file kecil. Kata sandi: GC3M
Anda dapat mengirimkan masalah dan bergabung dengan grup diskusi (QQ: 836811304)
Atau kirim email ke [email protected]
Penelitian yang didukung dengan TPU cloud dari Google TensorFlow Research Cloud (TFRC)
@article{CLUECorpus2020,
title={CLUECorpus2020: A Large-scale Chinese Corpus for Pre-training Language Model},
author={Liang Xu and Xuanwei Zhang and Qianqian Dong},
journal={ArXiv},
year={2020},
volume={abs/2003.01355}
}
Petunjuk adalah organisasi open source yang didedikasikan untuk pemrosesan bahasa alami Cina. Jika Anda berpikir pekerjaan kami bermanfaat untuk studi atau bisnis Anda, Anda berharap mendapatkan sponsor Anda sehingga kami dapat memberi Anda pekerjaan open source yang lebih berguna di masa depan. Mari kita lakukan yang terbaik untuk pengembangan dan kemajuan pemrosesan bahasa alami Cina ~
Harap perhatikan organisasi dan nama donor, terima kasih banyak!
| Alipay | Wechat wechat |
|---|---|
![]() | ![]() |