ด้วยการทำความสะอาดส่วนจีนของการรวบรวมข้อมูลทั่วไปในที่สุดเราก็ได้รับคลังข้อมูลที่ผ่านการฝึกอบรมมาล่วงหน้าของจีน 100GB แบบจำลองที่ผลิตโดยการทดลองแสดงใน: โมเดลที่ผ่านการฝึกอบรมมาก่อนภาษาจีนคุณภาพสูงขนาดใหญ่พิเศษพิเศษและมีความคล้ายคลึงกัน
สำหรับรายละเอียดเพิ่มเติมโปรดดูรายงานทางเทคนิคของเรา https://arxiv.org/pdf/2003.01355

สถิติของคำศัพท์ภาษาจีนดั้งเดิมของ Google และคำศัพท์เล็ก ๆ ที่เราเผยแพร่มีดังนี้:
| ประเภทโทเค็น | เบาะแส | |
|---|---|---|
| ภาษาจีนง่ายๆ | 11378 | 5689 |
| จีนโบราณ | 3264 | |
| ภาษาอังกฤษ | 3529 | 1320 |
| ญี่ปุ่น | 573 | |
| เกาหลี | 84 | |
| อีโมจิ | 56 | |
| ตัวเลข | 1179 | 140 |
| โทเค็นพิเศษ | 106 | 106 |
| โทเค็นอื่น ๆ | 959 | 766 |
| ทั้งหมด | 21128 | 8021 |
การเปรียบเทียบผลกระทบต่อเบิร์ตเบสโดยใช้ชุดข้อมูลขนาดเล็ก:
| แบบอย่าง | คำศัพท์ | ข้อมูล | ขั้นตอน | AFQMC | tnews ' | iflytek ' | cmnli | AVG |
|---|---|---|---|---|---|---|---|---|
| เบิร์ตเบส | วิกิ (1 GB) | 125K | 69.93% | 54.77% | 57.54% | 75.64% | 64.47% | |
| เบิร์ตเบส | C5 (1 GB) | 125K | 69.63% | 55.72% | 58.87% | 75.75% | 64.99% | |
| เบิร์ตเบส | เบาะแส | C5 (1 GB) | 125K | 69.00% | 55.04% | 59.07% | 75.84% | 64.74% |
| bert-base mm | C5 (1 GB) | 125K | 69.57% | 55.17% | 59.69% | 75.86% | 65.07% | |
| เบิร์ตเบส | C5 (1 GB) | 375K | 69.85% | 55.97% | 59.62% | 76.41% | 65.46% | |
| เบิร์ตเบส | เบาะแส | C5 (1 GB) | 375K | 69.93% | 56.38% | 59.35% | 76.58% | 65.56% |
| เบิร์ตเบส | C5 (3 GB) | 375K | 70.22% | 56.41% | 59.58% | 76.70% | 65.73% | |
| เบิร์ตเบส | เบาะแส | C5 (3 GB) | 375K | 69.49% | 55.97% | 60.12% | 77.66% | 65.81% |
สำหรับผลการทดลองและการวิเคราะห์เพิ่มเติมโปรดดูที่: CluepretrainedModels
วิธีการใช้งาน: วัตถุประสงค์และวัตถุประสงค์ของการใช้การวิจัยคลังข้อมูลแผนสถาบันการวิจัยและการแนะนำผู้สมัครจะถูกส่งไปยังที่อยู่อีเมลและสัญญาว่าจะไม่ให้บริการแก่บุคคลที่สาม
อีเมล: [email protected], ชื่อเรื่องคือ: cluecorpus2020 200g corpus
มันสามารถใช้สำหรับการสร้างแบบจำลองภาษางานฝึกอบรมล่วงหน้าหรืองานสร้าง ฯลฯ ปริมาณข้อมูลเกิน 14G, เกือบ 4,000 ไฟล์ TXT ที่กำหนดไว้อย่างดีและ 5 พันล้านคำ ส่วนหลักมาจากโครงการ NLP_CHINESE_CORPUS
คลังข้อมูลปัจจุบันถูกประมวลผลใน [รูปแบบการฝึกอบรมล่วงหน้า] และมีหลายโฟลเดอร์ แต่ละโฟลเดอร์มีไฟล์ขนาดเล็กจำนวนมากไม่เกิน 4M และรูปแบบไฟล์ตรงกับรูปแบบการฝึกอบรมก่อน: หนึ่งบรรทัดต่อประโยคคั่นด้วยเส้นเปล่าระหว่างเอกสาร
มี sub-corpus ต่อไปนี้ (ทั้งหมด 14G คลังข้อมูล):
1. News Corpus News2016ZH_CORPUS: 8G CORPUS แบ่งออกเป็นสองส่วนบนและส่วนล่างโดยมีไฟล์ขนาดเล็กทั้งหมด 2,000 ไฟล์ รหัสผ่าน: MZLK
2. การโต้ตอบของชุมชน-Corpus WebText2019ZH_CORPUS: 3G CORPUS ที่มีข้อความ 3G และไฟล์ขนาดเล็กกว่า 900 ไฟล์ทั้งหมด รหัสผ่าน: QVLQ
3. Wikipedia-Corpus Wiki2019ZH_CORPUS: ข้อความประมาณ 1.1G ที่มีไฟล์ขนาดเล็กประมาณ 300 ไฟล์ รหัสผ่าน: xv7e
4. ข้อมูลความคิดเห็น - Corpus Comments2019ZH_CORPUS: ข้อความประมาณ 2.3G, ทั้งหมด 784 ไฟล์ขนาดเล็กรวมถึง 547 ความคิดเห็นและ 227 ความคิดเห็นของ Amazon, รวมข้อมูลความคิดเห็นหลายรายการจาก Chinesenlpcorpus, สะอาด, แปลงรูปแบบและแบ่งออกเป็นไฟล์ขนาดเล็ก รหัสผ่าน: GC3M
คุณสามารถส่งปัญหาและเข้าร่วมกลุ่มสนทนา (QQ: 836811304)
หรือส่งอีเมลไปที่ [email protected]
การวิจัยสนับสนุนด้วยคลาวด์ TPU จาก Cloud Tensorflow Research Cloud (TFRC) ของ Google (TFRC)
@article{CLUECorpus2020,
title={CLUECorpus2020: A Large-scale Chinese Corpus for Pre-training Language Model},
author={Liang Xu and Xuanwei Zhang and Qianqian Dong},
journal={ArXiv},
year={2020},
volume={abs/2003.01355}
}
เบาะแสเป็นองค์กรโอเพ่นซอร์สที่อุทิศให้กับการประมวลผลภาษาธรรมชาติของจีน หากคุณคิดว่างานของเรามีประโยชน์ต่อการศึกษาหรือธุรกิจของคุณคุณหวังว่าจะได้รับการสนับสนุนของคุณเพื่อให้เราสามารถให้งานโอเพนซอร์สที่มีประโยชน์มากขึ้นในอนาคต ให้เราพยายามอย่างเต็มที่ต่อการพัฒนาและความก้าวหน้าของการประมวลผลภาษาธรรมชาติจีน ~
โปรดทราบองค์กรและชื่อผู้บริจาคขอบคุณมาก!
| Aliipay | |
|---|---|
![]() | ![]() |