คำอธิบายภาษาจีน ภาษาอังกฤษ

ในด้านการประมวลผลภาษาธรรมชาติแบบจำลองภาษาที่ผ่านการฝึกอบรมมาก่อน (แบบจำลองภาษาที่ผ่านการฝึกอบรมมาก่อน) ได้กลายเป็นเทคโนโลยีพื้นฐานที่สำคัญมาก เพื่อส่งเสริมการวิจัยและพัฒนาการประมวลผลข้อมูลจีนต่อไปเราได้เปิดตัว Bert-WWM แบบจำลองที่ผ่านการฝึกอบรมมาก่อนภาษาจีนโดยใช้เทคโนโลยีการปิดบังคำทั้งหมดรวมถึงแบบจำลองที่เกี่ยวข้องกับเทคโนโลยีนี้อย่างใกล้ชิด: Bert-WWM-Ext, Roberta-WWM-EXT, Roberta-WWM-ext-Large, RBT3
โครงการนี้ขึ้นอยู่กับ Bert อย่างเป็นทางการของ Google: https://github.com/google-research/bert
Lert จีน ภาษาอังกฤษภาษาอังกฤษ Pert | Macbert จีน Electra จีน XLNET จีน | เบิร์ตจีน เครื่องมือกลั่นความรู้ TextBrewer | เครื่องมือตัดแบบจำลอง TextPruner
ดูแหล่งข้อมูลเพิ่มเติมที่เผยแพร่โดย IFL of Harbin Institute of Technology (HFL): https://github.com/ymcui/hfl-anthology
2023/3/28 โอเพ่นซอร์ส Llama & Alpaca Big Model ซึ่งสามารถนำไปใช้อย่างรวดเร็วและมีประสบการณ์บนพีซีดู: https://github.com/ymcui/chinese-llama-alpaca
2023/3/9 เราเสนอรูปแบบที่ได้รับการฝึกอบรมล่วงหน้าหลายรูปแบบ VLE ในกราฟิกและข้อความดู: https://github.com/iflytek/vle
2022/11/15 เราเสนอรูปแบบขนาดเล็กที่ผ่านการฝึกอบรมมาก่อนภาษาจีน ดู: https://github.com/iflytek/minirbt
2022/10/29 เราเสนอรูปแบบที่ได้รับการฝึกอบรมล่วงหน้าซึ่งรวมข้อมูลภาษาศาสตร์ ดู: https://github.com/ymcui/lert
2022/3/30 เราเปิดแหล่งข้อมูลรุ่นใหม่ที่ผ่านการฝึกอบรมมาก่อน ดู: https://github.com/ymcui/pert
2021/10/24 ห้องปฏิบัติการร่วม IFLYTEK เปิดตัว CINO แบบจำลองที่ผ่านการฝึกอบรมมาก่อนสำหรับภาษาชนกลุ่มน้อย ดู: https://github.com/ymcui/chinese-minority-plm
2021/7/21 "การประมวลผลภาษาธรรมชาติ: วิธีการตามรูปแบบการฝึกอบรมก่อนการฝึกอบรม" ที่เขียนโดยนักวิชาการหลายคนจาก Harbin Institute of Technology Scir ได้รับการเผยแพร่และทุกคนยินดีที่จะซื้อ
2021/1/27 ทุกรุ่นได้รองรับ TensorFlow 2 โปรดโทรหรือดาวน์โหลดผ่าน Library Transformers https://huggingface.co/hfl
2020/9/15 บทความของเรา "ทบทวนแบบจำลองที่ผ่านการฝึกอบรมมาก่อนสำหรับการประมวลผลภาษาธรรมชาติจีน" ได้รับการว่าจ้างเป็นบทความยาวโดยการค้นพบของ EMNLP
2020/8/27 ห้องปฏิบัติการร่วม IFL ติดอันดับในการประเมินความเข้าใจภาษาธรรมชาติทั่วไปของกาวทั่วไปตรวจสอบรายการกาวข่าว
2020/3/23 รุ่นที่ปล่อยออกมาในไดเรกทอรีนี้ได้เชื่อมต่อกับ PaddlePaddleHub เพื่อดูการโหลดที่รวดเร็ว
2020/3/11 เพื่อให้เข้าใจถึงความต้องการได้ดีขึ้นคุณได้รับเชิญให้กรอกแบบสอบถามเพื่อให้คุณมีทรัพยากรที่ดีขึ้น
2020/2/26 ห้องปฏิบัติการร่วม IFLYTEK ปล่อยเครื่องมือการกลั่นความรู้
2020/1/20 ขอให้คุณโชคดีในปีที่หนู เวลานี้ RBT3 และ RBTL3 (3 ชั้น Roberta-WWM-Ext-Base/Large) ได้รับการปล่อยตัวเพื่อดูโมเดลปริมาณพารามิเตอร์ขนาดเล็ก
2019/12/19 รุ่นที่เผยแพร่ในไดเรกทอรีนี้ได้เชื่อมต่อกับ HuggingFace-Transformers เพื่อดูการโหลดที่รวดเร็ว
2019/10/14 ปล่อยโมเดล Roberta-WWM-Ext-Large ดูการดาวน์โหลดรุ่นจีน
2019/9/10 เปิดตัวรุ่น Roberta-WWM-EXT และดูการดาวน์โหลดรุ่นจีน
2019/7/30 ให้บริการรุ่น BERT-wwm-ext จีนที่ผ่านการฝึกอบรมเกี่ยวกับคลังข้อมูลทั่วไปขนาดใหญ่ (จำนวนคำ 5.4B) ดูการดาวน์โหลดแบบจำลองภาษาจีน
2019/6/20 รุ่นเริ่มต้นรุ่นสามารถดาวน์โหลดได้ผ่าน Google และดิสก์คลาวด์ในประเทศก็ถูกอัปโหลด ตรวจสอบการดาวน์โหลดรุ่นจีน
| บท | อธิบาย |
|---|---|
| การแนะนำ | รู้เบื้องต้นเกี่ยวกับหลักการพื้นฐานของ bert-wwm |
| ดาวน์โหลดรุ่นจีน | จัดเตรียมที่อยู่ดาวน์โหลดของ bert-wwm |
| การโหลดอย่างรวดเร็ว | วิธีใช้หม้อแปลงและ PaddleHub โหลดรุ่นอย่างรวดเร็ว |
| การเปรียบเทียบแบบจำลอง | ให้การเปรียบเทียบพารามิเตอร์ของโมเดลในไดเรกทอรีนี้ |
| เอฟเฟกต์ระบบพื้นฐานของจีน | แสดงผลกระทบบางอย่างของระบบพื้นฐานของจีน |
| โมเดลปริมาณพารามิเตอร์ขนาดเล็ก | แสดงรายการเอฟเฟกต์ของแบบจำลองปริมาณพารามิเตอร์ขนาดเล็ก (หม้อแปลง 3 ชั้น) |
| คำแนะนำสำหรับการใช้งาน | มีข้อเสนอแนะหลายประการสำหรับการใช้แบบจำลองที่ผ่านการฝึกอบรมก่อนภาษาจีน |
| ดาวน์โหลดรุ่นภาษาอังกฤษ | ที่อยู่ดาวน์โหลดอย่างเป็นทางการของ Google Bert-WWM ของ Google |
| คำถามที่พบบ่อย | คำถามที่พบบ่อยและคำตอบ |
| อ้าง | รายงานทางเทคนิคในไดเรกทอรีนี้ |
การปิดบังคำทั้งคำ (WWM) ซึ่งแปลเป็นการชั่วคราวเป็น全词Mask หรือ整词Mask เป็นรุ่นที่ได้รับการอัพเกรดโดย Google ที่เปิดตัวโดย Google เมื่อวันที่ 31 พฤษภาคม 2019 ซึ่งส่วนใหญ่เปลี่ยนกลยุทธ์การสร้างตัวอย่างการฝึกอบรมในขั้นตอนการฝึกอบรมก่อนการฝึกอบรมดั้งเดิม พูดง่ายๆคือวิธีการแบ่งส่วนคำที่ใช้คำ WordPiece ดั้งเดิมจะแบ่งคำที่สมบูรณ์เป็นคำย่อยหลายคำ เมื่อสร้างตัวอย่างการฝึกอบรมคำศัพท์ที่แยกจากกันเหล่านี้จะถูกปกปิดแบบสุ่ม ใน全词Mask หากคำย่อยคำศัพท์ของคำที่สมบูรณ์ถูกสวมหน้ากากส่วนอื่น ๆ ของคำเดียวกันจะถูกสวมหน้ากากนั่นคือ全词Mask
ควรสังเกตว่าหน้ากากที่นี่หมายถึงหน้ากากทั่วไป (แทนที่ด้วย [หน้ากาก]; รักษาคำศัพท์ดั้งเดิม; แทนที่แบบสุ่มด้วยคำอื่น) และไม่ จำกัด เฉพาะกรณีที่คำที่ถูกแทนที่ด้วยแท็ก [MASK] สำหรับคำอธิบายและตัวอย่างโดยละเอียดเพิ่มเติมโปรดดูที่: #4
ในทำนองเดียวกันเนื่องจาก Google เปิด BERT-base, Chinese อย่างเป็นทางการจีนจะถูกแบ่งออกเป็น ตัวละคร เป็นความละเอียดและไม่ได้คำนึงถึงคำกริยาจีน (CWS) ใน NLP แบบดั้งเดิม เราใช้วิธีการของหน้ากากคำเต็มรูปแบบในภาษาจีนใช้วิกิพีเดียจีน (รวมถึงภาษาจีนแบบง่ายและดั้งเดิม) สำหรับการฝึกอบรมและใช้สถาบันเทคโนโลยีฮาร์บิน LTP เป็นเครื่องมือแบ่งส่วนคำนั่นคือตัวละครจีนทั้งหมดที่ประกอบ คำ เดียวกัน
ข้อความต่อไปนี้แสดงการสร้างตัวอย่างของ全词Mask หมายเหตุ: เพื่อความเข้าใจที่ง่ายมีเพียงกรณีของการแทนที่แท็ก [MASK] เท่านั้นที่พิจารณาในตัวอย่างต่อไปนี้
| อธิบาย | ตัวอย่าง |
|---|---|
| ข้อความต้นฉบับ | ใช้แบบจำลองภาษาเพื่อทำนายความน่าจะเป็นของคำถัดไป |
| ข้อความคำนาม | ใช้แบบจำลองภาษาเพื่อทำนายความน่าจะเป็นของคำถัดไป |
| อินพุตหน้ากากดั้งเดิม | ใช้ประเภทภาษา [หน้ากาก] เพื่อทดสอบ Pro [Mask] ของ Word Pro [Mask] ## lity |
| อินพุตมาสก์คำเต็มคำ | ใช้ภาษา [หน้ากาก] [หน้ากาก] กับ [หน้ากาก] [หน้ากาก] คำต่อไป [หน้ากาก] [หน้ากาก] |
ไดเรกทอรีนี้ส่วนใหญ่มีโมเดลพื้นฐานดังนั้นเราจึงไม่ติดฉลาก base คำในตัวย่อของโมเดล สำหรับแบบจำลองขนาดอื่นแท็กที่สอดคล้องกัน (ตัวอย่างเช่นขนาดใหญ่) จะถูกทำเครื่องหมาย
BERT-large模型: 24-Layer, 1024 ซ่อน, 16 หัว, พารามิเตอร์ 330mBERT-base模型: 12-layer, 768 ซ่อน, 12 หัว, พารามิเตอร์ 110mหมายเหตุ: เวอร์ชันโอเพ่นซอร์สไม่มีน้ำหนักของงาน MLM; หากคุณต้องการทำงาน MLM โปรดใช้ข้อมูลเพิ่มเติมสำหรับการฝึกอบรมก่อนการฝึกอบรมรอง (เช่นงานดาวน์สตรีมอื่น ๆ )
| ตัวย่อแบบจำลอง | วัสดุ | ดาวน์โหลด Google | Baidu Netdisk ดาวน์โหลด |
|---|---|---|---|
RBT6, Chinese | ข้อมูล ext [1] | - | tensorflow (รหัสผ่าน hniy) |
RBT4, Chinese | ข้อมูล ext [1] | - | tensorflow (รหัสผ่าน SJPT) |
RBTL3, Chinese | ข้อมูล ext [1] | เทนเซอร์โฟลว์ pytorch | tensorflow (รหัสผ่าน S6CU) |
RBT3, Chinese | ข้อมูล ext [1] | เทนเซอร์โฟลว์ pytorch | TensorFlow (รหัสผ่าน 5A57) |
RoBERTa-wwm-ext-large, Chinese | ข้อมูล ext [1] | เทนเซอร์โฟลว์ pytorch | tensorflow (รหัสผ่าน dqqe) |
RoBERTa-wwm-ext, Chinese | ข้อมูล ext [1] | เทนเซอร์โฟลว์ pytorch | tensorflow (รหัสผ่าน vybq) |
BERT-wwm-ext, Chinese | ข้อมูล ext [1] | เทนเซอร์โฟลว์ pytorch | tensorflow (รหัสผ่าน wgnt) |
BERT-wwm, Chinese | วิกิจีน | เทนเซอร์โฟลว์ pytorch | tensorflow (รหัสผ่าน qfh8) |
BERT-base, Chinese Google Google | วิกิจีน | Google Cloud | - |
BERT-base, Multilingual Cased Google | วิกิหลายภาษา | Google Cloud | - |
BERT-base, Multilingual Uncased google ที่ไม่ได้พูดได้หลายภาษา | วิกิหลายภาษา | Google Cloud | - |
[1] ข้อมูล EXT รวมถึง: Wikipedia จีนสารานุกรมอื่น ๆ ข่าวคำถามและคำตอบและข้อมูลอื่น ๆ ที่มีจำนวนคำทั้งหมดถึง 5.4B
หากคุณต้องการเวอร์ชัน Pytorch
1) โปรดแปลงด้วยตัวคุณเองผ่านสคริปต์การแปลงที่จัดทำโดย Transformers
2) หรือดาวน์โหลด pytorch โดยตรงผ่านเว็บไซต์ทางการของ HuggingFace: https://huggingface.co/hfl
วิธีการดาวน์โหลด: คลิกรุ่นใด ๆ ที่คุณต้องการดาวน์โหลด→เลือกแท็บ "ไฟล์และเวอร์ชัน" →ดาวน์โหลดไฟล์รุ่นที่เกี่ยวข้อง
ขอแนะนำให้ใช้คะแนนดาวน์โหลด Baidu Netdisk ในประเทศจีนแผ่นดินใหญ่และผู้ใช้ในต่างประเทศขอแนะนำให้ใช้คะแนนดาวน์โหลด Google ขนาดไฟล์พื้นฐานของไฟล์ประมาณ 400 ม . การใช้ BERT-wwm, Chinese เป็นตัวอย่างหลังจากดาวน์โหลดแล้วให้คลายไฟล์ ZIP เพื่อรับ:
chinese_wwm_L-12_H-768_A-12.zip
|- bert_model.ckpt # 模型权重
|- bert_model.meta # 模型meta信息
|- bert_model.index # 模型index信息
|- bert_config.json # 模型参数
|- vocab.txt # 词表
ในหมู่พวกเขา bert_config.json และ vocab.txt นั้นเหมือนกับ BERT-base, Chinese รุ่น pytorch มี pytorch_model.bin , bert_config.json และไฟล์ vocab.txt
พึ่งพาห้องสมุด? Transformers รุ่นข้างต้นสามารถเรียกได้ง่าย
tokenizer = BertTokenizer.from_pretrained("MODEL_NAME")
model = BertModel.from_pretrained("MODEL_NAME")
หมายเหตุ: ทุกรุ่นในไดเรกทอรีนี้โหลดโดยใช้ BertTokenizer และ BertModel อย่าใช้ Robertatokenizer/Robertamodel!
รายการที่สอดคล้องกันของ MODEL_NAME มีดังนี้:
| ชื่อนางแบบ | model_name |
|---|---|
| Roberta-WWM-Ext-Large | HFL/Chinese-Roberta-WWM-Ext-Large |
| Roberta-wwm-ext | hfl/chinese-roberta-wwm-ext |
| bert-wwm-ext | HFL/Chinese-Bert-WWM-EXT |
| bert-wwm | HFL/Chinese-Bert-WWM |
| RBT3 | HFL/RBT3 |
| RBTL3 | HFL/RBTL3 |
พึ่งพา PaddleHub คุณสามารถดาวน์โหลดและติดตั้งโมเดลได้ด้วยรหัสเดียวและรหัสมากกว่าสิบบรรทัดสามารถทำงานให้เสร็จเช่นการจำแนกข้อความ, คำอธิบายประกอบลำดับ, การอ่านความเข้าใจ ฯลฯ
import paddlehub as hub
module = hub.Module(name=MODULE_NAME)
รายการที่สอดคล้องกันของ MODULE_NAME มีดังนี้:
| ชื่อนางแบบ | module_name |
|---|---|
| Roberta-WWM-Ext-Large | Chinese-Roberta-WWM-Ext-Large |
| Roberta-wwm-ext | Chinese-Roberta-WWM-EXT |
| bert-wwm-ext | Chinese-Bert-WWM-EXT |
| bert-wwm | จีน-เบิร์ต-wwm |
| RBT3 | RBT3 |
| RBTL3 | RBTL3 |
ต่อไปนี้เป็นบทสรุปของรายละเอียดบางรุ่นที่ทุกคนมีความกังวลมากขึ้น
| - | bert google | bert-wwm | bert-wwm-ext | Roberta-wwm-ext | Roberta-WWM-Ext-Large |
|---|---|---|---|---|---|
| การปิดบัง | คำพูด | WWM [1] | WWM | WWM | WWM |
| พิมพ์ | ฐาน | ฐาน | ฐาน | ฐาน | ใหญ่ |
| แหล่งข้อมูล | วิกิ | วิกิ | wiki+ext [2] | wiki+ext | wiki+ext |
| โทเค็นฝึกอบรม # | 0.4B | 0.4B | 5.4b | 5.4b | 5.4b |
| อุปกรณ์ | TPU POD V2 | TPU v3 | TPU v3 | TPU v3 | TPU POD V3-32 [3] |
| ขั้นตอนการฝึกอบรม | - | 100k Max128 +100k Max512 | 1m Max128 +400k Max512 | 1m Max512 | 2m Max512 |
| ขนาดแบทช์ | - | 2,560 / 384 | 2,560 / 384 | 384 | 512 |
| การเพิ่มประสิทธิภาพ | อดัม | เนื้อแกะ | เนื้อแกะ | อดัม | อดัม |
| คำศัพท์ | 21,128 | ~ bert [4] | ~ เบิร์ต | ~ เบิร์ต | ~ เบิร์ต |
| จุดตรวจสอบ init | การเริ่มต้นแบบสุ่ม | ~ เบิร์ต | ~ เบิร์ต | ~ เบิร์ต | การเริ่มต้นแบบสุ่ม |
[1] WWM = การปิดบังคำทั้งหมด
[2] ext = ข้อมูลเพิ่มเติม
[3] TPU POD V3-32 (512G HBM) เทียบเท่ากับ 4 TPU V3 (128G HBM)
[4]~BERTหมายถึง การสืบทอด คุณลักษณะของ Bert จีนดั้งเดิมของ Google
เพื่อเปรียบเทียบเอฟเฟกต์พื้นฐานเราได้ทำการทดสอบในชุดข้อมูลภาษาจีนต่อไปนี้รวมถึงงาน句子级และ篇章级สำหรับ BERT-wwm-ext , RoBERTa-wwm-ext และ RoBERTa-wwm-ext-large เรา ไม่ได้ปรับอัตราการเรียนรู้ที่ดีที่สุด แต่ใช้อัตราการเรียนรู้ที่ดีที่สุดโดยตรงของ BERT-wwm
อัตราการเรียนรู้ที่ดีที่สุด:
| แบบอย่าง | เบิร์ต | เออร์นี่ | bert-wwm* |
|---|---|---|---|
| CMRC 2018 | 3e-5 | 8E-5 | 3e-5 |
| DRCD | 3e-5 | 8E-5 | 3e-5 |
| CJRC | 4e-5 | 8E-5 | 4e-5 |
| xnli | 3e-5 | 5E-5 | 3e-5 |
| chnsenticorp | 2e-5 | 5E-5 | 2e-5 |
| LCQMC | 2e-5 | 3e-5 | 2e-5 |
| BQ Corpus | 3e-5 | 5E-5 | 3e-5 |
| Thucnews | 2e-5 | 5E-5 | 2e-5 |
*แสดงถึงทุกรุ่น WWM (Bert-WWM, Bert-WWM-EXT, Roberta-WWM-EXT, Roberta-WWM-Ext-Large)
ผลลัพธ์บางอย่างเท่านั้นที่แสดงอยู่ด้านล่าง โปรดดูรายงานทางเทคนิคของเราสำหรับผลลัพธ์ที่สมบูรณ์
หมายเหตุ: เพื่อให้แน่ใจว่าความน่าเชื่อถือของผลลัพธ์สำหรับรุ่นเดียวกันเราเรียกใช้ 10 เท่า (เมล็ดสุ่มที่แตกต่างกัน) เพื่อรายงานค่าสูงสุดและค่าเฉลี่ยของประสิทธิภาพของโมเดล (ค่าเฉลี่ยในวงเล็บ) หากไม่มีอะไรเกิดขึ้นที่ไม่คาดคิดผลลัพธ์ของการดำเนินการของคุณควรอยู่ในช่วงนี้
ในตัวบ่งชี้การประเมินค่าค่าเฉลี่ยจะถูกแสดงในวงเล็บและค่าสูงสุดจะถูกแสดงภายนอกวงเล็บ
ชุดข้อมูล CMRC 2018 เป็นข้อมูลความเข้าใจในการอ่านของเครื่องจีนที่เผยแพร่โดยห้องปฏิบัติการร่วมของสถาบันเทคโนโลยีฮาร์บิน ตามคำถามที่กำหนดระบบจะต้องแยกชิ้นส่วนออกจากบทเป็นคำตอบในรูปแบบเดียวกับทีม ตัวชี้วัดการประเมินคือ: EM / F1
| แบบอย่าง | ชุดพัฒนา | ชุดทดสอบ | ชุดท้าทาย |
|---|---|---|---|
| เบิร์ต | 65.5 (64.4) / 84.5 (84.0) | 70.0 (68.7) / 87.0 (86.3) | 18.6 (17.0) / 43.3 (41.3) |
| เออร์นี่ | 65.4 (64.3) / 84.7 (84.2) | 69.4 (68.2) / 86.6 (86.1) | 19.6 (17.0) / 44.3 (42.8) |
| bert-wwm | 66.3 (65.0) / 85.6 (84.7) | 70.5 (69.1) / 87.4 (86.7) | 21.0 (19.3) / 47.0 (43.9) |
| bert-wwm-ext | 67.1 (65.6) / 85.7 (85.0) | 71.4 (70.0) / 87.7 (87.0) | 24.0 (20.0) / 47.3 (44.6) |
| Roberta-wwm-ext | 67.4 (66.5) / 87.2 (86.5) | 72.6 (71.4) / 89.4 (88.8) | 26.2 (24.6) / 51.0 (49.1) |
| Roberta-WWM-Ext-Large | 68.5 (67.6) / 88.4 (87.9) | 74.2 (72.4) / 90.6 (90.0) | 31.5 (30.1) / 60.1 (57.5) |
ชุดข้อมูล DRCD ได้รับการเผยแพร่โดย Delta Research Institute, ไต้หวัน, จีน รูปแบบของมันเหมือนกับทีมและเป็นชุดข้อมูลความเข้าใจในการอ่านที่แยกออกมาจากภาษาจีนดั้งเดิม เนื่องจากตัวละครจีนดั้งเดิมถูกลบออกจาก Ernie จึงไม่แนะนำให้ใช้ Ernie (หรือแปลงเป็นภาษาจีนที่ง่ายขึ้นแล้วประมวลผล) กับข้อมูลภาษาจีนดั้งเดิม ตัวชี้วัดการประเมินคือ: EM / F1
| แบบอย่าง | ชุดพัฒนา | ชุดทดสอบ |
|---|---|---|
| เบิร์ต | 83.1 (82.7) / 89.9 (89.6) | 82.2 (81.6) / 89.2 (88.8) |
| เออร์นี่ | 73.2 (73.0) / 83.9 (83.8) | 71.9 (71.4) / 82.5 (82.3) |
| bert-wwm | 84.3 (83.4) / 90.5 (90.2) | 82.8 (81.8) / 89.7 (89.0) |
| bert-wwm-ext | 85.0 (84.5) / 91.2 (90.9) | 83.6 (83.0) / 90.4 (89.9) |
| Roberta-wwm-ext | 86.6 (85.9) / 92.5 (92.2) | 85.6 (85.2) / 92.0 (91.7) |
| Roberta-WWM-Ext-Large | 89.6 (89.1) / 94.8 (94.4) | 89.6 (88.9) / 94.5 (94.1) |
ชุดข้อมูล CJRC เป็นข้อมูลความเข้าใจในการอ่านเครื่องของจีนสำหรับ สนามตุลาการ ที่ออกโดยห้องปฏิบัติการร่วมของ Iflytek ควรสังเกตว่าข้อมูลที่ใช้ในการทดสอบไม่ใช่ข้อมูลสุดท้ายที่เปิดเผยโดยเจ้าหน้าที่และผลลัพธ์นั้นมีไว้สำหรับการอ้างอิงเท่านั้น ตัวชี้วัดการประเมินคือ: EM / F1
| แบบอย่าง | ชุดพัฒนา | ชุดทดสอบ |
|---|---|---|
| เบิร์ต | 54.6 (54.0) / 75.4 (74.5) | 55.1 (54.1) / 75.2 (74.3) |
| เออร์นี่ | 54.3 (53.9) / 75.3 (74.6) | 55.0 (53.9) / 75.0 (73.9) |
| bert-wwm | 54.7 (54.0) / 75.2 (74.8) | 55.1 (54.1) / 75.4 (74.4) |
| bert-wwm-ext | 55.6 (54.8) / 76.0 (75.3) | 55.6 (54.9) / 75.8 (75.0) |
| Roberta-wwm-ext | 58.7 (57.6) / 79.1 (78.3) | 59.0 (57.8) / 79.0 (78.0) |
| Roberta-WWM-Ext-Large | 62.1 (61.1) / 82.4 (81.6) | 62.4 (61.4) / 82.2 (81.0) |
ในงานการอนุมานภาษาธรรมชาติเราใช้ข้อมูล XNLI ซึ่งต้องการข้อความที่จะแบ่งออกเป็นสามประเภท: entailment , neutral และ contradictory ตัวบ่งชี้การประเมินคือ: ความแม่นยำ
| แบบอย่าง | ชุดพัฒนา | ชุดทดสอบ |
|---|---|---|
| เบิร์ต | 77.8 (77.4) | 77.8 (77.5) |
| เออร์นี่ | 79.7 (79.4) | 78.6 (78.2) |
| bert-wwm | 79.0 (78.4) | 78.2 (78.0) |
| bert-wwm-ext | 79.4 (78.6) | 78.7 (78.3) |
| Roberta-wwm-ext | 80.0 (79.2) | 78.8 (78.3) |
| Roberta-WWM-Ext-Large | 82.1 (81.3) | 81.2 (80.6) |
ในงานการวิเคราะห์ความเชื่อมั่นชุดข้อมูลการจำแนกอารมณ์ไบนารี Chnsenticorp ตัวบ่งชี้การประเมินคือ: ความแม่นยำ
| แบบอย่าง | ชุดพัฒนา | ชุดทดสอบ |
|---|---|---|
| เบิร์ต | 94.7 (94.3) | 95.0 (94.7) |
| เออร์นี่ | 95.4 (94.8) | 95.4 (95.3) |
| bert-wwm | 95.1 (94.5) | 95.4 (95.0) |
| bert-wwm-ext | 95.4 (94.6) | 95.3 (94.7) |
| Roberta-wwm-ext | 95.0 (94.6) | 95.6 (94.8) |
| Roberta-WWM-Ext-Large | 95.8 (94.9) | 95.8 (94.9) |
ชุดข้อมูลสองชุดต่อไปนี้จำเป็นต้องจำแนกคู่ประโยคเพื่อพิจารณาว่าความหมายของประโยคทั้งสองนั้นเหมือนกัน (งานการจำแนกประเภทไบนารี) หรือไม่
LCQMC ได้รับการปล่อยตัวโดยศูนย์วิจัยคอมพิวเตอร์อัจฉริยะของสถาบันเทคโนโลยีฮาร์บินเซินเจิ้นบัณฑิตวิทยาลัย ตัวบ่งชี้การประเมินคือ: ความแม่นยำ
| แบบอย่าง | ชุดพัฒนา | ชุดทดสอบ |
|---|---|---|
| เบิร์ต | 89.4 (88.4) | 86.9 (86.4) |
| เออร์นี่ | 89.8 (89.6) | 87.2 (87.0) |
| bert-wwm | 89.4 (89.2) | 87.0 (86.8) |
| bert-wwm-ext | 89.6 (89.2) | 87.1 (86.6) |
| Roberta-wwm-ext | 89.0 (88.7) | 86.4 (86.1) |
| Roberta-WWM-Ext-Large | 90.4 (90.0) | 87.0 (86.8) |
BQ Corpus ได้รับการปล่อยตัวโดยศูนย์วิจัยคอมพิวเตอร์อัจฉริยะของสถาบันเทคโนโลยีฮาร์บินเซินเจิ้นบัณฑิตวิทยาลัยและเป็นข้อมูลที่ตั้งไว้สำหรับสาขาธนาคาร ตัวบ่งชี้การประเมินคือ: ความแม่นยำ
| แบบอย่าง | ชุดพัฒนา | ชุดทดสอบ |
|---|---|---|
| เบิร์ต | 86.0 (85.5) | 84.8 (84.6) |
| เออร์นี่ | 86.3 (85.5) | 85.0 (84.6) |
| bert-wwm | 86.1 (85.6) | 85.2 (84.9) |
| bert-wwm-ext | 86.4 (85.5) | 85.3 (84.8) |
| Roberta-wwm-ext | 86.0 (85.4) | 85.0 (84.6) |
| Roberta-WWM-Ext-Large | 86.3 (85.7) | 85.8 (84.9) |
สำหรับงานการจำแนกประเภทข้อความระดับเราเลือก Thucnews ซึ่ง เป็นชุดข้อมูลข่าวที่เผยแพร่โดยห้องปฏิบัติการประมวลผลภาษาธรรมชาติของมหาวิทยาลัย Tsinghua เรากำลังใช้หนึ่งในชุดย่อยและจำเป็นต้องแบ่งข่าวออกเป็นหนึ่งใน 10 หมวดหมู่ ตัวบ่งชี้การประเมินคือ: ความแม่นยำ
| แบบอย่าง | ชุดพัฒนา | ชุดทดสอบ |
|---|---|---|
| เบิร์ต | 97.7 (97.4) | 97.8 (97.6) |
| เออร์นี่ | 97.6 (97.3) | 97.5 (97.3) |
| bert-wwm | 98.0 (97.6) | 97.8 (97.6) |
| bert-wwm-ext | 97.7 (97.5) | 97.7 (97.5) |
| Roberta-wwm-ext | 98.3 (97.9) | 97.7 (97.5) |
| Roberta-WWM-Ext-Large | 98.3 (97.7) | 97.8 (97.6) |
ต่อไปนี้เป็นผลการทดลองในงาน NLP หลายงานและมีเพียงการเปรียบเทียบผลลัพธ์ชุดทดสอบที่มีอยู่ในตาราง
| แบบอย่าง | CMRC 2018 | DRCD | xnli | CSC | LCQMC | BQ | เฉลี่ย | ปริมาณพารามิเตอร์ |
|---|---|---|---|---|---|---|---|---|
| Roberta-WWM-Ext-Large | 74.2 / 90.6 | 89.6 / 94.5 | 81.2 | 95.8 | 87.0 | 85.8 | 87.335 | 325m |
| Roberta-wwm-ext | 72.6 / 89.4 | 85.6 / 92.0 | 78.8 | 95.6 | 86.4 | 85.0 | 85.675 | 102m |
| RBTL3 | 63.3 / 83.4 | 77.2 / 85.6 | 74.0 | 94.2 | 85.1 | 83.6 | 80.800 | 61m (59.8%) |
| RBT3 | 62.2 / 81.8 | 75.0 / 83.9 | 72.3 | 92.8 | 85.1 | 83.3 | 79.550 | 38m (37.3%) |
การเปรียบเทียบผลกระทบสัมพัทธ์:
| แบบอย่าง | CMRC 2018 | DRCD | xnli | CSC | LCQMC | BQ | เฉลี่ย | ค่าเฉลี่ยการจำแนกประเภท |
|---|---|---|---|---|---|---|---|---|
| Roberta-WWM-Ext-Large | 102.2% / 101.3% | 104.7% / 102.7% | 103.0% | 100.2% | 100.7% | 100.9% | 101.9% | 101.2% |
| Roberta-wwm-ext | 100% / 100% | 100% / 100% | 100% | 100% | 100% | 100% | 100% | 100% |
| RBTL3 | 87.2% / 93.3% | 90.2% / 93.0% | 93.9% | 98.5% | 98.5% | 98.4% | 94.3% | 97.35% |
| RBT3 | 85.7% / 91.5% | 87.6% / 91.2% | 91.8% | 97.1% | 98.5% | 98.0% | 92.9% | 96.35% |
ยินดีต้อนรับสู่ MINIRBT รุ่นที่ผ่านการฝึกอบรมล่วงหน้าของจีนด้วยผลลัพธ์ที่ดีกว่า: https://github.com/iflytek/minirbt
BERT หรือรุ่นอื่น ๆ ) และจำเป็นต้องปรับตามงานเป้าหมายERNIE นั้นค่อนข้างแตกต่างจาก BERT / BERT-wwm ดังนั้นอย่าลืมปรับอัตราการเรียนรู้เมื่อใช้ ERNIE (ตามผลการทดลองข้างต้นอัตราการเรียนรู้เริ่มต้นที่ ERNIE ต้องการค่อนข้างสูง)BERT / BERT-wwm ใช้ข้อมูล Wikipedia สำหรับการฝึกอบรมจึงดีกว่าสำหรับการสร้างแบบจำลองข้อความที่เป็นทางการ ในขณะที่ ERNIE ใช้ข้อมูลเครือข่ายเพิ่มเติมเช่น Baidu Tieba และ Zhi ซึ่งมีข้อดีในการสร้างแบบจำลองข้อความที่ไม่เป็นทางการ (เช่น Weibo ฯลฯ )BERT และ BERT-wwm มีผลลัพธ์ที่ดีกว่าBERT หรือ BERT-wwm เพราะเราพบว่าแทบไม่มีภาษาจีนดั้งเดิมในรายการคำศัพท์ของ ERNIE เพื่ออำนวยความสะดวกให้ทุกคนในการดาวน์โหลดนำรุ่น BERT-large (wwm) ที่วางจำหน่ายอย่างเป็นทางการโดย Google :
BERT-Large, Uncased (Whole Word Masking) : 24 ชั้น, 1024 ซ่อน, 16 หัว, พารามิเตอร์ 340m
BERT-Large, Cased (Whole Word Masking) : 24 ชั้น, 1024 ซ่อน, 16 หัว, พารามิเตอร์ 340m
ถาม: จะใช้โมเดลนี้อย่างไร?
ตอบ: วิธีใช้เบิร์ตจีนที่เปิดตัวโดย Google วิธีใช้สิ่งนี้ ข้อความไม่จำเป็นต้องผ่านการแบ่งส่วนคำและ WWM มีผลต่อกระบวนการฝึกอบรมก่อนและไม่ส่งผลกระทบต่อการป้อนข้อมูลของงานดาวน์สตรีม
ถาม: มีรหัสการฝึกอบรมล่วงหน้าหรือไม่?
ตอบ: น่าเสียดายที่ฉันไม่สามารถระบุรหัสที่เกี่ยวข้องได้ คุณสามารถอ้างถึง #10 และ #13 สำหรับการใช้งาน
ถาม: จะดาวน์โหลดชุดข้อมูลที่แน่นอนได้ที่ไหน?
ตอบ: โปรดตรวจสอบไดเรกทอรี data README.md ในไดเรกทอรีงานระบุแหล่งข้อมูล สำหรับเนื้อหาที่มีลิขสิทธิ์โปรดค้นหาด้วยตัวเองหรือติดต่อผู้เขียนต้นฉบับเพื่อรับข้อมูล
ถาม: จะมีแผนจะปล่อยโมเดลขนาดใหญ่ขึ้นหรือไม่? ตัวอย่างเช่นเวอร์ชัน Bert-Large-WWM?
ตอบ: หากเราได้รับผลลัพธ์ที่ดีขึ้นจากการทดสอบเราจะพิจารณาปล่อยเวอร์ชันที่ใหญ่กว่า
ถาม: คุณกำลังโกหก! ไม่สามารถทำซ้ำผลลัพธ์ได้หรือไม่?
ตอบ: ในงานดาวน์สตรีมเราใช้โมเดลที่ง่ายที่สุด ตัวอย่างเช่นสำหรับงานการจำแนกประเภทเราใช้ run_classifier.py โดยตรง (จัดทำโดย Google) หากไม่สามารถเข้าถึงค่าเฉลี่ยได้หมายความว่ามีข้อผิดพลาดในการทดสอบเอง โปรดตรวจสอบอย่างระมัดระวัง มีปัจจัยสุ่มมากมายสำหรับค่าสูงสุดและเราไม่สามารถรับประกันได้ว่าเราสามารถเข้าถึงมูลค่าสูงสุดได้ อีกปัจจัยที่ได้รับการยอมรับ: การลดขนาดแบทช์จะช่วยลดผลการทดลองได้อย่างมีนัยสำคัญ สำหรับรายละเอียดโปรดดูฉบับที่เกี่ยวข้องของไดเรกทอรี Bert และ XLNet
ถาม: ฉันจะได้รับผลลัพธ์ที่ดีกว่าคุณ!
ตอบ: ขอแสดงความยินดี
ถาม: ใช้เวลานานแค่ไหนในการฝึกอบรมและอุปกรณ์อะไรบ้าง?
ตอบ: การฝึกอบรมเสร็จสมบูรณ์ใน Google TPU V3 เวอร์ชัน (128G HBM) การฝึกอบรม BERT-WWM ใช้เวลาประมาณ 1.5 วันในขณะที่ BERT-WWM-EXT ใช้เวลาหลายสัปดาห์ (ใช้ข้อมูลเพิ่มเติมเพื่อทำซ้ำมากขึ้น) ควรสังเกตว่าในช่วงก่อนการฝึกอบรมเราใช้ LAMB Optimizer (การใช้งานรุ่น Tensorflow) เครื่องมือเพิ่มประสิทธิภาพนี้มีการสนับสนุนที่ดีสำหรับแบทช์ขนาดใหญ่ เมื่อมีการปรับแต่งงานดาวน์สตรีมเราใช้ AdamWeightDecayOptimizer เริ่มต้นของ Bert
ถาม: เออร์นี่คือใคร?
ตอบ: โมเดล Ernie ในโครงการนี้หมายถึง Ernie ที่เสนอโดย Baidu โดยเฉพาะมากกว่า Ernie ที่ตีพิมพ์โดย Tsinghua University on ACL 2019
ถาม: ผลของ Bert-WWM นั้นไม่ค่อยดีนักในทุกงาน
ตอบ: วัตถุประสงค์ของโครงการนี้คือเพื่อให้นักวิจัยมีแบบจำลองที่ได้รับการฝึกฝนมาก่อนที่หลากหลายเลือก Bert, Ernie หรือ Bert-WWM ได้อย่างอิสระ เราให้ข้อมูลการทดลองเท่านั้นและเรายังต้องพยายามอย่างเต็มที่ในงานของเราเพื่อสรุปข้อสรุป อีกหนึ่งรุ่นอีกหนึ่งตัวเลือก
ถาม: ทำไมชุดข้อมูลบางชุดไม่ได้ลอง?
ตอบ: ตรงไปตรงมาฉันไม่ได้อยู่ในอารมณ์ที่จะหาข้อมูลเพิ่มเติม 2) ฉันไม่จำเป็นต้อง; 3) ฉันไม่มีเงิน
ถาม: ประเมินแบบจำลองเหล่านี้สั้น ๆ
ตอบ: แต่ละคนมีจุดสนใจและจุดแข็งของตัวเอง การวิจัยและพัฒนาการประมวลผลภาษาธรรมชาติของจีนต้องใช้ความพยายามร่วมกันจากทุกฝ่าย
ถาม: โมเดลที่ได้รับการฝึกฝนต่อไปที่คุณคาดการณ์ชื่อคืออะไร?
ตอบ: บางทีมันอาจเรียกว่าโซอี้ Zoe: zero-shot embeddings จากรูปแบบภาษา
ถาม: รายละเอียดเพิ่มเติมเกี่ยวกับรุ่น RoBERTa-wwm-ext ?
ตอบ: เรารวมข้อดีของ Roberta และ Bert-WWM เพื่อสร้างการผสมผสานตามธรรมชาติของทั้งสอง ความแตกต่างระหว่างแบบจำลองในไดเรกทอรีนี้มีดังนี้:
1) ใช้กลยุทธ์ WWM เพื่อปกปิดในขั้นตอนการฝึกอบรมก่อน (แต่ไม่มีการปิดบังแบบไดนามิก)
2) เพียงยกเลิกการสูญเสียการทำนายประโยคถัดไป (NSP)
3) ไม่ใช้โหมดการฝึกอบรมของ max_len = 128 แล้ว max_len = 512, ฝึก max_len โดยตรง = 512 โดยตรง
4) ขยายขั้นตอนการฝึกอบรมอย่างเหมาะสม
ควรสังเกตว่าโมเดลนี้ไม่ใช่โมเดล Roberta ดั้งเดิม แต่เป็นเพียงรุ่น Bert ที่ได้รับการฝึกฝนในวิธีการฝึกอบรม Roberta ที่คล้ายกันคือ Roberta-like Bert ดังนั้นเมื่อใช้งานดาวน์สตรีมและการแปลงโมเดลโปรดดำเนินการใน Bert มากกว่า Roberta
หากทรัพยากรหรือเทคโนโลยีในโครงการนี้มีประโยชน์ต่องานวิจัยของคุณโปรดดูเอกสารต่อไปนี้ในกระดาษ
@journal{cui-etal-2021-pretrain,
title={Pre-Training with Whole Word Masking for Chinese BERT},
author={Cui, Yiming and Che, Wanxiang and Liu, Ting and Qin, Bing and Yang, Ziqing},
journal={IEEE Transactions on Audio, Speech and Language Processing},
year={2021},
url={https://ieeexplore.ieee.org/document/9599397},
doi={10.1109/TASLP.2021.3124365},
}
@inproceedings{cui-etal-2020-revisiting,
title = "Revisiting Pre-Trained Models for {C}hinese Natural Language Processing",
author = "Cui, Yiming and
Che, Wanxiang and
Liu, Ting and
Qin, Bing and
Wang, Shijin and
Hu, Guoping",
booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: Findings",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.findings-emnlp.58",
pages = "657--668",
}
ผู้เขียนคนแรกได้รับการสนับสนุนบางส่วนจากโปรแกรม การวิจัยคลาวด์ TPU ของ Google
โครงการนี้ไม่ใช่รุ่น Bert-WWM จีนที่เปิดตัวอย่างเป็นทางการโดย Google ในขณะเดียวกันโครงการนี้ไม่ได้เป็นผลิตภัณฑ์อย่างเป็นทางการของ Harbin Institute of Technology หรือ Iflytek ผลการทดลองที่นำเสนอในรายงานทางเทคนิคแสดงให้เห็นว่าประสิทธิภาพภายใต้ชุดข้อมูลเฉพาะและการรวมกันของไฮเปอร์พารามิเตอร์ไม่ได้แสดงถึงลักษณะของแต่ละรุ่น ผลการทดลองอาจเปลี่ยนแปลงได้เนื่องจากเมล็ดพันธุ์และอุปกรณ์คอมพิวเตอร์แบบสุ่ม เนื้อหาในโครงการนี้มีไว้สำหรับการอ้างอิงการวิจัยทางเทคนิคเท่านั้นและไม่ได้ใช้เป็นพื้นฐานการสรุปใด ๆ ผู้ใช้สามารถใช้โมเดลได้ตลอดเวลาภายในขอบเขตของใบอนุญาต แต่เราจะไม่รับผิดชอบต่อการสูญเสียโดยตรงหรือโดยอ้อมที่เกิดจากการใช้เนื้อหาของโครงการ
ยินดีต้อนรับสู่การติดตามบัญชีอย่างเป็นทางการของ WeChat อย่างเป็นทางการของห้องปฏิบัติการร่วม IFLYTEK เพื่อเรียนรู้เกี่ยวกับแนวโน้มทางเทคนิคล่าสุด

หากคุณมีคำถามใด ๆ โปรดส่งในปัญหา GitHub