ดาวน์โหลด Chinese BERT wwm - ดาวน์โหลดซอร์สโค้ด Chinese BERT wwm

Chinese BERT wwm

ซอร์สโค้ดอื่น ๆ

1.0.0

ดาวน์โหลด

เวอร์ชัน Chinese-Llama-Alpaca-2 v1.0 ได้รับการปล่อยตัวอย่างเป็นทางการแล้ว!

คำอธิบายภาษาจีน ภาษาอังกฤษ

ในด้านการประมวลผลภาษาธรรมชาติแบบจำลองภาษาที่ผ่านการฝึกอบรมมาก่อน (แบบจำลองภาษาที่ผ่านการฝึกอบรมมาก่อน) ได้กลายเป็นเทคโนโลยีพื้นฐานที่สำคัญมาก เพื่อส่งเสริมการวิจัยและพัฒนาการประมวลผลข้อมูลจีนต่อไปเราได้เปิดตัว Bert-WWM แบบจำลองที่ผ่านการฝึกอบรมมาก่อนภาษาจีนโดยใช้เทคโนโลยีการปิดบังคำทั้งหมดรวมถึงแบบจำลองที่เกี่ยวข้องกับเทคโนโลยีนี้อย่างใกล้ชิด: Bert-WWM-Ext, Roberta-WWM-EXT, Roberta-WWM-ext-Large, RBT3

ฝึกอบรมล่วงหน้าด้วยการปิดบังคำทั้งหมดสำหรับเบิร์ตจีน
Yiming Cui, Wanxiang Che, Ting Liu, Bing Qin, Ziqing Yang
เผยแพร่ใน ธุรกรรม IEEE/ACM เกี่ยวกับเสียงการพูดและการประมวลผลภาษา (TASLP)

โครงการนี้ขึ้นอยู่กับ Bert อย่างเป็นทางการของ Google: https://github.com/google-research/bert

Lert จีน ภาษาอังกฤษภาษาอังกฤษ Pert | Macbert จีน Electra จีน XLNET จีน | เบิร์ตจีน เครื่องมือกลั่นความรู้ TextBrewer | เครื่องมือตัดแบบจำลอง TextPruner

ดูแหล่งข้อมูลเพิ่มเติมที่เผยแพร่โดย IFL of Harbin Institute of Technology (HFL): https://github.com/ymcui/hfl-anthology

ข่าว

2023/3/28 โอเพ่นซอร์ส Llama & Alpaca Big Model ซึ่งสามารถนำไปใช้อย่างรวดเร็วและมีประสบการณ์บนพีซีดู: https://github.com/ymcui/chinese-llama-alpaca

2023/3/9 เราเสนอรูปแบบที่ได้รับการฝึกอบรมล่วงหน้าหลายรูปแบบ VLE ในกราฟิกและข้อความดู: https://github.com/iflytek/vle

2022/11/15 เราเสนอรูปแบบขนาดเล็กที่ผ่านการฝึกอบรมมาก่อนภาษาจีน ดู: https://github.com/iflytek/minirbt

2022/10/29 เราเสนอรูปแบบที่ได้รับการฝึกอบรมล่วงหน้าซึ่งรวมข้อมูลภาษาศาสตร์ ดู: https://github.com/ymcui/lert

2022/3/30 เราเปิดแหล่งข้อมูลรุ่นใหม่ที่ผ่านการฝึกอบรมมาก่อน ดู: https://github.com/ymcui/pert

ข่าวประวัติศาสตร์

2021/12/17 ห้องปฏิบัติการร่วม IFLYTEK เปิดตัว TextPruner TextPruner แบบจำลอง ดู: https://github.com/airaria/textpruner

2021/10/24 ห้องปฏิบัติการร่วม IFLYTEK เปิดตัว CINO แบบจำลองที่ผ่านการฝึกอบรมมาก่อนสำหรับภาษาชนกลุ่มน้อย ดู: https://github.com/ymcui/chinese-minority-plm

2021/7/21 "การประมวลผลภาษาธรรมชาติ: วิธีการตามรูปแบบการฝึกอบรมก่อนการฝึกอบรม" ที่เขียนโดยนักวิชาการหลายคนจาก Harbin Institute of Technology Scir ได้รับการเผยแพร่และทุกคนยินดีที่จะซื้อ

2021/1/27 ทุกรุ่นได้รองรับ TensorFlow 2 โปรดโทรหรือดาวน์โหลดผ่าน Library Transformers https://huggingface.co/hfl

2020/9/15 บทความของเรา "ทบทวนแบบจำลองที่ผ่านการฝึกอบรมมาก่อนสำหรับการประมวลผลภาษาธรรมชาติจีน" ได้รับการว่าจ้างเป็นบทความยาวโดยการค้นพบของ EMNLP

2020/8/27 ห้องปฏิบัติการร่วม IFL ติดอันดับในการประเมินความเข้าใจภาษาธรรมชาติทั่วไปของกาวทั่วไปตรวจสอบรายการกาวข่าว

2020/3/23 รุ่นที่ปล่อยออกมาในไดเรกทอรีนี้ได้เชื่อมต่อกับ PaddlePaddleHub เพื่อดูการโหลดที่รวดเร็ว

2020/3/11 เพื่อให้เข้าใจถึงความต้องการได้ดีขึ้นคุณได้รับเชิญให้กรอกแบบสอบถามเพื่อให้คุณมีทรัพยากรที่ดีขึ้น

2020/2/26 ห้องปฏิบัติการร่วม IFLYTEK ปล่อยเครื่องมือการกลั่นความรู้

2020/1/20 ขอให้คุณโชคดีในปีที่หนู เวลานี้ RBT3 และ RBTL3 (3 ชั้น Roberta-WWM-Ext-Base/Large) ได้รับการปล่อยตัวเพื่อดูโมเดลปริมาณพารามิเตอร์ขนาดเล็ก

2019/12/19 รุ่นที่เผยแพร่ในไดเรกทอรีนี้ได้เชื่อมต่อกับ HuggingFace-Transformers เพื่อดูการโหลดที่รวดเร็ว

2019/10/14 ปล่อยโมเดล Roberta-WWM-Ext-Large ดูการดาวน์โหลดรุ่นจีน

2019/9/10 เปิดตัวรุ่น Roberta-WWM-EXT และดูการดาวน์โหลดรุ่นจีน

2019/7/30 ให้บริการรุ่น BERT-wwm-ext จีนที่ผ่านการฝึกอบรมเกี่ยวกับคลังข้อมูลทั่วไปขนาดใหญ่ (จำนวนคำ 5.4B) ดูการดาวน์โหลดแบบจำลองภาษาจีน

2019/6/20 รุ่นเริ่มต้นรุ่นสามารถดาวน์โหลดได้ผ่าน Google และดิสก์คลาวด์ในประเทศก็ถูกอัปโหลด ตรวจสอบการดาวน์โหลดรุ่นจีน

คำแนะนำเนื้อหา

บท	อธิบาย
การแนะนำ	รู้เบื้องต้นเกี่ยวกับหลักการพื้นฐานของ bert-wwm
ดาวน์โหลดรุ่นจีน	จัดเตรียมที่อยู่ดาวน์โหลดของ bert-wwm
การโหลดอย่างรวดเร็ว	วิธีใช้หม้อแปลงและ PaddleHub โหลดรุ่นอย่างรวดเร็ว
การเปรียบเทียบแบบจำลอง	ให้การเปรียบเทียบพารามิเตอร์ของโมเดลในไดเรกทอรีนี้
เอฟเฟกต์ระบบพื้นฐานของจีน	แสดงผลกระทบบางอย่างของระบบพื้นฐานของจีน
โมเดลปริมาณพารามิเตอร์ขนาดเล็ก	แสดงรายการเอฟเฟกต์ของแบบจำลองปริมาณพารามิเตอร์ขนาดเล็ก (หม้อแปลง 3 ชั้น)
คำแนะนำสำหรับการใช้งาน	มีข้อเสนอแนะหลายประการสำหรับการใช้แบบจำลองที่ผ่านการฝึกอบรมก่อนภาษาจีน
ดาวน์โหลดรุ่นภาษาอังกฤษ	ที่อยู่ดาวน์โหลดอย่างเป็นทางการของ Google Bert-WWM ของ Google
คำถามที่พบบ่อย	คำถามที่พบบ่อยและคำตอบ
อ้าง	รายงานทางเทคนิคในไดเรกทอรีนี้

การแนะนำ

การปิดบังคำทั้งคำ (WWM) ซึ่งแปลเป็นการชั่วคราวเป็น全词Mask หรือ整词Mask เป็นรุ่นที่ได้รับการอัพเกรดโดย Google ที่เปิดตัวโดย Google เมื่อวันที่ 31 พฤษภาคม 2019 ซึ่งส่วนใหญ่เปลี่ยนกลยุทธ์การสร้างตัวอย่างการฝึกอบรมในขั้นตอนการฝึกอบรมก่อนการฝึกอบรมดั้งเดิม พูดง่ายๆคือวิธีการแบ่งส่วนคำที่ใช้คำ WordPiece ดั้งเดิมจะแบ่งคำที่สมบูรณ์เป็นคำย่อยหลายคำ เมื่อสร้างตัวอย่างการฝึกอบรมคำศัพท์ที่แยกจากกันเหล่านี้จะถูกปกปิดแบบสุ่ม ใน全词Mask หากคำย่อยคำศัพท์ของคำที่สมบูรณ์ถูกสวมหน้ากากส่วนอื่น ๆ ของคำเดียวกันจะถูกสวมหน้ากากนั่นคือ全词Mask

ควรสังเกตว่าหน้ากากที่นี่หมายถึงหน้ากากทั่วไป (แทนที่ด้วย [หน้ากาก]; รักษาคำศัพท์ดั้งเดิม; แทนที่แบบสุ่มด้วยคำอื่น) และไม่ จำกัด เฉพาะกรณีที่คำที่ถูกแทนที่ด้วยแท็ก [MASK] สำหรับคำอธิบายและตัวอย่างโดยละเอียดเพิ่มเติมโปรดดูที่: #4

ในทำนองเดียวกันเนื่องจาก Google เปิด BERT-base, Chinese อย่างเป็นทางการจีนจะถูกแบ่งออกเป็น ตัวละคร เป็นความละเอียดและไม่ได้คำนึงถึงคำกริยาจีน (CWS) ใน NLP แบบดั้งเดิม เราใช้วิธีการของหน้ากากคำเต็มรูปแบบในภาษาจีนใช้วิกิพีเดียจีน (รวมถึงภาษาจีนแบบง่ายและดั้งเดิม) สำหรับการฝึกอบรมและใช้สถาบันเทคโนโลยีฮาร์บิน LTP เป็นเครื่องมือแบ่งส่วนคำนั่นคือตัวละครจีนทั้งหมดที่ประกอบ คำ เดียวกัน

ข้อความต่อไปนี้แสดงการสร้างตัวอย่างของ全词Mask หมายเหตุ: เพื่อความเข้าใจที่ง่ายมีเพียงกรณีของการแทนที่แท็ก [MASK] เท่านั้นที่พิจารณาในตัวอย่างต่อไปนี้

อธิบาย	ตัวอย่าง
ข้อความต้นฉบับ	ใช้แบบจำลองภาษาเพื่อทำนายความน่าจะเป็นของคำถัดไป
ข้อความคำนาม	ใช้แบบจำลองภาษาเพื่อทำนายความน่าจะเป็นของคำถัดไป
อินพุตหน้ากากดั้งเดิม	ใช้ประเภทภาษา [หน้ากาก] เพื่อทดสอบ Pro [Mask] ของ Word Pro [Mask] ## lity
อินพุตมาสก์คำเต็มคำ	ใช้ภาษา [หน้ากาก] [หน้ากาก] กับ [หน้ากาก] [หน้ากาก] คำต่อไป [หน้ากาก] [หน้ากาก]

ดาวน์โหลดรุ่นจีน

ไดเรกทอรีนี้ส่วนใหญ่มีโมเดลพื้นฐานดังนั้นเราจึงไม่ติดฉลาก base คำในตัวย่อของโมเดล สำหรับแบบจำลองขนาดอื่นแท็กที่สอดคล้องกัน (ตัวอย่างเช่นขนาดใหญ่) จะถูกทำเครื่องหมาย

BERT-large模型: 24-Layer, 1024 ซ่อน, 16 หัว, พารามิเตอร์ 330m
BERT-base模型: 12-layer, 768 ซ่อน, 12 หัว, พารามิเตอร์ 110m

หมายเหตุ: เวอร์ชันโอเพ่นซอร์สไม่มีน้ำหนักของงาน MLM; หากคุณต้องการทำงาน MLM โปรดใช้ข้อมูลเพิ่มเติมสำหรับการฝึกอบรมก่อนการฝึกอบรมรอง (เช่นงานดาวน์สตรีมอื่น ๆ )

ตัวย่อแบบจำลอง	วัสดุ	ดาวน์โหลด Google	Baidu Netdisk ดาวน์โหลด
`RBT6, Chinese`	ข้อมูล ext ^[1]	-	tensorflow (รหัสผ่าน hniy)
`RBT4, Chinese`	ข้อมูล ext ^[1]	-	tensorflow (รหัสผ่าน SJPT)
`RBTL3, Chinese`	ข้อมูล ext ^[1]	เทนเซอร์โฟลว์ pytorch	tensorflow (รหัสผ่าน S6CU)
`RBT3, Chinese`	ข้อมูล ext ^[1]	เทนเซอร์โฟลว์ pytorch	TensorFlow (รหัสผ่าน 5A57)
`RoBERTa-wwm-ext-large, Chinese`	ข้อมูล ext ^[1]	เทนเซอร์โฟลว์ pytorch	tensorflow (รหัสผ่าน dqqe)
`RoBERTa-wwm-ext, Chinese`	ข้อมูล ext ^[1]	เทนเซอร์โฟลว์ pytorch	tensorflow (รหัสผ่าน vybq)
`BERT-wwm-ext, Chinese`	ข้อมูล ext ^[1]	เทนเซอร์โฟลว์ pytorch	tensorflow (รหัสผ่าน wgnt)
`BERT-wwm, Chinese`	วิกิจีน	เทนเซอร์โฟลว์ pytorch	tensorflow (รหัสผ่าน qfh8)
`BERT-base, Chinese` ^{Google Google}	วิกิจีน	Google Cloud	-
`BERT-base, Multilingual Cased` ^Google	วิกิหลายภาษา	Google Cloud	-
`BERT-base, Multilingual Uncased` ^google ที่ไม่ได้พูดได้หลายภาษา	วิกิหลายภาษา	Google Cloud	-

[1] ข้อมูล EXT รวมถึง: Wikipedia จีนสารานุกรมอื่น ๆ ข่าวคำถามและคำตอบและข้อมูลอื่น ๆ ที่มีจำนวนคำทั้งหมดถึง 5.4B

เวอร์ชัน Pytorch

หากคุณต้องการเวอร์ชัน Pytorch

1) โปรดแปลงด้วยตัวคุณเองผ่านสคริปต์การแปลงที่จัดทำโดย Transformers

2) หรือดาวน์โหลด pytorch โดยตรงผ่านเว็บไซต์ทางการของ HuggingFace: https://huggingface.co/hfl

วิธีการดาวน์โหลด: คลิกรุ่นใด ๆ ที่คุณต้องการดาวน์โหลด→เลือกแท็บ "ไฟล์และเวอร์ชัน" →ดาวน์โหลดไฟล์รุ่นที่เกี่ยวข้อง

คำแนะนำสำหรับการใช้งาน

ขอแนะนำให้ใช้คะแนนดาวน์โหลด Baidu Netdisk ในประเทศจีนแผ่นดินใหญ่และผู้ใช้ในต่างประเทศขอแนะนำให้ใช้คะแนนดาวน์โหลด Google ขนาดไฟล์พื้นฐานของไฟล์ประมาณ 400 ม . การใช้ BERT-wwm, Chinese เป็นตัวอย่างหลังจากดาวน์โหลดแล้วให้คลายไฟล์ ZIP เพื่อรับ:

 chinese_wwm_L-12_H-768_A-12.zip
    |- bert_model.ckpt      # 模型权重
    |- bert_model.meta      # 模型meta信息
    |- bert_model.index     # 模型index信息
    |- bert_config.json     # 模型参数
    |- vocab.txt            # 词表

ในหมู่พวกเขา bert_config.json และ vocab.txt นั้นเหมือนกับ BERT-base, Chinese รุ่น pytorch มี pytorch_model.bin , bert_config.json และไฟล์ vocab.txt

การโหลดอย่างรวดเร็ว

ใช้ HuggingFace-Transformers

พึ่งพาห้องสมุด? Transformers รุ่นข้างต้นสามารถเรียกได้ง่าย

 tokenizer = BertTokenizer.from_pretrained("MODEL_NAME")
model = BertModel.from_pretrained("MODEL_NAME")

หมายเหตุ: ทุกรุ่นในไดเรกทอรีนี้โหลดโดยใช้ BertTokenizer และ BertModel อย่าใช้ Robertatokenizer/Robertamodel!

รายการที่สอดคล้องกันของ MODEL_NAME มีดังนี้:

ชื่อนางแบบ	model_name
Roberta-WWM-Ext-Large	HFL/Chinese-Roberta-WWM-Ext-Large
Roberta-wwm-ext	hfl/chinese-roberta-wwm-ext
bert-wwm-ext	HFL/Chinese-Bert-WWM-EXT
bert-wwm	HFL/Chinese-Bert-WWM
RBT3	HFL/RBT3
RBTL3	HFL/RBTL3

ใช้ paddlehub

พึ่งพา PaddleHub คุณสามารถดาวน์โหลดและติดตั้งโมเดลได้ด้วยรหัสเดียวและรหัสมากกว่าสิบบรรทัดสามารถทำงานให้เสร็จเช่นการจำแนกข้อความ, คำอธิบายประกอบลำดับ, การอ่านความเข้าใจ ฯลฯ

 import paddlehub as hub
module = hub.Module(name=MODULE_NAME)

รายการที่สอดคล้องกันของ MODULE_NAME มีดังนี้:

ชื่อนางแบบ	module_name
Roberta-WWM-Ext-Large	Chinese-Roberta-WWM-Ext-Large
Roberta-wwm-ext	Chinese-Roberta-WWM-EXT
bert-wwm-ext	Chinese-Bert-WWM-EXT
bert-wwm	จีน-เบิร์ต-wwm
RBT3	RBT3
RBTL3	RBTL3

การเปรียบเทียบแบบจำลอง

ต่อไปนี้เป็นบทสรุปของรายละเอียดบางรุ่นที่ทุกคนมีความกังวลมากขึ้น

-	bert ^google	bert-wwm	bert-wwm-ext	Roberta-wwm-ext	Roberta-WWM-Ext-Large
การปิดบัง	คำพูด	WWM ^[1]	WWM	WWM	WWM
พิมพ์	ฐาน	ฐาน	ฐาน	ฐาน	ใหญ่
แหล่งข้อมูล	วิกิ	วิกิ	wiki+ext ^[2]	wiki+ext	wiki+ext
โทเค็นฝึกอบรม #	0.4B	0.4B	5.4b	5.4b	5.4b
อุปกรณ์	TPU POD V2	TPU v3	TPU v3	TPU v3	TPU POD V3-32 ^[3]
ขั้นตอนการฝึกอบรม	-	100k ^Max128 +100k ^Max512	1m ^Max128 +400k ^Max512	1m ^Max512	2m ^Max512
ขนาดแบทช์	-	2,560 / 384	2,560 / 384	384	512
การเพิ่มประสิทธิภาพ	อดัม	เนื้อแกะ	เนื้อแกะ	อดัม	อดัม
คำศัพท์	21,128	~ bert ^[4]	~ เบิร์ต	~ เบิร์ต	~ เบิร์ต
จุดตรวจสอบ init	การเริ่มต้นแบบสุ่ม	~ เบิร์ต	~ เบิร์ต	~ เบิร์ต	การเริ่มต้นแบบสุ่ม

[1] WWM = การปิดบังคำทั้งหมด
[2] ext = ข้อมูลเพิ่มเติม
[3] TPU POD V3-32 (512G HBM) เทียบเท่ากับ 4 TPU V3 (128G HBM)
[4] ~BERT หมายถึง การสืบทอด คุณลักษณะของ Bert จีนดั้งเดิมของ Google

เอฟเฟกต์ระบบพื้นฐานของจีน

เพื่อเปรียบเทียบเอฟเฟกต์พื้นฐานเราได้ทำการทดสอบในชุดข้อมูลภาษาจีนต่อไปนี้รวมถึงงาน句子级และ篇章级สำหรับ BERT-wwm-ext , RoBERTa-wwm-ext และ RoBERTa-wwm-ext-large เรา ไม่ได้ปรับอัตราการเรียนรู้ที่ดีที่สุด แต่ใช้อัตราการเรียนรู้ที่ดีที่สุดโดยตรงของ BERT-wwm

อัตราการเรียนรู้ที่ดีที่สุด:

แบบอย่าง	เบิร์ต	เออร์นี่	bert-wwm*
CMRC 2018	3e-5	8E-5	3e-5
DRCD	3e-5	8E-5	3e-5
CJRC	4e-5	8E-5	4e-5
xnli	3e-5	5E-5	3e-5
chnsenticorp	2e-5	5E-5	2e-5
LCQMC	2e-5	3e-5	2e-5
BQ Corpus	3e-5	5E-5	3e-5
Thucnews	2e-5	5E-5	2e-5

*แสดงถึงทุกรุ่น WWM (Bert-WWM, Bert-WWM-EXT, Roberta-WWM-EXT, Roberta-WWM-Ext-Large)

ผลลัพธ์บางอย่างเท่านั้นที่แสดงอยู่ด้านล่าง โปรดดูรายงานทางเทคนิคของเราสำหรับผลลัพธ์ที่สมบูรณ์

CMRC 2018 : การอ่านความเข้าใจของบทที่แยกส่วน (ภาษาจีนง่าย)
DRCD : การอ่านความเข้าใจของการสกัดชิ้นส่วน (ภาษาจีนดั้งเดิม)
CJRC : ความเข้าใจในการอ่านตามกฎหมาย (ภาษาจีนง่าย)
xnli : การอนุมานภาษาธรรมชาติ
Chnsenticorp : การวิเคราะห์ Senti
LCQMC : การจับคู่คู่ประโยค
BQ Corpus : การจับคู่คู่ประโยค
Thucnews : การจำแนกประเภทข้อความระดับบท

หมายเหตุ: เพื่อให้แน่ใจว่าความน่าเชื่อถือของผลลัพธ์สำหรับรุ่นเดียวกันเราเรียกใช้ 10 เท่า (เมล็ดสุ่มที่แตกต่างกัน) เพื่อรายงานค่าสูงสุดและค่าเฉลี่ยของประสิทธิภาพของโมเดล (ค่าเฉลี่ยในวงเล็บ) หากไม่มีอะไรเกิดขึ้นที่ไม่คาดคิดผลลัพธ์ของการดำเนินการของคุณควรอยู่ในช่วงนี้

ในตัวบ่งชี้การประเมินค่าค่าเฉลี่ยจะถูกแสดงในวงเล็บและค่าสูงสุดจะถูกแสดงภายนอกวงเล็บ

ความเข้าใจในการอ่านภาษาจีนที่ง่ายขึ้น: CMRC 2018

ชุดข้อมูล CMRC 2018 เป็นข้อมูลความเข้าใจในการอ่านของเครื่องจีนที่เผยแพร่โดยห้องปฏิบัติการร่วมของสถาบันเทคโนโลยีฮาร์บิน ตามคำถามที่กำหนดระบบจะต้องแยกชิ้นส่วนออกจากบทเป็นคำตอบในรูปแบบเดียวกับทีม ตัวชี้วัดการประเมินคือ: EM / F1

แบบอย่าง	ชุดพัฒนา	ชุดทดสอบ	ชุดท้าทาย
เบิร์ต	65.5 (64.4) / 84.5 (84.0)	70.0 (68.7) / 87.0 (86.3)	18.6 (17.0) / 43.3 (41.3)
เออร์นี่	65.4 (64.3) / 84.7 (84.2)	69.4 (68.2) / 86.6 (86.1)	19.6 (17.0) / 44.3 (42.8)
bert-wwm	66.3 (65.0) / 85.6 (84.7)	70.5 (69.1) / 87.4 (86.7)	21.0 (19.3) / 47.0 (43.9)
bert-wwm-ext	67.1 (65.6) / 85.7 (85.0)	71.4 (70.0) / 87.7 (87.0)	24.0 (20.0) / 47.3 (44.6)
Roberta-wwm-ext	67.4 (66.5) / 87.2 (86.5)	72.6 (71.4) / 89.4 (88.8)	26.2 (24.6) / 51.0 (49.1)
Roberta-WWM-Ext-Large	68.5 (67.6) / 88.4 (87.9)	74.2 (72.4) / 90.6 (90.0)	31.5 (30.1) / 60.1 (57.5)

ความเข้าใจในการอ่านภาษาจีนดั้งเดิม: DRCD

ชุดข้อมูล DRCD ได้รับการเผยแพร่โดย Delta Research Institute, ไต้หวัน, จีน รูปแบบของมันเหมือนกับทีมและเป็นชุดข้อมูลความเข้าใจในการอ่านที่แยกออกมาจากภาษาจีนดั้งเดิม เนื่องจากตัวละครจีนดั้งเดิมถูกลบออกจาก Ernie จึงไม่แนะนำให้ใช้ Ernie (หรือแปลงเป็นภาษาจีนที่ง่ายขึ้นแล้วประมวลผล) กับข้อมูลภาษาจีนดั้งเดิม ตัวชี้วัดการประเมินคือ: EM / F1

แบบอย่าง	ชุดพัฒนา	ชุดทดสอบ
เบิร์ต	83.1 (82.7) / 89.9 (89.6)	82.2 (81.6) / 89.2 (88.8)
เออร์นี่	73.2 (73.0) / 83.9 (83.8)	71.9 (71.4) / 82.5 (82.3)
bert-wwm	84.3 (83.4) / 90.5 (90.2)	82.8 (81.8) / 89.7 (89.0)
bert-wwm-ext	85.0 (84.5) / 91.2 (90.9)	83.6 (83.0) / 90.4 (89.9)
Roberta-wwm-ext	86.6 (85.9) / 92.5 (92.2)	85.6 (85.2) / 92.0 (91.7)
Roberta-WWM-Ext-Large	89.6 (89.1) / 94.8 (94.4)	89.6 (88.9) / 94.5 (94.1)

ความเข้าใจในการอ่านตุลาการ: CJRC

ชุดข้อมูล CJRC เป็นข้อมูลความเข้าใจในการอ่านเครื่องของจีนสำหรับ สนามตุลาการ ที่ออกโดยห้องปฏิบัติการร่วมของ Iflytek ควรสังเกตว่าข้อมูลที่ใช้ในการทดสอบไม่ใช่ข้อมูลสุดท้ายที่เปิดเผยโดยเจ้าหน้าที่และผลลัพธ์นั้นมีไว้สำหรับการอ้างอิงเท่านั้น ตัวชี้วัดการประเมินคือ: EM / F1

แบบอย่าง	ชุดพัฒนา	ชุดทดสอบ
เบิร์ต	54.6 (54.0) / 75.4 (74.5)	55.1 (54.1) / 75.2 (74.3)
เออร์นี่	54.3 (53.9) / 75.3 (74.6)	55.0 (53.9) / 75.0 (73.9)
bert-wwm	54.7 (54.0) / 75.2 (74.8)	55.1 (54.1) / 75.4 (74.4)
bert-wwm-ext	55.6 (54.8) / 76.0 (75.3)	55.6 (54.9) / 75.8 (75.0)
Roberta-wwm-ext	58.7 (57.6) / 79.1 (78.3)	59.0 (57.8) / 79.0 (78.0)
Roberta-WWM-Ext-Large	62.1 (61.1) / 82.4 (81.6)	62.4 (61.4) / 82.2 (81.0)

การอนุมานภาษาธรรมชาติ: xnli

ในงานการอนุมานภาษาธรรมชาติเราใช้ข้อมูล XNLI ซึ่งต้องการข้อความที่จะแบ่งออกเป็นสามประเภท: entailment , neutral และ contradictory ตัวบ่งชี้การประเมินคือ: ความแม่นยำ

แบบอย่าง	ชุดพัฒนา	ชุดทดสอบ
เบิร์ต	77.8 (77.4)	77.8 (77.5)
เออร์นี่	79.7 (79.4)	78.6 (78.2)
bert-wwm	79.0 (78.4)	78.2 (78.0)
bert-wwm-ext	79.4 (78.6)	78.7 (78.3)
Roberta-wwm-ext	80.0 (79.2)	78.8 (78.3)
Roberta-WWM-Ext-Large	82.1 (81.3)	81.2 (80.6)

อาการทางวินัย

ในงานการวิเคราะห์ความเชื่อมั่นชุดข้อมูลการจำแนกอารมณ์ไบนารี Chnsenticorp ตัวบ่งชี้การประเมินคือ: ความแม่นยำ

แบบอย่าง	ชุดพัฒนา	ชุดทดสอบ
เบิร์ต	94.7 (94.3)	95.0 (94.7)
เออร์นี่	95.4 (94.8)	95.4 (95.3)
bert-wwm	95.1 (94.5)	95.4 (95.0)
bert-wwm-ext	95.4 (94.6)	95.3 (94.7)
Roberta-wwm-ext	95.0 (94.6)	95.6 (94.8)
Roberta-WWM-Ext-Large	95.8 (94.9)	95.8 (94.9)

การจำแนกคู่ประโยค: LCQMC, BQ Corpus

ชุดข้อมูลสองชุดต่อไปนี้จำเป็นต้องจำแนกคู่ประโยคเพื่อพิจารณาว่าความหมายของประโยคทั้งสองนั้นเหมือนกัน (งานการจำแนกประเภทไบนารี) หรือไม่

LCQMC

LCQMC ได้รับการปล่อยตัวโดยศูนย์วิจัยคอมพิวเตอร์อัจฉริยะของสถาบันเทคโนโลยีฮาร์บินเซินเจิ้นบัณฑิตวิทยาลัย ตัวบ่งชี้การประเมินคือ: ความแม่นยำ

แบบอย่าง	ชุดพัฒนา	ชุดทดสอบ
เบิร์ต	89.4 (88.4)	86.9 (86.4)
เออร์นี่	89.8 (89.6)	87.2 (87.0)
bert-wwm	89.4 (89.2)	87.0 (86.8)
bert-wwm-ext	89.6 (89.2)	87.1 (86.6)
Roberta-wwm-ext	89.0 (88.7)	86.4 (86.1)
Roberta-WWM-Ext-Large	90.4 (90.0)	87.0 (86.8)

BQ Corpus

BQ Corpus ได้รับการปล่อยตัวโดยศูนย์วิจัยคอมพิวเตอร์อัจฉริยะของสถาบันเทคโนโลยีฮาร์บินเซินเจิ้นบัณฑิตวิทยาลัยและเป็นข้อมูลที่ตั้งไว้สำหรับสาขาธนาคาร ตัวบ่งชี้การประเมินคือ: ความแม่นยำ

แบบอย่าง	ชุดพัฒนา	ชุดทดสอบ
เบิร์ต	86.0 (85.5)	84.8 (84.6)
เออร์นี่	86.3 (85.5)	85.0 (84.6)
bert-wwm	86.1 (85.6)	85.2 (84.9)
bert-wwm-ext	86.4 (85.5)	85.3 (84.8)
Roberta-wwm-ext	86.0 (85.4)	85.0 (84.6)
Roberta-WWM-Ext-Large	86.3 (85.7)	85.8 (84.9)

การจำแนกประเภทข้อความระดับ: Thucnews

สำหรับงานการจำแนกประเภทข้อความระดับเราเลือก Thucnews ซึ่ง เป็นชุดข้อมูลข่าวที่เผยแพร่โดยห้องปฏิบัติการประมวลผลภาษาธรรมชาติของมหาวิทยาลัย Tsinghua เรากำลังใช้หนึ่งในชุดย่อยและจำเป็นต้องแบ่งข่าวออกเป็นหนึ่งใน 10 หมวดหมู่ ตัวบ่งชี้การประเมินคือ: ความแม่นยำ

แบบอย่าง	ชุดพัฒนา	ชุดทดสอบ
เบิร์ต	97.7 (97.4)	97.8 (97.6)
เออร์นี่	97.6 (97.3)	97.5 (97.3)
bert-wwm	98.0 (97.6)	97.8 (97.6)
bert-wwm-ext	97.7 (97.5)	97.7 (97.5)
Roberta-wwm-ext	98.3 (97.9)	97.7 (97.5)
Roberta-WWM-Ext-Large	98.3 (97.7)	97.8 (97.6)

โมเดลปริมาณพารามิเตอร์ขนาดเล็ก

ต่อไปนี้เป็นผลการทดลองในงาน NLP หลายงานและมีเพียงการเปรียบเทียบผลลัพธ์ชุดทดสอบที่มีอยู่ในตาราง

แบบอย่าง	CMRC 2018	DRCD	xnli	CSC	LCQMC	BQ	เฉลี่ย	ปริมาณพารามิเตอร์
Roberta-WWM-Ext-Large	74.2 / 90.6	89.6 / 94.5	81.2	95.8	87.0	85.8	87.335	325m
Roberta-wwm-ext	72.6 / 89.4	85.6 / 92.0	78.8	95.6	86.4	85.0	85.675	102m
RBTL3	63.3 / 83.4	77.2 / 85.6	74.0	94.2	85.1	83.6	80.800	61m (59.8%)
RBT3	62.2 / 81.8	75.0 / 83.9	72.3	92.8	85.1	83.3	79.550	38m (37.3%)

การเปรียบเทียบผลกระทบสัมพัทธ์:

แบบอย่าง	CMRC 2018	DRCD	xnli	CSC	LCQMC	BQ	เฉลี่ย	ค่าเฉลี่ยการจำแนกประเภท
Roberta-WWM-Ext-Large	102.2% / 101.3%	104.7% / 102.7%	103.0%	100.2%	100.7%	100.9%	101.9%	101.2%
Roberta-wwm-ext	100% / 100%	100% / 100%	100%	100%	100%	100%	100%	100%
RBTL3	87.2% / 93.3%	90.2% / 93.0%	93.9%	98.5%	98.5%	98.4%	94.3%	97.35%
RBT3	85.7% / 91.5%	87.6% / 91.2%	91.8%	97.1%	98.5%	98.0%	92.9%	96.35%

ปริมาณพารามิเตอร์ถูกคำนวณตามงานการจำแนกประเภท XNLI
เปอร์เซ็นต์ของพารามิเตอร์ในวงเล็บขึ้นอยู่กับโมเดลพื้นฐานดั้งเดิม (เช่น Roberta-WWM-EXT)
RBT3: เริ่มต้นด้วยเลเยอร์ Roberta-WWM-Ext 3 และยังคงฝึกอบรมต่อไปสำหรับขั้นตอน 1M ต่อไป
RBTL3: เริ่มต้นด้วยชั้น Roberta-WWM-Ext-Large 3 และยังคงฝึกอบรมต่อไป 1m
ชื่อของ RBT ประกอบด้วยสามพยางค์ชื่อย่อของ Roberta และ L แสดงถึงโมเดลขนาดใหญ่
โดยตรงโดยใช้สามชั้นแรกของ Roberta-WWM-Ext-large สำหรับการเริ่มต้นและการฝึกอบรมงานดาวน์สตรีมจะลดผลกระทบอย่างมีนัยสำคัญ ตัวอย่างเช่นใน CMRC 2018 ชุดทดสอบสามารถไปถึง 42.9/65.3 ในขณะที่ RBTL3 สามารถเข้าถึง 63.3/83.4

ยินดีต้อนรับสู่ MINIRBT รุ่นที่ผ่านการฝึกอบรมล่วงหน้าของจีนด้วยผลลัพธ์ที่ดีกว่า: https://github.com/iflytek/minirbt

คำแนะนำสำหรับการใช้งาน

อัตราการเรียนรู้เริ่มต้นเป็นพารามิเตอร์ที่สำคัญมาก (ไม่ว่าจะเป็น BERT หรือรุ่นอื่น ๆ ) และจำเป็นต้องปรับตามงานเป้าหมาย
อัตราการเรียนรู้ที่ดีที่สุดของ ERNIE นั้นค่อนข้างแตกต่างจาก BERT / BERT-wwm ดังนั้นอย่าลืมปรับอัตราการเรียนรู้เมื่อใช้ ERNIE (ตามผลการทดลองข้างต้นอัตราการเรียนรู้เริ่มต้นที่ ERNIE ต้องการค่อนข้างสูง)
เนื่องจาก BERT / BERT-wwm ใช้ข้อมูล Wikipedia สำหรับการฝึกอบรมจึงดีกว่าสำหรับการสร้างแบบจำลองข้อความที่เป็นทางการ ในขณะที่ ERNIE ใช้ข้อมูลเครือข่ายเพิ่มเติมเช่น Baidu Tieba และ Zhi ซึ่งมีข้อดีในการสร้างแบบจำลองข้อความที่ไม่เป็นทางการ (เช่น Weibo ฯลฯ )
ในงานการสร้างแบบจำลองข้อความยาวเช่นการอ่านความเข้าใจการจำแนกเอกสาร BERT และ BERT-wwm มีผลลัพธ์ที่ดีกว่า
หากข้อมูลของงานเป้าหมายแตกต่างจากฟิลด์ของโมเดลที่ผ่านการฝึกอบรมมาก่อนโปรดทำการฝึกอบรมล่วงหน้าในชุดข้อมูลของคุณเอง
หากคุณต้องการประมวลผลข้อมูลภาษาจีนดั้งเดิมให้ใช้ BERT หรือ BERT-wwm เพราะเราพบว่าแทบไม่มีภาษาจีนดั้งเดิมในรายการคำศัพท์ของ ERNIE

ดาวน์โหลดรุ่นภาษาอังกฤษ

เพื่ออำนวยความสะดวกให้ทุกคนในการดาวน์โหลดนำรุ่น BERT-large (wwm) ที่วางจำหน่ายอย่างเป็นทางการโดย Google :

BERT-Large, Uncased (Whole Word Masking) : 24 ชั้น, 1024 ซ่อน, 16 หัว, พารามิเตอร์ 340m
BERT-Large, Cased (Whole Word Masking) : 24 ชั้น, 1024 ซ่อน, 16 หัว, พารามิเตอร์ 340m

คำถามที่พบบ่อย

ถาม: จะใช้โมเดลนี้อย่างไร?
ตอบ: วิธีใช้เบิร์ตจีนที่เปิดตัวโดย Google วิธีใช้สิ่งนี้ ข้อความไม่จำเป็นต้องผ่านการแบ่งส่วนคำและ WWM มีผลต่อกระบวนการฝึกอบรมก่อนและไม่ส่งผลกระทบต่อการป้อนข้อมูลของงานดาวน์สตรีม

ถาม: มีรหัสการฝึกอบรมล่วงหน้าหรือไม่?
ตอบ: น่าเสียดายที่ฉันไม่สามารถระบุรหัสที่เกี่ยวข้องได้ คุณสามารถอ้างถึง #10 และ #13 สำหรับการใช้งาน

ถาม: จะดาวน์โหลดชุดข้อมูลที่แน่นอนได้ที่ไหน?
ตอบ: โปรดตรวจสอบไดเรกทอรี data README.md ในไดเรกทอรีงานระบุแหล่งข้อมูล สำหรับเนื้อหาที่มีลิขสิทธิ์โปรดค้นหาด้วยตัวเองหรือติดต่อผู้เขียนต้นฉบับเพื่อรับข้อมูล

ถาม: จะมีแผนจะปล่อยโมเดลขนาดใหญ่ขึ้นหรือไม่? ตัวอย่างเช่นเวอร์ชัน Bert-Large-WWM?
ตอบ: หากเราได้รับผลลัพธ์ที่ดีขึ้นจากการทดสอบเราจะพิจารณาปล่อยเวอร์ชันที่ใหญ่กว่า

ถาม: คุณกำลังโกหก! ไม่สามารถทำซ้ำผลลัพธ์ได้หรือไม่?
ตอบ: ในงานดาวน์สตรีมเราใช้โมเดลที่ง่ายที่สุด ตัวอย่างเช่นสำหรับงานการจำแนกประเภทเราใช้ run_classifier.py โดยตรง (จัดทำโดย Google) หากไม่สามารถเข้าถึงค่าเฉลี่ยได้หมายความว่ามีข้อผิดพลาดในการทดสอบเอง โปรดตรวจสอบอย่างระมัดระวัง มีปัจจัยสุ่มมากมายสำหรับค่าสูงสุดและเราไม่สามารถรับประกันได้ว่าเราสามารถเข้าถึงมูลค่าสูงสุดได้ อีกปัจจัยที่ได้รับการยอมรับ: การลดขนาดแบทช์จะช่วยลดผลการทดลองได้อย่างมีนัยสำคัญ สำหรับรายละเอียดโปรดดูฉบับที่เกี่ยวข้องของไดเรกทอรี Bert และ XLNet

ถาม: ฉันจะได้รับผลลัพธ์ที่ดีกว่าคุณ!
ตอบ: ขอแสดงความยินดี

ถาม: ใช้เวลานานแค่ไหนในการฝึกอบรมและอุปกรณ์อะไรบ้าง?
ตอบ: การฝึกอบรมเสร็จสมบูรณ์ใน Google TPU V3 เวอร์ชัน (128G HBM) การฝึกอบรม BERT-WWM ใช้เวลาประมาณ 1.5 วันในขณะที่ BERT-WWM-EXT ใช้เวลาหลายสัปดาห์ (ใช้ข้อมูลเพิ่มเติมเพื่อทำซ้ำมากขึ้น) ควรสังเกตว่าในช่วงก่อนการฝึกอบรมเราใช้ LAMB Optimizer (การใช้งานรุ่น Tensorflow) เครื่องมือเพิ่มประสิทธิภาพนี้มีการสนับสนุนที่ดีสำหรับแบทช์ขนาดใหญ่ เมื่อมีการปรับแต่งงานดาวน์สตรีมเราใช้ AdamWeightDecayOptimizer เริ่มต้นของ Bert

ถาม: เออร์นี่คือใคร?
ตอบ: โมเดล Ernie ในโครงการนี้หมายถึง Ernie ที่เสนอโดย Baidu โดยเฉพาะมากกว่า Ernie ที่ตีพิมพ์โดย Tsinghua University on ACL 2019

ถาม: ผลของ Bert-WWM นั้นไม่ค่อยดีนักในทุกงาน
ตอบ: วัตถุประสงค์ของโครงการนี้คือเพื่อให้นักวิจัยมีแบบจำลองที่ได้รับการฝึกฝนมาก่อนที่หลากหลายเลือก Bert, Ernie หรือ Bert-WWM ได้อย่างอิสระ เราให้ข้อมูลการทดลองเท่านั้นและเรายังต้องพยายามอย่างเต็มที่ในงานของเราเพื่อสรุปข้อสรุป อีกหนึ่งรุ่นอีกหนึ่งตัวเลือก

ถาม: ทำไมชุดข้อมูลบางชุดไม่ได้ลอง?
ตอบ: ตรงไปตรงมาฉันไม่ได้อยู่ในอารมณ์ที่จะหาข้อมูลเพิ่มเติม 2) ฉันไม่จำเป็นต้อง; 3) ฉันไม่มีเงิน

ถาม: ประเมินแบบจำลองเหล่านี้สั้น ๆ
ตอบ: แต่ละคนมีจุดสนใจและจุดแข็งของตัวเอง การวิจัยและพัฒนาการประมวลผลภาษาธรรมชาติของจีนต้องใช้ความพยายามร่วมกันจากทุกฝ่าย

ถาม: โมเดลที่ได้รับการฝึกฝนต่อไปที่คุณคาดการณ์ชื่อคืออะไร?
ตอบ: บางทีมันอาจเรียกว่าโซอี้ Zoe: zero-shot embeddings จากรูปแบบภาษา

ถาม: รายละเอียดเพิ่มเติมเกี่ยวกับรุ่น RoBERTa-wwm-ext ?
ตอบ: เรารวมข้อดีของ Roberta และ Bert-WWM เพื่อสร้างการผสมผสานตามธรรมชาติของทั้งสอง ความแตกต่างระหว่างแบบจำลองในไดเรกทอรีนี้มีดังนี้:
1) ใช้กลยุทธ์ WWM เพื่อปกปิดในขั้นตอนการฝึกอบรมก่อน (แต่ไม่มีการปิดบังแบบไดนามิก)
2) เพียงยกเลิกการสูญเสียการทำนายประโยคถัดไป (NSP)
3) ไม่ใช้โหมดการฝึกอบรมของ max_len = 128 แล้ว max_len = 512, ฝึก max_len โดยตรง = 512 โดยตรง
4) ขยายขั้นตอนการฝึกอบรมอย่างเหมาะสม

ควรสังเกตว่าโมเดลนี้ไม่ใช่โมเดล Roberta ดั้งเดิม แต่เป็นเพียงรุ่น Bert ที่ได้รับการฝึกฝนในวิธีการฝึกอบรม Roberta ที่คล้ายกันคือ Roberta-like Bert ดังนั้นเมื่อใช้งานดาวน์สตรีมและการแปลงโมเดลโปรดดำเนินการใน Bert มากกว่า Roberta

อ้าง

หากทรัพยากรหรือเทคโนโลยีในโครงการนี้มีประโยชน์ต่องานวิจัยของคุณโปรดดูเอกสารต่อไปนี้ในกระดาษ

Preferred (วารสารสำรวจ): https://ieeexplore.ieee.org/document/9599397

 @journal{cui-etal-2021-pretrain,
  title={Pre-Training with Whole Word Masking for Chinese BERT},
  author={Cui, Yiming and Che, Wanxiang and Liu, Ting and Qin, Bing and Yang, Ziqing},
  journal={IEEE Transactions on Audio, Speech and Language Processing},
  year={2021},
  url={https://ieeexplore.ieee.org/document/9599397},
  doi={10.1109/TASLP.2021.3124365},
 }

หรือ (เวอร์ชันการประชุม): https://www.aclweb.org/anthology/2020.findings-emnlp.58

 @inproceedings{cui-etal-2020-revisiting,
    title = "Revisiting Pre-Trained Models for {C}hinese Natural Language Processing",
    author = "Cui, Yiming  and
      Che, Wanxiang  and
      Liu, Ting  and
      Qin, Bing  and
      Wang, Shijin  and
      Hu, Guoping",
    booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: Findings",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.findings-emnlp.58",
    pages = "657--668",
}

กิตติกรรมประกาศ

ผู้เขียนคนแรกได้รับการสนับสนุนบางส่วนจากโปรแกรม การวิจัยคลาวด์ TPU ของ Google

คำเตือน

โครงการนี้ไม่ใช่รุ่น Bert-WWM จีนที่เปิดตัวอย่างเป็นทางการโดย Google ในขณะเดียวกันโครงการนี้ไม่ได้เป็นผลิตภัณฑ์อย่างเป็นทางการของ Harbin Institute of Technology หรือ Iflytek ผลการทดลองที่นำเสนอในรายงานทางเทคนิคแสดงให้เห็นว่าประสิทธิภาพภายใต้ชุดข้อมูลเฉพาะและการรวมกันของไฮเปอร์พารามิเตอร์ไม่ได้แสดงถึงลักษณะของแต่ละรุ่น ผลการทดลองอาจเปลี่ยนแปลงได้เนื่องจากเมล็ดพันธุ์และอุปกรณ์คอมพิวเตอร์แบบสุ่ม เนื้อหาในโครงการนี้มีไว้สำหรับการอ้างอิงการวิจัยทางเทคนิคเท่านั้นและไม่ได้ใช้เป็นพื้นฐานการสรุปใด ๆ ผู้ใช้สามารถใช้โมเดลได้ตลอดเวลาภายในขอบเขตของใบอนุญาต แต่เราจะไม่รับผิดชอบต่อการสูญเสียโดยตรงหรือโดยอ้อมที่เกิดจากการใช้เนื้อหาของโครงการ