ภาษาจีนง่ายๆ | ภาษาอังกฤษ

Macbert จีน Electra จีน XLNET จีน | เครื่องมือกลั่นความรู้ TextBrewer | เครื่องมือตัดแบบจำลอง TextPruner
ทรัพยากรเพิ่มเติมที่ออกโดย HFL: https://github.com/ymcui/hfl-anthology
2023/3/28 โอเพ่นซอร์ส Llama & Alpaca Big Model ซึ่งสามารถนำไปใช้อย่างรวดเร็วและมีประสบการณ์บนพีซีดู: https://github.com/ymcui/chinese-llama-alpaca
2022/3/30 เปิดตัวโมเดลที่ผ่านการฝึกอบรมมาก่อนหน้านี้: https://github.com/ymcui/pert
2021/12/17 เปิดตัว TextPruner Model Cropping Tools: https://github.com/airaria/TextPruner
2021/10/24 เปิดตัวแบบจำลองก่อนการฝึกอบรมครั้งแรกสำหรับภาษาชนกลุ่มน้อย: https://github.com/ymcui/chinese-minority-plm
2021/7/21 หนังสือ "การประมวลผลภาษาธรรมชาติ: วิธีการตามรูปแบบที่ผ่านการฝึกอบรมมาก่อน" ได้รับการตีพิมพ์อย่างเป็นทางการ
2020/11/3 Macbert จีนที่ผ่านการฝึกอบรมมาก่อนได้รับการปล่อยตัวและวิธีการใช้งานของมันเหมือนกับของเบิร์ต
2020/9/15 กระดาษ "ทบทวนแบบจำลองที่ผ่านการฝึกอบรมมาก่อนสำหรับการประมวลผลภาษาธรรมชาติจีน" ได้รับการว่าจ้างเป็นบทความยาวโดยการค้นพบของ EMNLP
| บท | อธิบาย |
|---|---|
| การแนะนำ | บทนำสั้น ๆ เกี่ยวกับ Macbert |
| การดาวน์โหลด | ดาวน์โหลด Macbert |
| การโหลดอย่างรวดเร็ว | วิธีใช้หม้อแปลงโหลดแบบจำลองอย่างรวดเร็ว |
| ผลกระทบพื้นฐาน | ผลกระทบต่องาน NLP ของจีน |
| คำถามที่พบบ่อย | คำถามที่พบบ่อย |
| อ้าง | ข้อมูลการอ้างอิงบทความ |
MacBert เป็นรุ่นที่ได้รับการปรับปรุงของ Bert โดยแนะนำรูปแบบภาษาหน้ากากที่ได้รับการแก้ไขข้อผิดพลาด (MLM เป็นการแก้ไข, Mac) งานการฝึกอบรมล่วงหน้า, บรรเทาปัญหาของ "งานการฝึกอบรมก่อนการศึกษา"
ในรูปแบบภาษาหน้ากาก (MLM) แท็ก [MASK] ถูกนำมาใช้สำหรับการปิดบัง แต่แท็ก [MASK] ไม่ปรากฏในงานดาวน์สตรีม ใน Macbert เราใช้คำที่คล้ายกันเพื่อแทนที่แท็ก [Mask] คำที่คล้ายกันนั้นได้มาจากเครื่องมือคำพ้องความหมาย (Wang and Hu, 2017) และอัลกอริทึมคำนวณตาม Word2vec (Mikolov et al., 2013) ในเวลาเดียวกันเราได้แนะนำการปิดบังคำทั้งหมด (WWM) และเทคโนโลยีการปิดบัง N-Gram เมื่อปิดบัง N-Gram เราค้นหาคำที่คล้ายกันสำหรับแต่ละคำใน N-Gram เมื่อไม่มีคำที่คล้ายกันที่จะแทนที่เราจะใช้คำแบบสุ่มสำหรับการเปลี่ยน
ต่อไปนี้เป็นตัวอย่างตัวอย่างการฝึกอบรม
| ตัวอย่าง | |
|---|---|
| ประโยคดั้งเดิม | เราใช้แบบจำลองภาษาเพื่อทำนายความน่าจะเป็นของคำต่อไป |
| MLM | เราใช้ภาษา [m] ถึง [m] ## di ## ct pro [m] ## ความสามารถของคำถัดไป |
| การปิดบังคำทั้งหมด | เราใช้ภาษา [m] ถึง [m] [m] [m] [m] [m] ของคำถัดไป |
| การปิดบัง N-Gram | เราใช้ [m] [m] ถึง [m] [m] [m] [m] [m] [m] [m] คำต่อไป |
| MLM เป็นการแก้ไข | เราใช้ระบบข้อความเพื่อ ca ## lc ## ulate po ## si ## ความสามารถของคำถัดไป |
เฟรมเวิร์กหลักของแมคเบิร์ตนั้นเหมือนกับเบิร์ตทำให้สามารถเปลี่ยนผ่านได้อย่างราบรื่นโดยไม่ต้องแก้ไขรหัสที่มีอยู่
สำหรับรายละเอียดเพิ่มเติมโปรดดูที่บทความของเรา: ทบทวนแบบจำลองที่ผ่านการฝึกอบรมมาก่อนสำหรับการประมวลผลภาษาธรรมชาติจีน
ส่วนใหญ่ให้การดาวน์โหลดแบบจำลองสำหรับรุ่น TensorFlow 1.x
MacBERT-large, Chinese : 24 ชั้น, 1024 ซ่อน, 16 หัว, พารามิเตอร์ 324mMacBERT-base, Chinese : 12 ชั้น, 768 ซ่อน, 12 หัว, พารามิเตอร์ 102M| แบบอย่าง | Google Drive | ดิสก์ Baidu | ขนาด |
|---|---|---|---|
MacBERT-large, Chinese | เทนเซอร์โฟลว์ | Tensorflow (PW: Zejf) | 1.2 กรัม |
MacBERT-base, Chinese | เทนเซอร์โฟลว์ | Tensorflow (PW: 61GA) | 383m |
หากคุณต้องการรุ่น pytorch หรือ tensorflow2 ของรุ่น:
ขั้นตอนการดาวน์โหลด (คุณสามารถโคลนไดเรกทอรีทั้งหมดได้โดยตรงโดยใช้ GIT):
รุ่น Macbert สามารถโหลดได้อย่างรวดเร็วผ่านหม้อแปลง
tokenizer = BertTokenizer.from_pretrained("MODEL_NAME")
model = BertModel.from_pretrained("MODEL_NAME")
หมายเหตุ: โปรดใช้ berttokenizer และ bertmodel เพื่อโหลดรุ่น Macbert!
MODEL_NAME ที่เกี่ยวข้องมีดังนี้:
| รุ่นดั้งเดิม | ชื่อการโทรแบบจำลอง |
|---|---|
| แมคเบิร์ตขนาดใหญ่ | HFL/Chinese-Macbert-Large |
| แมคเบิร์ตเบส | HFL/Chinese-Macbert-base |
นี่คือการแสดงผลกระทบของ Macbert ในงานดาวน์สตรีม 6 ครั้ง (ดูกระดาษเพื่อดูผลลัพธ์เพิ่มเติม):
เพื่อให้แน่ใจว่ามีความเสถียรของผลลัพธ์เราจะให้ค่าเฉลี่ย (ในวงเล็บ) และค่าสูงสุดของการทำงานอิสระ 10 ครั้งในเวลาเดียวกัน
ชุดข้อมูล CMRC 2018 เป็นข้อมูลความเข้าใจในการอ่านของเครื่องจีนที่เผยแพร่โดยห้องปฏิบัติการร่วมของสถาบันเทคโนโลยีฮาร์บิน ตามคำถามที่กำหนดระบบจะต้องแยกชิ้นส่วนออกจากบทเป็นคำตอบในรูปแบบเดียวกับทีม ตัวชี้วัดการประเมินคือ: EM / F1
| แบบอย่าง | การพัฒนา | ทดสอบ | ท้าทาย | #params |
|---|---|---|---|---|
| เบิร์ตเบส | 65.5 (64.4) / 84.5 (84.0) | 70.0 (68.7) / 87.0 (86.3) | 18.6 (17.0) / 43.3 (41.3) | 102m |
| bert-wwm | 66.3 (65.0) / 85.6 (84.7) | 70.5 (69.1) / 87.4 (86.7) | 21.0 (19.3) / 47.0 (43.9) | 102m |
| bert-wwm-ext | 67.1 (65.6) / 85.7 (85.0) | 71.4 (70.0) / 87.7 (87.0) | 24.0 (20.0) / 47.3 (44.6) | 102m |
| Roberta-wwm-ext | 67.4 (66.5) / 87.2 (86.5) | 72.6 (71.4) / 89.4 (88.8) | 26.2 (24.6) / 51.0 (49.1) | 102m |
| เบสอิเลคตร้า | 68.4 (68.0) / 84.8 (84.6) | 73.1 (72.7) / 87.1 (86.9) | 22.6 (21.7) / 45.0 (43.8) | 102m |
| แมคเบิร์ตเบส | 68.5 (67.3) / 87.9 (87.1) | 73.2 (72.4) / 89.5 (89.2) | 30.2 (26.4) / 54.0 (52.2) | 102m |
| ขนาดใหญ่ | 69.1 (68.2) / 85.2 (84.5) | 73.9 (72.8) / 87.1 (86.6) | 23.0 (21.6) / 44.2 (43.2) | 324m |
| Roberta-WWM-Ext-Large | 68.5 (67.6) / 88.4 (87.9) | 74.2 (72.4) / 90.6 (90.0) | 31.5 (30.1) / 60.1 (57.5) | 324m |
| แมคเบิร์ตขนาดใหญ่ | 70.7 (68.6) / 88.9 (88.2) | 74.8 (73.2) / 90.7 (90.1) | 31.9 (29.6) / 60.2 (57.6) | 324m |
ชุดข้อมูล DRCD ได้รับการเผยแพร่โดย Delta Research Institute, ไต้หวัน, จีน รูปแบบของมันเหมือนกับทีมและเป็นชุดข้อมูลความเข้าใจในการอ่านที่แยกออกมาจากภาษาจีนดั้งเดิม เนื่องจากตัวละครจีนดั้งเดิมถูกลบออกจาก Ernie จึงไม่แนะนำให้ใช้ Ernie (หรือแปลงเป็นภาษาจีนที่ง่ายขึ้นแล้วประมวลผล) กับข้อมูลภาษาจีนดั้งเดิม ตัวชี้วัดการประเมินคือ: EM / F1
| แบบอย่าง | การพัฒนา | ทดสอบ | #params |
|---|---|---|---|
| เบิร์ตเบส | 83.1 (82.7) / 89.9 (89.6) | 82.2 (81.6) / 89.2 (88.8) | 102m |
| bert-wwm | 84.3 (83.4) / 90.5 (90.2) | 82.8 (81.8) / 89.7 (89.0) | 102m |
| bert-wwm-ext | 85.0 (84.5) / 91.2 (90.9) | 83.6 (83.0) / 90.4 (89.9) | 102m |
| Roberta-wwm-ext | 86.6 (85.9) / 92.5 (92.2) | 85.6 (85.2) / 92.0 (91.7) | 102m |
| เบสอิเลคตร้า | 87.5 (87.0) / 92.5 (92.3) | 86.9 (86.6) / 91.8 (91.7) | 102m |
| แมคเบิร์ตเบส | 89.4 (89.2) / 94.3 (94.1) | 89.5 (88.7) / 93.8 (93.5) | 102m |
| ขนาดใหญ่ | 88.8 (88.7) / 93.3 (93.2) | 88.8 (88.2) / 93.6 (93.2) | 324m |
| Roberta-WWM-Ext-Large | 89.6 (89.1) / 94.8 (94.4) | 89.6 (88.9) / 94.5 (94.1) | 324m |
| แมคเบิร์ตขนาดใหญ่ | 91.2 (90.8) / 95.6 (95.3) | 91.7 (90.9) / 95.6 (95.3) | 324m |
ในงานการอนุมานภาษาธรรมชาติเราใช้ข้อมูล XNLI ซึ่งต้องการข้อความที่จะแบ่งออกเป็นสามประเภท: entailment , neutral และ contradictory ตัวบ่งชี้การประเมินคือ: ความแม่นยำ
| แบบอย่าง | การพัฒนา | ทดสอบ | #params |
|---|---|---|---|
| เบิร์ตเบส | 77.8 (77.4) | 77.8 (77.5) | 102m |
| bert-wwm | 79.0 (78.4) | 78.2 (78.0) | 102m |
| bert-wwm-ext | 79.4 (78.6) | 78.7 (78.3) | 102m |
| Roberta-wwm-ext | 80.0 (79.2) | 78.8 (78.3) | 102m |
| เบสอิเลคตร้า | 77.9 (77.0) | 78.4 (77.8) | 102m |
| แมคเบิร์ตเบส | 80.3 (79.7) | 79.3 (78.8) | 102m |
| ขนาดใหญ่ | 81.5 (80.8) | 81.0 (80.9) | 324m |
| Roberta-WWM-Ext-Large | 82.1 (81.3) | 81.2 (80.6) | 324m |
| แมคเบิร์ตขนาดใหญ่ | 82.4 (81.8) | 81.3 (80.6) | 324m |
ในงานการวิเคราะห์ความเชื่อมั่นชุดข้อมูลการจำแนกอารมณ์ไบนารี Chnsenticorp ตัวบ่งชี้การประเมินคือ: ความแม่นยำ
| แบบอย่าง | การพัฒนา | ทดสอบ | #params |
|---|---|---|---|
| เบิร์ตเบส | 94.7 (94.3) | 95.0 (94.7) | 102m |
| bert-wwm | 95.1 (94.5) | 95.4 (95.0) | 102m |
| bert-wwm-ext | 95.4 (94.6) | 95.3 (94.7) | 102m |
| Roberta-wwm-ext | 95.0 (94.6) | 95.6 (94.8) | 102m |
| เบสอิเลคตร้า | 93.8 (93.0) | 94.5 (93.5) | 102m |
| แมคเบิร์ตเบส | 95.2 (94.8) | 95.6 (94.9) | 102m |
| ขนาดใหญ่ | 95.2 (94.6) | 95.3 (94.8) | 324m |
| Roberta-WWM-Ext-Large | 95.8 (94.9) | 95.8 (94.9) | 324m |
| แมคเบิร์ตขนาดใหญ่ | 95.7 (95.0) | 95.9 (95.1) | 324m |
LCQMC ได้รับการปล่อยตัวโดยศูนย์วิจัยคอมพิวเตอร์อัจฉริยะของสถาบันเทคโนโลยีฮาร์บินเซินเจิ้นบัณฑิตวิทยาลัย ตัวบ่งชี้การประเมินคือ: ความแม่นยำ
| แบบอย่าง | การพัฒนา | ทดสอบ | #params |
|---|---|---|---|
| เบิร์ต | 89.4 (88.4) | 86.9 (86.4) | 102m |
| bert-wwm | 89.4 (89.2) | 87.0 (86.8) | 102m |
| bert-wwm-ext | 89.6 (89.2) | 87.1 (86.6) | 102m |
| Roberta-wwm-ext | 89.0 (88.7) | 86.4 (86.1) | 102m |
| เบสอิเลคตร้า | 90.2 (89.8) | 87.6 (87.3) | 102m |
| แมคเบิร์ตเบส | 89.5 (89.3) | 87.0 (86.5) | 102m |
| ขนาดใหญ่ | 90.7 (90.4) | 87.3 (87.2) | 324m |
| Roberta-WWM-Ext-Large | 90.4 (90.0) | 87.0 (86.8) | 324m |
| แมคเบิร์ตขนาดใหญ่ | 90.6 (90.3) | 87.6 (87.1) | 324m |
BQ Corpus ได้รับการปล่อยตัวโดยศูนย์วิจัยคอมพิวเตอร์อัจฉริยะของสถาบันเทคโนโลยีฮาร์บินเซินเจิ้นบัณฑิตวิทยาลัยและเป็นข้อมูลที่ตั้งไว้สำหรับสาขาธนาคาร ตัวบ่งชี้การประเมินคือ: ความแม่นยำ
| แบบอย่าง | การพัฒนา | ทดสอบ | #params |
|---|---|---|---|
| เบิร์ต | 86.0 (85.5) | 84.8 (84.6) | 102m |
| bert-wwm | 86.1 (85.6) | 85.2 (84.9) | 102m |
| bert-wwm-ext | 86.4 (85.5) | 85.3 (84.8) | 102m |
| Roberta-wwm-ext | 86.0 (85.4) | 85.0 (84.6) | 102m |
| เบสอิเลคตร้า | 84.8 (84.7) | 84.5 (84.0) | 102m |
| แมคเบิร์ตเบส | 86.0 (85.5) | 85.2 (84.9) | 102m |
| ขนาดใหญ่ | 86.7 (86.2) | 85.1 (84.8) | 324m |
| Roberta-WWM-Ext-Large | 86.3 (85.7) | 85.8 (84.9) | 324m |
| แมคเบิร์ตขนาดใหญ่ | 86.2 (85.7) | 85.6 (85.0) | 324m |
Q1: มี Macbert เวอร์ชันภาษาอังกฤษหรือไม่?
A1: ไม่มีในขณะนี้
Q2: ใช้ Macbert อย่างไร?
A2: เช่นเดียวกับการใช้ Bert คุณจะต้องเปลี่ยนไฟล์รุ่นและกำหนดค่าเพื่อใช้งานเท่านั้น แน่นอนคุณสามารถฝึกอบรมแบบจำลองที่ผ่านการฝึกอบรมอื่น ๆ ได้โดยการโหลดโมเดลของเรา (เช่นการเริ่มต้นหม้อแปลงหม้อแปลง)
Q3: คุณสามารถให้รหัสการฝึกอบรม Macbert ได้หรือไม่?
A3: ยังไม่มีแผนโอเพ่นซอร์ส
Q4: ฉันสามารถโอเพนซอร์สที่ผ่านการฝึกอบรมมาก่อนได้หรือไม่?
A4: เราไม่สามารถฝึกอบรมโอเพนซอร์สได้เพราะไม่มีสิทธิ์ที่จะเปิดตัวอีกครั้ง มีแหล่งข้อมูลคลังข้อมูลจีนโอเพนซอร์สบางแห่งใน GitHub ซึ่งคุณสามารถให้ความสนใจและใช้งานได้มากขึ้น
Q5: มีแผนจะฝึก Macbert ในคลังข้อมูลขนาดใหญ่และโอเพ่นซอร์สหรือไม่?
A5: เราไม่มีแผนในขณะนี้
หากทรัพยากรในโครงการนี้มีประโยชน์สำหรับการวิจัยของคุณโปรดอ้างอิงบทความต่อไปนี้
@inproceedings{cui-etal-2020-revisiting,
title = "Revisiting Pre-Trained Models for {C}hinese Natural Language Processing",
author = "Cui, Yiming and
Che, Wanxiang and
Liu, Ting and
Qin, Bing and
Wang, Shijin and
Hu, Guoping",
booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: Findings",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.findings-emnlp.58",
pages = "657--668",
}
หรือ:
@journal{cui-etal-2021-pretrain,
title={Pre-Training with Whole Word Masking for Chinese BERT},
author={Cui, Yiming and Che, Wanxiang and Liu, Ting and Qin, Bing and Yang, Ziqing},
journal={IEEE Transactions on Audio, Speech and Language Processing},
year={2021},
url={https://ieeexplore.ieee.org/document/9599397},
doi={10.1109/TASLP.2021.3124365},
}
ต้องขอบคุณ Google TPU Research Cloud (TFRC) สำหรับการสนับสนุนทรัพยากรการคำนวณ
หากคุณมีคำถามใด ๆ โปรดส่งในปัญหา GitHub