MacBERT Download - MacBERT Source Code Download

MacBERT

ซอร์สโค้ดอื่น ๆ

1.0.0

ดาวน์โหลด

ภาษาจีนง่ายๆ | ภาษาอังกฤษ

ไดเรกทอรีนี้มี ** โมเดลที่ผ่านการฝึกอบรมมาแล้วของ Macbert ** ซึ่งแนะนำงานการฝึกอบรมภาษามาสก์ที่แก้ไขข้อผิดพลาด (MAC) ก่อนการฝึกอบรมเพื่อบรรเทาปัญหาของ "งานก่อนการฝึกอบรมก่อน" แมคเบิร์ตได้รับการปรับปรุงประสิทธิภาพที่สำคัญในงาน NLP ที่หลากหลาย

ทบทวนแบบจำลองที่ผ่านการฝึกอบรมมาก่อนสำหรับการประมวลผลภาษาธรรมชาติจีน
Yiming Cui, Wanxiang Che, Ting Liu, Bing Qin, Shijin Wang, Guoping Hu
ตีพิมพ์ใน ผลการวิจัยของ EMNLP 2020

Macbert จีน Electra จีน XLNET จีน | เครื่องมือกลั่นความรู้ TextBrewer | เครื่องมือตัดแบบจำลอง TextPruner

ทรัพยากรเพิ่มเติมที่ออกโดย HFL: https://github.com/ymcui/hfl-anthology

ข่าว

2023/3/28 โอเพ่นซอร์ส Llama & Alpaca Big Model ซึ่งสามารถนำไปใช้อย่างรวดเร็วและมีประสบการณ์บนพีซีดู: https://github.com/ymcui/chinese-llama-alpaca

2022/3/30 เปิดตัวโมเดลที่ผ่านการฝึกอบรมมาก่อนหน้านี้: https://github.com/ymcui/pert

2021/12/17 เปิดตัว TextPruner Model Cropping Tools: https://github.com/airaria/TextPruner

2021/10/24 เปิดตัวแบบจำลองก่อนการฝึกอบรมครั้งแรกสำหรับภาษาชนกลุ่มน้อย: https://github.com/ymcui/chinese-minority-plm

2021/7/21 หนังสือ "การประมวลผลภาษาธรรมชาติ: วิธีการตามรูปแบบที่ผ่านการฝึกอบรมมาก่อน" ได้รับการตีพิมพ์อย่างเป็นทางการ

2020/11/3 Macbert จีนที่ผ่านการฝึกอบรมมาก่อนได้รับการปล่อยตัวและวิธีการใช้งานของมันเหมือนกับของเบิร์ต

2020/9/15 กระดาษ "ทบทวนแบบจำลองที่ผ่านการฝึกอบรมมาก่อนสำหรับการประมวลผลภาษาธรรมชาติจีน" ได้รับการว่าจ้างเป็นบทความยาวโดยการค้นพบของ EMNLP

สารบัญ

บท	อธิบาย
การแนะนำ	บทนำสั้น ๆ เกี่ยวกับ Macbert
การดาวน์โหลด	ดาวน์โหลด Macbert
การโหลดอย่างรวดเร็ว	วิธีใช้หม้อแปลงโหลดแบบจำลองอย่างรวดเร็ว
ผลกระทบพื้นฐาน	ผลกระทบต่องาน NLP ของจีน
คำถามที่พบบ่อย	คำถามที่พบบ่อย
อ้าง	ข้อมูลการอ้างอิงบทความ

การแนะนำ

MacBert เป็นรุ่นที่ได้รับการปรับปรุงของ Bert โดยแนะนำรูปแบบภาษาหน้ากากที่ได้รับการแก้ไขข้อผิดพลาด (MLM เป็นการแก้ไข, Mac) งานการฝึกอบรมล่วงหน้า, บรรเทาปัญหาของ "งานการฝึกอบรมก่อนการศึกษา"

ในรูปแบบภาษาหน้ากาก (MLM) แท็ก [MASK] ถูกนำมาใช้สำหรับการปิดบัง แต่แท็ก [MASK] ไม่ปรากฏในงานดาวน์สตรีม ใน Macbert เราใช้คำที่คล้ายกันเพื่อแทนที่แท็ก [Mask] คำที่คล้ายกันนั้นได้มาจากเครื่องมือคำพ้องความหมาย (Wang and Hu, 2017) และอัลกอริทึมคำนวณตาม Word2vec (Mikolov et al., 2013) ในเวลาเดียวกันเราได้แนะนำการปิดบังคำทั้งหมด (WWM) และเทคโนโลยีการปิดบัง N-Gram เมื่อปิดบัง N-Gram เราค้นหาคำที่คล้ายกันสำหรับแต่ละคำใน N-Gram เมื่อไม่มีคำที่คล้ายกันที่จะแทนที่เราจะใช้คำแบบสุ่มสำหรับการเปลี่ยน

ต่อไปนี้เป็นตัวอย่างตัวอย่างการฝึกอบรม

	ตัวอย่าง
ประโยคดั้งเดิม	เราใช้แบบจำลองภาษาเพื่อทำนายความน่าจะเป็นของคำต่อไป
MLM	เราใช้ภาษา [m] ถึง [m] ## di ## ct pro [m] ## ความสามารถของคำถัดไป
การปิดบังคำทั้งหมด	เราใช้ภาษา [m] ถึง [m] [m] [m] [m] [m] ของคำถัดไป
การปิดบัง N-Gram	เราใช้ [m] [m] ถึง [m] [m] [m] [m] [m] [m] [m] คำต่อไป
MLM เป็นการแก้ไข	เราใช้ระบบข้อความเพื่อ ca ## lc ## ulate po ## si ## ความสามารถของคำถัดไป

เฟรมเวิร์กหลักของแมคเบิร์ตนั้นเหมือนกับเบิร์ตทำให้สามารถเปลี่ยนผ่านได้อย่างราบรื่นโดยไม่ต้องแก้ไขรหัสที่มีอยู่

สำหรับรายละเอียดเพิ่มเติมโปรดดูที่บทความของเรา: ทบทวนแบบจำลองที่ผ่านการฝึกอบรมมาก่อนสำหรับการประมวลผลภาษาธรรมชาติจีน

การดาวน์โหลด

ส่วนใหญ่ให้การดาวน์โหลดแบบจำลองสำหรับรุ่น TensorFlow 1.x

MacBERT-large, Chinese : 24 ชั้น, 1024 ซ่อน, 16 หัว, พารามิเตอร์ 324m
MacBERT-base, Chinese : 12 ชั้น, 768 ซ่อน, 12 หัว, พารามิเตอร์ 102M

แบบอย่าง	Google Drive	ดิสก์ Baidu	ขนาด
`MacBERT-large, Chinese`	เทนเซอร์โฟลว์	Tensorflow (PW: Zejf)	1.2 กรัม
`MacBERT-base, Chinese`	เทนเซอร์โฟลว์	Tensorflow (PW: 61GA)	383m

เวอร์ชัน Pytorch/TensorFlow2

หากคุณต้องการรุ่น pytorch หรือ tensorflow2 ของรุ่น:

ใช้หม้อแปลงเพื่อแปลง
หรือดาวน์โหลดจาก https://huggingface.co/hfl

ขั้นตอนการดาวน์โหลด (คุณสามารถโคลนไดเรกทอรีทั้งหมดได้โดยตรงโดยใช้ GIT):

หลังจากเข้าสู่ https://huggingface.co/hfl ให้เลือกโมเดล Macbert เช่น Macbert-base: https://huggingface.co/hfl/chinese-macbert-base
เลือกแท็บ "ไฟล์และเวอร์ชัน"
คลิกที่ bin/json และไฟล์อื่น ๆ ที่คุณต้องการดาวน์โหลด

การโหลดอย่างรวดเร็ว

รุ่น Macbert สามารถโหลดได้อย่างรวดเร็วผ่านหม้อแปลง

 tokenizer = BertTokenizer.from_pretrained("MODEL_NAME")
model = BertModel.from_pretrained("MODEL_NAME")

หมายเหตุ: โปรดใช้ berttokenizer และ bertmodel เพื่อโหลดรุ่น Macbert!

MODEL_NAME ที่เกี่ยวข้องมีดังนี้:

รุ่นดั้งเดิม	ชื่อการโทรแบบจำลอง
แมคเบิร์ตขนาดใหญ่	HFL/Chinese-Macbert-Large
แมคเบิร์ตเบส	HFL/Chinese-Macbert-base

ผลกระทบพื้นฐาน

นี่คือการแสดงผลกระทบของ Macbert ในงานดาวน์สตรีม 6 ครั้ง (ดูกระดาษเพื่อดูผลลัพธ์เพิ่มเติม):

CMRC 2018 (Cui et al., 2019) : ความเข้าใจในการอ่านสกัด (ภาษาจีนง่าย)
DRCD (Shao et al., 2018) : ความเข้าใจในการอ่านสกัด (จีนดั้งเดิม)
XNLI (Conneau et al., 2018) : การอนุมานภาษาธรรมชาติ
Chnsenticorp : การจำแนกอารมณ์
LCQMC (Liu et al., 2018) : การจับคู่คู่ประโยค
BQ Corpus (Chen et al., 2018) : การจับคู่คู่ประโยค

เพื่อให้แน่ใจว่ามีความเสถียรของผลลัพธ์เราจะให้ค่าเฉลี่ย (ในวงเล็บ) และค่าสูงสุดของการทำงานอิสระ 10 ครั้งในเวลาเดียวกัน

CMRC 2018

ชุดข้อมูล CMRC 2018 เป็นข้อมูลความเข้าใจในการอ่านของเครื่องจีนที่เผยแพร่โดยห้องปฏิบัติการร่วมของสถาบันเทคโนโลยีฮาร์บิน ตามคำถามที่กำหนดระบบจะต้องแยกชิ้นส่วนออกจากบทเป็นคำตอบในรูปแบบเดียวกับทีม ตัวชี้วัดการประเมินคือ: EM / F1

แบบอย่าง	การพัฒนา	ทดสอบ	ท้าทาย	#params
เบิร์ตเบส	65.5 (64.4) / 84.5 (84.0)	70.0 (68.7) / 87.0 (86.3)	18.6 (17.0) / 43.3 (41.3)	102m
bert-wwm	66.3 (65.0) / 85.6 (84.7)	70.5 (69.1) / 87.4 (86.7)	21.0 (19.3) / 47.0 (43.9)	102m
bert-wwm-ext	67.1 (65.6) / 85.7 (85.0)	71.4 (70.0) / 87.7 (87.0)	24.0 (20.0) / 47.3 (44.6)	102m
Roberta-wwm-ext	67.4 (66.5) / 87.2 (86.5)	72.6 (71.4) / 89.4 (88.8)	26.2 (24.6) / 51.0 (49.1)	102m
เบสอิเลคตร้า	68.4 (68.0) / 84.8 (84.6)	73.1 (72.7) / 87.1 (86.9)	22.6 (21.7) / 45.0 (43.8)	102m
แมคเบิร์ตเบส	68.5 (67.3) / 87.9 (87.1)	73.2 (72.4) / 89.5 (89.2)	30.2 (26.4) / 54.0 (52.2)	102m
ขนาดใหญ่	69.1 (68.2) / 85.2 (84.5)	73.9 (72.8) / 87.1 (86.6)	23.0 (21.6) / 44.2 (43.2)	324m
Roberta-WWM-Ext-Large	68.5 (67.6) / 88.4 (87.9)	74.2 (72.4) / 90.6 (90.0)	31.5 (30.1) / 60.1 (57.5)	324m
แมคเบิร์ตขนาดใหญ่	70.7 (68.6) / 88.9 (88.2)	74.8 (73.2) / 90.7 (90.1)	31.9 (29.6) / 60.2 (57.6)	324m

DRCD

ชุดข้อมูล DRCD ได้รับการเผยแพร่โดย Delta Research Institute, ไต้หวัน, จีน รูปแบบของมันเหมือนกับทีมและเป็นชุดข้อมูลความเข้าใจในการอ่านที่แยกออกมาจากภาษาจีนดั้งเดิม เนื่องจากตัวละครจีนดั้งเดิมถูกลบออกจาก Ernie จึงไม่แนะนำให้ใช้ Ernie (หรือแปลงเป็นภาษาจีนที่ง่ายขึ้นแล้วประมวลผล) กับข้อมูลภาษาจีนดั้งเดิม ตัวชี้วัดการประเมินคือ: EM / F1

แบบอย่าง	การพัฒนา	ทดสอบ	#params
เบิร์ตเบส	83.1 (82.7) / 89.9 (89.6)	82.2 (81.6) / 89.2 (88.8)	102m
bert-wwm	84.3 (83.4) / 90.5 (90.2)	82.8 (81.8) / 89.7 (89.0)	102m
bert-wwm-ext	85.0 (84.5) / 91.2 (90.9)	83.6 (83.0) / 90.4 (89.9)	102m
Roberta-wwm-ext	86.6 (85.9) / 92.5 (92.2)	85.6 (85.2) / 92.0 (91.7)	102m
เบสอิเลคตร้า	87.5 (87.0) / 92.5 (92.3)	86.9 (86.6) / 91.8 (91.7)	102m
แมคเบิร์ตเบส	89.4 (89.2) / 94.3 (94.1)	89.5 (88.7) / 93.8 (93.5)	102m
ขนาดใหญ่	88.8 (88.7) / 93.3 (93.2)	88.8 (88.2) / 93.6 (93.2)	324m
Roberta-WWM-Ext-Large	89.6 (89.1) / 94.8 (94.4)	89.6 (88.9) / 94.5 (94.1)	324m
แมคเบิร์ตขนาดใหญ่	91.2 (90.8) / 95.6 (95.3)	91.7 (90.9) / 95.6 (95.3)	324m

xnli

ในงานการอนุมานภาษาธรรมชาติเราใช้ข้อมูล XNLI ซึ่งต้องการข้อความที่จะแบ่งออกเป็นสามประเภท: entailment , neutral และ contradictory ตัวบ่งชี้การประเมินคือ: ความแม่นยำ

แบบอย่าง	การพัฒนา	ทดสอบ	#params
เบิร์ตเบส	77.8 (77.4)	77.8 (77.5)	102m
bert-wwm	79.0 (78.4)	78.2 (78.0)	102m
bert-wwm-ext	79.4 (78.6)	78.7 (78.3)	102m
Roberta-wwm-ext	80.0 (79.2)	78.8 (78.3)	102m
เบสอิเลคตร้า	77.9 (77.0)	78.4 (77.8)	102m
แมคเบิร์ตเบส	80.3 (79.7)	79.3 (78.8)	102m
ขนาดใหญ่	81.5 (80.8)	81.0 (80.9)	324m
Roberta-WWM-Ext-Large	82.1 (81.3)	81.2 (80.6)	324m
แมคเบิร์ตขนาดใหญ่	82.4 (81.8)	81.3 (80.6)	324m

chnsenticorp

ในงานการวิเคราะห์ความเชื่อมั่นชุดข้อมูลการจำแนกอารมณ์ไบนารี Chnsenticorp ตัวบ่งชี้การประเมินคือ: ความแม่นยำ

แบบอย่าง	การพัฒนา	ทดสอบ	#params
เบิร์ตเบส	94.7 (94.3)	95.0 (94.7)	102m
bert-wwm	95.1 (94.5)	95.4 (95.0)	102m
bert-wwm-ext	95.4 (94.6)	95.3 (94.7)	102m
Roberta-wwm-ext	95.0 (94.6)	95.6 (94.8)	102m
เบสอิเลคตร้า	93.8 (93.0)	94.5 (93.5)	102m
แมคเบิร์ตเบส	95.2 (94.8)	95.6 (94.9)	102m
ขนาดใหญ่	95.2 (94.6)	95.3 (94.8)	324m
Roberta-WWM-Ext-Large	95.8 (94.9)	95.8 (94.9)	324m
แมคเบิร์ตขนาดใหญ่	95.7 (95.0)	95.9 (95.1)	324m

LCQMC

LCQMC ได้รับการปล่อยตัวโดยศูนย์วิจัยคอมพิวเตอร์อัจฉริยะของสถาบันเทคโนโลยีฮาร์บินเซินเจิ้นบัณฑิตวิทยาลัย ตัวบ่งชี้การประเมินคือ: ความแม่นยำ

แบบอย่าง	การพัฒนา	ทดสอบ	#params
เบิร์ต	89.4 (88.4)	86.9 (86.4)	102m
bert-wwm	89.4 (89.2)	87.0 (86.8)	102m
bert-wwm-ext	89.6 (89.2)	87.1 (86.6)	102m
Roberta-wwm-ext	89.0 (88.7)	86.4 (86.1)	102m
เบสอิเลคตร้า	90.2 (89.8)	87.6 (87.3)	102m
แมคเบิร์ตเบส	89.5 (89.3)	87.0 (86.5)	102m
ขนาดใหญ่	90.7 (90.4)	87.3 (87.2)	324m
Roberta-WWM-Ext-Large	90.4 (90.0)	87.0 (86.8)	324m
แมคเบิร์ตขนาดใหญ่	90.6 (90.3)	87.6 (87.1)	324m

BQ Corpus

BQ Corpus ได้รับการปล่อยตัวโดยศูนย์วิจัยคอมพิวเตอร์อัจฉริยะของสถาบันเทคโนโลยีฮาร์บินเซินเจิ้นบัณฑิตวิทยาลัยและเป็นข้อมูลที่ตั้งไว้สำหรับสาขาธนาคาร ตัวบ่งชี้การประเมินคือ: ความแม่นยำ

แบบอย่าง	การพัฒนา	ทดสอบ	#params
เบิร์ต	86.0 (85.5)	84.8 (84.6)	102m
bert-wwm	86.1 (85.6)	85.2 (84.9)	102m
bert-wwm-ext	86.4 (85.5)	85.3 (84.8)	102m
Roberta-wwm-ext	86.0 (85.4)	85.0 (84.6)	102m
เบสอิเลคตร้า	84.8 (84.7)	84.5 (84.0)	102m
แมคเบิร์ตเบส	86.0 (85.5)	85.2 (84.9)	102m
ขนาดใหญ่	86.7 (86.2)	85.1 (84.8)	324m
Roberta-WWM-Ext-Large	86.3 (85.7)	85.8 (84.9)	324m
แมคเบิร์ตขนาดใหญ่	86.2 (85.7)	85.6 (85.0)	324m

คำถามที่พบบ่อย

Q1: มี Macbert เวอร์ชันภาษาอังกฤษหรือไม่?

A1: ไม่มีในขณะนี้

Q2: ใช้ Macbert อย่างไร?

A2: เช่นเดียวกับการใช้ Bert คุณจะต้องเปลี่ยนไฟล์รุ่นและกำหนดค่าเพื่อใช้งานเท่านั้น แน่นอนคุณสามารถฝึกอบรมแบบจำลองที่ผ่านการฝึกอบรมอื่น ๆ ได้โดยการโหลดโมเดลของเรา (เช่นการเริ่มต้นหม้อแปลงหม้อแปลง)

Q3: คุณสามารถให้รหัสการฝึกอบรม Macbert ได้หรือไม่?

A3: ยังไม่มีแผนโอเพ่นซอร์ส

Q4: ฉันสามารถโอเพนซอร์สที่ผ่านการฝึกอบรมมาก่อนได้หรือไม่?

A4: เราไม่สามารถฝึกอบรมโอเพนซอร์สได้เพราะไม่มีสิทธิ์ที่จะเปิดตัวอีกครั้ง มีแหล่งข้อมูลคลังข้อมูลจีนโอเพนซอร์สบางแห่งใน GitHub ซึ่งคุณสามารถให้ความสนใจและใช้งานได้มากขึ้น

Q5: มีแผนจะฝึก Macbert ในคลังข้อมูลขนาดใหญ่และโอเพ่นซอร์สหรือไม่?

A5: เราไม่มีแผนในขณะนี้

อ้าง

หากทรัพยากรในโครงการนี้มีประโยชน์สำหรับการวิจัยของคุณโปรดอ้างอิงบทความต่อไปนี้

 @inproceedings{cui-etal-2020-revisiting,
    title = "Revisiting Pre-Trained Models for {C}hinese Natural Language Processing",
    author = "Cui, Yiming  and
      Che, Wanxiang  and
      Liu, Ting  and
      Qin, Bing  and
      Wang, Shijin  and
      Hu, Guoping",
    booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: Findings",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.findings-emnlp.58",
    pages = "657--668",
}

หรือ:

 @journal{cui-etal-2021-pretrain,
  title={Pre-Training with Whole Word Masking for Chinese BERT},
  author={Cui, Yiming and Che, Wanxiang and Liu, Ting and Qin, Bing and Yang, Ziqing},
  journal={IEEE Transactions on Audio, Speech and Language Processing},
  year={2021},
  url={https://ieeexplore.ieee.org/document/9599397},
  doi={10.1109/TASLP.2021.3124365},
 }

กิตติกรรมประกาศ

ต้องขอบคุณ Google TPU Research Cloud (TFRC) สำหรับการสนับสนุนทรัพยากรการคำนวณ

คำถามข้อเสนอแนะ

หากคุณมีคำถามใด ๆ โปรดส่งในปัญหา GitHub

ก่อนที่จะส่งคำถามโปรดตรวจสอบว่าคำถามที่พบบ่อยสามารถแก้ปัญหาได้หรือไม่ ขอแนะนำให้ตรวจสอบว่าปัญหาก่อนหน้านี้สามารถแก้ปัญหาของคุณได้หรือไม่
การทำซ้ำซ้ำและปัญหาที่ไม่เกี่ยวข้องกับโครงการนี้จะถูกประมวลผลโดย [STABEL-BOT] (Stale · GitHub Marketplace) โปรดเข้าใจ
เราจะตอบคำถามของคุณให้มากที่สุด แต่เราไม่สามารถรับประกันได้ว่าคำถามของคุณจะได้รับคำตอบ
ถามคำถามอย่างสุภาพและสร้างชุมชนการสนทนาที่กลมกลืนกัน

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน 1.0.0
ประเภท ซอร์สโค้ดอื่น ๆ
เวลาอัปเดต 2025-04-18
ขนาด 134.22KB
มาจาก Github

แอปที่เกี่ยวข้อง

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3

ข้อมูลที่เกี่ยวข้อง ทั้งหมด