จีน | ภาษาอังกฤษ
แม้ว่าแบบจำลองภาษาที่ผ่านการฝึกอบรมมาก่อนมีการใช้กันอย่างแพร่หลายในสาขาต่าง ๆ ของ NLP แต่เวลาที่สูงและค่าใช้จ่ายในการคำนวณยังคงเป็นปัญหาเร่งด่วน สิ่งนี้ต้องการให้เราพัฒนาโมเดลที่มีตัวบ่งชี้ที่ดีกว่าภายใต้ข้อ จำกัด ด้านกำลังการคำนวณบางอย่าง
เป้าหมายของเราคือไม่ได้ติดตามขนาดของรุ่นที่ใหญ่ขึ้น แต่มีน้ำหนักเบา แต่มีประสิทธิภาพมากกว่าในขณะที่ใช้งานได้มากขึ้นและเป็นมิตรกับอุตสาหกรรม
จากวิธีการต่าง ๆ เช่นการรวมข้อมูลทางภาษาและการเร่งความเร็วการฝึกอบรมเราได้พัฒนาโมเดล Mengzi Series ด้วยโครงสร้างของแบบจำลองที่สอดคล้องกับ Bert โมเดล Mengzi สามารถแทนที่โมเดลที่มีอยู่ก่อนได้อย่างรวดเร็ว
สำหรับรายงานทางเทคนิคโดยละเอียดโปรดดู:
MENGZI: ไปสู่รุ่นที่มีน้ำหนักเบา แต่มีความชาญฉลาดสำหรับภาษาจีน
เพิ่มสองรุ่นสถาปัตยกรรม GPT โอเพนซอร์ส:
@huajingyun
@hululuzhu จาก Mengzi-T5-base รูปแบบการเขียน AI ภาษาจีนได้รับการฝึกฝนให้สร้างบทกวีและคู่ สำหรับแบบจำลองและการใช้งานเฉพาะโปรดดูที่: จีน-การเขียน-แชร์-แชร์
ตัวอย่างบางรุ่น:
上: 不待鸣钟已汗颜,重来试手竟何艰
下: 何堪击鼓频催泪?一别伤心更枉然
上: 北国风光,千里冰封,万里雪飘
下: 南疆气象,五湖浪涌,三江潮来
標題: 作诗:中秋
詩歌: 秋氣侵肌骨,寒光入鬢毛。雲收千里月,風送一帆高。
標題: 作诗:中秋 模仿:苏轼
詩歌: 月從海上生,照我庭下影。不知此何夕,但見天宇靜。
ขอบคุณรุ่น Paddlenlp รุ่นและเอกสารประกอบที่จัดทำโดยทีม Paddlepaddle @yingyibiao
หมายเหตุ: รุ่น Paddlenlp ไม่ใช่ผลิตภัณฑ์ของเทคโนโลยี Lanzhou และเราไม่รับผิดชอบต่อผลลัพธ์และผลลัพธ์ที่สอดคล้องกัน
| แบบอย่าง | ปริมาณพารามิเตอร์ | สถานการณ์ที่เกี่ยวข้อง | คุณสมบัติ | ลิงค์ดาวน์โหลด |
|---|---|---|---|---|
| Mengzi-bert-base | 110m | งานความเข้าใจภาษาธรรมชาติเช่นการจำแนกประเภทข้อความการรับรู้เอนทิตีการแยกความสัมพันธ์และความเข้าใจในการอ่าน | เช่นเดียวกับโครงสร้างเบิร์ตน้ำหนักเบิร์ตที่มีอยู่สามารถเปลี่ยนได้โดยตรง | HuggingFace, ดาวน์โหลด Zip ในประเทศ, Paddlenlp |
| MENGZI-BERT-L6-H768 | 60m | งานความเข้าใจภาษาธรรมชาติเช่นการจำแนกประเภทข้อความการรับรู้เอนทิตีการแยกความสัมพันธ์และความเข้าใจในการอ่าน | ได้รับจากการกลั่นขนาดใหญ่ของ Mengzi-Bert | กอด |
| Mengzi-bert-base-fin | 110m | งานการทำความเข้าใจภาษาธรรมชาติในสาขาการเงิน | การฝึกอบรมเกี่ยวกับคลังการเงินโดยใช้ Mengzi-Bert-Base | HuggingFace, ดาวน์โหลด Zip ในประเทศ, Paddlenlp |
| Mengzi-T5-base | 220 เมตร | เหมาะสำหรับงานสร้างข้อความที่ควบคุมได้เช่นการสร้างคำโฆษณาและการสร้างข่าว | โครงสร้างเดียวกับ T5 ไม่รวมงานดาวน์สตรีมและจำเป็นต้องใช้หลังจาก Finetune ในงานเฉพาะ ไม่เหมือนกับการวางตำแหน่ง GPT มันไม่เหมาะสำหรับภาคต่อของข้อความ | HuggingFace, ดาวน์โหลด Zip ในประเทศ, Paddlenlp |
| MENGZI-T5-BASE-MT | 220 เมตร | ให้ความสามารถในการถ่ายภาพเป็นศูนย์และไม่กี่นัด | โมเดลมัลติทาสกิ้งสามารถทำงานต่างๆให้เสร็จสมบูรณ์ผ่านพรอมต์ | กอด |
| Mengzi-oscar-base | 110m | เหมาะสำหรับคำอธิบายรูปภาพการตรวจสอบรูปภาพและข้อความและงานอื่น ๆ | แบบจำลองหลายรูปแบบตาม Mengzi-Bert-Base การฝึกอบรมเกี่ยวกับรูปภาพระดับล้านและคู่ข้อความ | กอด |
| Mengzi-gpt-neo-base | 125m | งานต่อเนื่องของข้อความ | ขึ้นอยู่กับการฝึกอบรมคลังข้อมูลจีนเหมาะสำหรับรูปแบบพื้นฐานสำหรับงานที่เกี่ยวข้อง | กอด |
| Bloom-389m-ZH | 389m | งานต่อเนื่องของข้อความ | โมเดล Bloom ที่ปิดการใช้งานหลายภาษาหลายภาษาตามคลังภาษาจีนช่วยลดความต้องการหน่วยความจำวิดีโอ | กอด |
| Bloom-800m-ZH | 800m | งานต่อเนื่องของข้อความ | โมเดล Bloom ที่ปิดการใช้งานหลายภาษาหลายภาษาตามคลังภาษาจีนช่วยลดความต้องการหน่วยความจำวิดีโอ | กอด |
| Bloom-1B4-ZH | 1400m | งานต่อเนื่องของข้อความ | โมเดล Bloom ที่ปิดการใช้งานหลายภาษาหลายภาษาตามคลังภาษาจีนช่วยลดความต้องการหน่วยความจำวิดีโอ | กอด |
| Bloom-2B5-ZH | 2500m | งานต่อเนื่องของข้อความ | โมเดล Bloom ที่ปิดการใช้งานหลายภาษาหลายภาษาตามคลังภาษาจีนช่วยลดความต้องการหน่วยความจำวิดีโอ | กอด |
| Bloom-6B4-ZH | 6400m | งานต่อเนื่องของข้อความ | โมเดล Bloom ที่ปิดการใช้งานหลายภาษาหลายภาษาตามคลังภาษาจีนช่วยลดความต้องการหน่วยความจำวิดีโอ | กอด |
| regpt-125m-200g | 125m | งานต่อเนื่องของข้อความ | รุ่นที่ผ่านการฝึกอบรมเกี่ยวกับ gpt-neo-125m ผ่าน https://github.com/langboat/mengzi-retrieval-lm | กอด |
| Guohua-diffusion | - | การสร้างรูปแบบการวาดภาพและข้อความภาษาจีน | การฝึกอบรม Dreambooth โดยใช้ StabledIffusion v1.5 | กอด |
# 使用 Huggingface transformers 加载
from transformers import BertTokenizer , BertModel
tokenizer = BertTokenizer . from_pretrained ( "Langboat/mengzi-bert-base" )
model = BertModel . from_pretrained ( "Langboat/mengzi-bert-base" )หรือ
# 使用 PaddleNLP 加载
from paddlenlp . transformers import BertTokenizer , BertModel
tokenizer = BertTokenizer . from_pretrained ( "Langboat/mengzi-bert-base" )
model = BertModel . from_pretrained ( "Langboat/mengzi-bert-base" )รวมเข้ากับช่องว่าง HuggingFace กับ Gradio ดูการสาธิต:
# 使用 Huggingface transformers 加载
from transformers import T5Tokenizer , T5ForConditionalGeneration
tokenizer = T5Tokenizer . from_pretrained ( "Langboat/mengzi-t5-base" )
model = T5ForConditionalGeneration . from_pretrained ( "Langboat/mengzi-t5-base" )หรือ
# 使用 PaddleNLP 加载
from paddlenlp . transformers import T5Tokenizer , T5ForConditionalGeneration
tokenizer = T5Tokenizer . from_pretrained ( "Langboat/mengzi-t5-base" )
model = T5ForConditionalGeneration . from_pretrained ( "Langboat/mengzi-t5-base" )เอกสารอ้างอิง
# 使用 Huggingface transformers 加载
pip install transformersหรือ
# 使用 PaddleNLP 加载
pip install paddlenlp| แบบอย่าง | AFQMC | tnews | iflytek | cmnli | WSC | CSL | CMRC2018 | C3 | การใช้ |
|---|---|---|---|---|---|---|---|---|---|
| Roberta-wwm-ext | 74.30 | 57.51 | 60.80 | 80.70 | 67.20 | 80.67 | 77.59 | 67.06 | 83.78 |
| Mengzi-bert-base | 74.58 | 57.97 | 60.68 | 82.12 | 87.50 | 85.40 | 78.54 | 71.70 | 84.16 |
| MENGZI-BERT-L6-H768 | 74.75 | 56.68 | 60.22 | 81.10 | 84.87 | 85.77 | 78.06 | 65.49 | 80.59 |
คะแนน Roberta-WWM-EXT มาจากเบาะแสพื้นฐาน
| งาน | อัตราการเรียนรู้ | ขนาดแบทช์ทั่วโลก | ยุค |
|---|---|---|---|
| AFQMC | 3e-5 | 32 | 10 |
| tnews | 3e-5 | 128 | 10 |
| iflytek | 3e-5 | 64 | 10 |
| cmnli | 3e-5 | 512 | 10 |
| WSC | 8E-6 | 64 | 50 |
| CSL | 5E-5 | 128 | 5 |
| CMRC2018 | 5E-5 | 8 | 5 |
| C3 | 1E-4 | 240 | 3 |
| การใช้ | 5E-5 | 256 | 5 |

Wangyulong [ที่] Langboat [dot] com
Q. Mengzi-Bert-Base ขนาดรุ่นที่บันทึกไว้คือ 196m แต่ขนาดรุ่นของเบิร์ตฐานประมาณ 389m หรือไม่? มีความแตกต่างในฐานที่กำหนดหรือไม่หรือไม่มีเนื้อหาที่ไม่จำเป็นเมื่อถูกบันทึกไว้หรือไม่?
ตอบ: นี่เป็นเพราะ Mengzi-Bert-Base ได้รับการฝึกฝนด้วย FP16
Q. แหล่งข้อมูลสำหรับโมเดลที่ผ่านการฝึกอบรมทางการเงินคืออะไร?
ตอบ: ข่าวการเงินการประกาศและรายงานการวิจัยคลานบนหน้าเว็บ
Q. มีรุ่น Tensorflow หรือไม่?
ตอบ: คุณสามารถแปลงด้วยตัวเอง
ถามรหัสการฝึกอบรมสามารถเปิดได้หรือไม่?
ตอบ: เนื่องจากการมีเพศสัมพันธ์ที่แน่นหนากับโครงสร้างพื้นฐานภายในจึงไม่มีแผน
Q. เราจะบรรลุผลเช่นเดียวกับการสร้างข้อความบนเว็บไซต์ทางการของ Langboat ได้อย่างไร
ตอบ: โมเดลการสร้างข้อความหลักของเราขึ้นอยู่กับสถาปัตยกรรม T5 อัลกอริทึมการสร้างข้อความพื้นฐานสามารถอ้างถึงกระดาษ T5 ของ Google: https://arxiv.org/pdf/1910.10683.pdf โมเดลโอเพนซอร์ส Mengzi-T5 ของเรานั้นเหมือนกับสถาปัตยกรรมรุ่น T5 ที่ผ่านการฝึกอบรมมาก่อนของ Google ซึ่งเป็นรุ่นที่ผ่านการฝึกอบรมมาก่อนและไม่มีงานสร้างข้อความพิเศษ คุณลักษณะการสร้างคำโฆษณาการเขียนคำโฆษณาการตลาดของเราคือการใช้ข้อมูลจำนวนมากสำหรับงานดาวน์สตรีมที่เฉพาะเจาะจง finetune บนพื้นฐานนี้เพื่อให้ได้เอฟเฟกต์การสร้างที่สามารถควบคุมได้เราได้สร้างชุดท่อส่งข้อความที่สมบูรณ์: จากการทำความสะอาดข้อมูลการสกัดความรู้การสร้างข้อมูลการฝึกอบรมไปสู่การประเมินคุณภาพการสร้าง ส่วนใหญ่ได้รับการปรับแต่งตามสถานการณ์การดำเนินงานเชิงพาณิชย์: งานก่อนการฝึกอบรมและการฝึกอบรมที่แตกต่างกันถูกสร้างขึ้นตามความต้องการทางธุรกิจที่แตกต่างกันและรูปแบบข้อมูลที่แตกต่างกัน ส่วนนี้เกี่ยวข้องกับสถาปัตยกรรมซอฟต์แวร์ที่ค่อนข้างซับซ้อนและสถานการณ์ทางธุรกิจเฉพาะและเรายังไม่ได้ดำเนินการโอเพนซอร์ส
Q. การอนุมาน Mengzi-T5 โดยตรงหรือไม่?
ตอบ: เราอ้างถึง T5 V1.1 และไม่รวมงานดาวน์สตรีม
ถาม: ฉันควรทำอย่างไรถ้าฉันโหลดข้อผิดพลาดด้วย HuggingFace Transformer?
ตอบ: ลองเพิ่ม force_download=True
ถาม: Mengzi-T5-base มีแนวโน้มที่จะสร้างผู้สมัครสำหรับคำที่ละเอียดเมื่อทำการสร้างข้อ จำกัด ในขณะที่ MT5 เป็นสิ่งที่ตรงกันข้าม นี่คือกระบวนการฝึกอบรมกระบวนการที่มีความละเอียดหรือไม่?
ตอบ: แทนที่จะใช้คำศัพท์ของ MT5 เราจะฝึก Tokenizer ใหม่ตามคลังข้อมูลรวมถึงคำศัพท์เพิ่มเติม ด้วยวิธีนี้หลังจากเข้ารหัสข้อความที่มีความยาวเท่ากันจำนวนโทเค็นจะเล็กลงการใช้หน่วยความจำจะเล็กลงและความเร็วในการฝึกอบรมจะเร็วขึ้น
เนื้อหาในโครงการนี้มีไว้สำหรับการอ้างอิงการวิจัยทางเทคนิคเท่านั้นและไม่ได้ใช้เป็นพื้นฐานการสรุปใด ๆ ผู้ใช้สามารถใช้โมเดลได้ตลอดเวลาภายในขอบเขตของใบอนุญาต แต่เราจะไม่รับผิดชอบต่อการสูญเสียโดยตรงหรือโดยอ้อมที่เกิดจากการใช้เนื้อหาของโครงการ ผลการทดลองที่นำเสนอในรายงานทางเทคนิคแสดงให้เห็นว่าประสิทธิภาพภายใต้ชุดข้อมูลเฉพาะและการรวมกันของไฮเปอร์พารามิเตอร์ไม่ได้แสดงถึงลักษณะของแต่ละรุ่น ผลการทดลองอาจเปลี่ยนแปลงได้เนื่องจากเมล็ดพันธุ์และอุปกรณ์คอมพิวเตอร์แบบสุ่ม
ในระหว่างกระบวนการใช้โมเดลนี้ในรูปแบบต่าง ๆ (รวมถึง แต่ไม่ จำกัด เพียงการดัดแปลงการใช้งานโดยตรงและการใช้งานผ่านบุคคลที่สาม) ผู้ใช้จะไม่มีส่วนร่วมโดยตรงหรือโดยอ้อมในการกระทำที่ละเมิดกฎหมายและกฎระเบียบของเขตอำนาจศาลที่พวกเขาเป็นผู้ใช้ ความรับผิดทางกฎหมายหรือร่วมกัน
เรามีสิทธิ์ในการตีความแก้ไขและอัปเดตข้อจำกัดความรับผิดชอบนี้
@misc{zhang2021mengzi,
title={Mengzi: Towards Lightweight yet Ingenious Pre-trained Models for Chinese},
author={Zhuosheng Zhang and Hanqing Zhang and Keming Chen and Yuhang Guo and Jingyun Hua and Yulong Wang and Ming Zhou},
year={2021},
eprint={2110.06696},
archivePrefix={arXiv},
primaryClass={cs.CL}
}