ดาวน์โหลด Chinese XLNet - ดาวน์โหลดซอร์สโค้ด Chinese XLNet

คำอธิบายภาษาจีน ภาษาอังกฤษ

โครงการนี้ให้รูปแบบ XLNET ที่ผ่านการฝึกอบรมล่วงหน้าสำหรับภาษาจีนโดยมีวัตถุประสงค์เพื่อเสริมสร้างทรัพยากรการประมวลผลภาษาธรรมชาติของจีนและให้การเลือกแบบจำลองที่ผ่านการฝึกอบรมก่อนภาษาจีน เรายินดีต้อนรับผู้เชี่ยวชาญและนักวิชาการทุกคนในการดาวน์โหลดและใช้งานและร่วมกันส่งเสริมและพัฒนาการสร้างทรัพยากรจีน

โครงการนี้ใช้ XLNet อย่างเป็นทางการของ CMU/Google: https://github.com/zihangdai/xlnet

Lert จีน ภาษาอังกฤษภาษาอังกฤษ Pert | Macbert จีน Electra จีน XLNET จีน | เบิร์ตจีน เครื่องมือกลั่นความรู้ TextBrewer | เครื่องมือตัดแบบจำลอง TextPruner

ดูแหล่งข้อมูลเพิ่มเติมที่เผยแพร่โดย IFL of Harbin Institute of Technology (HFL): https://github.com/ymcui/hfl-anthology

ข่าว

2023/3/28 โอเพ่นซอร์ส Llama & Alpaca Big Model ซึ่งสามารถนำไปใช้อย่างรวดเร็วและมีประสบการณ์บนพีซีดู: https://github.com/ymcui/chinese-llama-alpaca

2022/10/29 เราเสนอรูปแบบที่ได้รับการฝึกอบรมล่วงหน้าซึ่งรวมข้อมูลภาษาศาสตร์ ดู: https://github.com/ymcui/lert

2022/3/30 เราเปิดแหล่งข้อมูลรุ่นใหม่ที่ผ่านการฝึกอบรมมาก่อน ดู: https://github.com/ymcui/pert

2021/12/17 ห้องปฏิบัติการร่วม IFLYTEK เปิดตัว TextPruner TextPruner แบบจำลอง ดู: https://github.com/airaria/textpruner

2021/10/24 ห้องปฏิบัติการร่วม IFLYTEK เปิดตัว CINO แบบจำลองที่ผ่านการฝึกอบรมมาก่อนสำหรับภาษาชนกลุ่มน้อย ดู: https://github.com/ymcui/chinese-minority-plm

2021/7/21 "การประมวลผลภาษาธรรมชาติ: วิธีการตามรูปแบบการฝึกอบรมก่อนการฝึกอบรม" ที่เขียนโดยนักวิชาการหลายคนจาก Harbin Institute of Technology Scir ได้รับการเผยแพร่และทุกคนยินดีที่จะซื้อ

2021/1/27 ทุกรุ่นได้รองรับ TensorFlow 2 โปรดโทรหรือดาวน์โหลดผ่าน Library Transformers https://huggingface.co/hfl

ข่าวประวัติศาสตร์

2020/9/15 กระดาษของเรา ["การทบทวนแบบจำลองที่ผ่านการฝึกอบรมมาก่อนสำหรับการประมวลผลภาษาธรรมชาติจีน"] (https://arxiv.org/abs/2004.13922) ได้รับการว่าจ้างเป็นบทความยาวโดย [Finover of Emnlp] (https://2020.Emnlp.org)

2020/8/27 ห้องปฏิบัติการร่วม IFL ติดอันดับในการประเมินความเข้าใจภาษาธรรมชาติทั่วไปของกาวทั่วไปตรวจสอบรายการกาวข่าว

2020/3/11 เพื่อให้เข้าใจถึงความต้องการได้ดีขึ้นคุณได้รับเชิญให้กรอกแบบสอบถามเพื่อให้คุณมีทรัพยากรที่ดีขึ้น

2020/2/26 ห้องปฏิบัติการร่วม IFLYTEK ปล่อยเครื่องมือการกลั่นความรู้

2019/12/19 รุ่นที่เผยแพร่ในไดเรกทอรีนี้ได้เชื่อมต่อกับ HuggingFace-Transformers เพื่อดูการโหลดที่รวดเร็ว

2019/9/5 XLNet-base พร้อมให้ดาวน์โหลดดูรุ่นดาวน์โหลด

2019/8/19 ให้รุ่น XLNet-mid จีนที่ผ่านการฝึกอบรมเกี่ยวกับ Corpus Universal ขนาดใหญ่ (จำนวนคำ 5.4B), ดูโมเดลการดาวน์โหลด

คำแนะนำเนื้อหา

บท	อธิบาย
ดาวน์โหลดรุ่น	จัดเตรียมที่อยู่ดาวน์โหลดของ XLNet ที่ผ่านการฝึกอบรมมาล่วงหน้าเป็นภาษาจีน
เอฟเฟกต์ระบบพื้นฐาน	ระบุเอฟเฟกต์ระบบพื้นฐานบางอย่าง
รายละเอียดการฝึกอบรมล่วงหน้า	คำอธิบายของรายละเอียดการฝึกอบรมก่อน
รายละเอียดการปรับจูนงานดาวน์สตรีม	คำอธิบายที่เกี่ยวข้องของงานดาวน์สตรีมรายละเอียดการปรับจูน
คำถามที่พบบ่อย	คำถามที่พบบ่อยและคำตอบ
อ้าง	รายงานทางเทคนิคในไดเรกทอรีนี้

ดาวน์โหลดรุ่น

XLNet-mid : 24 ชั้น, 768 ซ่อน, 12 หัว, พารามิเตอร์ 209M
XLNet-base : 12-layer, 768 ซ่อน, 12 หัว, พารามิเตอร์ 117m

ตัวย่อแบบจำลอง	วัสดุ	ดาวน์โหลด Google	Baidu Netdisk ดาวน์โหลด
`XLNet-mid, Chinese`	วิกิจีน+ ข้อมูลทั่วไป ^[1]	เทนเซอร์โฟลว์ pytorch	TensorFlow (รหัสผ่าน 2JV2)
`XLNet-base, Chinese`	วิกิจีน+ ข้อมูลทั่วไป ^[1]	เทนเซอร์โฟลว์ pytorch	tensorflow (รหัสผ่าน ge7w)

[1] ข้อมูลทั่วไปรวมถึง: สารานุกรม, ข่าว, คำถามและคำตอบและข้อมูลอื่น ๆ ที่มีจำนวนคำทั้งหมดถึง 5.4B เช่นเดียวกับคลังฝึกอบรม BERT-WM-EXT ที่เราเปิดตัว

เวอร์ชัน Pytorch

หากคุณต้องการเวอร์ชัน Pytorch

1) โปรดแปลงด้วยตัวคุณเองผ่านสคริปต์การแปลงที่จัดทำโดย Transformers

2) หรือดาวน์โหลด pytorch โดยตรงผ่านเว็บไซต์ทางการของ HuggingFace: https://huggingface.co/hfl

วิธี: คลิกรุ่นใด ๆ ที่คุณต้องการดาวน์โหลด→ดึงไปที่ด้านล่างและคลิก "แสดงรายการไฟล์ทั้งหมดในรุ่น" →ดาวน์โหลดไฟล์ bin และ json ในกล่องป๊อปอัพ

คำแนะนำสำหรับการใช้งาน

ขอแนะนำให้ใช้คะแนนดาวน์โหลด Baidu Netdisk ในประเทศจีนแผ่นดินใหญ่และผู้ใช้ในต่างประเทศขอแนะนำให้ใช้คะแนนดาวน์โหลด Google ขนาดไฟล์รุ่น XLNet-mid อยู่ที่ประมาณ 800 ม . การใช้รุ่น TensorFlow XLNet-mid, Chinese เป็นตัวอย่างหลังจากดาวน์โหลดแล้วคลายไฟล์ ZIP เพื่อรับ:

 chinese_xlnet_mid_L-24_H-768_A-12.zip
    |- xlnet_model.ckpt      # 模型权重
    |- xlnet_model.meta      # 模型meta信息
    |- xlnet_model.index     # 模型index信息
    |- xlnet_config.json     # 模型参数
    |- spiece.model          # 词表

การโหลดอย่างรวดเร็ว

พึ่งพา HuggingFace-Transformers 2.2.2 รุ่นข้างต้นสามารถเรียกได้ง่าย

 tokenizer = AutoTokenizer.from_pretrained("MODEL_NAME")
model = AutoModel.from_pretrained("MODEL_NAME")

รายการที่สอดคล้องกันของ MODEL_NAME มีดังนี้:

ชื่อนางแบบ	model_name
xlnet-mid	HFL/Chinese-Xlnet-Mid
xlnet-base	HFL/Chinese-Xlnet-base

เอฟเฟกต์ระบบพื้นฐาน

เพื่อเปรียบเทียบเอฟเฟกต์พื้นฐานเราได้ทำการทดสอบในชุดข้อมูลภาษาจีนต่อไปนี้ Bert Chinese, Bert-WWM, Bert-WWM-EXT, XLNET-BASE, XLNET-MID ถูกเปรียบเทียบ ในหมู่พวกเขาผลลัพธ์ของ Bert จีน, Bert-WWM และ Bert-WWM-Ext นำมาจากโครงการ Bert-WWM จีน เวลาและพลังงานมี จำกัด และไม่สามารถครอบคลุมประเภทของงานได้มากขึ้น โปรดลองด้วยตัวเอง

หมายเหตุ: เพื่อให้แน่ใจว่าความน่าเชื่อถือของผลลัพธ์สำหรับโมเดลเดียวกันเราเรียกใช้ 10 เท่า (เมล็ดสุ่มที่แตกต่างกัน) เพื่อรายงานค่าสูงสุดและค่าเฉลี่ยของประสิทธิภาพของโมเดล หากไม่มีอะไรเกิดขึ้นที่ไม่คาดคิดผลลัพธ์ของการดำเนินการของคุณควรอยู่ในช่วงนี้

ในตัวบ่งชี้การประเมินค่าค่าเฉลี่ยจะถูกแสดงในวงเล็บและค่าสูงสุดจะถูกแสดงภายนอกวงเล็บ

ความเข้าใจในการอ่านภาษาจีนที่ง่ายขึ้น: CMRC 2018

** ชุดข้อมูล CMRC 2018 ** เป็นข้อมูลการอ่านความเข้าใจของเครื่องจีนที่เผยแพร่โดย IFLYTEK Joint Laboratory ตามคำถามที่กำหนดระบบจะต้องแยกชิ้นส่วนออกจากบทเป็นคำตอบในรูปแบบเดียวกับทีม ตัวชี้วัดการประเมินคือ: EM / F1

แบบอย่าง	ชุดพัฒนา	ชุดทดสอบ	ชุดท้าทาย
เบิร์ต	65.5 (64.4) / 84.5 (84.0)	70.0 (68.7) / 87.0 (86.3)	18.6 (17.0) / 43.3 (41.3)
bert-wwm	66.3 (65.0) / 85.6 (84.7)	70.5 (69.1) / 87.4 (86.7)	21.0 (19.3) / 47.0 (43.9)
bert-wwm-ext	67.1 (65.6) / 85.7 (85.0)	71.4 (70.0) / 87.7 (87.0)	24.0 (20.0) / 47.3 (44.6)
xlnet-base	65.2 (63.0) / 86.9 (85.9)	67.0 (65.8) / 87.2 (86.8)	25.0 (22.7) / 51.3 (49.5)
xlnet-mid	66.8 (66.3) / 88.4 (88.1)	69.3 (68.5) / 89.2 (88.8)	29.1 (27.1) / 55.8 (54.9)

ความเข้าใจในการอ่านภาษาจีนดั้งเดิม: DRCD

** ชุดข้อมูล DRCD ** เปิดตัวโดย Delta Research Institute, ไต้หวัน, จีน รูปแบบของมันเหมือนกับทีมและเป็นชุดข้อมูลความเข้าใจในการอ่านที่แยกออกมาจากภาษาจีนดั้งเดิม ตัวชี้วัดการประเมินคือ: EM / F1

แบบอย่าง	ชุดพัฒนา	ชุดทดสอบ
เบิร์ต	83.1 (82.7) / 89.9 (89.6)	82.2 (81.6) / 89.2 (88.8)
bert-wwm	84.3 (83.4) / 90.5 (90.2)	82.8 (81.8) / 89.7 (89.0)
bert-wwm-ext	85.0 (84.5) / 91.2 (90.9)	83.6 (83.0) / 90.4 (89.9)
xlnet-base	83.8 (83.2) / 92.3 (92.0)	83.5 (82.8) / 92.2 (91.8)
xlnet-mid	85.3 (84.9) / 93.5 (93.3)	85.5 (84.8) / 93.6 (93.2)

หมวดหมู่อารมณ์: Chnsenticorp

ในงานการจำแนกอารมณ์เราใช้ชุดข้อมูล Chnsenticorp แบบจำลองจำเป็นต้องแบ่งข้อความออกเป็นสองประเภท:积极และ消极ตัวบ่งชี้การประเมินคือ: ความแม่นยำ

แบบอย่าง	ชุดพัฒนา	ชุดทดสอบ
เบิร์ต	94.7 (94.3)	95.0 (94.7)
bert-wwm	95.1 (94.5)	95.4 (95.0)
xlnet-base
xlnet-mid	95.8 (95.2)	95.4 (94.9)

รายละเอียดการฝึกอบรมล่วงหน้า

ต่อไปนี้คือการอธิบายรายละเอียดการฝึกอบรมล่วงหน้าโดยใช้โมเดล XLNet-mid เป็นตัวอย่าง

สร้างรายการคำศัพท์

ทำตามขั้นตอนของการสอนอย่างเป็นทางการของ XLNet คุณต้องใช้ชิ้นส่วนประโยคเพื่อสร้างรายการคำศัพท์ ในโครงการนี้เราใช้ขนาดคำศัพท์ 32000 และส่วนที่เหลือของพารามิเตอร์จะถูกกำหนดค่าในการกำหนดค่าเริ่มต้นในตัวอย่างอย่างเป็นทางการ

 spm_train 
	--input=wiki.zh.txt 
	--model_prefix=sp10m.cased.v3 
	--vocab_size=32000 
	--character_coverage=0.99995 
	--model_type=unigram 
	--control_symbols=<cls>,<sep>,<pad>,<mask>,<eod> 
	--user_defined_symbols=<eop>,.,(,),",-,–,£,€ 
	--shuffle_input_sentence 
	--input_sentence_size=10000000

สร้าง tf_records

หลังจากสร้างรายการคำศัพท์แล้วคลังข้อความต้นฉบับจะใช้เพื่อสร้างไฟล์การฝึกอบรม tf_records ข้อความต้นฉบับถูกสร้างขึ้นเช่นเดียวกับการสอนดั้งเดิม:

แต่ละบรรทัดเป็นประโยค
เส้นเปล่าแสดงถึงจุดสิ้นสุดของเอกสาร

ต่อไปนี้เป็นคำสั่งเมื่อสร้างข้อมูล (โปรดตั้ง num_task และ task ตามจำนวนชิ้นจริง):

 SAVE_DIR=./output_b32
INPUT=./data/*.proc.txt

python data_utils.py 
	--bsz_per_host=32 
	--num_core_per_host=8 
	--seq_len=512 
	--reuse_len=256 
	--input_glob=${INPUT} 
	--save_dir=${SAVE_DIR} 
	--num_passes=20 
	--bi_data=True 
	--sp_path=spiece.model 
	--mask_alpha=6 
	--mask_beta=1 
	--num_predict=85 
	--uncased=False 
	--num_task=10 
	--task=1

การฝึกอบรมล่วงหน้า

หลังจากได้รับข้อมูลข้างต้น XLNET ก่อนการฝึกอบรมจะเริ่มขึ้นอย่างเป็นทางการ เหตุผลที่เรียกว่า XLNet-mid คือจำนวนเลเยอร์จะเพิ่มขึ้นเมื่อเทียบกับ XLNet-base (12 ชั้นเพิ่มเป็น 24 ชั้น) และพารามิเตอร์ที่เหลือไม่เปลี่ยนแปลงส่วนใหญ่เป็นเพราะข้อ จำกัด ของอุปกรณ์คอมพิวเตอร์ คำสั่งที่ใช้มีดังนี้:

 DATA=YOUR_GS_BUCKET_PATH_TO_TFRECORDS
MODEL_DIR=YOUR_OUTPUT_MODEL_PATH
TPU_NAME=v3-xlnet
TPU_ZONE=us-central1-b

python train.py 
	--record_info_dir=$DATA 
	--model_dir=$MODEL_DIR 
	--train_batch_size=32 
	--seq_len=512 
	--reuse_len=256 
	--mem_len=384 
	--perm_size=256 
	--n_layer=24 
	--d_model=768 
	--d_embed=768 
	--n_head=12 
	--d_head=64 
	--d_inner=3072 
	--untie_r=True 
	--mask_alpha=6 
	--mask_beta=1 
	--num_predict=85 
	--uncased=False 
	--train_steps=2000000 
	--save_steps=20000 
	--warmup_steps=20000 
	--max_save=20 
	--weight_decay=0.01 
	--adam_epsilon=1e-6 
	--learning_rate=1e-4 
	--dropout=0.1 
	--dropatt=0.1 
	--tpu=$TPU_NAME 
	--tpu_zone=$TPU_ZONE 
	--use_tpu=True

รายละเอียดการปรับจูนงานดาวน์สตรีม

อุปกรณ์ที่ใช้สำหรับการปรับแต่งงานดาวน์สตรีมอย่างละเอียดคือ Google Cloud TPU V2 (64G HBM) ต่อไปนี้อธิบายการกำหนดค่าของแต่ละงานโดยย่อเมื่อทำการปรับแต่ง หากคุณใช้ GPU สำหรับการปรับที่ดีโปรดเปลี่ยนพารามิเตอร์ที่เกี่ยวข้องเพื่อปรับตัวโดยเฉพาะ batch_size , learning_rate และพารามิเตอร์อื่น ๆ สำหรับรหัสที่เกี่ยวข้องโปรดตรวจสอบไดเรกทอรี src

CMRC 2018

สำหรับการอ่านงานความเข้าใจจำเป็นต้องใช้ข้อมูล TF_RECORDS เป็นอันดับแรก โปรดดูวิธีการประมวลผลของ Squad 2.0 ของการสอนอย่างเป็นทางการของ XLNet ซึ่งจะไม่ได้รับการอธิบายที่นี่ ต่อไปนี้เป็นพารามิเตอร์สคริปต์ที่ใช้ในงาน CMRC 2018 การอ่านความเข้าใจของเครื่องจีน:

 XLNET_DIR=YOUR_GS_BUCKET_PATH_TO_XLNET
MODEL_DIR=YOUR_OUTPUT_MODEL_PATH
DATA_DIR=YOUR_DATA_DIR_TO_TFRECORDS
RAW_DIR=YOUR_RAW_DATA_DIR
TPU_NAME=v2-xlnet
TPU_ZONE=us-central1-b

python -u run_cmrc_drcd.py 
	--spiece_model_file=./spiece.model 
	--model_config_path=${XLNET_DIR}/xlnet_config.json 
	--init_checkpoint=${XLNET_DIR}/xlnet_model.ckpt 
	--tpu_zone=${TPU_ZONE} 
	--use_tpu=True 
	--tpu=${TPU_NAME} 
	--num_hosts=1 
	--num_core_per_host=8 
	--output_dir=${DATA_DIR} 
	--model_dir=${MODEL_DIR} 
	--predict_dir=${MODEL_DIR}/eval 
	--train_file=${DATA_DIR}/cmrc2018_train.json 
	--predict_file=${DATA_DIR}/cmrc2018_dev.json 
	--uncased=False 
	--max_answer_length=40 
	--max_seq_length=512 
	--do_train=True 
	--train_batch_size=16 
	--do_predict=True 
	--predict_batch_size=16 
	--learning_rate=3e-5 
	--adam_epsilon=1e-6 
	--iterations=1000 
	--save_steps=2000 
	--train_steps=2400 
	--warmup_steps=240

DRCD

ต่อไปนี้เป็นพารามิเตอร์สคริปต์ที่ใช้ในงานความเข้าใจในการอ่านเครื่องของเครื่องภาษาจีนแบบดั้งเดิมของ DRCD:

 XLNET_DIR=YOUR_GS_BUCKET_PATH_TO_XLNET
MODEL_DIR=YOUR_OUTPUT_MODEL_PATH
DATA_DIR=YOUR_DATA_DIR_TO_TFRECORDS
RAW_DIR=YOUR_RAW_DATA_DIR
TPU_NAME=v2-xlnet
TPU_ZONE=us-central1-b

python -u run_cmrc_drcd.py 
	--spiece_model_file=./spiece.model 
	--model_config_path=${XLNET_DIR}/xlnet_config.json 
	--init_checkpoint=${XLNET_DIR}/xlnet_model.ckpt 
	--tpu_zone=${TPU_ZONE} 
	--use_tpu=True 
	--tpu=${TPU_NAME} 
	--num_hosts=1 
	--num_core_per_host=8 
	--output_dir=${DATA_DIR} 
	--model_dir=${MODEL_DIR} 
	--predict_dir=${MODEL_DIR}/eval 
	--train_file=${DATA_DIR}/DRCD_training.json 
	--predict_file=${DATA_DIR}/DRCD_dev.json 
	--uncased=False 
	--max_answer_length=30 
	--max_seq_length=512 
	--do_train=True 
	--train_batch_size=16 
	--do_predict=True 
	--predict_batch_size=16 
	--learning_rate=3e-5 
	--adam_epsilon=1e-6 
	--iterations=1000 
	--save_steps=2000 
	--train_steps=3600 
	--warmup_steps=360

chnsenticorp

งานการจำแนกประเภทไม่จำเป็นต้องสร้าง tf_records ล่วงหน้า ต่อไปนี้เป็นพารามิเตอร์สคริปต์ที่ใช้ในงานการจำแนกอารมณ์ Chnsenticorp:

 XLNET_DIR=YOUR_GS_BUCKET_PATH_TO_XLNET
MODEL_DIR=YOUR_OUTPUT_MODEL_PATH
DATA_DIR=YOUR_DATA_DIR_TO_TFRECORDS
RAW_DIR=YOUR_RAW_DATA_DIR
TPU_NAME=v2-xlnet
TPU_ZONE=us-central1-b

python -u run_classifier.py 
	--spiece_model_file=./spiece.model 
	--model_config_path=${XLNET_DIR}/xlnet_config.json 
	--init_checkpoint=${XLNET_DIR}/xlnet_model.ckpt 
	--task_name=csc 
	--do_train=True 
	--do_eval=True 
	--eval_all_ckpt=False 
	--uncased=False 
	--data_dir=${RAW_DIR} 
	--output_dir=${DATA_DIR} 
	--model_dir=${MODEL_DIR} 
	--train_batch_size=48 
	--eval_batch_size=48 
	--num_hosts=1 
	--num_core_per_host=8 
	--num_train_epochs=3 
	--max_seq_length=256 
	--learning_rate=2e-5 
	--save_steps=5000 
	--use_tpu=True 
	--tpu=${TPU_NAME} 
	--tpu_zone=${TPU_ZONE}

คำถามที่พบบ่อย

ถาม: รุ่นที่ใหญ่กว่าจะถูกปล่อยออกมาหรือไม่?
ตอบ: ไม่แน่ใจไม่รับประกัน หากเราได้รับการปรับปรุงประสิทธิภาพที่สำคัญเราจะพิจารณาการเผยแพร่

ถาม: ไม่ดีในชุดข้อมูลบางชุด?
ตอบ: เลือกรุ่นอื่น ๆ หรือใช้ข้อมูลของคุณสำหรับการฝึกอบรมล่วงหน้าบนจุดตรวจสอบนี้

ถาม: ข้อมูลการฝึกอบรมล่วงหน้าจะถูกปล่อยออกมาหรือไม่?
ตอบ: ขออภัยไม่สามารถเผยแพร่ได้เนื่องจากปัญหาลิขสิทธิ์

ถาม: ใช้เวลาฝึก XLNET นานแค่ไหน?
A: XLNet-mid ได้รับการฝึกฝน 2M ขั้นตอน (BATCH = 32) โดยใช้ Cloud TPU V3 (128G HBM) ซึ่งใช้เวลาประมาณ 3 สัปดาห์ XLNet-base ได้รับการฝึกฝนขั้นตอน 4M

ถาม: ทำไม XLNET ถึงไม่ได้ปล่อย XLNET หลายภาษาหรือจีนอย่างเป็นทางการ?
ตอบ: (ต่อไปนี้เป็นความคิดเห็นส่วนตัว) ไม่เป็นที่รู้จักหลายคนทิ้งข้อความไว้ว่าพวกเขาหวังว่าจะมีคลิก xlnet-issue-#3 ด้วยเทคโนโลยีอย่างเป็นทางการของ XLNET และพลังการคำนวณการฝึกอบรมแบบจำลองดังกล่าวไม่ใช่เรื่องยาก (เวอร์ชันหลายภาษาอาจมีความซับซ้อนมากขึ้นและต้องพิจารณาความสมดุลระหว่างภาษาที่แตกต่างกันคุณสามารถอ้างถึงคำอธิบายในหลายภาษา-เบิร์ต) แต่เมื่อคิดเกี่ยวกับเรื่องนี้ผู้เขียนไม่จำเป็นต้องทำเช่นนั้น ในฐานะนักวิชาการการมีส่วนร่วมทางเทคนิคของพวกเขาก็เพียงพอแล้วและไม่ควรถูกวิพากษ์วิจารณ์หากพวกเขาไม่ได้ตีพิมพ์และพวกเขาเรียกร้องให้ทุกคนปฏิบัติต่อการทำงานของคนอื่นอย่างมีเหตุผล

ถาม: xlnet ดีกว่าเบิร์ตในกรณีส่วนใหญ่หรือไม่?
ตอบ: ในปัจจุบันดูเหมือนว่าอย่างน้อยงานข้างต้นจะมีประสิทธิภาพและข้อมูลที่ใช้นั้นเหมือนกับ BERT-WWM-EXT ที่เราเปิดตัว

ถาม:?
A:.

อ้าง

หากเนื้อหาในไดเรกทอรีนี้มีประโยชน์ต่องานวิจัยของคุณโปรดดูรายงานทางเทคนิคต่อไปนี้ในบทความของคุณ: https://arxiv.org/abs/2004.13922

 @inproceedings{cui-etal-2020-revisiting,
    title = "Revisiting Pre-Trained Models for {C}hinese Natural Language Processing",
    author = "Cui, Yiming  and
      Che, Wanxiang  and
      Liu, Ting  and
      Qin, Bing  and
      Wang, Shijin  and
      Hu, Guoping",
    booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: Findings",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.findings-emnlp.58",
    pages = "657--668",
}

กิตติกรรมประกาศ

ผู้เขียนโครงการ: CUI YIMING (ห้องปฏิบัติการร่วม IFLYTEK), Che Wanxiang (Harbin Institute of Technology), Liu Ting (Harbin Institute of Technology), Wang Shijin (Iflytek), Hu Guoping (Iflytek)

โครงการนี้ได้รับทุนจากโปรแกรม Tensorflow Research Cloud (TFRC) ของ Google

ในระหว่างการก่อสร้างโครงการนี้เราได้อ้างถึงคลังสินค้าต่อไปนี้และเราขอขอบคุณที่นี่:

xlnet: https://github.com/zihangdai/xlnet
มาลายา: https://github.com/huseinzol05/malaya/tree/master/xlnet
เกาหลี xlnet (คำอธิบายเกาหลีไม่มีการแปล): https://github.com/yeontaek/xlnet-korean-model

คำเตือน

โครงการนี้ไม่ใช่รุ่น XLNet จีนที่เปิดตัวอย่างเป็นทางการโดย XLNet ในขณะเดียวกันโครงการนี้ไม่ได้เป็นผลิตภัณฑ์อย่างเป็นทางการของ Harbin Institute of Technology หรือ Iflytek เนื้อหาในโครงการนี้มีไว้สำหรับการอ้างอิงการวิจัยทางเทคนิคเท่านั้นและไม่ได้ใช้เป็นพื้นฐานการสรุปใด ๆ ผู้ใช้สามารถใช้โมเดลได้ตลอดเวลาภายในขอบเขตของใบอนุญาต แต่เราจะไม่รับผิดชอบต่อการสูญเสียโดยตรงหรือโดยอ้อมที่เกิดจากการใช้เนื้อหาของโครงการ

ติดตามเรา

ยินดีต้อนรับสู่การติดตามบัญชีอย่างเป็นทางการของ WeChat อย่างเป็นทางการของห้องปฏิบัติการร่วม IFLYTEK

ข้อเสนอแนะคำถามและการบริจาค

หากคุณมีคำถามใด ๆ โปรดส่งในปัญหา GitHub
เราไม่มีการดำเนินงานและกระตุ้นให้ชาวเน็ตช่วยกันแก้ปัญหา
หากคุณพบปัญหาการใช้งานหรือยินดีที่จะสร้างโครงการร่วมกันโปรดส่งคำขอดึง

ขยาย

Chinese XLNet

ข่าว

คำแนะนำเนื้อหา

ดาวน์โหลดรุ่น

เวอร์ชัน Pytorch

คำแนะนำสำหรับการใช้งาน

การโหลดอย่างรวดเร็ว

เอฟเฟกต์ระบบพื้นฐาน

ความเข้าใจในการอ่านภาษาจีนที่ง่ายขึ้น: CMRC 2018

ความเข้าใจในการอ่านภาษาจีนดั้งเดิม: DRCD

หมวดหมู่อารมณ์: Chnsenticorp

รายละเอียดการฝึกอบรมล่วงหน้า

สร้างรายการคำศัพท์

สร้าง tf_records

การฝึกอบรมล่วงหน้า

รายละเอียดการปรับจูนงานดาวน์สตรีม

CMRC 2018

DRCD

chnsenticorp

คำถามที่พบบ่อย

อ้าง

กิตติกรรมประกาศ

คำเตือน

ติดตามเรา

ข้อเสนอแนะคำถามและการบริจาค

GitHub sgrebnov/cordova plugin background download

Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

เกม DOS ของจีน (เกม DOS ของจีนในเบราว์เซอร์) ซอร์สโค้ดโปรเจ็กต์เวอร์ชันอย่างเป็นทางการ

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express