Python Toolkit สำหรับมาตรฐานการประเมินภาษาจีน
ชุดเครื่องมือ Python สำหรับการประเมินภาษาจีนการประเมินผลการประเมินผลสามารถประเมินชุดข้อมูลตัวแทนและแบบจำลองมาตรฐาน (pretrainmark) ได้อย่างรวดเร็วและเลือกโมเดลเกณฑ์มาตรฐานที่เหมาะสม (pretrained) สำหรับข้อมูลของตนเองสำหรับแอปพลิเคชันที่รวดเร็ว
ชุดข้อมูล, พื้นฐาน, โมเดลที่ผ่านการฝึกอบรมก่อน, คลังข้อมูลและลีดเดอร์บอร์ด
เกณฑ์มาตรฐานการประเมินความเข้าใจภาษาจีนรวมถึงชุดข้อมูลตัวแทนแบบจำลองเกณฑ์มาตรฐาน (pretrained) คลังข้อมูลและการจัดอันดับ
เราจะเลือกชุดของชุดข้อมูลที่สอดคล้องกับงานตัวแทนบางอย่างเป็นชุดข้อมูลสำหรับเกณฑ์มาตรฐานการทดสอบของเรา ชุดข้อมูลเหล่านี้ครอบคลุมงานที่แตกต่างกันปริมาณข้อมูลและความยากลำบากในงาน
ตอนนี้สามารถติดตั้ง pyclue ผ่าน PIP:
pip install --upgrade PyCLUEหรือติดตั้ง pyclue โดยตรงโดย git clone:
pip install git+https://www.github.com/CLUEBenchmark/PyCLUE.gitรองรับแบบจำลองภาษาที่ผ่านการฝึกอบรมมาก่อน
กำลังรอการสนับสนุน
หมายเหตุ: ชุดข้อมูลสอดคล้องกับชุดข้อมูลที่จัดทำโดย Cluebenchmark และมีการแก้ไขเฉพาะในรูปแบบเพื่อให้เหมาะกับโครงการ Pyclue
数据量:训练集(34334)验证集(4316)测试集(3861)
例子:
{"sentence1": "双十一花呗提额在哪", "sentence2": "里可以提花呗额度", "label": "0"}
每一条数据有三个属性,从前往后分别是 句子1,句子2,句子相似度标签。其中label标签,1 表示sentence1和sentence2的含义类似,0表示两个句子的含义不同。
ลิงค์: https://pan.baidu.com/s/1it1simjbsrnl1deoboogxg รหัสการแยก: ksd1
สคริปต์รูปแบบการฝึกอบรมสถานที่: pyclue/blue/sentence_pair/afqmc/train.ipynb
การอ้างอิง: https://github.com/cluebenchmark/pyclue/blob/master/clue/sentence_pair/afqmc/train.ipynb
ส่งสคริปต์ไฟล์ตำแหน่ง: pyclue/blue/sentence_pair/afqmc/predict.ipynb
การอ้างอิง: https://github.com/cluebenchmark/pyclue/blob/master/clue/sentence_pair/afqmc/predict.ipynb
ชุดข้อมูลนี้มาจากส่วนข่าวของ Toutiao และมีการสกัดข่าวทั้งหมด 15 ประเภทรวมถึงการท่องเที่ยวการศึกษาการเงินทหารและอื่น ๆ
数据量:训练集(266,000),验证集(57,000),测试集(57,000)
例子:
{"label": "102", "label_des": "news_entertainment", "sentence": "江疏影甜甜圈自拍,迷之角度竟这么好看,美吸引一切事物"}
每一条数据有三个属性,从前往后分别是 分类ID,分类名称,新闻字符串(仅含标题)。
ลิงค์: https://pan.baidu.com/s/1rs9oxolokggwi-rgns_gtqq รหัสการแยก: S9GO
สคริปต์รูปแบบการฝึกอบรมสถานที่: pyclue/blue/การจำแนก/tnews/train.ipynb
การอ้างอิง: https://github.com/cluebenchmark/pyclue/blob/master/clue/classification/tnews/train.ipynb
ส่งไฟล์สคริปต์ไฟล์: pyclue/blue/การจำแนก/tnews/predict.ipynb
การอ้างอิง: https://github.com/cluebenchmark/pyclue/blob/master/clue/classification/tnews/predict.ipynb
มีข้อมูลข้อความยาวกว่า 17,000 รายการเกี่ยวกับคำอธิบายแอปพลิเคชันแอปพลิเคชันในชุดข้อมูลนี้รวมถึงหัวข้อแอปพลิเคชันต่าง ๆ ที่เกี่ยวข้องกับชีวิตประจำวันโดยมีทั้งหมด 119 หมวดหมู่: "แท็กซี่": 0, "การนำทางแผนที่": 1, "ฟรี wifi": 2, "รถเช่า": 3, .... , "หญิง": 115, "
数据量:训练集(12,133),验证集(2,599),测试集(2,600)
例子:
{"label": "110", "label_des": "社区超市", "sentence": "朴朴快送超市创立于2016年,专注于打造移动端30分钟即时配送一站式购物平台,商品品类包含水果、蔬菜、肉禽蛋奶、海鲜水产、粮油调味、酒水饮料、休闲食品、日用品、外卖等。朴朴公司希望能以全新的商业模式,更高效快捷的仓储配送模式,致力于成为更快、更好、更多、更省的在线零售平台,带给消费者更好的消费体验,同时推动中国食品安全进程,成为一家让社会尊敬的互联网公司。,朴朴一下,又好又快,1.配送时间提示更加清晰友好2.保障用户隐私的一些优化3.其他提高使用体验的调整4.修复了一些已知bug"}
每一条数据有三个属性,从前往后分别是 类别ID,类别名称,文本内容。
ลิงค์: https://pan.baidu.com/s/1ekthxmgt1t038qto9vkr3a รหัสการแยก: u00v
สคริปต์รูปแบบการฝึกอบรมสถานที่: pyclue/blue/การจำแนก/iflytek/train.ipynb
การอ้างอิง: https://github.com/cluebenchmark/pyclue/blob/master/clue/classification/iflytek/train.ipynb
ส่งไฟล์สคริปต์ไฟล์: pyclue/blue/การจำแนก/iflytek/predict.ipynb
การอ้างอิง: https://github.com/cluebenchmark/pyclue/blob/master/clue/classification/iflytek/predict.ipynb
ข้อมูล CMNLI ประกอบด้วยสองส่วน: XNLI และ MNLI ข้อมูลมาจากนิยายโทรศัพท์การเดินทางรัฐบาลกระดานชนวน ฯลฯ ข้อมูล MNLI ดั้งเดิมและข้อมูล XNLI ถูกเปลี่ยนเป็นภาษาจีนและภาษาอังกฤษรักษาชุดการฝึกอบรมดั้งเดิมรวม dev ใน XNLI และจับคู่ใน MNLI เป็น dev ของ CMNLI รวมการทดสอบใน XNLI ชุดข้อมูลนี้สามารถใช้เพื่อกำหนดความสัมพันธ์ระหว่างสองประโยคที่ได้รับซึ่งเป็นผลกระทบ, เป็นกลางและความขัดแย้ง
数据量:train(391,782),matched(12,426),mismatched(13,880)
例子:
{"sentence1": "新的权利已经足够好了", "sentence2": "每个人都很喜欢最新的福利", "label": "neutral"}
每一条数据有三个属性,从前往后分别是 句子1,句子2,蕴含关系标签。其中label标签有三种:neutral,entailment,contradiction。
ลิงค์: https://pan.baidu.com/s/1mft31cbs2g6e69as6h65dq รหัสการแยก: kigh
สคริปต์รูปแบบการฝึกอบรมสถานที่: pyclue/blue/sentence_pair/cmnli/train.ipynb
การอ้างอิง: https://github.com/cluebenchmark/pyclue/blob/master/clue/sentence_pair/cmnli/train.ipynb
ส่งไฟล์สคริปต์ไฟล์: pyclue/blue/sentence_pair/cmnli/predict.ipynb
การอ้างอิง: https://github.com/cluebenchmark/pyclue/blob/master/clue/sentence_pair/cmnli/predict.ipynb
ชุดการวินิจฉัยที่ใช้ในการประเมินประสิทธิภาพของโมเดลที่แตกต่างกันในปรากฏการณ์ภาษาจีนสรุปโดยนักภาษาศาสตร์ 9 คน
การใช้แบบจำลองที่ผ่านการฝึกอบรมเกี่ยวกับ CMNLI ผลลัพธ์ของชุดการวินิจฉัยนี้จะถูกทำนายโดยตรง รูปแบบการส่งสอดคล้องกับ CMNLI คุณสามารถดูผลลัพธ์ในหน้ารายละเอียดการจัดอันดับ (หมายเหตุ: ชุดข้อมูลนี้มีชุดการฝึกอบรมและชุดทดสอบของ CMNLI)
ลิงค์: https://pan.baidu.com/s/1dydugo6xn_4xat0y4ansiw รหัสการแยก: U194
สคริปต์รูปแบบการฝึกอบรมสถานที่: pyclue/blue/sentence_pair/diagnostics/train.ipynb
การอ้างอิง: https://github.com/cluebenchmark/pyclue/blob/master/clue/sentence_pair/diagnostics/train.ipynb
ส่งสคริปต์ไฟล์ตำแหน่ง: pyclue/blue/sentence_pair/diagnostics/predict.ipynb
การอ้างอิง: https://github.com/cluebenchmark/pyclue/blob/master/clue/sentence_pair/diagnostics/predict.ipynb
เสริม
งานการจำแนกแบบหลายชั้นเช่นการจำแนกประเภทข้อความการจำแนกอารมณ์ ฯลฯ สามารถยอมรับสองรูปแบบ: อินพุตประโยคเดียวและอินพุตคู่ประโยค
ไดเรกทอรีข้อมูลควรมีไฟล์อย่างน้อย train.txt, dev.txt และ labels.txt และสามารถเพิ่มไฟล์ test.txt ได้
บันทึกการอ้างอิงแบบฟอร์ม:
อินพุตประโยคเดียว (สอดคล้องกับ task_type = 'single' ในสคริปต์การประเมินผล): pyclue/ตัวอย่าง/การจำแนก/single_data_templates/, https://github.com/cluebenchmark/pyclue/blob/master/examples/classification/single_data_temlates
อินพุตคู่ประโยค (สอดคล้องกับ task_type = 'pairs' ในสคริปต์การประเมินผล): pyclue/ตัวอย่าง/การจำแนก/pairs_data_templates/, https://github.com/cluebenchmark/pyclue/blob/master/examples/classification
หมายเหตุ: t ควรใช้เป็นตัวคั่น
สคริปต์รูปแบบการฝึกอบรมสถานที่: pyclue/ตัวอย่าง/การจำแนก/train.ipynb
การอ้างอิง: https://github.com/cluebenchmark/pyclue/blob/master/examples/classification/train.ipynb
ตำแหน่งสคริปต์ที่คาดการณ์ไว้: pyclue/ตัวอย่าง/การจำแนก/predict.ipynb
การอ้างอิง: https://github.com/cluebenchmark/pyclue/blob/master/examples/classification/predict.ipynb
SENTENTE-TO-TASK (Twin Network) เช่นประโยคที่คล้ายกันกับงาน ฯลฯ แตกต่างจากโมเดลประโยคกับอินพุตในงานการจัดประเภทหลายประเภท: ประโยคในงานการแบ่งประเภทหลายคลาสใช้แบบฟอร์มการประกบเหมือน Bert เพื่อป้อนงานในขณะที่งานนี้ใช้รูปแบบของเครือข่ายคู่
ไดเรกทอรีข้อมูลควรมีไฟล์อย่างน้อย train.txt, dev.txt และ labels.txt และสามารถเพิ่มไฟล์ test.txt ได้
บันทึกการอ้างอิงแบบฟอร์ม:
ป้อน: pyclue/ตัวอย่าง/sentence_pair/data_templates/, https://github.com/cluebenchmark/pyclue/blob/master/examples/sentence_pair/data_templates
หมายเหตุ: t ควรใช้เป็นตัวคั่น
สคริปต์รูปแบบการฝึกอบรมสถานที่: pyclue/ตัวอย่าง/sentence_pair/train.ipynb
การอ้างอิง: https://github.com/cluebenchmark/pyclue/blob/master/examples/sentence_pair/train.ipynb
ตำแหน่งสคริปต์ที่คาดการณ์ไว้: pyclue/ตัวอย่าง/sentence_pair/predict.ipynb
การอ้างอิง: https://github.com/cluebenchmark/pyclue/blob/master/examples/sentence_pair/predict.ipynb
งานการจับคู่ข้อความ (เครือข่ายคู่) เช่นการค้นหาคำถามที่พบบ่อยการค้นหาการจับคู่ QQ และงานอื่น ๆ ใช้เครือข่ายคู่เพื่อสร้างข้อมูลการฝังสำหรับประโยคอินพุตและใช้ HNSWLIB เพื่อดึงประโยคที่คล้ายกันมากที่สุด
ไดเรกทอรีข้อมูลควรมีอย่างน้อย cache.txt, train.txt, dev.txt และไฟล์ labels.txt และคุณสามารถเพิ่มไฟล์ test.txt
บันทึกการอ้างอิงแบบฟอร์ม:
อินพุต: pyclue/ตัวอย่าง/text_matching/data_templates/, https://github.com/cluebenchmark/pyclue/blob/master/examples/text_matching/data_templates
หมายเหตุ: t ควรใช้เป็นตัวคั่น
สคริปต์รูปแบบการฝึกอบรมสถานที่: pyclue/ตัวอย่าง/text_matching/train.ipynb
การอ้างอิง: https://github.com/cluebenchmark/pyclue/blob/master/examples/text_matching/train.ipynb
ตำแหน่งสคริปต์ที่คาดการณ์ไว้: pyclue/ตัวอย่าง/text_matching/predict.ipynb
การอ้างอิง: https://github.com/cluebenchmark/pyclue/blob/master/examples/text_matching/predict.ipynb
ไฟล์โมเดลประกอบด้วยไฟล์รุ่นตรวจสอบล่าสุด 10 ไฟล์และไฟล์โมเดล PB (ไฟล์รุ่นตรวจสอบ 10 ไฟล์ที่ทำงานได้ดีที่สุดในชุดทดสอบ dev.txt)
ไฟล์ตัวบ่งชี้ (train_metrics.png) ที่สร้างขึ้นโดยกระบวนการฝึกอบรมคือความแม่นยำ, total_loss, batch_loss, ความแม่นยำ, การเรียกคืนและตัวบ่งชี้ F1
หากมีการทดสอบไฟล์การตรวจสอบ TXT และแต่ละบรรทัดของไฟล์การตรวจสอบเริ่มต้นด้วย TRUE_LABEL ตัวบ่งชี้ของรุ่นที่ดีที่สุดในไฟล์การตรวจสอบจะถูกพิมพ์
อัปเดต
ที่อยู่อย่างเป็นทางการ: https://github.com/cluebenchmark/pyclue
ที่อยู่ดีบัก: https://github.com/liushaoweihua/pyclue