ดาวน์โหลด PyCLUE - ดาวน์โหลดซอร์สโค้ด PyCLUE

PyCLUE

โค้ดแหล่งที่มา AI

1.0.0

ดาวน์โหลด

pyclue

Python Toolkit สำหรับมาตรฐานการประเมินภาษาจีน

ชุดเครื่องมือ Python สำหรับการประเมินภาษาจีนการประเมินผลการประเมินผลสามารถประเมินชุดข้อมูลตัวแทนและแบบจำลองมาตรฐาน (pretrainmark) ได้อย่างรวดเร็วและเลือกโมเดลเกณฑ์มาตรฐานที่เหมาะสม (pretrained) สำหรับข้อมูลของตนเองสำหรับแอปพลิเคชันที่รวดเร็ว

เกี่ยวกับเบาะแส

ชุดข้อมูล, พื้นฐาน, โมเดลที่ผ่านการฝึกอบรมก่อน, คลังข้อมูลและลีดเดอร์บอร์ด

เกณฑ์มาตรฐานการประเมินความเข้าใจภาษาจีนรวมถึงชุดข้อมูลตัวแทนแบบจำลองเกณฑ์มาตรฐาน (pretrained) คลังข้อมูลและการจัดอันดับ

เราจะเลือกชุดของชุดข้อมูลที่สอดคล้องกับงานตัวแทนบางอย่างเป็นชุดข้อมูลสำหรับเกณฑ์มาตรฐานการทดสอบของเรา ชุดข้อมูลเหล่านี้ครอบคลุมงานที่แตกต่างกันปริมาณข้อมูลและความยากลำบากในงาน

ติดตั้ง pyclue

ตอนนี้สามารถติดตั้ง pyclue ผ่าน PIP:

pip install --upgrade PyCLUE

หรือติดตั้ง pyclue โดยตรงโดย git clone:

pip install git+https://www.github.com/CLUEBenchmark/PyCLUE.git

โมเดลมาตรฐาน (pretrained)

รองรับแบบจำลองภาษาที่ผ่านการฝึกอบรมมาก่อน

Bert-Zh
bert-wwm-ext
albert_xlarge_zh_brightmart
albert_large_zh_brightmart
albert_base_zh_brightmart
albert_base_ext_zh_brightmart
albert_small_zh_brightmart
albert_tiny_zh_brightmart
Roberta_zh_brightmart
roberta_wwm_ext_zh_brightmart
roberta_wwm_ext_large_zh_brightmart

กำลังรอการสนับสนุน

xlnet_mid
ernie_base

ประเมินชุดข้อมูลเบาะแสอย่างรวดเร็ว

ชุดข้อมูลบทนำและดาวน์โหลด

หมายเหตุ: ชุดข้อมูลสอดคล้องกับชุดข้อมูลที่จัดทำโดย Cluebenchmark และมีการแก้ไขเฉพาะในรูปแบบเพื่อให้เหมาะกับโครงการ Pyclue

1. AFQMC ANT Financial Semantic ความคล้ายคลึงกัน

การแนะนำข้อมูล

数据量：训练集（34334）验证集（4316）测试集（3861）
例子：
{"sentence1": "双十一花呗提额在哪", "sentence2": "里可以提花呗额度", "label": "0"}
每一条数据有三个属性，从前往后分别是 句子1，句子2，句子相似度标签。其中label标签，1 表示sentence1和sentence2的含义类似，0表示两个句子的含义不同。

ลิงค์: https://pan.baidu.com/s/1it1simjbsrnl1deoboogxg รหัสการแยก: ksd1

สคริปต์การประเมินผล

สคริปต์รูปแบบการฝึกอบรมสถานที่: pyclue/blue/sentence_pair/afqmc/train.ipynb

การอ้างอิง: https://github.com/cluebenchmark/pyclue/blob/master/clue/sentence_pair/afqmc/train.ipynb

ส่งสคริปต์ไฟล์ตำแหน่ง: pyclue/blue/sentence_pair/afqmc/predict.ipynb

การอ้างอิง: https://github.com/cluebenchmark/pyclue/blob/master/clue/sentence_pair/afqmc/predict.ipynb

2. หัวข้อข่าวภาษาจีนของ TNews 'วันนี้ (ข้อความสั้น ๆ ) จำแนกประเภทข้อความสั้น ๆ

การแนะนำข้อมูล

ชุดข้อมูลนี้มาจากส่วนข่าวของ Toutiao และมีการสกัดข่าวทั้งหมด 15 ประเภทรวมถึงการท่องเที่ยวการศึกษาการเงินทหารและอื่น ๆ

数据量：训练集(266,000)，验证集(57,000)，测试集(57,000)
例子：
{"label": "102", "label_des": "news_entertainment", "sentence": "江疏影甜甜圈自拍，迷之角度竟这么好看，美吸引一切事物"}
每一条数据有三个属性，从前往后分别是 分类ID，分类名称，新闻字符串（仅含标题）。

ลิงค์: https://pan.baidu.com/s/1rs9oxolokggwi-rgns_gtqq รหัสการแยก: S9GO

สคริปต์การประเมินผล

สคริปต์รูปแบบการฝึกอบรมสถานที่: pyclue/blue/การจำแนก/tnews/train.ipynb

การอ้างอิง: https://github.com/cluebenchmark/pyclue/blob/master/clue/classification/tnews/train.ipynb

ส่งไฟล์สคริปต์ไฟล์: pyclue/blue/การจำแนก/tnews/predict.ipynb

การอ้างอิง: https://github.com/cluebenchmark/pyclue/blob/master/clue/classification/tnews/predict.ipynb

3. การจำแนกข้อความยาวของ iflytek

การแนะนำข้อมูล

มีข้อมูลข้อความยาวกว่า 17,000 รายการเกี่ยวกับคำอธิบายแอปพลิเคชันแอปพลิเคชันในชุดข้อมูลนี้รวมถึงหัวข้อแอปพลิเคชันต่าง ๆ ที่เกี่ยวข้องกับชีวิตประจำวันโดยมีทั้งหมด 119 หมวดหมู่: "แท็กซี่": 0, "การนำทางแผนที่": 1, "ฟรี wifi": 2, "รถเช่า": 3, .... , "หญิง": 115, "

数据量：训练集(12,133)，验证集(2,599)，测试集(2,600)
例子：
{"label": "110", "label_des": "社区超市", "sentence": "朴朴快送超市创立于2016年，专注于打造移动端30分钟即时配送一站式购物平台，商品品类包含水果、蔬菜、肉禽蛋奶、海鲜水产、粮油调味、酒水饮料、休闲食品、日用品、外卖等。朴朴公司希望能以全新的商业模式，更高效快捷的仓储配送模式，致力于成为更快、更好、更多、更省的在线零售平台，带给消费者更好的消费体验，同时推动中国食品安全进程，成为一家让社会尊敬的互联网公司。,朴朴一下，又好又快,1.配送时间提示更加清晰友好2.保障用户隐私的一些优化3.其他提高使用体验的调整4.修复了一些已知bug"}
每一条数据有三个属性，从前往后分别是 类别ID，类别名称，文本内容。

ลิงค์: https://pan.baidu.com/s/1ekthxmgt1t038qto9vkr3a รหัสการแยก: u00v

ตรวจสอบสคริปต์

สคริปต์รูปแบบการฝึกอบรมสถานที่: pyclue/blue/การจำแนก/iflytek/train.ipynb

การอ้างอิง: https://github.com/cluebenchmark/pyclue/blob/master/clue/classification/iflytek/train.ipynb

ส่งไฟล์สคริปต์ไฟล์: pyclue/blue/การจำแนก/iflytek/predict.ipynb

การอ้างอิง: https://github.com/cluebenchmark/pyclue/blob/master/clue/classification/iflytek/predict.ipynb

4. CMNLI การใช้เหตุผลภาษางานภาษาจีนหลายประเภท NLI

การแนะนำข้อมูล

ข้อมูล CMNLI ประกอบด้วยสองส่วน: XNLI และ MNLI ข้อมูลมาจากนิยายโทรศัพท์การเดินทางรัฐบาลกระดานชนวน ฯลฯ ข้อมูล MNLI ดั้งเดิมและข้อมูล XNLI ถูกเปลี่ยนเป็นภาษาจีนและภาษาอังกฤษรักษาชุดการฝึกอบรมดั้งเดิมรวม dev ใน XNLI และจับคู่ใน MNLI เป็น dev ของ CMNLI รวมการทดสอบใน XNLI ชุดข้อมูลนี้สามารถใช้เพื่อกำหนดความสัมพันธ์ระหว่างสองประโยคที่ได้รับซึ่งเป็นผลกระทบ, เป็นกลางและความขัดแย้ง

数据量：train(391,782)，matched(12,426)，mismatched(13,880)
例子：
{"sentence1": "新的权利已经足够好了", "sentence2": "每个人都很喜欢最新的福利", "label": "neutral"}
每一条数据有三个属性，从前往后分别是 句子1，句子2，蕴含关系标签。其中label标签有三种：neutral，entailment，contradiction。

ลิงค์: https://pan.baidu.com/s/1mft31cbs2g6e69as6h65dq รหัสการแยก: kigh

ตรวจสอบสคริปต์

สคริปต์รูปแบบการฝึกอบรมสถานที่: pyclue/blue/sentence_pair/cmnli/train.ipynb

การอ้างอิง: https://github.com/cluebenchmark/pyclue/blob/master/clue/sentence_pair/cmnli/train.ipynb

ส่งไฟล์สคริปต์ไฟล์: pyclue/blue/sentence_pair/cmnli/predict.ipynb

การอ้างอิง: https://github.com/cluebenchmark/pyclue/blob/master/clue/sentence_pair/cmnli/predict.ipynb

5. การวินิจฉัยชุด CLUE_DIAGNOSTICS TEST_SET

การแนะนำข้อมูล

ชุดการวินิจฉัยที่ใช้ในการประเมินประสิทธิภาพของโมเดลที่แตกต่างกันในปรากฏการณ์ภาษาจีนสรุปโดยนักภาษาศาสตร์ 9 คน

การใช้แบบจำลองที่ผ่านการฝึกอบรมเกี่ยวกับ CMNLI ผลลัพธ์ของชุดการวินิจฉัยนี้จะถูกทำนายโดยตรง รูปแบบการส่งสอดคล้องกับ CMNLI คุณสามารถดูผลลัพธ์ในหน้ารายละเอียดการจัดอันดับ (หมายเหตุ: ชุดข้อมูลนี้มีชุดการฝึกอบรมและชุดทดสอบของ CMNLI)

ลิงค์: https://pan.baidu.com/s/1dydugo6xn_4xat0y4ansiw รหัสการแยก: U194

ตรวจสอบสคริปต์

สคริปต์รูปแบบการฝึกอบรมสถานที่: pyclue/blue/sentence_pair/diagnostics/train.ipynb

การอ้างอิง: https://github.com/cluebenchmark/pyclue/blob/master/clue/sentence_pair/diagnostics/train.ipynb

ส่งสคริปต์ไฟล์ตำแหน่ง: pyclue/blue/sentence_pair/diagnostics/predict.ipynb

การอ้างอิง: https://github.com/cluebenchmark/pyclue/blob/master/clue/sentence_pair/diagnostics/predict.ipynb

6. ชุดข้อมูลที่รองรับโดยเบาะแสอื่น ๆ

เสริม

ใช้กับงานที่กำหนดเอง

1. การจำแนกประเภทหลายคลาส

คำอธิบายงาน

งานการจำแนกแบบหลายชั้นเช่นการจำแนกประเภทข้อความการจำแนกอารมณ์ ฯลฯ สามารถยอมรับสองรูปแบบ: อินพุตประโยคเดียวและอินพุตคู่ประโยค

ข้อกำหนดข้อมูล

ไดเรกทอรีข้อมูลควรมีไฟล์อย่างน้อย train.txt, dev.txt และ labels.txt และสามารถเพิ่มไฟล์ test.txt ได้

บันทึกการอ้างอิงแบบฟอร์ม:

อินพุตประโยคเดียว (สอดคล้องกับ task_type = 'single' ในสคริปต์การประเมินผล): pyclue/ตัวอย่าง/การจำแนก/single_data_templates/, https://github.com/cluebenchmark/pyclue/blob/master/examples/classification/single_data_temlates

อินพุตคู่ประโยค (สอดคล้องกับ task_type = 'pairs' ในสคริปต์การประเมินผล): pyclue/ตัวอย่าง/การจำแนก/pairs_data_templates/, https://github.com/cluebenchmark/pyclue/blob/master/examples/classification

หมายเหตุ: t ควรใช้เป็นตัวคั่น

ตรวจสอบสคริปต์

สคริปต์รูปแบบการฝึกอบรมสถานที่: pyclue/ตัวอย่าง/การจำแนก/train.ipynb

การอ้างอิง: https://github.com/cluebenchmark/pyclue/blob/master/examples/classification/train.ipynb

ตำแหน่งสคริปต์ที่คาดการณ์ไว้: pyclue/ตัวอย่าง/การจำแนก/predict.ipynb

การอ้างอิง: https://github.com/cluebenchmark/pyclue/blob/master/examples/classification/predict.ipynb

2. คู่ประโยค (เครือข่ายคู่) คู่ประโยค (สยาม)

คำอธิบายงาน

SENTENTE-TO-TASK (Twin Network) เช่นประโยคที่คล้ายกันกับงาน ฯลฯ แตกต่างจากโมเดลประโยคกับอินพุตในงานการจัดประเภทหลายประเภท: ประโยคในงานการแบ่งประเภทหลายคลาสใช้แบบฟอร์มการประกบเหมือน Bert เพื่อป้อนงานในขณะที่งานนี้ใช้รูปแบบของเครือข่ายคู่

ข้อกำหนดข้อมูล

ไดเรกทอรีข้อมูลควรมีไฟล์อย่างน้อย train.txt, dev.txt และ labels.txt และสามารถเพิ่มไฟล์ test.txt ได้

บันทึกการอ้างอิงแบบฟอร์ม:

ป้อน: pyclue/ตัวอย่าง/sentence_pair/data_templates/, https://github.com/cluebenchmark/pyclue/blob/master/examples/sentence_pair/data_templates

หมายเหตุ: t ควรใช้เป็นตัวคั่น

ตรวจสอบสคริปต์

สคริปต์รูปแบบการฝึกอบรมสถานที่: pyclue/ตัวอย่าง/sentence_pair/train.ipynb

การอ้างอิง: https://github.com/cluebenchmark/pyclue/blob/master/examples/sentence_pair/train.ipynb

ตำแหน่งสคริปต์ที่คาดการณ์ไว้: pyclue/ตัวอย่าง/sentence_pair/predict.ipynb

การอ้างอิง: https://github.com/cluebenchmark/pyclue/blob/master/examples/sentence_pair/predict.ipynb

3. งานจับคู่ข้อความ (เครือข่ายคู่) การจับคู่ข้อความ (สยาม)

อธิบาย

งานการจับคู่ข้อความ (เครือข่ายคู่) เช่นการค้นหาคำถามที่พบบ่อยการค้นหาการจับคู่ QQ และงานอื่น ๆ ใช้เครือข่ายคู่เพื่อสร้างข้อมูลการฝังสำหรับประโยคอินพุตและใช้ HNSWLIB เพื่อดึงประโยคที่คล้ายกันมากที่สุด

ข้อกำหนดข้อมูล

ไดเรกทอรีข้อมูลควรมีอย่างน้อย cache.txt, train.txt, dev.txt และไฟล์ labels.txt และคุณสามารถเพิ่มไฟล์ test.txt

บันทึกการอ้างอิงแบบฟอร์ม:

อินพุต: pyclue/ตัวอย่าง/text_matching/data_templates/, https://github.com/cluebenchmark/pyclue/blob/master/examples/text_matching/data_templates

หมายเหตุ: t ควรใช้เป็นตัวคั่น

ตรวจสอบสคริปต์

สคริปต์รูปแบบการฝึกอบรมสถานที่: pyclue/ตัวอย่าง/text_matching/train.ipynb

การอ้างอิง: https://github.com/cluebenchmark/pyclue/blob/master/examples/text_matching/train.ipynb

ตำแหน่งสคริปต์ที่คาดการณ์ไว้: pyclue/ตัวอย่าง/text_matching/predict.ipynb

การอ้างอิง: https://github.com/cluebenchmark/pyclue/blob/master/examples/text_matching/predict.ipynb

การฝึกอบรมสร้างไฟล์

1. ไฟล์รุ่น

ไฟล์โมเดลประกอบด้วยไฟล์รุ่นตรวจสอบล่าสุด 10 ไฟล์และไฟล์โมเดล PB (ไฟล์รุ่นตรวจสอบ 10 ไฟล์ที่ทำงานได้ดีที่สุดในชุดทดสอบ dev.txt)

2. ตัวชี้วัดกระบวนการฝึกอบรม

ไฟล์ตัวบ่งชี้ (train_metrics.png) ที่สร้างขึ้นโดยกระบวนการฝึกอบรมคือความแม่นยำ, total_loss, batch_loss, ความแม่นยำ, การเรียกคืนและตัวบ่งชี้ F1

3. ตรวจสอบตัวชี้วัดกระบวนการ

หากมีการทดสอบไฟล์การตรวจสอบ TXT และแต่ละบรรทัดของไฟล์การตรวจสอบเริ่มต้นด้วย TRUE_LABEL ตัวบ่งชี้ของรุ่นที่ดีที่สุดในไฟล์การตรวจสอบจะถูกพิมพ์

เอกสาร API

อัปเดต

คำแนะนำอื่น ๆ

ที่อยู่อย่างเป็นทางการ: https://github.com/cluebenchmark/pyclue

ที่อยู่ดีบัก: https://github.com/liushaoweihua/pyclue

เส้นเวลา

อัพเดทบันทึก

2019.12.05
- Pyclue เวอร์ชันแรกใช้เพื่อประเมินชุดข้อมูลเบาะแสได้อย่างรวดเร็ว (การจำแนกข้อความ, ประโยคเป็นงาน);
2020.05.10
- รหัสได้รับการแก้ไขและการรวมรหัสซ้ำซ้อน (เวอร์ชันทดสอบ: TensorFlow 1.15.2) เพื่อลดความซับซ้อนของ API การสนับสนุน TPU จะถูกลบออกชั่วคราวในงานดาวน์สตรีม
- รองรับโมเดล Bert, Albert และ Roberta หลายรุ่นและสามารถดาวน์โหลดและโหลดโดยอัตโนมัติตามชื่อภาษาที่ผ่านการฝึกอบรมมาก่อน
- รองรับการจำแนกข้อความการจับคู่ประโยคและงานจับคู่ข้อความ
- ใช้เพื่อประเมินชุดข้อมูลเบาะแสอย่างรวดเร็ว (AFQMC/TNEWS/IFLYTEK/CMNLI) และสร้างไฟล์ส่งที่ยอมรับได้ของ Cluebenchmark
- นำไปใช้กับงานที่กำหนดเองสร้างจุดตรวจสอบอย่างรวดเร็วและรวดเร็วและรวดเร็วและการให้บริการรูปแบบไฟล์ PB ที่ให้บริการซึ่งรองรับการปรับใช้และสามารถโหลดไฟล์โมเดล PB สำหรับการทำนายได้ รองรับการตรวจสอบคุณภาพรูปแบบไฟล์และบันทึกผลลัพธ์การจดจำข้อผิดพลาดไปยังไดเรกทอรีที่ระบุ

อัพเดทแผน

2020.05 ~ 2020.08
- รองรับการจำแนกข้อความอื่น ๆ การจับคู่ประโยคและงานจับคู่ข้อความ
- รองรับงานการติดฉลากลำดับ
- รองรับ XLNET, Ernie, Electra, ฯลฯ ;
- รองรับโมเดลเวกเตอร์ Word ที่ผ่านการฝึกอบรมมาก่อน (Word2vec ฯลฯ ) และรองรับเครือข่ายดาวน์สตรีมหลายแห่ง
2020.08 ~ 2020.10
- สนับสนุนงานการอ่านความเข้าใจ;
- รองรับ TF 2.0;
2020.10 ~ 2020.12
- เชื่อมต่อกับโครงการประเมินผลขนาดเล็กที่มีประสิทธิภาพสูง NLPCC 2020 LightLM สนับสนุนรุ่นเล็กหลายรุ่น
- รวมโมเดล pytorch ที่เบาะแสได้รองรับไว้แล้ว

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน 1.0.0
ประเภท โค้ดแหล่งที่มา AI
เวลาอัปเดต 2025-09-07
ขนาด 136.25KB
มาจาก Github

แอปที่เกี่ยวข้อง

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
ML stack

โค้ดแหล่งที่มา AI

1.0.0
awesome free chatgpt

โค้ดแหล่งที่มา AI

1.0.0
pywin_contextmenu

โค้ดแหล่งที่มา AI

Version update
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3

ข้อมูลที่เกี่ยวข้อง ทั้งหมด