Unduh PyCLUE - Unduh Kode Sumber PyCLUE

PyCLUE

Kode Sumber AI

1.0.0

Unduh

Pyclue

Python Toolkit untuk Benchmark Evaluasi Pemahaman Bahasa Cina.

Python Toolkit untuk tolok ukur evaluasi pemahaman bahasa Cina dapat dengan cepat mengevaluasi set data yang representatif dan model benchmark (pretrained), dan memilih model benchmark (pretrained) yang sesuai untuk data mereka sendiri untuk aplikasi cepat.

Tentang petunjuk

Dataset, garis dasar, model pra-terlatih, corpus dan papan peringkat

Tolok ukur penilaian pemahaman bahasa Cina, termasuk set data yang representatif, model benchmark (pretrained), corpus, dan peringkat.

Kami akan memilih serangkaian set data yang sesuai dengan tugas perwakilan tertentu sebagai set data untuk tolok ukur uji kami. Set data ini mencakup berbagai tugas, volume data, dan kesulitan tugas.

Instal Pyclue

Sekarang, pyclue dapat diinstal melalui PIP:

pip install --upgrade PyCLUE

Atau langsung menginstal pyclue dengan git clone:

pip install git+https://www.github.com/CLUEBenchmark/PyCLUE.git

Model Benchmark (Pretrained)

Model bahasa pra-terlatih didukung

Bert-ZH
BERT-WWM-EXT
albert_xlarge_zh_brightmart
albert_large_zh_brightmart
albert_base_zh_brightmart
albert_base_ext_zh_brightmart
albert_small_zh_brightmart
albert_tiny_zh_brightmart
Roberta_Zh_BrightMart
Roberta_WWM_EXT_ZH_BRIGHTMART
Roberta_WWM_EXT_LARGE_ZH_BRIGHTMART

Menunggu dukungan

Xlnet_mid
Ernie_base

Mengevaluasi Dataset Petunjuk dengan Cepat

Dataset Pendahuluan dan Unduh

Catatan: Dataset konsisten dengan dataset yang disediakan oleh Cluebenchmark dan hanya dimodifikasi dalam format yang sesuai dengan proyek Pyclue.

1. AfQMC Ant Financial Semantik Kesamaan

Pendahuluan Data

数据量：训练集（34334）验证集（4316）测试集（3861）
例子：
{"sentence1": "双十一花呗提额在哪", "sentence2": "里可以提花呗额度", "label": "0"}
每一条数据有三个属性，从前往后分别是 句子1，句子2，句子相似度标签。其中label标签，1 表示sentence1和sentence2的含义类似，0表示两个句子的含义不同。

Tautan: https://pan.baidu.com/s/1it1simjbsrnl1deoboogxg Kode Ekstraksi: KSD1

Skrip evaluasi

Model pelatihan Lokasi skrip: pyclue/petunjuk/kalimat_pair/afqmc/train.ipynb

Referensi: https://github.com/cluebenchmark/pyclue/blob/master/clue/sentence_pair/afqmc/train.ipynb

Kirim Lokasi Script File: Pyclue/Clue/SENTENCE_PAIR/AFQMC/Predict.ipynb

Referensi: https://github.com/cluebenchmark/pyclue/blob/master/clue/sentence_pair/afqmc/predict.ipynb

2. THINE TOTUA TOTAY PERTANYAAN BERITA Tiongkok (Teks Pendek) Teks Klasifikasi Teks Pendek Klasifik

Pendahuluan Data

Dataset ini berasal dari bagian berita Toutiao, dan total 15 kategori berita diekstraksi, termasuk pariwisata, pendidikan, keuangan, militer, dll.

数据量：训练集(266,000)，验证集(57,000)，测试集(57,000)
例子：
{"label": "102", "label_des": "news_entertainment", "sentence": "江疏影甜甜圈自拍，迷之角度竟这么好看，美吸引一切事物"}
每一条数据有三个属性，从前往后分别是 分类ID，分类名称，新闻字符串（仅含标题）。

Tautan: https://pan.baidu.com/s/1rs9oxolookgwi-rgns_gtqq Kode ekstraksi: S9Go

Skrip evaluasi

Model pelatihan Lokasi skrip: pyclue/petunjuk/klasifikasi/tnews/train.ipynb

Referensi: https://github.com/cluebenchmark/pyclue/blob/master/clue/clasification/tnews/train.ipynb

Kirim Lokasi Script File: Pyclue/Clue/Classification/tnews/predict.ipynb

Referensi: https://github.com/cluebenchmark/pyclue/blob/master/clue/clasification/tnews/predict.ipynb

3. Klasifikasi Teks Panjang Iflytek

Pendahuluan Data

Ada lebih dari 17.000 teks panjang berlabel data tentang deskripsi aplikasi aplikasi dalam kumpulan data ini, termasuk berbagai topik aplikasi yang terkait dengan kehidupan sehari-hari, dengan total 119 kategori: "taksi": 0, "navigasi peta": 1, "wifi gratis": 2, "sewa mobil": 3, ..., "wanita": 115, "bisnis": 116, "masing-masing).

数据量：训练集(12,133)，验证集(2,599)，测试集(2,600)
例子：
{"label": "110", "label_des": "社区超市", "sentence": "朴朴快送超市创立于2016年，专注于打造移动端30分钟即时配送一站式购物平台，商品品类包含水果、蔬菜、肉禽蛋奶、海鲜水产、粮油调味、酒水饮料、休闲食品、日用品、外卖等。朴朴公司希望能以全新的商业模式，更高效快捷的仓储配送模式，致力于成为更快、更好、更多、更省的在线零售平台，带给消费者更好的消费体验，同时推动中国食品安全进程，成为一家让社会尊敬的互联网公司。,朴朴一下，又好又快,1.配送时间提示更加清晰友好2.保障用户隐私的一些优化3.其他提高使用体验的调整4.修复了一些已知bug"}
每一条数据有三个属性，从前往后分别是 类别ID，类别名称，文本内容。

Tautan: https://pan.baidu.com/s/1ekthxmgt1t038qto9vkr3a Kode ekstraksi: U00V

Skrip ulasan

Lokasi Model Pelatihan Lokasi: Pyclue/Petunjuk/Klasifikasi/Iflytek/Train.ipynb

Referensi: https://github.com/cluebenchmark/pyclue/blob/master/clue/clasification/iflytek/train.ipynb

Kirim Lokasi Script File: Pyclue/Petunjuk/Klasifikasi/IFLYTEK/PROCATION.IPYNB

Referensi: https://github.com/cluebenchmark/pyclue/blob/master/clue/clasification/iflytek/predict.ipynb

4. Tugas penalaran bahasa CMNLI Multi-genre NLI

Pendahuluan Data

Data cmnli terdiri dari dua bagian: xnli dan mnli. The data comes from fiction, telephone, travel, government, slate, etc. The original MNLI data and XNLI data were transformed in Chinese and English, retaining the original training set, combining the dev in XNLI and matched in MNLI as dev of CMNLI, combining the test in XNLI and mismatched in MNLI as CMNLI test, and disrupting the order. Kumpulan data ini dapat digunakan untuk menentukan hubungan antara dua kalimat yang diberikan implikasi, netral, dan kontradiktif.

数据量：train(391,782)，matched(12,426)，mismatched(13,880)
例子：
{"sentence1": "新的权利已经足够好了", "sentence2": "每个人都很喜欢最新的福利", "label": "neutral"}
每一条数据有三个属性，从前往后分别是 句子1，句子2，蕴含关系标签。其中label标签有三种：neutral，entailment，contradiction。

Tautan: https://pan.baidu.com/s/1mft31cbs2g6e69as6h65dq kode ekstraksi: kigh

Skrip ulasan

Lokasi Model Pelatihan Lokasi: Pyclue/Clue/SENTENCE_PAIR/CMNLI/TRAIN.IPYNB

Referensi: https://github.com/cluebenchmark/pyclue/blob/master/clue/sentence_pair/cmnli/train.ipynb

Kirim Lokasi Script File: Pyclue/Clue/SENTENCE_PAIR/CMNLI/PROCATION.IPYNB

Referensi: https://github.com/cluebenchmark/pyclue/blob/master/clue/sentence_pair/cmnli/predict.ipynb

5. Diagnostik Set Clue_Diagnostics test_set

Pendahuluan Data

Set diagnostik digunakan untuk mengevaluasi kinerja model yang berbeda pada fenomena bahasa Cina yang dirangkum oleh 9 ahli bahasa.

Menggunakan model yang dilatih pada CMNLI, hasil pada set diagnostik ini diprediksi secara langsung. Format pengiriman konsisten dengan cmnli. Anda dapat melihat hasilnya di halaman Detail Peringkat. (Catatan: Dataset ini berisi set pelatihan dan set tes CMNLI)

Tautan: https://pan.baidu.com/s/1dydugo6xn_4xat0y4ansi Kode ekstraksi: U194

Skrip ulasan

Model pelatihan Lokasi skrip: pyclue/petunjuk/kalimat_pair/diagnostik/kereta api.ipynb

Referensi: https://github.com/cluebenchmark/pyclue/blob/master/clue/sentence_pair/diagnostics/train.ipynb

Kirim Lokasi Script File: Pyclue/Clue/Sentence_Pair/Diagnostik/Prediktus.ipynb

Referensi: https://github.com/cluebenchmark/pyclue/blob/master/clue/sentence_pair/diagnostics/predict.ipynb

6. Dataset yang didukung oleh petunjuk lain

Tambahan.

Berlaku untuk tugas khusus

1. Klasifikasi multi -kelas

Deskripsi tugas

Tugas multi-klasifikasi, seperti klasifikasi teks, klasifikasi emosi, dll., Dapat menerima dua bentuk: input kalimat tunggal dan input pasangan kalimat.

Persyaratan data

Direktori data harus berisi setidaknya file train.txt, dev.txt dan label.txt, dan file test.txt dapat ditambahkan.

Simpan referensi formulir:

Input Kalimat Tunggal (sesuai dengan task_type = 'single' dalam skrip evaluasi): pyclue/contoh/klasifikasi/single_data_templates/, https://github.com/cluebenchmark/pyclue/blob/master/examples/classification/single_data_templees

Input Pasangan Kalimat (sesuai dengan task_type = 'pairs' dalam skrip evaluasi): pyclue/contoh/klasifikasi/pasang_data_templates/, https://github.com/cluebenchmark/pyclue/blob/master/examples/classification/pairs_data_templue/master/examples/clasification/pairs_data_templue

Catatan: T harus digunakan sebagai pemisah.

Skrip ulasan

Model Pelatihan Lokasi Skrip: Pyclue/Contoh/Klasifikasi/Train.ipynb

Referensi: https://github.com/cluebenchmark/pyclue/blob/master/examples/classification/train.ipynb

Prediksi skrip Lokasi: pyclue/contoh/klasifikasi/prediksi.ipynb

Referensi: https://github.com/cluebenchmark/pyclue/blob/master/examples/clasification/predict.ipynb

2. Tugas pasangan kalimat (jaringan kembar) pasangan kalimat (siam)

Deskripsi tugas

Kalimat-ke-tugas (jaringan kembar), seperti kalimat yang serupa, dll. Berbeda dari model kalimat-ke-input dalam tugas multi-klasifikasi: kalimat dalam tugas multi-klasifikasi menggunakan bentuk splicing seperti Bert untuk memasukkan tugas, sementara tugas ini menggunakan bentuk jaringan kembar.

Persyaratan data

Direktori data harus berisi setidaknya file train.txt, dev.txt dan label.txt, dan file test.txt dapat ditambahkan.

Simpan referensi formulir:

Masukkan: Pyclue/Contoh/kalimat_pair/data_templates/, https://github.com/cluebenchmark/pyclue/blob/master/examples/sentence_pair/data_templates

Catatan: T harus digunakan sebagai pemisah.

Skrip ulasan

Model Pelatihan Lokasi Skrip: Pyclue/Contoh/Kalipe_Pair/train.ipynb

Referensi: https://github.com/cluebenchmark/pyclue/blob/master/examples/sentence_pair/train.ipynb

Predicted Script Lokasi: Pyclue/Contoh/kalimat_pair/predict.ipynb

Referensi: https://github.com/cluebenchmark/pyclue/blob/master/examples/sentence_pair/predict.ipynb

3. Tugas Pencocokan Teks (Jaringan Kembar) Pencocokan Teks (Siam)

menjelaskan

Tugas pencocokan teks (jaringan kembar), seperti pencarian FAQ, pencarian pencocokan QQ dan tugas -tugas lainnya, gunakan jaringan kembar untuk menghasilkan informasi penyematan untuk kalimat input, dan gunakan HNSWLIB untuk mengambil kalimat yang paling mirip.

Persyaratan data

Direktori Data harus berisi setidaknya file Cache.txt, Train.txt, Dev.txt dan Labels.txt, dan Anda dapat menambahkan file test.txt.

Simpan referensi formulir:

Input: pyclue/contoh/text_matching/data_templates/, https://github.com/cluebenchmark/pyclue/blob/master/examples/text_matching/data_templates

Catatan: T harus digunakan sebagai pemisah.

Skrip ulasan

Model pelatihan Lokasi skrip: pyclue/contoh/text_matching/train.ipynb

Referensi: https://github.com/cluebenchmark/pyclue/blob/master/examples/text_matching/train.ipynb

Predicted Script Lokasi: Pyclue/Contoh/Text_Matching/Predict.ipynb

Referensi: https://github.com/cluebenchmark/pyclue/blob/master/examples/text_matching/predict.ipynb

Pelatihan menghasilkan file

1. File Model

File model berisi 10 file model pos pemeriksaan terbaru dan file model PB (10 file model pemeriksaan yang melakukan terbaik pada test set dev.txt).

2. Indikator Proses Pelatihan

File indikator (train_metrics.png) yang dihasilkan oleh proses pelatihan adalah akurasi, total_loss, batch_loss, precision, recall, dan indikator F1.

3. Verifikasi Indikator Proses

Jika ada verifikasi file test.txt dan setiap baris file verifikasi dimulai dengan true_label, indikator model terbaik pada file verifikasi dicetak.

Dokumentasi API

Diperbarui.

Instruksi lainnya

Alamat resmi: https://github.com/cluebenchmark/pyclue

Alamat debugging: https://github.com/liushaoweihua/pyclue

Timeline

Perbarui log

2019.12.05
- Versi pertama PyClue digunakan untuk dengan cepat mengevaluasi dataset petunjuk (klasifikasi teks, kalimat-ke-tugas);
2020.05.10
- Kode ini direvisi dan kode yang berlebihan digabungkan (versi uji: TensorFlow 1.15.2). Untuk menyederhanakan API, dukungan TPU untuk sementara dihapus pada tugas hilir;
- Mendukung multi-versi model Bert, Albert dan Roberta, dan dapat secara otomatis diunduh dan dimuat sesuai dengan nama bahasa yang ditentukan sebelumnya;
- Mendukung klasifikasi teks, pasangan kalimat, dan tugas pencocokan teks;
- Digunakan untuk dengan cepat mengevaluasi dataset petunjuk (AFQMC/TNEWS/IFLYTEK/CMNLI) dan menghasilkan file pengiriman Cluebenchmark yang dapat diterima;
- Terapkan untuk tugas-tugas khusus, dengan cepat dan cepat menghasilkan pos pemeriksaan dan format file model PB yang melayani TensorFlow yang mendukung digunakan, dan dapat memuat file model PB untuk prediksi; Mendukung inspeksi kualitas format file, dan menyimpan hasil pengenalan kesalahan ke direktori yang ditentukan.

Paket Perbarui

2020.05 ~ 2020.08
- Mendukung klasifikasi teks lainnya, pasangan kalimat dan tugas pencocokan teks;
- Mendukung tugas pelabelan urutan;
- Mendukung Xlnet, Ernie, Electra, dll.;
- Mendukung model vektor kata pra-terlatih (Word2Vec, dll.), Dan mendukung beberapa jaringan hilir;
2020.08 ~ 2020.10
- Mendukung tugas pemahaman membaca;
- Mendukung TF 2.0;
2020.10 ~ 2020.12
- Terhubung ke proyek evaluasi model kecil NLPCC 2020 Lightlm, mendukung beberapa model kecil;
- Mengintegrasikan model Pytorch yang telah didukung oleh petunjuk.

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode Sumber AI
Waktu Pembaruan 2025-09-07
ukuran 136.25KB
Berasal dari Github

Aplikasi Terkait

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
ML stack

Kode Sumber AI

1.0.0
awesome free chatgpt

Kode Sumber AI

1.0.0
pywin_contextmenu

Kode Sumber AI

Version update
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua