Download Chinese ELECTRA - Download Kode Sumber Sumber Chinese ELECTRA

Chinese ELECTRA

Kode sumber lainnya

1.0.0

Unduh

Deskripsi Cina | Bahasa inggris

Model pra-terlatih terbaru Electra, yang dikembangkan bersama oleh Google dan Stanford University, telah menarik perhatian luas untuk ukuran model kecil dan kinerja model yang baik. Untuk lebih mempromosikan penelitian dan pengembangan teknologi model pra-pelatihan Tiongkok, Laboratorium Gabungan IFLYTEK Laboratorium Pra-Pelatihan Laboratorium Tiongkok yang dilatih China berdasarkan kode pelatihan elektra resmi dan data Cina skala besar untuk semua orang untuk diunduh dan digunakan. Di antara mereka, model Electra-Small dapat sebanding dengan BERT-BASE dan bahkan model lain dengan ukuran yang sama, sedangkan volume parameter hanya 1/10 dari Bert-Base.

Proyek ini didasarkan pada elektra resmi Universitas Google & Stanford: https://github.com/google-research/electra

Lihat lebih banyak sumber daya yang dirilis oleh IFL of Harbin Institute of Technology (HFL): https://github.com/ymcui/hfl-anthology

berita

2023/3/28 Open Source Chinese Llama & Alpaca Big Model, yang dapat dengan cepat digunakan dan dialami di PC, Lihat: https://github.com/ymcui/chinese-llama-alpaca

2022/10/29 Kami mengusulkan model pra-terlatih yang mengintegrasikan informasi linguistik. Lihat: https://github.com/ymcui/lert

2022/3/30 Kami membuka sumber model pra-terlatih baru. Lihat: https://github.com/ymcui/pert

2021/12/17 Laboratorium Joint IFLYTEK Meluncurkan Model Cutting Toolkit TextPruner. Lihat: https://github.com/airaria/textpruner

2021/10/24 Laboratorium Gabungan IFLYTEK merilis model cino pra-terlatih untuk bahasa etnis minoritas. Lihat: https://github.com/ymcui/chinese-minority-plm

2021/7/21 "Pemrosesan Bahasa Alami: Metode Berdasarkan Model Pra-Pelatihan" yang ditulis oleh banyak sarjana dari Harbin Institute of Technology SCIR telah diterbitkan, dan semua orang dipersilakan untuk membelinya.

2020/12/13 Berdasarkan data dokumen hukum berskala besar, kami melatih model seri Electra China untuk bidang peradilan untuk melihat unduhan model, dan efek tugas yudisial.

Klik di sini untuk melihat berita bersejarah

2020/10/22 Electra-180G telah dirilis, menambahkan data berkualitas tinggi dari CommonCrawl, View [Model Download] (unduhan #model).

2020/9/15 Makalah kami "Meninjau kembali model pra-terlatih untuk pemrosesan bahasa alami Cina" dipekerjakan sebagai artikel panjang dengan temuan EMNLP.

2020/8/27 IFL Joint Laboratory menduduki puncak daftar dalam evaluasi pemahaman bahasa alami umum, periksa daftar lem, berita.

2020/5/29 China Electra-Large/Small-Ex telah dirilis. Silakan periksa unduhan model. Saat ini, hanya alamat unduhan Google Drive yang tersedia, jadi harap dipahami.

2020/4/7 Pengguna Pytorch dapat memuat model melalui? Transformers untuk melihat pemuatan cepat.

2020/3/31 Model yang diterbitkan dalam direktori ini telah terhubung ke Paddlepaddlehub untuk dilihat dan dimuat dengan cepat.

2020/3/25 China Electra-Small/Base telah dirilis, silakan periksa model unduhan.

Panduan Konten

bab	menggambarkan
Perkenalan	Pengantar Prinsip -Prinsip Dasar Electra
Download model	Unduh Model Pra-Latihan China Electra
Pemuatan cepat	Cara menggunakan transformator dan paddlehub dengan cepat memuat model
Efek sistem dasar	Efek sistem dasar Cina: pemahaman membaca, klasifikasi teks, dll.
Cara menggunakan	Penggunaan model terperinci
FAQ	FAQ dan Jawaban
Mengutip	Laporan Teknis di Direktori Ini

Perkenalan

Electra mengusulkan kerangka kerja pra-pelatihan baru yang mencakup dua bagian: generator dan diskriminator .

Generator : MLM kecil yang memprediksi kata asli pada posisi [topeng]. Generator akan digunakan untuk mengganti teks input dengan kata -kata parsial.
DISKRIMINATOR : Menentukan apakah setiap kata dalam kalimat input diganti, yaitu, tugas pra-pelatihan Token Detection (RTD) diganti digunakan untuk menggantikan model bahasa bertopeng asli Bert (MLM). Perlu dicatat bahwa tugas prediksi kalimat berikutnya (NSP) tidak digunakan di sini.

Setelah fase pra-pelatihan selesai, kami hanya menggunakan diskriminator sebagai model dasar untuk tugas hilir disempurnakan.

Untuk konten yang lebih rinci, silakan merujuk ke kertas electra: Electra: pra-pelatihan teks enkoder sebagai diskriminator daripada generator

Download model

Direktori ini berisi model -model berikut dan saat ini hanya menyediakan bobot versi TensorFlow.

ELECTRA-large, Chinese : 24-lapis, 1024-tersembunyi, 16-heads, 324m parameter
ELECTRA-base, Chinese : 12-layer, 768 tersembunyi, 12-head, parameter 102m
ELECTRA-small-ex, Chinese : 24-lapis, 256-tersembunyi, 4-head, parameter 25m
ELECTRA-small, Chinese : 12-layer, 256 tersembunyi, 4-head, parameter 12m

Edisi Corpus Besar (Edisi Baru, Data 180g)

Singkatan model	Download Google	Unduh Baidu Netdisk	Ukuran paket terkompresi
`ELECTRA-180g-large, Chinese`	Tensorflow	TensorFlow (Kata Sandi 2V5R)	1g
`ELECTRA-180g-base, Chinese`	Tensorflow	TensorFlow (Kata Sandi 3VG1)	383m
`ELECTRA-180g-small-ex, Chinese`	Tensorflow	TensorFlow (Kata Sandi 93N8)	92m
`ELECTRA-180g-small, Chinese`	Tensorflow	TensorFlow (Kata Sandi K9IU)	46m

Versi Dasar (Versi Asli, Data 20g)

Singkatan model	Download Google	Unduh Baidu Netdisk	Ukuran paket terkompresi
`ELECTRA-large, Chinese`	Tensorflow	TensorFlow (Kata Sandi 1E14)	1g
`ELECTRA-base, Chinese`	Tensorflow	TensorFlow (Kata Sandi F32J)	383m
`ELECTRA-small-ex, Chinese`	Tensorflow	TensorFlow (Kata Sandi GFB1)	92m
`ELECTRA-small, Chinese`	Tensorflow	TensorFlow (Kata Sandi 1R4R)	46m

Edisi Domain Judicial (Baru)

Singkatan model	Download Google	Unduh Baidu Netdisk	Ukuran paket terkompresi
`legal-ELECTRA-large, Chinese`	Tensorflow	TensorFlow (Kata Sandi Q4GV)	1g
`legal-ELECTRA-base, Chinese`	Tensorflow	TensorFlow (Kata Sandi 8GCV)	383m
`legal-ELECTRA-small, Chinese`	Tensorflow	TensorFlow (Kata sandi kmrj)	46m

Versi PyTorch/TF2

Jika Anda memerlukan versi Pytorch, harap konversinya sendiri melalui skrip konversi Converted_electra_original_tf_checkpoint_to_pytorch.py disediakan oleh Transformers. Jika Anda memerlukan file konfigurasi, Anda dapat memasukkan folder konfigurasi di direktori ini untuk mencari.

python transformers/src/transformers/convert_electra_original_tf_checkpoint_to_pytorch.py 
--tf_checkpoint_path ./path-to-large-model/ 
--config_file ./path-to-large-model/discriminator.json 
--pytorch_dump_path ./path-to-output/model.bin 
--discriminator_or_generator discriminator

Atau langsung mengunduh pytorch melalui situs web resmi Huggingface: https://huggingface.co/hfl

Metode: Klik model apa pun yang ingin Anda unduh → Tarik ke bawah dan klik "Daftar semua file dalam model" → Unduh file bin dan json di kotak pop-up.

Petunjuk Penggunaan

Disarankan untuk menggunakan poin unduhan Baidu Netdisk di daratan Cina, sementara disarankan untuk menggunakan poin unduhan Google pada pengguna luar negeri. Mengambil versi TensorFlow dari ELECTRA-small, Chinese sebagai contoh, setelah mengunduh, mendekompresi file zip untuk mendapatkan file berikut.

 chinese_electra_small_L-12_H-256_A-4.zip
    |- electra_small.data-00000-of-00001    # 模型权重
    |- electra_small.meta                   # 模型meta信息
    |- electra_small.index                  # 模型index信息
    |- vocab.txt                            # 词表
    |- discriminator.json                   # 配置文件：discriminator（若没有可从本repo中的config目录获取）
    |- generator.json                       # 配置文件：generator（若没有可从本repo中的config目录获取）

Detail Pelatihan

Kami menggunakan wiki Cina berskala besar dan teks umum untuk melatih model electra, dengan jumlah token total mencapai 5.4B, yang konsisten dengan model seri Roberta-WWM-EXT. Dalam hal daftar kosakata, ia menggunakan daftar kosakata Bert Wordpiece asli Google, termasuk 21.128 token. Detail dan hyperparameter lainnya adalah sebagai berikut (parameter yang tidak disebutkan tetap default):

ELECTRA-large : 24 Lapisan, Lapisan Tersembunyi 1024, 16 Kepala Perhatian, Tingkat Pembelajaran 1E-4, Batch96, Panjang Maksimum 512, Pelatihan Langkah 2m
ELECTRA-base : 12 Lapisan, Lapisan Tersembunyi 768, 12 Kepala Perhatian, Tingkat Pembelajaran 2E-4, Batch256, Panjang Maksimum 512, Pelatihan 1m Langkah
ELECTRA-small-ex : 24 Lapisan, Lapisan Tersembunyi 256, 4 Kepala Perhatian, Tingkat Pembelajaran 5E-4, Batch384, Panjang Maksimum 512, 2M Langkah Pelatihan
ELECTRA-small : 12 Lapisan, Lapisan Tersembunyi 256, 4 Kepala Perhatian, Tingkat Pembelajaran 5E-4, Batch1024, Panjang Maksimum 512, Pelatihan 1m Langkah

Pemuatan cepat

Menggunakan transformer pelukan

HuggingFace-Transformers Versi 2.8.0 telah secara resmi mendukung model Electra dan dapat dipanggil melalui perintah berikut.

 tokenizer = AutoTokenizer . from_pretrained ( MODEL_NAME )
model = AutoModel . from_pretrained ( MODEL_NAME )

Daftar MODEL_NAME yang sesuai adalah sebagai berikut:

Nama model	Komponen	Model_name
Electra-180G-Large, Cina	Diskriminator	HFL/China-electra-180g-Large-Discriminator
Electra-180G-Large, Cina	Generator	HFL/China-electra-180g-Large-generator
Electra-180g-base, Cina	Diskriminator	HFL/China-electra-180g-base-diskriminator
Electra-180g-base, Cina	Generator	HFL/China-electra-180g-base-generator
Electra-180g-Small-Ex, Cina	Diskriminator	HFL/China-electra-180g-small-ex-disriminator
Electra-180g-Small-Ex, Cina	Generator	HFL/China-electra-180g-small-ex-generator
Electra-180g-Small, Cina	Diskriminator	HFL/China-electra-180g-small-diskriminator
Electra-180g-Small, Cina	Generator	HFL/China-electra-180g-small-generator
Electra-Large, Cina	Diskriminator	HFL/China-Electra-Large-Discriminator
Electra-Large, Cina	Generator	HFL/China-Electra-Large-Generator
Electra-base, Cina	Diskriminator	HFL/China-electra-Base-Discriminator
Electra-base, Cina	Generator	HFL/China-ELECTRA-BASE-generator
Electra-Small-Ex, Cina	Diskriminator	HFL/China-Electra-Small-Ex-Discriminator
Electra-Small-Ex, Cina	Generator	HFL/China-Electra-Small-Ex-Generator
Electra-Small, Cina	Diskriminator	HFL/China-Electra-Small-Discriminator
Electra-Small, Cina	Generator	HFL/China-Electra-Small-Generator

Versi domain yudisial:

Nama model	Komponen	Model_name
Legal-Electra-Large, Cina	Diskriminator	HFL/Cina-legal-electra-large-diskriminator
Legal-Electra-Large, Cina	Generator	HFL/China-legal-electra-large-generator
Legal-Electra-Base, Cina	Diskriminator	HFL/Cina-legal-electra-base-diskriminator
Legal-Electra-Base, Cina	Generator	HFL/China-legal-electra-base-generator
Legal-Electra-Small, Cina	Diskriminator	HFL/Cina-Legal-Electra-Small-Discriminator
Legal-Electra-Small, Cina	Generator	HFL/China-Legal-Electra-Small-Generator

Menggunakan paddlehub

Mengandalkan paddlehub, kami hanya perlu satu baris kode untuk menyelesaikan unduhan dan instalasi model, dan lebih dari sepuluh baris kode dapat menyelesaikan tugas klasifikasi teks, anotasi urutan, pemahaman membaca dan tugas lainnya.

 import paddlehub as hub
module = hub.Module(name=MODULE_NAME)

Daftar MODULE_NAME yang sesuai adalah sebagai berikut:

Nama model	Module_name
Electra-base, Cina	BASA-ELECTRA-BASA
Electra-Small, Cina	China-Electra-Small

Efek sistem dasar

Kami membandingkan efek ELECTRA-small/base dengan BERT-base , BERT-wwm , BERT-wwm-ext , RoBERTa-wwm-ext , dan RBT3 , termasuk enam tugas berikut:

CMRC 2018 (Cui et al., 2019) : Pemahaman membaca ekstraksi fragmen bab (Cina yang disederhanakan)
DRCD (Shao et al., 2018) : Pemahaman membaca ekstraksi fragmen bab (Cina Tradisional)
XNLI (Conneau et al., 2018) : Inferensi Bahasa Alami
CHNSENTICORP : Analisis sentti
LCQMC (Liu et al., 2018) : Pencocokan pasangan kalimat
BQ Corpus (Chen et al., 2018) : Pencocokan pasangan kalimat

Untuk model Electra-Small/Base, kami menggunakan tingkat pembelajaran default 3e-4 dan 1e-4 di kertas asli. Perlu dicatat bahwa kami belum melakukan penyesuaian parameter untuk setiap tugas, sehingga peningkatan kinerja lebih lanjut dapat dicapai dengan menyesuaikan hiperparameter seperti tingkat pembelajaran. Untuk memastikan keandalan hasil, untuk model yang sama, kami berlatih 10 kali menggunakan benih acak yang berbeda untuk melaporkan nilai maksimum dan rata -rata kinerja model (nilai rata -rata dalam kurung).

Pemahaman Bacaan Cina Sederhana: CMRC 2018

Kumpulan data CMRC 2018 adalah data pemahaman pembacaan mesin Cina yang dirilis oleh laboratorium bersama Institut Teknologi Harbin. Menurut pertanyaan yang diberikan, sistem perlu mengekstrak fragmen dari bab sebagai jawaban, dalam bentuk yang sama dengan skuad. Indikator evaluasi adalah: EM / F1

Model	Set pengembangan	Set tes	Set Tantangan	Kuantitas parameter
Bert-base	65.5 (64.4) / 84.5 (84.0)	70.0 (68.7) / 87.0 (86.3)	18.6 (17.0) / 43.3 (41.3)	102m
Bert-WWM	66.3 (65.0) / 85.6 (84.7)	70.5 (69.1) / 87.4 (86.7)	21.0 (19.3) / 47.0 (43.9)	102m
BERT-WWM-EXT	67.1 (65.6) / 85.7 (85.0)	71.4 (70.0) / 87.7 (87.0)	24.0 (20.0) / 47.3 (44.6)	102m
Roberta-WWM-EXT	67.4 (66.5) / 87.2 (86.5)	72.6 (71.4) / 89.4 (88.8)	26.2 (24.6) / 51.0 (49.1)	102m
Rbt3	57.0 / 79.0	62.2 / 81.8	14.7 / 36.2	38m
Electra-Small	63.4 (62.9) / 80.8 (80.2)	67.8 (67.4) / 83.4 (83.0)	16.3 (15.4) / 37.2 (35.8)	12m
Electra-180g-Small	63.8 / 82.7	68.5 / 85.2	15.1 / 35.8	12m
Electra-Small-Ex	66.4 / 82.2	71.3 / 85.3	18.1 / 38.3	25m
Electra-180g-small-ex	68.1 / 85.1	71.8 / 87.2	20.6 / 41.7	25m
Basis elektra	68.4 (68.0) / 84.8 (84.6)	73.1 (72.7) / 87.1 (86.9)	22.6 (21.7) / 45.0 (43.8)	102m
Electra-180G-BASE	69.3 / 87.0	73.1 / 88.6	24.0 / 48.6	102m
Electra-Large	69.1 / 85.2	73.9 / 87.1	23.0 / 44.2	324m
Electra-180G-Large	68.5 / 86.2	73.5 / 88.5	21.8 / 42.9	324m

Pemahaman Bacaan Cina Tradisional: DRCD

Dataset DRCD dirilis oleh Delta Research Institute, Taiwan, Cina. Bentuknya sama dengan skuad dan merupakan dataset pemahaman membaca yang diekstraksi berdasarkan bahasa Cina tradisional. Indikator evaluasi adalah: EM / F1

Model	Set pengembangan	Set tes	Kuantitas parameter
Bert-base	83.1 (82.7) / 89.9 (89.6)	82.2 (81.6) / 89.2 (88.8)	102m
Bert-WWM	84.3 (83.4) / 90.5 (90.2)	82.8 (81.8) / 89.7 (89.0)	102m
BERT-WWM-EXT	85.0 (84.5) / 91.2 (90.9)	83.6 (83.0) / 90.4 (89.9)	102m
Roberta-WWM-EXT	86.6 (85.9) / 92.5 (92.2)	85.6 (85.2) / 92.0 (91.7)	102m
Rbt3	76.3 / 84.9	75.0 / 83.9	38m
Electra-Small	79.8 (79.4) / 86.7 (86.4)	79.0 (78.5) / 85.8 (85.6)	12m
Electra-180g-Small	83.5 / 89.2	82.9 / 88.7	12m
Electra-Small-Ex	84.0 / 89.5	83.3 / 89.1	25m
Electra-180g-small-ex	87.3 / 92.3	86.5 / 91.3	25m
Basis elektra	87.5 (87.0) / 92.5 (92.3)	86.9 (86.6) / 91.8 (91.7)	102m
Electra-180G-BASE	89.6 / 94.2	88.9 / 93.7	102m
Electra-Large	88.8 / 93.3	88.8 / 93.6	324m
Electra-180G-Large	90.1 / 94.8	90.5 / 94.7	324m

Kesimpulan Bahasa Alami: xnli

Dalam tugas inferensi bahasa alami, kami mengadopsi data XNLI , yang mengharuskan teks dibagi menjadi tiga kategori: entailment , neutral , dan contradictory . Indikator evaluasi adalah: akurasi

Model	Set pengembangan	Set tes	Kuantitas parameter
Bert-base	77.8 (77.4)	77.8 (77.5)	102m
Bert-WWM	79.0 (78.4)	78.2 (78.0)	102m
BERT-WWM-EXT	79.4 (78.6)	78.7 (78.3)	102m
Roberta-WWM-EXT	80.0 (79.2)	78.8 (78.3)	102m
Rbt3	72.2	72.3	38m
Electra-Small	73.3 (72.5)	73.1 (72.6)	12m
Electra-180g-Small	74.6	74.6	12m
Electra-Small-Ex	75.4	75.8	25m
Electra-180g-small-ex	76.5	76.6	25m
Basis elektra	77.9 (77.0)	78.4 (77.8)	102m
Electra-180G-BASE	79.6	79.5	102m
Electra-Large	81.5	81.0	324m
Electra-180G-Large	81.2	80.4	324m

Senticorp

Dalam tugas analisis sentimen, dataset klasifikasi emosi biner chnsenticorp . Indikator evaluasi adalah: akurasi

Model	Set pengembangan	Set tes	Kuantitas parameter
Bert-base	94.7 (94.3)	95.0 (94.7)	102m
Bert-WWM	95.1 (94.5)	95.4 (95.0)	102m
BERT-WWM-EXT	95.4 (94.6)	95.3 (94.7)	102m
Roberta-WWM-EXT	95.0 (94.6)	95.6 (94.8)	102m
Rbt3	92.8	92.8	38m
Electra-Small	92.8 (92.5)	94.3 (93.5)	12m
Electra-180g-Small	94.1	93.6	12m
Electra-Small-Ex	92.6	93.6	25m
Electra-180g-small-ex	92.8	93.4	25m
Basis elektra	93.8 (93.0)	94.5 (93.5)	102m
Electra-180G-BASE	94.3	94.8	102m
Electra-Large	95.2	95.3	324m
Electra-180G-Large	94.8	95.2	324m

Kalif Kalif Kalimat: LCQMC

Dua set data berikut perlu mengklasifikasikan pasangan kalimat untuk menentukan apakah semantik dari kedua kalimat tersebut sama (tugas klasifikasi biner).

LCQMC dirilis oleh Pusat Penelitian Komputasi Intelyur dari Harbin Institute of Technology Shenzhen Graduate School. Indikator evaluasi adalah: akurasi

Model	Set pengembangan	Set tes	Kuantitas parameter
Bert	89.4 (88.4)	86.9 (86.4)	102m
Bert-WWM	89.4 (89.2)	87.0 (86.8)	102m
BERT-WWM-EXT	89.6 (89.2)	87.1 (86.6)	102m
Roberta-WWM-EXT	89.0 (88.7)	86.4 (86.1)	102m
Rbt3	85.3	85.1	38m
Electra-Small	86.7 (86.3)	85.9 (85.6)	12m
Electra-180g-Small	86.6	85.8	12m
Electra-Small-Ex	87.5	86.0	25m
Electra-180g-small-ex	87.6	86.3	25m
Basis elektra	90.2 (89.8)	87.6 (87.3)	102m
Electra-180G-BASE	90.2	87.1	102m
Electra-Large	90.7	87.3	324m
Electra-180G-Large	90.3	87.3	324m

Kalif Kalimat Klasifikasi: BQ Corpus

BQ Corpus dirilis oleh Pusat Penelitian Komputasi Cerdas dari Harbin Institute of Technology Shenzhen Graduate School dan merupakan kumpulan data untuk bidang perbankan. Indikator evaluasi adalah: akurasi

Model	Set pengembangan	Set tes	Kuantitas parameter
Bert	86.0 (85.5)	84.8 (84.6)	102m
Bert-WWM	86.1 (85.6)	85.2 (84.9)	102m
BERT-WWM-EXT	86.4 (85.5)	85.3 (84.8)	102m
Roberta-WWM-EXT	86.0 (85.4)	85.0 (84.6)	102m
Rbt3	84.1	83.3	38m
Electra-Small	83.5 (83.0)	82.0 (81.7)	12m
Electra-180g-Small	83.3	82.1	12m
Electra-Small-Ex	84.0	82.6	25m
Electra-180g-small-ex	84.6	83.4	25m
Basis elektra	84.8 (84.7)	84.5 (84.0)	102m
Electra-180G-BASE	85.8	84.5	102m
Electra-Large	86.7	85.1	324m
Electra-180G-Large	86.4	85.4	324m

Efek tugas yudisial

Kami menguji data prediksi kejahatan Yudisial Cail 2018. Tingkat pembelajaran kecil/basis/besar adalah: masing-masing 5E-4/3E-4/1E-4. Indikator evaluasi adalah: akurasi

Model	Set pengembangan	Set tes	Kuantitas parameter
Electra-Small	78.84	76.35	12m
Legal-Electra-Small	79.60	77.03	12m
Basis elektra	80.94	78.41	102m
Legal-Electra-Base	81.71	79.17	102m
Electra-Large	81.53	78.97	324m
Legal-Electra-Large	82.60	79.89	324m

Cara menggunakan

Pengguna dapat melakukan fine-tuning tugas hilir berdasarkan model pra-terlatih China Electra yang diterbitkan di atas. Di sini kami hanya akan memperkenalkan penggunaan paling dasar. Untuk penggunaan yang lebih terperinci, silakan merujuk pada pengenalan resmi Electra.

Dalam contoh ini, kami menggunakan model ELECTRA-small untuk menyempurnakan tugas CMRC 2018, dan langkah-langkah yang relevan adalah sebagai berikut. Dengan asumsi,

data-dir : Direktori root kerja dapat ditetapkan sesuai dengan situasi aktual.
model-name : Nama model, dalam hal ini electra-small .
task-name : Nama tugas, dalam hal ini cmrc2018 . Kode dalam direktori ini telah beradaptasi dengan enam tugas Cina di atas, dan task-name adalah cmrc2018 , drcd , xnli , chnsenticorp , lcqmc , dan bqcorpus .

Langkah 1: Unduh model pretrained dan decompress

Di bagian Download Model, unduh model electra-small dan mendekompres ke ${data-dir}/models/${model-name} . Direktori ini harus berisi electra_model.* , vocab.txt , checkpoint , dan total 5 file.

Langkah 2: Siapkan Data Tugas

Unduh set pelatihan dan pengembangan CMRC 2018 dan ganti nama menjadi train.json dan dev.json . Masukkan dua file di ${data-dir}/finetuning_data/${task-name} .

Langkah 3: Jalankan perintah pelatihan

python run_finetuning.py 
    --data-dir ${data-dir} 
    --model-name ${model-name} 
    --hparams params_cmrc2018.json

Di antara mereka, data-dir dan model-name telah diperkenalkan di atas. hparams adalah kamus JSON. Dalam contoh ini, params_cmrc2018.json berisi fine-tuning hyperparameters terkait, seperti:

{
    "task_names" : [ " cmrc2018 " ],
    "max_seq_length" : 512 ,
    "vocab_size" : 21128 ,
    "model_size" : " small " ,
    "do_train" : true ,
    "do_eval" : true ,
    "write_test_outputs" : true ,
    "num_train_epochs" : 2 ,
    "learning_rate" : 3e-4 ,
    "train_batch_size" : 32 ,
    "eval_batch_size" : 32 ,
}

Dalam file JSON di atas, kami hanya mencantumkan beberapa parameter terpenting. Untuk daftar parameter lengkap, silakan merujuk ke configure_finenetung.py.

Setelah operasi selesai,

Untuk tugas-tugas pemahaman membaca, data JSON yang diprediksi yang dihasilkan cmrc2018_dev_preds.json disimpan dalam ${data-dir}/results/${task-name}_qa/ . Anda dapat memanggil skrip evaluasi eksternal untuk mendapatkan hasil evaluasi akhir, misalnya: python cmrc2018_drcd_evaluate.py dev.json cmrc2018_dev_preds.json
Untuk tugas klasifikasi, informasi akurasi yang relevan akan dicetak langsung di layar, misalnya: xnli: accuracy: 72.5 - loss: 0.67

FAQ

T: Bagaimana cara mengatur laju pembelajaran model electra saat melakukan fine-tuning tugas hilir?
A: Kami merekomendasikan menggunakan tingkat pembelajaran yang digunakan oleh kertas asli sebagai baseline awal (kecil adalah 3E-4, basis adalah 1E-4) dan kemudian men-debug dengan penambahan yang tepat dan penurunan tingkat pembelajaran. Perlu dicatat bahwa dibandingkan dengan model seperti Bert dan Roberta, tingkat pembelajaran Electra relatif besar.

T: Apakah ada hak cipta Pytorch?
A: Ya, unduh modelnya.

T: Dapatkah data pra-pelatihan dibagikan?
A: Sayangnya, tidak.

T: Rencana masa depan?
A: Silakan tetap disini.

Mengutip

Jika konten di direktori ini bermanfaat untuk pekerjaan penelitian Anda, jangan ragu untuk mengutip makalah berikut di koran.

Pilihan Pertama: https://ieexplore.ieee.org/document/9599397

 @journal{cui-etal-2021-pretrain,
  title={Pre-Training with Whole Word Masking for Chinese BERT},
  author={Cui, Yiming and Che, Wanxiang and Liu, Ting and Qin, Bing and Yang, Ziqing},
  journal={IEEE Transactions on Audio, Speech and Language Processing},
  year={2021},
  url={https://ieeexplore.ieee.org/document/9599397},
  doi={10.1109/TASLP.2021.3124365},
 }

Atau: https://www.aclweb.org/anthology/2020.findings-nnnlp.58

 @inproceedings{cui-etal-2020-revisiting,
    title = "Revisiting Pre-Trained Models for {C}hinese Natural Language Processing",
    author = "Cui, Yiming  and
      Che, Wanxiang  and
      Liu, Ting  and
      Qin, Bing  and
      Wang, Shijin  and
      Hu, Guoping",
    booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: Findings",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.findings-emnlp.58",
    pages = "657--668",
}

Ikuti kami

Selamat datang untuk mengikuti akun resmi WeChat resmi Laboratorium Gabungan IFLYTEK untuk mempelajari tentang tren teknis terbaru.

Umpan balik pertanyaan

Sebelum Anda mengirimkan masalah:

Anda disarankan untuk membaca FAQ terlebih dahulu sebelum Anda mengirimkan masalah.
Masalah berulang dan tidak relevan akan diabaikan dan ditutup oleh [stabil-bot] (Stale · GitHub Marketplace). Terima kasih atas pengertian dan dukungan Anda.
Kami tidak dapat mengakomodasi setiap permintaan, dan karenanya tolong diingat bahwa tidak ada jaminan bahwa permintaan Anda akan dipenuhi.
Selalu bersikap sopan saat Anda mengirimkan masalah.

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode sumber lainnya
Waktu Pembaruan 2025-04-18
ukuran 314.9KB
Berasal dari Github

Aplikasi Terkait

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
Game DOS Cina (game DOS Cina di browser) memproyeksikan kode sumber versi resmi

2022-11-01

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua