Download electra_pytorch - Download kode sumber electra

electra_pytorch

Kode sumber lainnya

1.0.0

Unduh

Implementasi pytorch tidak resmi

Electra: Encoder teks pra-pelatihan sebagai diskriminator daripada generator oleh Kevin Clark. Minh-Ther Luong. Quoc V. Le. Christopher D. Manning

※ Untuk pembaruan dan lebih banyak pekerjaan di masa depan, ikuti

Hasil yang direplikasi

Saya pretrain electra-small dari awal dan telah berhasil mereplikasi hasil kertas pada lem.

Model	Cola	SST	Mrpc	STS	QQP	Mnli	Qnli	Rte	Rata -rata. dari rata -rata.
Electra-Small-owt	56.8	88.3	87.4	86.8	88.3	78.9	87.9	68.5	80.36
Electra-small-owt (my)	58.72	88.03	86.04	86.16	88.63	80.4	87.45	67.46	80.36

Tabel 1: Hasil pada set dev lem. Hasil resmi berasal dari hasil yang diharapkan. Skor adalah skor rata -rata finetuned dari pos pemeriksaan yang sama. (Lihat masalah ini) Hasil saya berasal dari pretraining model dari awal dan mereka mengambil rata -rata dari 10 run finetuning untuk setiap tugas. Kedua hasilnya dilatih di OpenWebtext Corpus

Model	Cola	SST	Mrpc	STS	QQP	Mnli	Qnli	Rte	Rata -rata.
Electra-Small ++	55.6	91.1	84.9	84.6	88.0	81.6	88.3	63.6	79.7
Electra-Small ++ (My)	54.8	91.6	84.6	84.2	88.5	82	89	64.7	79.92

Tabel 2: Hasil pada set tes lem. Hasil saya finetunes pos pemeriksaan pretrain dimuat dari permukaan pelukan.

Kurva Kerugian Pelatihan Resmi	Kurva Kehilangan Pelatihan Saya

Tabel 3: Keduanya adalah model kecil yang dilatih di OpenWebText. Yang resmi adalah dari sini. Anda harus mengambil nilai kehilangan pelatihan dengan sebutir garam karena tidak mencerminkan kinerja tugas hilir.

Fitur implementasi ini

Anda tidak perlu mengunduh dan memproses set data secara manual, scirpt merawatnya untuk Anda secara otomatis. (Terima kasih kepada HuggingFace/Datasets dan Hugginface/Transformers)
Afaik, penerapan ulang terdekat dengan yang asli, mengurus banyak detail yang mudah diabaikan (dijelaskan di bawah).
AFAIK, satu -satunya yang berhasil memvalidasi dirinya dengan mereplikasi hasil di koran.
Dilengkapi dengan Jupyter Notebooks, yang dapat Anda jelajahi kode dan periksa data yang diproses.
Anda tidak perlu mengunduh dan melakukan preprocess apa pun sendiri, yang Anda butuhkan hanyalah menjalankan skrip pelatihan.

Lebih banyak hasil

Seberapa Stabil Electra Pretraining?

Berarti	Std	Max	Min	#models
81.38	0,57	82.23	80.42	14

Tabel 4: Statistik hasil devset lem untuk model kecil. Setiap model pretrained dari awal dengan biji yang berbeda dan finetuned untuk 10 run acak untuk setiap tugas lem. Skor model adalah rata -rata 10 terbaik untuk setiap tugas. (Prosesnya sama dengan yang dijelaskan dalam makalah) seperti yang bisa kita lihat, meskipun Electra mengejek pelatihan adeversarial, ia memiliki stabilitas pelatihan yang baik.

Seberapa stabil electra finetuing pada lem?

Model	Cola	SST	Mrpc	STS	QQP	Mnli	Qnli	Rte
Electra-small-owt (my)	1.30	0.49	0.7	0.29	0.1	0,15	0.33	1.93

Tabel 5: Deviasi standar untuk setiap tugas. Ini adalah model yang sama dengan Tabel 1, yang berjalan 10 tahun berjalan untuk setiap tugas.

Diskusi

Posting Forum Huggingface
Posting Forum Fastai

Penggunaan

Catatan: Proyek ini sebenarnya untuk penelitian pribadi saya. Jadi saya tidak mencoba membuatnya mudah digunakan untuk semua pengguna, tetapi mencoba membuatnya mudah dibaca dan dimodifikasi.

Pasang persyaratan

pip3 install -r requirements.txt

Tangga

python pretrain.py
Atur pretrained_checkcpoint di finetune.py untuk menggunakan pos pemeriksaan yang telah Anda pretrained dan simpan di electra_pytorch/checkpoints/pretrain .
python finetune.py (dengan do_finetune diatur ke True )
Pergi ke Neptunus, pilih menjalankan 10 berjalan terbaik untuk setiap tugas, dan atur th_runs di finetune.py sesuai dengan angka -angka dalam nama run yang Anda pilih.
python finetune.py (dengan do_finetune diatur ke False ), prediksi outpus ini pada testset, Anda kemudian dapat mengompres dan mengirim .tsv s di electra_pytorch/test_outputs/<group_name>/*.tsv untuk merekatkan situs untuk mendapatkan skor tes.

Catatan

Saya tidak menggunakan argumen CLI, jadi konfigurasikan opsi yang terlampir di dalam MyConfig di file Python sesuai kebutuhan Anda sebelum menjalankannya. (Ada komentar di bawah ini yang menunjukkan opsi untuk pengaturan vanilla)
Anda akan memerlukan akun Neptunus dan membuat proyek Neptunus di situs web untuk merekam hasil finetuning lem. Jangan lupa untuk menggantikan richarddwang/electra-glue dengan nama proyek Neptunus Anda
File Python pretrain.py , finetune.py sebenarnya dikonversi dari Pretrain.ipynb dan Finetune_GLUE.ipynb . Anda juga dapat menggunakan buku catatan itu untuk menjelajahi pelatihan elektra dan finetuning.

Detail lanjutan

Di bawah ini mencantumkan detail implementasi/kertas asli yang mudah diabaikan dan saya telah mengurus. Saya menemukan detail ini sangat diperlukan untuk berhasil mereplikasi hasil kertas.

Optimasi

Menggunakan Adam Optimizer tanpa Koreksi Bias (Koreksi Bias adalah default untuk Adam Optimizer di Pytorch dan Fastai)
Ada serangga tingkat pembelajaran yang membusuk melalui lapisan dalam implementasi resmi, sehingga ketika finetuing, LR membusuk lebih dari yang dinyatakan di koran. Lihat _get_layer_lrs. Lihat juga masalah ini.
Menggunakan gradien klip
Menggunakan 0 berat badan pembusukan saat finetuning pada lem
Itu tidak melakukan pemanasan dan kemudian melakukan peluruhan linier tetapi lakukan bersama, yang berarti pemanasan tingkat pembelajaran dan peluruhan pada saat yang sama selama fase pemanasan. Lihat di sini

Pengolahan data

Untuk preprocessing data pretraing, ia menggabungkan dan memotong setensi agar sesuai dengan panjang maksimal, dan berhenti menyumbang ketika datang ke akhir dokumen.
Untuk pretraing data preprocessing, secara kebetulan membagi teks menjadi kalimat A dan kalimat B, dan juga secara kebetulan mengubah panjang maksimal
Untuk finetuning data preprocessing, ia mengikuti cara Bert untuk memotong yang terpanjang dari kalimat A dan B agar sesuai dengan panjang maksimal

Menipu

Untuk tugas MRPC dan STS, ini menambah data pelatihan dengan menambahkan data pelatihan yang sama tetapi dengan kalimat bertukar A dan B. Ini disebut "double_unordered" dalam implementasi resmi.
Itu tidak menutupi kalimat seperti Bert, dalam probabilitas topeng (15% atau nilai lain) dari token, token memiliki 85% peluang untuk diganti dengan [topeng] dan 15% tetap sama tetapi tidak ada peluang untuk diganti dengan token acak.

Parameter mengikat

Input dan output kata embedding generator, dan input kata embeddings of diskriminator. Ketiganya diikat bersama.
Ini tidak hanya mengikat embeddings tipe kata/pos/token tetapi juga lapisan norma di lapisan embedding dari generator dan diskriminator.

Lainnya

Lapisan output diinisialisasi dengan inisialisasi default TensorFlow V1 (yaitu seragam Xavier)
Menggunakan Gumbel Softmax untuk generasi sampel dari Geneartor sebagai input diskriminator
Ini menggunakan dropout dan lapisan linier di lapisan output untuk finetuning lem, bukan apa yang digunakan ElectraClassificationHead .
Semua model publik pos pemeriksaan Electra sebenarnya adalah model ++. Lihat masalah ini
Ini menurunkan generator dengan hidden_size, jumlah kepala perhatian, dan ukuran menengah, tetapi tidak jumlah lapisan.

Arsitektur file

Jika Anda pretrain, finetune, dan menghasilkan hasil tes. electra_pytorch akan menghasilkan ini untuk Anda.

 project root
|
|── datasets
|   |── glue
|       |── <task>
|       ...
|
|── checkpoints
|   |── pretrain
|   |   |── <base_run_name>_<seed>_<percent>.pth
|   |    ...
|   |
|   |── glue
|       |── <group_name>_<task>_<ith_run>.pth
|       ...
|
|── test_outputs
|   |── <group_name>
|   |   |── CoLA.tsv
|   |   ...
|   | 
|   | ...

Kutipan

Kertas asli

 @inproceedings{clark2020electra,
  title = {{ELECTRA}: Pre-training Text Encoders as Discriminators Rather Than Generators},
  author = {Kevin Clark and Minh-Thang Luong and Quoc V. Le and Christopher D. Manning},
  booktitle = {ICLR},
  year = {2020},
  url = {https://openreview.net/pdf?id=r1xMH1BtvB}
}

Implementasi ini.

 @misc{electra_pytorch,
  author = {Richard Wang},
  title = {PyTorch implementation of ELECTRA},
  year = {2020},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {url{https://github.com/richarddwang/electra_pytorch}}
}

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode sumber lainnya
Waktu Pembaruan 2025-04-16
ukuran 51.92KB
Berasal dari Github

Aplikasi Terkait

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
pytorch image models

2024-11-03
nextcloud_share_url_downloader

2024-11-01
Mesin analisis data Lihua versi gratis 3.0_search_navigation_collection_public opinion_ranking_api

2022-06-28

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua