Unduhan universal distillation - Unduh Kode Sumber universal distillation

universal distillation

Kode Sumber AI

1.0.0

Unduh

Distilasi model bahasa universal

Pengujian CI

Keterangan

Buat model suling dari setiap model bahasa bertopeng di hub Huggingface dengan hanya satu perintah bash.

Fitur:

Distilasi agnostik bahasa dari model Bert.
Pelatihan terdistribusi otomatis dan multi-GPU.
Evaluasi menggunakan langkah-langkah standar dan lebih canggih, seperti pseudo-Perplexity.
Tambahkan kendala untuk mengurangi stereotip menggunakan teknik fairdistilasi kami.
Mendatang : Distill beberapa model menjadi satu model, dengan terjemahan token otomatis.

Bagaimana menjalankan

Pertama, klon proyek dan pasang dependensi.

 # clone project   
git clone https://github.com/iPieter/universal-distillation

# install project   
cd universal-distillation
pip install -e .   
pip install -r requirements.txt

Distilasi menggunakan antarmuka baris perintah

Dalam tutorial ini, kami akan menunjukkan kepada Anda cara mengatur tugas distilasi dari baris perintah. Anda akan membutuhkan dua hal:

Model guru yang ingin Anda suling. Semua model dari Repositori Model HugginFace dengan kepala pengisian-mask / mlm akan berfungsi. Dalam tutorial ini, kami akan menggunakan model bert-base-uncased standar.
Dataset yang ingin Anda gunakan untuk distilasi. Dalam tutorial ini, kami 'kecil', tetapi berkualitas tinggi, dataset: Europarl.

Langkah 1: Dapatkan dataset Anda

Kami akan menggunakan bagian bahasa Inggris dari Corpus Europarl. Ini adalah korpus paralel berkualitas tinggi dari parlement Eropa yang dibuat oleh penafsir dan penerjemah profesional. Ini juga cukup kecil untuk corpus bahasa saat ini, hanya 114 MB, tetapi untuk tutorial distilasi kami tidak apa -apa.

wget https://opus.nlpl.eu/download.php ? f = Europarl/v8/mono/en.txt.gz -O en.txt.gz
gunzip en.txt.gz

Data sekarang dibatalkan dan disimpan dalam file en.txt .

Langkah 2: Mulai Pelatihan

Sekarang kami memiliki data, kami dapat memulai pelatihan. Mengunduh model guru akan terjadi secara otomatis, jadi tidak perlu melakukan ini secara manual. Jika Anda merasa ini memakan waktu terlalu lama dan Anda hanya ingin mencoba pelatihan, misalnya untuk mendapatkan rasa waktu, Anda dapat menambahkan --limit_train_batches N . Ini membatasi setiap zaman ke N batch selama pelatihan.

python universal_distillation/distillation.py 
    --batch_size 8 
    --gpus 1 
    --max_epochs 3 
    --save_dir my_distilled_model/ 
    --teacher bert-base-uncased 
    --data en.txt

Ada beberapa hal yang terjadi di latar belakang setelah Anda menjalankan perintah itu. Pertama, perpustakaan ini menciptakan model siswa dan guru. Guru itu bert-base-uncased dan siswa akan menggunakan arsitektur yang sama dengan guru secara default, hanya jumlah kepala yang lebih kecil: 6 bukan 12. Karena kami melatih domain tertentu (Europarl), ini sudah cukup. Tentu saja, Anda dapat mencampur dan mencocokkan guru yang berbeda dan lebih besar dengan siswa yang lebih kecil, tetapi kinerjanya akan sangat bervariasi.

Kedua, perpustakaan Huggingface mengunduh model guru dan tokenizer. Ketiga, dataset dimuat dari disk dan diinisialisasi dengan tokenizer, perhatikan bahwa tokenisasi itu sendiri terjadi kemudian secara default. Akhirnya, loop distilasi dimulai.

Langkah 3: Gunakan model Anda

Akhirnya, Anda dapat menggunakan model dengan perpustakaan Huggingface! Semua file dari siswa (model Pytorch dan tokenizer) disimpan di folder yang kami tetapkan sebelumnya: my_distilled_model/ . Anda dapat mengimpor model dari folder ini secara langsung dan menguji tugas pemodelan bahasa bertopeng dengan hanya 3 baris:

 from transformers import pipeline
p = pipeline ( "fill-mask" , model = "my_distilled_model/" )

p ( "This is a [MASK]." )

Meskipun ini adalah contoh Straitforward, ini sering cukup untuk membuat model yang diadaptasi domain Anda sendiri. Dalam hal ini, itu

Mengevaluasi model bahasa

Anda juga dapat menjalankan evaluasi intrinsik menggunakan pseudo-perplexity. Anda perlu menentukan guru dan model suling, tetapi jika Anda hanya menjalankan evaluasi, Anda dapat memberikan model target untuk kedua argumen.

python universal_distillation/evaluation.py 
    --gpus=0 
    --limit_test_batches=500 
    --teacher=pdelobelle/robbert-v2-dutch-base
    --data=data/oscar_dutch/nl_dedup_part_2.txt 
    --checkpoint=DTAI-KULeuven/robbertje-39-gb-non-shuffled

Fairdistillation

Basis kode ini juga digunakan untuk makalah ECML-PKDD 2022 kami, di mana kami menggabungkan distilasi pengetahuan model bahasa dengan kendala keadilan. Kendala yang kami uji dalam makalah ini adalah substitusi yang kuat dari kata ganti gender, tetapi kode tersebut mendukung setiap substitusi tunggal. Ini dapat ditambahkan ke proses distilasi dengan mendefinisikan token mana yang ingin Anda menyamakan kedudukan. Misalnya, he dan she memiliki Token IDS 2016 dan 2002, sehingga kita dapat mendefinisikan pasangan substitusi dengan kedua token. Probabilitas atas kedua token menjadi lebih disamakan.

Anda dapat menambahkan token dengan memodifikasi universal-distillation/distillation.py di sekitar baris 90. Jangan lupa juga memasukkan kendala saat membuat model BaseTransformer .

 constraints = [[ 2016 , 2002 ]]  # she  # he
model = BaseTransformer ( args . teacher , constraints = constraints , ** vars ( args ))

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode Sumber AI
Waktu Pembaruan 2025-09-09
ukuran 27.56KB
Berasal dari Github

Aplikasi Terkait

Universal Downloader

2024-11-07
GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
Situs Web Universal UWA Seperti Ini

2013-12-24

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
ML stack

Kode Sumber AI

1.0.0
awesome free chatgpt

Kode Sumber AI

1.0.0
pywin_contextmenu

Kode Sumber AI

Version update
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua