Unduh lmtool fwp - Unduh Kode Sumber lmtool fwp

lmtool fwp

Kode Sumber AI

1.0.0

Unduh

Toolkit Pemodelan Bahasa Pytorch (untuk pemrogram berat badan cepat)

Repositori ini berisi kode resmi yang digunakan untuk eksperimen pemodelan bahasa dalam makalah:

Transformer linier secara diam -diam adalah pemrogram berat badan yang cepat (ICML 2021)
Melampaui transformator linier dengan pemrogram berat badan yang berulang
...

Secara lebih umum, ini dapat digunakan sebagai alat pemodelan bahasa di Pytorch untuk bereksperimen dengan:

Transformer standar
Transformer-xl
Pemrogram berat cepat dengan aturan pembaruan yang berbeda dan fungsi perhatian linier :
- Aturan Perbarui: "Jumlah" dan aturan "Delta" kami (seperti yang diusulkan dalam makalah kami; Sec 4.2)
- Fungsi perhatian linier: "perhatian linier" berbasis elu, "favor+", "proyeksi parameter deterministik (DPFP)"
misalnya beberapa kombinasi menghasilkan model yang terkenal:
- Linear transformers = "sum" Perbarui aturan + "berbasis elu" perhatian linier
- Performers = "sum" Perbarui aturan + "Favor +"

Implementasi berat cepat

Repositori ini berisi dua implementasi bobot cepat.

Kernel CUDA Custom (lihat utils/fast_fast_weight dan utils/cuda_fast_weight_layer.py)
Custom torch.autograd.Function (lihat utils/fast_weight.py)

Sementara kami hanya menggunakan implementasi CUDA untuk semua percobaan akhir kami (pemanfaatan GPU yang lebih cepat/jauh lebih baik), torch.autograd.Function Versi fungsi dapat berguna untuk pembuatan prototipe cepat dengan ekstensi baru.

Persyaratan

Toolkit ini membutuhkan pytorch torch dan ninja (untuk mengkompilasi kernel cuda).

Eksperimen untuk kertas dilakukan dengan Python 3.6 dan Pytorch 1.4.0 (catatan pada 24 Agustus 2023: Kode ini juga bekerja dengan Python 3.11 dan Pytorch 2.0.1+Cu117).

Versi Pytorch yang lebih baru belum didukung dengan baik oleh toolkit ini yang masih menggunakan torch.nn.DataParallel untuk pelatihan multi-GPU. Jika Anda benar -benar perlu menggunakan versi Pytorch yang lebih baru, periksa dokumentasi untuk menggunakan torch.nn.parallel.DistributedDataParallel sebagai gantinya. Semoga kami akan segera memperbaikinya, tetapi kami tidak bisa mengetahui dengan tepat kapan.

Toolkit mendukung bobot & bias untuk memantau pekerjaan. Jika Anda menggunakannya, juga instal wandb .

Ucapan Terima Kasih

Repositas ini berisi banyak baris kode yang diambil dan diadaptasi dari sumber -sumber berikut:

Repositas ini awalnya bercabang dari implementasi resmi Transformer-XL Kimiyoung/Transformer-XL. Kode untuk Transformer-XL dan model transformator standar, serta fungsionalitas dasar yang diperlukan untuk pemodelan bahasa (termasuk input adaptif dan output embeddings) dan persiapan data (Wikuxt-103, Enwik8, ...) berasal dari repositori yang sesuai.
Untuk pemain, fungsi pembantu dari Lucidrains/Performer-Pytorch digunakan.
Untuk implementasi CUDA dari pemrogram berat cepat kami dengan aturan Delta:
- Kode dari IDIAP/transformer cepat digunakan dengan perubahan kecil untuk aturan pembaruan SUM.
- Kami memodifikasinya untuk mengimplementasikan aturan pembaruan kami. Lihat komentar dalam kode untuk lokasi dan modifikasi yang tepat.

Instruksi umum

Silakan periksa file di bawah example_scripts untuk instruksi umum dan contoh untuk melatih dan mengevaluasi model.

Bibtex

 @inproceedings{schlag2021linear,
      title={Linear Transformers Are Secretly Fast Weight Programmers}, 
      author={Imanol Schlag and Kazuki Irie and J"urgen Schmidhuber},
      booktitle={Proc. Int. Conf. on Machine Learning (ICML)},
      address = {Virtual only},
      month = jul,
      year={2021}
}

 @article{irie2021going,
      title={Going Beyond Linear Transformers with Recurrent Fast Weight Programmers}, 
      author={Kazuki Irie and Imanol Schlag and R'obert Csord'as and J"urgen Schmidhuber},
      journal={Preprint arXiv:2106.06295},
      year={2021}
}

Tautan

Kode untuk eksperimen pengambilan sintetis dalam makalah "Transformator linier secara diam-diam adalah pemrogram berat badan cepat" (ICML 2021) dapat ditemukan di ischlag/transformer cepat.
Repositori lengkap untuk kertas "Melampaui transformator linier dengan pemrogram berat cepat berulang" dapat ditemukan di: IDsia/Recurrent-FWP
Posting blog AI Jürgen Schmidhuber tentang pemrogram berat cepat (26 Maret 2021).

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode Sumber AI
Waktu Pembaruan 2025-09-07
ukuran 147.08KB
Berasal dari Github

Aplikasi Terkait

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
GitHub actions/download artifact

2024-11-01

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
ML stack

Kode Sumber AI

1.0.0
awesome free chatgpt

Kode Sumber AI

1.0.0
pywin_contextmenu

Kode Sumber AI

Version update
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua