Unduh Count Sketch Optimizers - Unduh Kode Sumber Count Sketch Optimizers

Count Sketch Optimizers

Kode Sumber AI

1.0.0

Unduh

Pengoptimal Count-Sketch

Mengompres pengoptimal gradien melalui count-sketches

Kertas ICML 2019 oleh Ryan Spring, Anastasios Kyrillidis, Vijai Mohan, Anshumali Shrivastava

Hasil pelatihan Bert-Large

Dilatih dengan pengambilan pemeriksaan aktivasi dan pelatihan presisi campuran (FP16) di server NVIDIA V100 DGX-1

Bert-Large	Adam	Count -Min Sketch (CMS) - RMSPROP
Waktu (hari)	5.32	5.52
Ukuran (MB)	7.097	5.133
Uji kebingungan	4.04	4.18

Laju konvergensi - Adam, CMS -RMSPROP Laju konvergensi yang lebih cepat dengan ukuran batch yang lebih besar - CMS -RMSPROP

Instruksi

Pasang persyaratan
Tambahkan Folder Optimizers ke $ Pythonpath

Persyaratan

obor
Torchvision
Cupy
pynvrtc

Contoh

Imagenet - ResNet -18
LM1B - Transformer / LSTM
Wikuxt -2 - LSTM

Dukungan lapisan yang padat

Kami mendukung mengompresi lapisan padat jaringan saraf tanpa pembaruan sparsity. Selama pelatihan, kami memperbarui variabel tambahan dan melakukan pembaruan gradien untuk setiap parameter dalam satu kernel CUDA yang menyatu. Kernel padat setara dengan kernel yang jarang. Perbedaan utama adalah bahwa kami secara eksplisit menghindari menghasilkan variabel tambahan untuk lapisan padat dalam memori global. Sebaliknya, kami mengaksesnya di dalam memori bersama dari multiprosesor streaming GPU. Tanpa fitur utama ini, pendekatan kami tidak akan menyimpan memori GPU untuk lapisan padat. Dalam kasus yang jarang, kami berasumsi bahwa pembaruan gradien non-nol secara signifikan lebih kecil dari variabel tambahan. (Lihat disense_exp_cms.py untuk detail lebih lanjut)