BigGAN PyTorch Download - BigGAN PyTorch Sumber Code Unduh

BigGAN PyTorch

ular piton

1.0.0

Unduh

Biggan-Pytorch

Implementasi Pytorch Biggan yang secara resmi tidak resmi penulis.

Dogball? Dogball!

Repo ini berisi kode untuk 4-8 pelatihan GPU Biggans dari pelatihan GAN skala besar untuk sintesis gambar alami kesetiaan tinggi oleh Andrew Brock, Jeff Donahue, dan Karen Simonyan.

Kode ini oleh Andy Brock dan Alex Andonian.

Cara menggunakan kode ini

Anda akan membutuhkan:

Pytorch, versi 1.0.1
tqdm, numpy, scipy, dan h5py
Set pelatihan imagenet

Pertama, Anda dapat secara opsional menyiapkan versi HDF5 yang telah diproses dari dataset target Anda untuk I/O yang lebih cepat. Mengikuti ini (atau tidak), Anda akan membutuhkan momen awal yang diperlukan untuk menghitung FID. Keduanya dapat dilakukan dengan memodifikasi dan menjalankan

sh scripts/utils/prepare_data.sh

Yang secara default mengasumsikan set pelatihan Imagenet Anda diunduh ke dalam data folder root di direktori ini, dan akan menyiapkan HDF5 yang di -cache pada resolusi piksel 128x128.

Di folder skrip, ada beberapa skrip bash yang akan melatih Biggan dengan ukuran batch yang berbeda. Kode ini mengasumsikan Anda tidak memiliki akses ke pod TPU penuh, dan karenanya spoof mega-batch dengan menggunakan akumulasi gradien (rata-rata lulusan atas beberapa minibatch, dan hanya mengambil langkah pengoptimal setelah akumulasi N). Secara default, skrip launch_BigGAN_bs256x8.sh melatih model Biggan berukuran penuh dengan ukuran batch 256 dan 8 akumulasi gradien, dengan ukuran total 2048. Pada 8XV100 dengan pelatihan presisi penuh (tanpa inti tensor), skrip ini membutuhkan waktu 15 hari untuk melatih hingga 150k iteration.

Pertama -tama Anda perlu mencari tahu ukuran batch maksimum yang dapat didukung oleh pengaturan Anda. Model pra-terlatih yang disediakan di sini dilatih pada 8XV100 (masing-masing 16GB VRAM) yang dapat mendukung sedikit lebih banyak daripada BS256 yang digunakan secara default. Setelah Anda menentukan ini, Anda harus memodifikasi skrip sehingga ukuran batch kali jumlah akumulasi gradien sama dengan ukuran total batch yang Anda inginkan (Biggan default hingga 2048).

Perhatikan juga bahwa skrip ini menggunakan arg --load_in_mem , yang memuat seluruh file (~ 64GB) i128.hdf5 ke dalam RAM untuk pemuatan data yang lebih cepat. Jika Anda tidak memiliki cukup RAM untuk mendukung ini (mungkin 96GB+), hapus argumen ini.

Metrik dan pengambilan sampel

I believe I can fly!

Selama pelatihan, skrip ini akan menghasilkan log dengan metrik pelatihan dan metrik uji, akan menyimpan banyak salinan (2 yang paling baru dan 5 skor tertinggi) dari model bobot/pengoptimal param, dan akan menghasilkan sampel dan interpolasi setiap kali menghemat bobot. Folder log berisi skrip untuk memproses log ini dan memplot hasil menggunakan MATLAB (maaf tidak maaf).

Setelah pelatihan, seseorang dapat menggunakan sample.py untuk menghasilkan sampel dan interpolasi tambahan, tes dengan nilai pemotongan yang berbeda, ukuran batch, jumlah akumulasi stat standing, dll. Lihat skrip sample_BigGAN_bs256x8.sh untuk contoh.

Secara default, semuanya disimpan ke bobot/sampel/log/folder data yang diasumsikan berada di folder yang sama dengan repo ini. Anda dapat mengarahkan semua ini ke folder dasar yang berbeda menggunakan argumen --base_root , atau memilih lokasi tertentu untuk masing -masing dengan argumen masing -masing (misalnya --logs_root ).

Kami menyertakan skrip untuk menjalankan Biggan-Deep, tetapi kami belum sepenuhnya melatih model menggunakannya, jadi anggap mereka belum teruji. Selain itu, kami menyertakan skrip untuk menjalankan model di CIFAR, dan untuk menjalankan Sa-Gan (dengan EMA) dan SN-GAN di ImageNet. Kode SA-GAN mengasumsikan Anda memiliki 4xTitanx (atau setara dalam hal RAM GPU) dan akan berjalan dengan ukuran batch 128 dan 2 akumulasi gradien.

Catatan penting tentang metrik awal

Repo ini menggunakan jaringan awal pytorch in-built untuk menghitung dan FID. Skor ini berbeda dari skor yang akan Anda dapatkan menggunakan kode awal TF resmi, dan hanya untuk tujuan pemantauan! Jalankan sampel.py pada model Anda, dengan argumen --sample_npz , kemudian jalankan insteption_tf13 untuk menghitung TensorFlow yang sebenarnya adalah. Perhatikan bahwa Anda perlu memiliki TensorFlow 1.3 atau yang diinstal sebelumnya, karena TF1.4+ merusak kode IS asli.

Model pretrained

Pytorch Inception Skor dan FID Kami menyertakan dua pos pemeriksaan model pretrained (dengan G, D, salinan EMA dari G, Optimizers, dan Dikt Negara):

Pos Pemeriksaan Utama adalah untuk Biggan yang dilatih di ImageNet di 128x128, menggunakan akumulasi gradien BS256 dan 8, diambil sesaat sebelum runtuh, dengan skor awal TF 97,35 +/- 1.79: tautan
Pos pemeriksaan sebelumnya dari model pertama (100k g iters), pada kinerja tinggi tetapi jauh sebelum runtuh, yang mungkin lebih mudah untuk disempurnakan: tautan

Model pretrained untuk tempat-365 segera hadir.

Repo ini juga berisi skrip untuk porting bobot generator TFHUB Biggan asli ke Pytorch. Lihat skrip di folder TFHUB untuk lebih jelasnya.

Menyempurnakan, menggunakan dataset Anda sendiri, atau membuat fungsi pelatihan baru

That's deep, man

Jika Anda ingin melanjutkan pelatihan yang terputus atau menyempurnakan model pra-terlatih, jalankan skrip peluncuran yang sama tetapi dengan argumen --resume ditambahkan. Nama percobaan secara otomatis dihasilkan dari konfigurasi, tetapi dapat diganti menggunakan arg --experiment_name (misalnya, jika Anda ingin menyempurnakan model menggunakan pengaturan pengoptimal yang dimodifikasi).

Untuk menyiapkan dataset Anda sendiri, Anda perlu menambahkannya ke datasets.py dan memodifikasi diktsing kenyamanan di utils.py (dset_dict, imsize_dict, root_dict, nclass_dict, class_per_sheet_dict) untuk memiliki metadata yang sesuai untuk dataset Anda. Ulangi prosesnya dalam prepared_data.sh (secara opsional menghasilkan salinan HDF5 preprosesed, dan menghitung momen awal untuk FID).

Secara default, skrip pelatihan akan menyimpan 5 pos pemeriksaan terbaik teratas yang diukur dengan skor awal. Untuk set data selain Imagenet, skor awal dapat menjadi ukuran kualitas yang sangat buruk, jadi Anda mungkin ingin menggunakan --which_best FID .

Untuk menggunakan fungsi pelatihan Anda sendiri (misalnya melatih bigvae): Baik memodifikasi train_fns.gan_training_function atau menambahkan kereta baru FN dan menambahkannya setelah if config['which_train_fn'] == 'GAN': baris di train.py .

Barang yang rapi

Kami menyertakan log pelatihan penuh dan metrik di sini untuk referensi. Saya telah menemukan bahwa salah satu hal tersulit tentang mengimplementasikan kembali kertas dapat memeriksa jika log berbaris lebih awal dalam pelatihan, terutama jika pelatihan membutuhkan waktu beberapa minggu. Semoga ini akan membantu untuk pekerjaan di masa depan.
Kami menyertakan perhitungan FID yang dipercepat-versi SCIPY asli dapat memerlukan lebih dari 10 menit untuk menghitung matriks SQRT, versi ini menggunakan versi pytorch yang dipercepat untuk menghitungnya dalam satu detik.
Kami menyertakan implementasi ortho reg yang dipercepat dan memori rendah.
Secara default, kami hanya menghitung nilai singular teratas (norma spektral), tetapi kode ini mendukung komputasi lebih banyak SV melalui argumen --num_G_SVs .

Perbedaan utama antara kode ini dan Biggan asli

Kami menggunakan pengaturan Optimizer dari SA-GAN (G_LR = 1E-4, D_LR = 4E-4, NUM_D_STEPS = 1, Berlawanan dengan G_LR BIGGAN = 5E-5, D_LR = 2E-4, NUM_D_STEPS = 2). Sementara sedikit kurang kinerja, ini adalah sudut pertama yang kami potong untuk menurunkan waktu pelatihan.
Secara default, kami tidak menggunakan Batchnorm Cross-Replica (alias Synced Batchnorm). Dua varian yang kami coba (custom, naif dan yang termasuk dalam repo ini) memiliki gradien yang sedikit berbeda (meskipun lulus maju yang identik) dari batchnorm bawaan, yang tampaknya cukup untuk melumpuhkan pelatihan.
Akumulasi gradien berarti bahwa kami memperbarui estimasi SV dan statistik BN 8 kali lebih sering. Ini berarti bahwa statistik BN jauh lebih dekat dengan statistik berdiri, dan bahwa estimasi nilai tunggal cenderung lebih akurat. Karena itu, kami mengukur metrik secara default dengan G dalam mode uji (menggunakan estimasi stat Batchnorm yang menjalankan alih -alih menghitung statistik berdiri seperti di koran). Kami masih mendukung statistik berdiri (lihat skrip sampel.sh). Ini juga bisa menghasilkan gradien dari akumulasi sebelumnya yang basi, tetapi dalam praktiknya ini tampaknya tidak menjadi masalah.
Model pretrained yang saat ini disediakan tidak dilatih dengan regularisasi ortogonal. Pelatihan tanpa Reg Ortho tampaknya meningkatkan probabilitas bahwa model tidak akan menerima pemotongan, tetapi sepertinya model khusus ini mendapat tiket yang menang. Terlepas dari itu, kami menyediakan dua implementasi REG ortho yang sangat dioptimalkan (cepat dan minimal) yang secara langsung menghitung Reg ortho. gradien.

Catatan tentang desain repo ini

Kode ini dirancang dari bawah ke atas untuk berfungsi sebagai basis yang dapat diperluas dan dapat diretas untuk kode penelitian lebih lanjut. Kami telah menempatkan banyak pemikiran untuk memastikan abstraksi adalah ketebalan yang tepat untuk penelitian-tidak begitu tebal sehingga tidak bisa ditembus, tetapi tidak terlalu tipis sehingga tidak berguna. Gagasan kuncinya adalah bahwa jika Anda ingin bereksperimen dengan pengaturan SOTA dan membuat beberapa modifikasi (cobalah fungsi kerugian baru Anda sendiri, arsitektur, blok perhatian diri, dll) Anda harus dapat dengan mudah melakukannya hanya dengan menjatuhkan kode Anda di satu atau dua tempat, tanpa harus khawatir tentang basis kode lainnya. Hal -hal seperti penggunaan diri. Yang mana dan functools.partial dalam definisi model Biggan.py disatukan dengan ini, seperti halnya desain warisan kelas norma spektral.

Dengan itu, ini adalah basis kode yang agak besar untuk satu proyek. Sementara kami mencoba untuk menyeluruh dengan komentar, jika ada sesuatu yang menurut Anda bisa lebih jelas, lebih baik ditulis, atau lebih baik refactored, jangan ragu untuk mengangkat masalah atau permintaan tarik.

Permintaan fitur

Ingin mengerjakan atau meningkatkan kode ini? Ada beberapa hal yang akan diuntungkan oleh repo ini, tetapi yang belum berhasil.

Batchnorm yang disinkronkan (alias Batchnorm Cross-Replica). Kami mencoba dua varian ini, tetapi untuk beberapa alasan yang tidak diketahui itu melumpuhkan pelatihan setiap kali. Kami belum mencoba Syncbn Apex karena server sekolah saya berada di driver NVIDIA kuno yang tidak mendukungnya-Apex mungkin akan menjadi tempat yang baik untuk memulai.
Pelatihan presisi campuran dan memanfaatkan inti tensor. Repo ini mencakup implementasi Adam presisi campuran yang naif yang bekerja di awal pelatihan tetapi menyebabkan keruntuhan awal, dan tidak melakukan apa pun untuk mengaktifkan inti tensor (hanya mengurangi konsumsi memori). Seperti di atas, mengintegrasikan Apex ke dalam kode ini dan menggunakan teknik pelatihan presisi campuran untuk memanfaatkan inti tensor dan mengurangi konsumsi memori dapat menghasilkan keuntungan kecepatan yang substansial.

Catatan Misc

Lihat Direktori ini untuk Label Imagenet.

Jika Anda menggunakan kode ini, silakan mengutip

 @inproceedings{
brock2018large,
title={Large Scale {GAN} Training for High Fidelity Natural Image Synthesis},
author={Andrew Brock and Jeff Donahue and Karen Simonyan},
booktitle={International Conference on Learning Representations},
year={2019},
url={https://openreview.net/forum?id=B1xsqj09Fm},
}