Download Structured_Dreambooth_LoRA - Download Kode Sumber Structured_Dreambooth

Structured_Dreambooth_LoRA

Kode Sumber AI

1.0.0

Unduh

Dreambooth terstruktur dengan lora

1. Pengenalan

Ini adalah adaptasi naif dari DreamBooth_lora dengan memeluk wajah? dengan modifikasi berikut:
- Kode terstruktur: Kami menytruktur kembali kode asli menjadi modul yang berbeda, termasuk models , datasets , engines , tools , utils , untuk membuatnya lebih mudah dibaca dan dipelihara, dan dapat dengan mudah diperluas ke tugas lain.
- Komentar terperinci: Kami menambahkan komentar terperinci ke kode untuk membuatnya lebih mudah dipahami

IMGS

2. Instalasi

Instal dependensi

conda create -n dreambooth python=3.8
conda activate dreambooth
# install pytorch
pip install torch==1.12.1+cu113 torchvision==0.13.1+cu113 --extra-index-url https://download.pytorch.org/whl/cu113
# install diffusers from source
pip install git+https://github.com/huggingface/diffusers
pip install -r requirements.txt

3. Pelatihan

3.1. Berlatih dengan pengaturan default (disarankan)

Ini akan melatih model dengan pengaturan default, termasuk resolusi 512x512, memori GPU 8GB ditempati, 1 gambar per batch, 1 langkah akumulasi gradien, tingkat pembelajaran 2E-4, 150 langkah pelatihan, 4 zaman validasi. Kami menemukan pengaturan ini sudah cukup untuk menghasilkan gambar berkualitas tinggi.
Step1 : Siapkan gambar khusus Anda dan masukkan ke dalam folder. Biasanya, 5 hingga 10 gambar sudah cukup. Kami menyarankan Anda untuk memangkas gambar dengan ukuran yang sama, misalnya, 512x512, untuk menghindari artefak yang tidak diinginkan.
Step2 : Inisialisasi lingkungan yang dipercepat. Accelerate adalah perpustakaan Pytorch yang menyederhanakan proses meluncurkan pelatihan multi-GPU dan pekerjaan evaluasi. Ini dikembangkan dengan memeluk wajah.
```
accelerate config
```

Step3 : Jalankan skrip pelatihan. Kedua pos pemeriksaan dan sampel akan disimpan di folder work_dirs . Biasanya, hanya dibutuhkan 1-2 menit untuk menyempurnakan model dengan hanya 8GB GPU yang memori . 150 zaman sudah cukup untuk melatih objek, namun, saat berlatih di wajah manusia, kami sarankan Anda untuk berlatih 800 zaman. Hyper-parameter dari DreamBooth cukup sensitif, Anda dapat merujuk ke blog asli untuk beberapa wawasan.

accelerate launch main.py 
--pretrained_model_name_or_path= " runwayml/stable-diffusion-v1-5 " 
--instance_data_dir= " imgs/dogs " 
--instance_prompt= " a photo of sks dog " 
--validation_prompt= " a photo of sks dog is swimming " 
--with_prior_preservation 
--class_prompt== ' a photo of dog ' 
--resolution=512 
--train_batch_size=1 
--gradient_accumulation_steps=1 
--learning_rate=2e-4 
--max_train_steps=150 
--validation_epochs 4

3.2. Pelatihan dengan kerugian pra-pemeliharaan sebelumnya

Pelestarian sebelumnya digunakan untuk menghindari overfitting dan drift bahasa (lihat makalah untuk mempelajari lebih lanjut jika Anda tertarik). Untuk pelestarian sebelumnya, Anda menggunakan gambar lain dari kelas yang sama sebagai bagian dari proses pelatihan. Yang menyenangkan adalah Anda dapat menghasilkan gambar -gambar itu menggunakan model difusi stabil itu sendiri! Script pelatihan akan menyimpan gambar yang dihasilkan ke jalur lokal yang Anda tentukan.

accelerate launch main.py 
--pretrained_model_name_or_path= " runwayml/stable-diffusion-v1-5 " 
--instance_data_dir= " imgs/dogs " 
--instance_prompt= " a photo of sks dog " 
--validation_prompt= " a photo of sks dog is swimming " 
--resolution=512 
--train_batch_size=1 
--gradient_accumulation_steps=1 
--learning_rate=2e-4 
--max_train_steps=150 
--validation_epochs 10

3.3. Pelatihan dengan encoder teks (tidak disarankan)

Anda tidak bisa menyempurnakan encoder teks (klip) dengan lora. Namun kami menemukan ini mengarah pada hasil yang tidak bertumpu. Fenomena ini berlawanan dengan hasil yang dilaporkan dalam implementasi asli

accelerate launch main.py 
--pretrained_model_name_or_path= " runwayml/stable-diffusion-v1-5 " 
--instance_data_dir= " imgs/dogs " 
--instance_prompt= " a photo of sks dog " 
--validation_prompt= " a photo of sks dog is swimming " 
--with_prior_preservation 
--train_text_encoder 
--class_prompt== ' a photo of dog ' 
--resolution=512 
--train_batch_size=1 
--gradient_accumulation_steps=1 
--learning_rate=2e-4 
--max_train_steps=150 
--validation_epochs 4

4. Inferensi

Setelah pelatihan, Anda dapat menggunakan perintah berikut untuk menghasilkan gambar dari prompt. Kami juga menyediakan pos pemeriksaan pretrained untuk anjing (dalam contoh)

wget https://github.com/Mountchicken/Structured_Dreambooth_LoRA/releases/download/checkpoint_dog/checkpoint-200.zip
unzip -q checkpoint-200.zip

 accelerate launch main.py 
 --pretrained_model_name_or_path= " runwayml/stable-diffusion-v1-5 " 
 --checkpoint_dir= " checkpoint-200 " 
 --prompt= " A photo of sks dog is swimming 
 --output_dir= $OUTPUT_DIR