Auto 1111 SDK: Perpustakaan Python Difusi Stabil
Auto 1111 SDK adalah perpustakaan Python yang ringan untuk menggunakan gambar pembangkit difusi yang stabil, gambar peningkatan, dan mengedit gambar dengan model difusi. Ini dirancang untuk menjadi klien Python modular, ringan yang merangkum semua fitur utama dari [Otomatis 1111 Web Diffusion Web UI] (https://github.com/automatic1111/stable-diffusion-webui). AUTO 1111 SDK menawarkan 3 fitur inti utama saat ini:
- Teks-ke-gambar, gambar-ke-gambar, inpainting, dan melampaui pipa. Pipa kami mendukung parameter yang sama persis dengan UI Web Difusi yang stabil, sehingga Anda dapat dengan mudah mereplikasi kreasi dari Web UI di SDK.
- Pipa -saluran peningkatan yang dapat menjalankan inferensi untuk Esrgan atau Esrgan Upscaler apa pun dalam beberapa baris kode.
- Integrasi dengan Civit AI untuk langsung mengunduh model dari situs web.
Bergabunglah dengan Perselisihan Kami !!
Demo
Kami memiliki demo Colab di mana Anda dapat menjalankan banyak operasi Auto 1111 SDK. Lihat di sini !!
Instalasi
Kami merekomendasikan untuk menginstal Auto 1111 SDK di lingkungan virtual dari PYPI. Saat ini, kami belum memiliki dukungan untuk lingkungan Conda.
Untuk menginstal versi terbaru Auto 1111 SDK (dengan ControlNet sekarang termasuk), jalankan:
pip3 install git+https://github.com/saketh12/Auto1111SDK.git
QuickStart
Menghasilkan gambar dengan Auto 1111 SDK sangat mudah. Untuk menjalankan inferensi untuk teks-ke-gambar, gambar-ke-gambar, inpainting, kelebihan, atau difusi stabil kelas atas, kami memiliki 1 pipa yang dapat mendukung semua operasi ini. Ini menghemat banyak RAM dari keharusan membuat beberapa objek pipa dengan solusi lain.
from auto1111sdk import StableDiffusionPipeline
pipe = StableDiffusionPipeline ( "<Path to your local safetensors or checkpoint file>" )
prompt = "a picture of a brown dog"
output = pipe . generate_txt2img ( prompt = prompt , height = 1024 , width = 768 , steps = 10 )
output [ 0 ]. save ( "image.png" )
ControlNet
Saat ini, ControlNet hanya bekerja dengan FP32. Kami segera menambahkan dukungan untuk FP16.
from auto1111sdk import StableDiffusionPipeline
from auto1111sdk import ControlNetModel
model = ControlNetModel ( model = "<THE CONTROLNET MODEL FILE NAME (WITHOUT EXTENSION)>" ,
image = "<PATH TO IMAGE>" )
pipe = StableDiffusionPipeline ( "<Path to your local safetensors or checkpoint file>" , controlnet = model )
prompt = "a picture of a brown dog"
output = pipe . generate_txt2img ( prompt = prompt , height = 1024 , width = 768 , steps = 10 )
output [ 0 ]. save ( "image.png" )Berjalan di windows
Temukan instruksinya di sini. Dikontribusikan oleh Marco Guardigli, [email protected]
Dokumentasi
Kami memiliki contoh/dokumentasi yang lebih rinci tentang bagaimana Anda dapat menggunakan Auto 1111 SDK di sini. Untuk perbandingan terperinci antara kami dan diffuser Huggingface, Anda dapat membaca ini.
Untuk panduan terperinci tentang cara menggunakan SDXL, kami sarankan membaca ini
Fitur
- Mode TXT2IMG dan IMG2IMG Asli
- Esrgan Real Esrgan dan Esrgan kelas atas (kompatibel dengan file PTH apa pun)
- Melampaui
- Inpainting
- Difusi kelas atas yang stabil
- Perhatian, tentukan bagian teks yang harus lebih memperhatikan model
- Seorang pria di
((tuxedo)) - akan lebih memperhatikan tuksedo - A Man in a
(tuxedo:1.21) - Sintaks Alternatif - Pilih Teks dan tekan
Ctrl+Up atau Ctrl+Down (atau Command+Up atau Command+Down Jika Anda menggunakan MacOS) untuk secara otomatis menyesuaikan perhatian pada teks yang dipilih (kode yang dikontribusikan oleh pengguna anonim)
- Difusi yang dapat dikomposisi: cara untuk menggunakan beberapa petunjuk sekaligus
- petunjuk terpisah menggunakan huruf besar dan
- Juga mendukung bobot untuk petunjuk: kucing: 1.2 dan anjing dan penguin: 2.2
- Bekerja dengan berbagai sampler
- Unduh model langsung dari Civit AI dan Realesrgan Checkpoints
- Setel VAE Kustom: Bekerja untuk model apa pun termasuk SDXL
- Dukungan untuk SDXL dengan difusi stabil XL Pipeline
- Meneruskan argumen khusus kepada model
- No 77 Batas token prompt (tidak seperti diffuser huggingface, yang memiliki batas ini)
Peta jalan
- Menambahkan Parameter Perbaikan Perbaikan dan Penyempurnaan Dukungan untuk Inferensi.
- Menambahkan dukungan untuk Lora
- Menambahkan dukungan untuk pemulihan wajah
- Menambahkan dukungan untuk skrip pelatihan DreamBooth.
- Menambahkan dukungan untuk ekstensi khusus seperti ControlNet.
Kami akan segera menambahkan dukungan untuk fitur -fitur ini. Kami juga menerima kontribusi apa pun untuk mengerjakan masalah ini!
Berkontribusi
Auto1111 SDK terus berkembang, dan kami menghargai keterlibatan masyarakat. Kami menyambut semua bentuk kontribusi - laporan bug, permintaan fitur, dan kontribusi kode.
Laporkan bug dan meminta fitur dengan membuka masalah di GitHub. Berkontribusi pada proyek dengan mencari/mengkloning repositori dan mengirimkan permintaan tarik dengan perubahan Anda.
Kredit
Lisensi untuk Kode Pinjaman dapat ditemukan di Layar Settings -> Licenses , dan juga dalam file html/licenses.html .
- Otomatis 1111 Web Difusi Stabil UI-https://github.com/automatic1111/stable-diffusion-webui
- Difusi stabil-https://github.com/stability-ai/stablediffusion, https://github.com/compvis/taming-transformers
- K-Diffusion-https://github.com/crowsonkb/k-diffusion.git
- Esrgan - https://github.com/xinntao/esrgan
- Midas - https://github.com/isl-org/midas
- Ide untuk Optimalisasi - https://github.com/basujindal/stable-diffusion
- Optimalisasi Lapisan Perhatian Cross - Doggettx - https://github.com/doggettx/stable-diffusion, ide asli untuk pengeditan yang cepat.
- Optimalisasi Lapisan Perhatian Cross - Invokeai, Lstein - https://github.com/invoke-ai/invokeai (aslinya http://github.com/lstein/stable-diffusion)
- Optimalisasi Lapisan Perhatian Sub-Quadratic-Alex Birch (Birch-San/Diffusers#1), Amin Rezaei (https://github.com/aminrezaei0x443/memory-eficient-attention))
- Inversi Tekstual - Rinon Gal - https://github.com/rinongal/textual_inversion (kami tidak menggunakan kodenya, tetapi kami menggunakan idenya).
- Ide untuk SD Upscale - https://github.com/jquesnelle/txt2imghd
- Generasi kebisingan untuk melampaui MK2-https://github.com/parlance-zz/g-diffuser-bot
- Ide klip interogator dan meminjam beberapa kode - https://github.com/pharmapsychotic/clip-intogator
- Ide untuk difusi yang dapat dikomposisi-https://github.com/energy-berbasis-model/compositional-visual-generation-with-composable-diffusion-models-pytorch
- xformers - https://github.com/facebookResearch/xformers
- Pengambilan sampel dalam presisi float32 dari float16 unet-marunine untuk ide, birch-san untuk contoh implementasi diffusers (https://github.com/birch-san/diffusers-play/tree/92feee6)