Auto 1111 SDK: Library Python การแพร่กระจายที่เสถียร
Auto 1111 SDK เป็นไลบรารี Python ที่มีน้ำหนักเบาสำหรับการใช้การแพร่กระจายที่เสถียรการสร้างภาพภาพที่เพิ่มขึ้นและการแก้ไขภาพด้วยโมเดลการแพร่กระจาย มันถูกออกแบบมาให้เป็นไคลเอนต์ Python ที่มีน้ำหนักเบาและมีน้ำหนักเบาที่ห่อหุ้มคุณสมบัติหลักทั้งหมดของ [Automatic 1111 การแพร่กระจายเว็บ UI UI] (https://github.com/automatic1111/stable-diffusion-webui) Auto 1111 SDK มีคุณสมบัติหลักหลัก 3 ประการในปัจจุบัน:
- ข้อความถึงภาพ, ภาพเป็นภาพ, inpainting และท่อส่งออกไป ท่อส่งของเรารองรับพารามิเตอร์เดียวกันกับเว็บการแพร่กระจายที่เสถียรดังนั้นคุณสามารถทำซ้ำการสร้างสรรค์จากเว็บ UI บน SDK ได้อย่างง่ายดาย
- การเพิ่มขนาดท่อที่สามารถเรียกใช้การอนุมานสำหรับ esrgan ใด ๆ หรือ enrgan upscaler จริงในรหัสไม่กี่บรรทัด
- การรวมกับ Civit AI เพื่อดาวน์โหลดรุ่นโดยตรงจากเว็บไซต์
เข้าร่วม Discord ของเรา !!
การสาธิต
เรามีการสาธิต colab ที่คุณสามารถเรียกใช้การดำเนินงานของ Auto 1111 SDK จำนวนมาก ตรวจสอบที่นี่ !!
การติดตั้ง
เราขอแนะนำให้ติดตั้ง Auto 1111 SDK ในสภาพแวดล้อมเสมือนจริงจาก PYPI ตอนนี้เรายังไม่ได้รับการสนับสนุนสำหรับสภาพแวดล้อม conda
ในการติดตั้ง Auto 1111 SDK เวอร์ชันล่าสุด (พร้อมตัวควบคุมตอนนี้รวมอยู่) Run:
pip3 install git+https://github.com/saketh12/Auto1111SDK.git
เร็ว
การสร้างภาพด้วย Auto 1111 SDK นั้นง่ายมาก ในการเรียกใช้การอนุมานสำหรับข้อความถึงภาพ, ภาพเป็นภาพ, inpainting, outpainting หรือการแพร่กระจายที่มั่นคงเรามี 1 ไปป์ไลน์ที่สามารถรองรับการดำเนินการเหล่านี้ทั้งหมด สิ่งนี้จะช่วยประหยัด RAM จำนวนมากจากการสร้างวัตถุไปป์ไลน์หลายรายการด้วยโซลูชันอื่น ๆ
from auto1111sdk import StableDiffusionPipeline
pipe = StableDiffusionPipeline ( "<Path to your local safetensors or checkpoint file>" )
prompt = "a picture of a brown dog"
output = pipe . generate_txt2img ( prompt = prompt , height = 1024 , width = 768 , steps = 10 )
output [ 0 ]. save ( "image.png" )
การควบคุม
ตอนนี้ ControlNet ใช้งานได้กับ FP32 เท่านั้น เรากำลังเพิ่มการสนับสนุนสำหรับ FP16 เร็ว ๆ นี้
from auto1111sdk import StableDiffusionPipeline
from auto1111sdk import ControlNetModel
model = ControlNetModel ( model = "<THE CONTROLNET MODEL FILE NAME (WITHOUT EXTENSION)>" ,
image = "<PATH TO IMAGE>" )
pipe = StableDiffusionPipeline ( "<Path to your local safetensors or checkpoint file>" , controlnet = model )
prompt = "a picture of a brown dog"
output = pipe . generate_txt2img ( prompt = prompt , height = 1024 , width = 768 , steps = 10 )
output [ 0 ]. save ( "image.png" )ทำงานบน Windows
ค้นหาคำแนะนำที่นี่ สนับสนุนโดย Marco Guardigli, [email protected]
เอกสาร
เรามีตัวอย่างรายละเอียดเพิ่มเติม/เอกสารเกี่ยวกับวิธีที่คุณสามารถใช้ Auto 1111 SDK ได้ที่นี่ สำหรับการเปรียบเทียบรายละเอียดระหว่างเรากับ huggingface diffusers คุณสามารถอ่านสิ่งนี้ได้
สำหรับคู่มือโดยละเอียดเกี่ยวกับวิธีใช้ SDXL เราขอแนะนำให้อ่านสิ่งนี้
คุณสมบัติ
- โหมด txt2img และ img2img ดั้งเดิม
- real esrgan upscale และ esrgan upscale (เข้ากันได้กับไฟล์ PTH ใด ๆ )
- การทำมากกว่า
- การทาสี
- การแพร่กระจายที่เสถียร
- ความสนใจระบุบางส่วนของข้อความที่โมเดลควรให้ความสนใจมากขึ้น
- ผู้ชายใน
((tuxedo)) - จะให้ความสนใจกับทักซิโด้มากขึ้น - ผู้ชายใน
(tuxedo:1.21) - ไวยากรณ์ทางเลือก - เลือกข้อความและกด
Ctrl+Up หรือ Ctrl+Down (หรือ Command+Up หรือ Command+Down ถ้าคุณใช้ MacOS) เพื่อปรับความสนใจไปที่ข้อความที่เลือกโดยอัตโนมัติ (รหัสที่สนับสนุนโดยผู้ใช้ที่ไม่ระบุชื่อ)
- การแพร่กระจายของ Composable: วิธีใช้หลายพรอมต์ในครั้งเดียว
- แยกพรอมต์โดยใช้ตัวพิมพ์ใหญ่และ
- ยังรองรับน้ำหนักสำหรับการแจ้งเตือน: แมว: 1.2 และสุนัขและเพนกวิน: 2.2
- ทำงานกับตัวอย่างที่หลากหลาย
- ดาวน์โหลดโมเดลโดยตรงจากจุดตรวจ Civit AI และ Realesrgan
- ตั้งค่า VAE ที่กำหนดเอง: ใช้ได้กับทุกรุ่นรวมถึง SDXL
- รองรับ SDXL ด้วยท่อ XL การแพร่กระจายที่เสถียร
- ส่งผ่านอาร์กิวเมนต์ที่กำหนดเองไปยังโมเดล
- No 77 Prompt Token Limit (ไม่เหมือน diffusers huggingface ซึ่งมีขีด จำกัด นี้)
แผนงาน
- การเพิ่มพารามิเตอร์การจ้างงานการสนับสนุนและพารามิเตอร์สำหรับการอนุมาน
- การเพิ่มการสนับสนุนสำหรับ Lora's
- การเพิ่มการสนับสนุนสำหรับการฟื้นฟูใบหน้า
- การเพิ่มการสนับสนุนสำหรับสคริปต์การฝึกอบรม DreamBooth
- การเพิ่มการสนับสนุนสำหรับส่วนขยายที่กำหนดเองเช่น ControlNet
เราจะเพิ่มการสนับสนุนสำหรับคุณสมบัติเหล่านี้ในไม่ช้า นอกจากนี้เรายังยอมรับการมีส่วนร่วมใด ๆ ในการทำงานกับปัญหาเหล่านี้!
การบริจาค
Auto1111 SDK มีการพัฒนาอย่างต่อเนื่องและเราขอขอบคุณการมีส่วนร่วมของชุมชน เรายินดีต้อนรับการมีส่วนร่วมทุกรูปแบบ - รายงานข้อผิดพลาดคำขอคุณสมบัติและการมีส่วนร่วมของรหัส
รายงานข้อบกพร่องและคุณสมบัติการร้องขอโดยการเปิดปัญหาเกี่ยวกับ GitHub มีส่วนร่วมในโครงการโดยการฟอร์ต/โคลนที่เก็บและส่งคำขอดึงด้วยการเปลี่ยนแปลงของคุณ
การให้เครดิต
ใบอนุญาตสำหรับรหัสที่ยืมสามารถพบได้ใน Settings -> Licenses และในไฟล์ html/licenses.html
- Automatic 1111 Web Diffusion ที่เสถียร-https://github.com/automatic1111/stable-diffusion-webui
- การแพร่กระจายที่เสถียร-https://github.com/stability-ai/stablediffusion, https://github.com/compvis/taming-transformers
- k-diffusion-https://github.com/crowsonkb/k-diffusion.git
- esrgan - https://github.com/xinntao/esrgan
- midas - https://github.com/isl-org/midas
- แนวคิดสำหรับการเพิ่มประสิทธิภาพ - https://github.com/basujindal/stable-diffusion
- Cross Attention Layer Optimization - DoggetTX - https://github.com/doggettx/stable-diffusion แนวคิดดั้งเดิมสำหรับการแก้ไขที่รวดเร็ว
- การเพิ่มประสิทธิภาพเลเยอร์ความสนใจข้าม - Invokeai, Lstein - https://github.com/invoke-ai/invokeai (เดิม http://github.com/lstein/stable-diffusion)
- การเพิ่มประสิทธิภาพเลเยอร์ความสนใจแบบควอดิติกแบบควอนซ์-อเล็กซ์เบิร์ช (เบิร์ช-ซัง/ดิฟฟิวเซอร์#1), Amin Rezaei (https://github.com/aminrezaei0x443/memory-efficient-attention)
- Textual Inversion - Rinon Gal - https://github.com/rinongal/textual_inversion (เราไม่ได้ใช้รหัสของเขา แต่เรากำลังใช้ความคิดของเขา)
- แนวคิดสำหรับ SD Upscale - https://github.com/jquesnelle/txt2imghd
- การสร้างเสียงรบกวนสำหรับ MK2-https://github.com/parlance-zz/g-diffuser-bot
- คลิปแนวคิดการสอบสวนและยืมรหัสบางส่วน - https://github.com/pharmapsychotic/clip-interrogator
- แนวคิดสำหรับการแพร่กระจายแบบผสมผสาน-https://github.com/energy-based-model/Compositional-visual-generation-with-composable-diffusion-models-pytorch
- xformers - https://github.com/facebookresearch/xformers
- การสุ่มตัวอย่างในความแม่นยำ float32 จาก float16 unet-marunine สำหรับความคิด, เบิร์ช-ซังสำหรับตัวอย่างการใช้งาน diffusers (https://github.com/birch-san/diffusers-play/tree/92feee6)