Auto 1111 SDK: مكتبة Python مستقر مستقر
Auto 1111 SDK عبارة عن مكتبة Python خفيفة الوزن لاستخدام الصور المستقرة لتوليد الصور ، وصور الارتفاع ، وتحرير الصور مع نماذج الانتشار. إنه مصمم ليكون عميلًا للبيثون المعياري وخفيف الوزن يلف جميع الميزات الرئيسية لـ [Automatic 1111 Diffusion Web UI] (https://github.com/automatic1111/stable-diffusion-webui). يوفر Auto 1111 SDK 3 ميزات أساسية رئيسية حاليًا:
- نص إلى صورة ، صورة إلى صورة ، inpainting ، و outpainting خطوط الأنابيب. تدعم خطوط الأنابيب لدينا نفس المعلمات بالضبط مثل واجهة المستخدم على الويب المستقرة ، بحيث يمكنك بسهولة تكرار الإبداعات من واجهة المستخدم على الويب على SDK.
- خطوط الأنابيب التي يمكن أن تعمل على تشغيل أي esrgan أو real esrgan upscaler في بضعة أسطر من التعليمات البرمجية.
- تكامل مع Civit AI لتنزيل النماذج مباشرة من الموقع.
انضم إلى خلافنا !!
العرض التوضيحي
لدينا عرض Colab حيث يمكنك تشغيل العديد من عمليات Auto 1111 SDK. تحقق من ذلك هنا !!
تثبيت
نوصي بتثبيت Auto 1111 SDK في بيئة افتراضية من PYPI. في الوقت الحالي ، ليس لدينا دعم لبيئات كوندا حتى الآن.
لتثبيت أحدث إصدار من Auto 1111 SDK (مع ControlNet الآن) ، Run:
pip3 install git+https://github.com/saketh12/Auto1111SDK.git
Quickstart
إن توليد الصور باستخدام Auto 1111 SDK سهل للغاية. لتشغيل الاستدلال على النص إلى صورة ، أو صورة إلى صورة ، أو inpainting ، أو الانتشار المستقر ، أو الانتشار المستقر ، لدينا خط أنابيب واحد يمكن أن يدعم كل هذه العمليات. هذا يوفر الكثير من ذاكرة الوصول العشوائي من الاضطرار إلى إنشاء كائنات أنابيب متعددة مع حلول أخرى.
from auto1111sdk import StableDiffusionPipeline
pipe = StableDiffusionPipeline ( "<Path to your local safetensors or checkpoint file>" )
prompt = "a picture of a brown dog"
output = pipe . generate_txt2img ( prompt = prompt , height = 1024 , width = 768 , steps = 10 )
output [ 0 ]. save ( "image.png" )
Controlnet
الآن ، يعمل ControlNet فقط مع FP32. نضيف دعم FP16 قريبًا جدًا.
from auto1111sdk import StableDiffusionPipeline
from auto1111sdk import ControlNetModel
model = ControlNetModel ( model = "<THE CONTROLNET MODEL FILE NAME (WITHOUT EXTENSION)>" ,
image = "<PATH TO IMAGE>" )
pipe = StableDiffusionPipeline ( "<Path to your local safetensors or checkpoint file>" , controlnet = model )
prompt = "a picture of a brown dog"
output = pipe . generate_txt2img ( prompt = prompt , height = 1024 , width = 768 , steps = 10 )
output [ 0 ]. save ( "image.png" )تشغيل على Windows
ابحث عن التعليمات هنا. ساهم من قبل Marco Guardigli ، [email protected]
الوثائق
لدينا أمثلة/وثائق أكثر تفصيلاً حول كيفية استخدام Auto 1111 SDK هنا. لمقارنة مفصلة بيننا وناشر Huggingface ، يمكنك قراءة هذا.
للحصول على دليل مفصل حول كيفية استخدام SDXL ، نوصي بقراءة هذا
سمات
- أوضاع TXT2IMG الأصلية و IMG2IMG
- راقية راقية و ESRGAN راقية (متوافقة مع أي ملف PTH)
- الخروج
- inpainting
- انتشار مستقر راقي
- الانتباه ، حدد أجزاء من النص الذي يجب على النموذج إيلاء المزيد من الاهتمام إليه
- رجل في
((tuxedo)) - سوف يولي المزيد من الاهتمام إلى tuxedo - رجل في A
(tuxedo:1.21) - بناء جملة بديل - حدد نصًا واضغط على
Ctrl+Up أو Ctrl+Down (أو Command+Up أو Command+Down إذا كنت على جهاز MacOS) لضبط الانتباه تلقائيًا إلى النص المحدد (رمز يساهم به مستخدم مجهول)
- الانتشار القابل للتأليف: طريقة لاستخدام مطالبات متعددة مرة واحدة
- مفوضات منفصلة باستخدام الأحرف الكبيرة و
- يدعم أيضًا أوزان المطالبات: قطة: 1.2 وكلب وبطريق: 2.2
- يعمل مع مجموعة متنوعة من العينات
- قم بتنزيل النماذج مباشرة من Civit AI و Realesrgan Checkpoints
- تعيين VAE المخصص: يعمل مع أي نموذج بما في ذلك SDXL
- دعم SDXL مع خطوط أنابيب مستقرة للانتشار XL
- تمرير في الحجج المخصصة إلى النماذج
- لا يوجد 77 حدًا رمزًا موجهًا (على عكس نشرات العناق ، التي لها هذا الحد)
خريطة الطريق
- إضافة الدعم توظيف معلمات إصلاح ومصفاة للاستدلال.
- إضافة دعم لورا
- إضافة دعم لاستعادة الوجه
- إضافة دعم لنص تدريب Dreambooth.
- إضافة دعم لتمديدات مخصصة مثل ControlNet.
سنضيف دعمًا لهذه الميزات قريبًا جدًا. نحن نقبل أيضًا أي مساهمات في العمل على هذه القضايا!
المساهمة
Auto1111 SDK تتطور باستمرار ، ونحن نقدر مشاركة المجتمع. نرحب بجميع أشكال المساهمات - تقارير الأخطاء ، وطلبات الميزات ، ومساهمات التعليمات البرمجية.
الإبلاغ عن الأخطاء وطلب الميزات عن طريق فتح مشكلة على جيثب. المساهمة في المشروع عن طريق forking/استنساخ المستودع وتقديم طلب سحب مع التغييرات الخاصة بك.
الاعتمادات
يمكن العثور على تراخيص الرمز المستعارة في Settings -> Licenses ، وكذلك في ملف html/licenses.html .
- Automatic 1111 Diffusion Web Web UI-https://github.com/automatic1111/stable-diffusion-webui
- انتشار مستقر-https://github.com/stability-ai/stablediffusion ، https://github.com/compvis/taming-transformers
- k-diffusion-https://github.com/crowsonkb/k-diffusion.git
- Esrgan - https://github.com/xinntao/esrgan
- Midas - https://github.com/isl-org/midas
- أفكار للتحسينات - https://github.com/basujindal/stable-diffusion
- تحسين طبقة الانتباه - doggettx - https://github.com/doggettx/stable -diffusion ، الفكرة الأصلية للتحرير السريع.
- تحسين طبقة الانتباه - Invokeai ، Lstein - https://github.com/invoke-ai/invokeai (في الأصل http://github.com/lstein/stable-diffusion)
- تحسين طبقة الانتباه تحت الاكتشاف-أليكس بيرش (بيرش-سان/الناشرون#1) ، أمين ريزاي (https://github.com/aminrezaei0x443/memory- فعالية-رقة)
- الانعكاس النصي - Rinon Gal - https://github.com/rinongal/textual_inversion (نحن لا نستخدم الكود الخاص به ، لكننا نستخدم أفكاره).
- فكرة عن SD الراقية - https://github.com/jquesnelle/txt2imghd
- توليد الضوضاء للوسم MK2-https://github.com/parlance-zz/g-diffuser-bot
- Clip interrogator فكرة واستعارة بعض التعليمات البرمجية - https://github.com/pharmapsychotic/clip-interrogator
- فكرة عن الانتشار القابل للتأليف-https://github.com/energy-model/composition-visal-generation-with-composable-diffusion-models-pytorch
- Xformers - https://github.com/facebookresearch/xformers
- أخذ العينات في دقة Float32 من unet16 unet-marunine للفكرة ، birch-san لتنفيذ الناشرون على سبيل المثال (https://github.com/birch-san/diffusers-play/tree/92feee6)