자동 1111 SDK : 안정적인 확산 파이썬 라이브러리
Auto 1111 SDK는 안정적인 확산 생성 이미지, 업 스케일링 이미지 및 확산 모델로 이미지를 편집하기위한 가벼운 파이썬 라이브러리입니다. [자동 1111 안정 확산 웹 UI] (https://github.com/automatic1111/stable-diffusion-webui)의 모든 주요 기능을 캡슐화하는 모듈 식 가벼운 파이썬 클라이언트로 설계되었습니다. Auto 1111 SDK는 현재 3 가지 주요 핵심 기능을 제공합니다.
- 텍스트-이미지, 이미지-이미지, 인파화 및 파이프 라인을 능가합니다. 당사의 파이프 라인은 안정적인 확산 웹 UI와 동일한 매개 변수를 지원하므로 SDK의 웹 UI에서 크리에이션을 쉽게 복제 할 수 있습니다.
- 몇 줄의 코드로 Esrgan 또는 Real Esrgan Upscaler에 대한 추론을 실행할 수있는 업 스케일링 파이프 라인.
- 웹 사이트에서 모델을 직접 다운로드하기위한 Civit AI와의 통합.
우리의 불화에 가입하십시오 !!
데모
Auto 1111 SDK의 많은 작업을 실행할 수있는 Colab 데모가 있습니다. 여기에서 확인하십시오 !!
설치
PYPI의 가상 환경에 Auto 1111 SDK를 설치하는 것이 좋습니다. 지금은 아직 콘다 환경을 지원하지 않습니다.
최신 버전의 Auto 1111 SDK (Controlnet 포함 포함)를 설치하려면 실행하십시오.
pip3 install git+https://github.com/saketh12/Auto1111SDK.git
QuickStart
자동 1111 SDK로 이미지를 생성하는 것은 매우 쉽습니다. 텍스트-이미지, 이미지-이미지, 인화, 유도 또는 안정적인 확산 고급에 대한 추론을 실행하려면 이러한 모든 작업을 지원할 수있는 1 개의 파이프 라인이 있습니다. 이로 인해 많은 RAM이 다른 솔루션으로 여러 파이프 라인 객체를 만들지 않아도됩니다.
from auto1111sdk import StableDiffusionPipeline
pipe = StableDiffusionPipeline ( "<Path to your local safetensors or checkpoint file>" )
prompt = "a picture of a brown dog"
output = pipe . generate_txt2img ( prompt = prompt , height = 1024 , width = 768 , steps = 10 )
output [ 0 ]. save ( "image.png" )
Controlnet
현재 Controlnet은 FP32에서만 작동합니다. 우리는 곧 FP16에 대한 지원을 추가하고 있습니다.
from auto1111sdk import StableDiffusionPipeline
from auto1111sdk import ControlNetModel
model = ControlNetModel ( model = "<THE CONTROLNET MODEL FILE NAME (WITHOUT EXTENSION)>" ,
image = "<PATH TO IMAGE>" )
pipe = StableDiffusionPipeline ( "<Path to your local safetensors or checkpoint file>" , controlnet = model )
prompt = "a picture of a brown dog"
output = pipe . generate_txt2img ( prompt = prompt , height = 1024 , width = 768 , steps = 10 )
output [ 0 ]. save ( "image.png" )Windows에서 실행
여기에서 지침을 찾으십시오. Marco Guardigli, [email protected]에 의해 기여합니다
선적 서류 비치
Auto 1111 SDK를 사용하는 방법에 대한 자세한 예/문서가 있습니다. 우리와 Huggingface Diffusers의 자세한 비교를 위해서는 이것을 읽을 수 있습니다.
SDXL 사용 방법에 대한 자세한 안내서를 보려면이 글을 읽는 것이 좋습니다.
특징
- 원래 txt2img 및 img2img 모드
- Real Esrgan Upscale 및 Esrgan Upscale (PTH 파일과 호환)
- 유도
- 입학
- 안정적인 확산 상향
- 주의, 모델이 더 많은 관심을 기울여야하는 텍스트의 일부를 지정하십시오.
- A
((tuxedo)) 의 남자 - 턱시도에 더 많은 관심을 기울일 것입니다. - A
(tuxedo:1.21) 의 남자 - 대체 구문 - 텍스트를 선택하고
Ctrl+Up 또는 Ctrl+Down (또는 macOS에있는 경우 Command+Up 또는 Command+Down ) 선택한 텍스트에주의를 자동으로 조정하십시오 (익명 사용자가 기여한 코드).
- 합성 가능한 확산 : 한 번에 여러 프롬프트를 사용하는 방법
- 대문자를 사용하여 별도의 프롬프트
- 프롬프트의 무게도 지원합니다 : 고양이 : 1.2와 개와 펭귄 : 2.2
- 다양한 샘플러와 함께 작동합니다
- Civit AI 및 RealEsrgan 체크 포인트에서 모델을 직접 다운로드하십시오
- SET CUSTOM VAE : SDXL을 포함한 모든 모델에서 작동합니다
- 안정적인 확산 XL 파이프 라인을 갖춘 SDXL 지원
- 사용자 정의 인수를 모델에 전달하십시오
- No 77 프롬프트 토큰 제한 (이 제한이있는 Huggingface Diffusers와 달리)
로드맵
- 지원을위한 지원 고용 수정 및 정유소 매개 변수 추가.
- Lora에 대한 지원 추가
- 얼굴 복원 지원 추가
- Dreambooth Training Script에 대한 지원 추가.
- Controlnet과 같은 사용자 정의 확장에 대한 지원 추가.
우리는 이러한 기능에 대한 지원을 곧 추가 할 것입니다. 우리는 또한 이러한 문제에 대한 작업에 대한 기여도를 받아들입니다!
기여
Auto1111 SDK는 지속적으로 진화하고 있으며 커뮤니티 참여에 감사드립니다. 우리는 버그 보고서, 기능 요청 및 코드 기여와 같은 모든 형태의 기여를 환영합니다.
GitHub에서 문제를 열어 버그를보고하고 기능을 요청하십시오. 저장소를 포킹/복제하고 변경 사항에 따라 풀 요청을 제출하여 프로젝트에 기여하십시오.
크레딧
빌린 코드의 라이센스는 Settings -> Licenses 화면 및 html/licenses.html 파일에서 찾을 수 있습니다.
- 자동 1111 안정적인 확산 웹 UI-https://github.com/automatic1111/stable-diffusion-webui
- 안정적인 확산 -https://github.com/stability-ai/stableiffusion, https://github.com/compvis/taming-transformers
- k-diffusion-https://github.com/crowsonkb/k-diffusion.git
- esrgan -https://github.com/xinntao/esrgan
- Midas -https://github.com/isl-org/midas
- 최적화를위한 아이디어 -https://github.com/basujindal/stable-diffusion
- 교차주의 계층 최적화 -DoggetTX -https://github.com/doggettx/stable-diffusion, 프롬프트 편집을위한 독창적 인 아이디어.
- 크로스주의 레이어 최적화 -Bokeai, Lstein -https://github.com/invoke-ai/invokeai (원래 http://github.com/lstein/stable-diffusion)
- 서브 쿼드 라틱 크로스주의 층 최적화-Alex Birch (Birch-San/Diffusers#1), Amin Rezaei (https://github.com/aminrezaei0x443/memory-efficial-attention)
- 텍스트 반전 -Rinon Gal -https://github.com/rinongal/textual_inversion (우리는 그의 코드를 사용하지 않지만 그의 아이디어를 사용하고 있습니다).
- SD 업 스케일 아이디어 -https://github.com/jquesnelle/txt2imghd
- mk2를 능가하기위한 소음 생성 -https://github.com/parlance-zz/g-diffuser-bot
- 심문자 아이디어를 클립하고 일부 코드를 빌리십시오 -https://github.com/pharmapsychotic/clip-interrogator
- 종합 가능한 확산에 대한 아이디어 -https://github.com/energy 기반-model/compositional-visual-generation-with-composable-diffusion-pytorch
- xformers- https://github.com/facebookresearch/xformers
- Float16 Unet-Marunine에서 Float32 정밀도 샘플링 아이디어를위한 마루 닌, 예제 Difpusers 구현 (https://github.com/birch-san/diffusers-play/tree/92feee6).