Download sd3.5 - download do código-fonte sd3.5

sd3.5

Outro código-fonte

Baixar

Difusão Estável 3.5

Implementação de referência minúscula somente para inferência de SD3.5 e SD3 - tudo que você precisa para inferência simples usando SD3.5/SD3, excluindo os arquivos de pesos.

Contém código para os codificadores de texto (OpenAI CLIP-L/14, OpenCLIP bigG, Google T5-XXL) (esses modelos são todos públicos), o decodificador VAE (semelhante aos modelos SD anteriores, mas 16 canais e nenhuma etapa pós-quantconv), e o núcleo MM-DiT (inteiramente novo).

Observação: este repositório é uma biblioteca de referência destinada a auxiliar organizações parceiras na implementação do SD3.5/SD3. Para inferência alternativa, use Comfy.

Atualizações

29 de outubro de 2024: Lançado código de inferência para SD3.5-Medium.
24 de outubro de 2024: Licença de código atualizada para licença MIT.
22 de outubro de 2024: Lançado código de inferência para SD3.5-Large, Large-Turbo. Também funciona em SD3-Medium.

Download

Baixe os seguintes modelos do HuggingFace no diretório models :

Estabilidade AI SD3.5 Grande ou Estabilidade AI SD3.5 Grande Turbo ou Estabilidade AI SD3.5 Média
OpenAI CLIP-L
OpenCLIP grandeG
Google T5-XXL

Este código também funciona para Stability AI SD3 Medium.

Instalar

 # Note: on windows use "python" not "python3"
python3 -s -m venv .sd3.5
source .sd3.5/bin/activate
# or on windows: venv/scripts/activate
python3 -s -m pip install -r requirements.txt

Correr

 # Generate a cat using SD3.5 Large model (at models/sd3.5_large.safetensors) with its default settings
python3 sd3_infer.py --prompt " cute wallpaper art of a cat "
# Or use a text file with a list of prompts, using SD3.5 Large
python3 sd3_infer.py --prompt path/to/my_prompts.txt --model models/sd3.5_large.safetensors
# Generate from prompt file using SD3.5 Large Turbo with its default settings
python3 sd3_infer.py --prompt path/to/my_prompts.txt --model models/sd3.5_large_turbo.safetensors
# Generate from prompt file using SD3.5 Medium with its default settings, at 2k resolution
python3 sd3_infer.py --prompt path/to/my_prompts.txt --model models/sd3.5_medium.safetensors --width 1920 --height 1080
# Generate from prompt file using SD3 Medium with its default settings
python3 sd3_infer.py --prompt path/to/my_prompts.txt --model models/sd3_medium.safetensors

As imagens serão enviadas para outputs/<MODEL>/<PROMPT>_<DATETIME>_<POSTFIX> por padrão. Para adicionar um postfix ao diretório de saída, adicione --postfix <my_postfix> . Por exemplo,

python3 sd3_infer.py --prompt path/to/my_prompts.txt --postfix " steps100 " --steps 100

Para alterar a resolução da imagem gerada, adicione --width <WIDTH> --height <HEIGHT> .

Opcionalmente, use Skip Layer Guidance para potencialmente melhor estrutura e coerência anatômica do SD3.5-Medium.

python3 sd3_infer.py --prompt path/to/my_prompts.txt --model models/sd3.5_medium.safetensors --skip_layer_cfg True

Guia de arquivos

sd3_infer.py - ponto de entrada, revise isto para uso básico do modelo de difusão
sd3_impls.py - contém o wrapper em torno do MMDiTX e do VAE
other_impls.py - contém os modelos CLIP, o modelo T5 e alguns utilitários
mmditx.py - contém o núcleo do próprio MMDiT-X
pasta models com os seguintes arquivos (baixar separadamente):
- clip_l.safetensors (OpenAI CLIP-L, igual a SDXL/SD3, pode obter uma cópia pública)
- clip_g.safetensors (openclip bigG, igual a SDXL/SD3, pode obter uma cópia pública)
- t5xxl.safetensors (google T5-v1.1-XXL, pode obter uma cópia pública)
- sd3.5_large.safetensors ou sd3.5_large_turbo.safetensors ou sd3.5_medium.safetensors (ou sd3_medium.safetensors )

Origem do código

O código incluído aqui se origina de:

Repositório de código de pesquisa interno Stability AI (MM-DiT)
Repositórios públicos de estabilidade AI (por exemplo, VAE)
Algum código exclusivo para este repositório de referência escrito por Alex Goodwin e Vikram Voleti para Stability AI
Algum código da implementação de estabilidade interna do ComfyUI do SD3 (para algumas correções de código e manipuladores)
HuggingFace e provedores upstream (para seções do código CLIP/T5)