Petite implémentation de référence uniquement par inférence de SD3.5 et SD3 - tout ce dont vous avez besoin pour une inférence simple à l'aide de SD3.5/SD3, à l'exclusion des fichiers de pondération.
Contient le code pour les encodeurs de texte (OpenAI CLIP-L/14, OpenCLIP bigG, Google T5-XXL) (ces modèles sont tous publics), le décodeur VAE (similaire aux modèles SD précédents, mais 16 canaux et aucune étape de postquantconv), et le noyau MM-DiT (entièrement nouveau).
Remarque : ce dépôt est une bibliothèque de référence destinée à aider les organisations partenaires à mettre en œuvre SD3.5/SD3. Pour une inférence alternative, utilisez Comfy.
Téléchargez les modèles suivants depuis HuggingFace dans le répertoire models :
Ce code fonctionne également pour Stability AI SD3 Medium.
# Note: on windows use "python" not "python3"
python3 -s -m venv .sd3.5
source .sd3.5/bin/activate
# or on windows: venv/scripts/activate
python3 -s -m pip install -r requirements.txt # Generate a cat using SD3.5 Large model (at models/sd3.5_large.safetensors) with its default settings
python3 sd3_infer.py --prompt " cute wallpaper art of a cat "
# Or use a text file with a list of prompts, using SD3.5 Large
python3 sd3_infer.py --prompt path/to/my_prompts.txt --model models/sd3.5_large.safetensors
# Generate from prompt file using SD3.5 Large Turbo with its default settings
python3 sd3_infer.py --prompt path/to/my_prompts.txt --model models/sd3.5_large_turbo.safetensors
# Generate from prompt file using SD3.5 Medium with its default settings, at 2k resolution
python3 sd3_infer.py --prompt path/to/my_prompts.txt --model models/sd3.5_medium.safetensors --width 1920 --height 1080
# Generate from prompt file using SD3 Medium with its default settings
python3 sd3_infer.py --prompt path/to/my_prompts.txt --model models/sd3_medium.safetensors Les images seront sorties vers outputs/<MODEL>/<PROMPT>_<DATETIME>_<POSTFIX> par défaut. Pour ajouter un suffixe au répertoire de sortie, ajoutez --postfix <my_postfix> . Par exemple,
python3 sd3_infer.py --prompt path/to/my_prompts.txt --postfix " steps100 " --steps 100 Pour modifier la résolution de l'image générée, ajoutez --width <WIDTH> --height <HEIGHT> .
En option, utilisez Skip Layer Guidance pour une cohérence potentiellement meilleure de la structure et de l’anatomie à partir du SD3.5-Medium.
python3 sd3_infer.py --prompt path/to/my_prompts.txt --model models/sd3.5_medium.safetensors --skip_layer_cfg Truesd3_infer.py - point d'entrée, consultez ceci pour l'utilisation de base du modèle de diffusionsd3_impls.py - contient le wrapper autour du MMDiTX et du VAEother_impls.py - contient les modèles CLIP, le modèle T5 et quelques utilitairesmmditx.py - contient le noyau du MMDiT-X lui-mêmemodels de dossiers avec les fichiers suivants (télécharger séparément) :clip_l.safetensors (OpenAI CLIP-L, identique à SDXL/SD3, peut récupérer une copie publique)clip_g.safetensors (openclip bigG, identique à SDXL/SD3, peut récupérer une copie publique)t5xxl.safetensors (google T5-v1.1-XXL, peut récupérer une copie publique)sd3.5_large.safetensors ou sd3.5_large_turbo.safetensors ou sd3.5_medium.safetensors (ou sd3_medium.safetensors )Le code inclus ici provient de :
Vérifiez le fichier LICENSE-CODE.
Certains codes dans other_impls proviennent de HuggingFace et sont soumis à la licence Apache2 de HuggingFace Transformers.