SD3.5 および SD3 の推論専用の小さなリファレンス実装 - 重みファイルを除く、SD3.5/SD3 を使用した単純な推論に必要なものすべて。
テキスト エンコーダー (OpenAI CLIP-L/14、OpenCLIP bigG、Google T5-XXL) (これらのモデルはすべて公開されています)、VAE デコーダー (以前の SD モデルに似ていますが、16 チャネルで postquantconv ステップがありません) のコードが含まれています。そしてコアの MM-DiT (まったく新しい)。
注: このリポジトリは、パートナー組織による SD3.5/SD3 の実装を支援することを目的としたリファレンス ライブラリです。代替推論には Comfy を使用します。
次のモデルを HuggingFace からmodelsディレクトリにダウンロードします。
このコードは Stability AI SD3 Medium でも機能します。
# Note: on windows use "python" not "python3"
python3 -s -m venv .sd3.5
source .sd3.5/bin/activate
# or on windows: venv/scripts/activate
python3 -s -m pip install -r requirements.txt # Generate a cat using SD3.5 Large model (at models/sd3.5_large.safetensors) with its default settings
python3 sd3_infer.py --prompt " cute wallpaper art of a cat "
# Or use a text file with a list of prompts, using SD3.5 Large
python3 sd3_infer.py --prompt path/to/my_prompts.txt --model models/sd3.5_large.safetensors
# Generate from prompt file using SD3.5 Large Turbo with its default settings
python3 sd3_infer.py --prompt path/to/my_prompts.txt --model models/sd3.5_large_turbo.safetensors
# Generate from prompt file using SD3.5 Medium with its default settings, at 2k resolution
python3 sd3_infer.py --prompt path/to/my_prompts.txt --model models/sd3.5_medium.safetensors --width 1920 --height 1080
# Generate from prompt file using SD3 Medium with its default settings
python3 sd3_infer.py --prompt path/to/my_prompts.txt --model models/sd3_medium.safetensors画像はデフォルトで、 outputs/<MODEL>/<PROMPT>_<DATETIME>_<POSTFIX>に出力されます。出力ディレクトリに接尾辞を追加するには、 --postfix <my_postfix>を追加します。例えば、
python3 sd3_infer.py --prompt path/to/my_prompts.txt --postfix " steps100 " --steps 100生成された画像の解像度を変更するには、 --width <WIDTH> --height <HEIGHT>を追加します。
オプションで、SD3.5-Medium の構造と解剖学的構造の一貫性が向上する可能性があるため、スキップ レイヤ ガイダンスを使用します。
python3 sd3_infer.py --prompt path/to/my_prompts.txt --model models/sd3.5_medium.safetensors --skip_layer_cfg Truesd3_infer.py - エントリ ポイント。拡散モデルの基本的な使用法についてはこれを確認してください。sd3_impls.py - MMDiTX と VAE のラッパーが含まれていますother_impls.py - CLIP モデル、T5 モデル、およびいくつかのユーティリティが含まれていますmmditx.py - MMDiT-X 自体のコアが含まれていますmodels (別途ダウンロード):clip_l.safetensors (OpenAI CLIP-L、SDXL/SD3 と同じ、パブリック コピーを取得できます)clip_g.safetensors (openclip bigG、SDXL/SD3 と同じ、パブリック コピーを取得できます)t5xxl.safetensors (Google T5-v1.1-XXL、公開コピーを取得できます)sd3.5_large.safetensorsまたはsd3.5_large_turbo.safetensorsまたはsd3.5_medium.safetensors (またはsd3_medium.safetensors )ここに含まれるコードは次のものに由来します。
ライセンスコードファイルを確認してください。
other_implsの一部のコードは HuggingFace に由来しており、HuggingFace Transformers Apache2 ライセンスの対象となります。