Auto 1111 SDK:安定した拡散Pythonライブラリ
Auto 1111 SDKは、安定した拡散生成画像、アップスケーリング画像、拡散モデルを使用した画像の編集を使用するための軽量のPythonライブラリです。 [自動1111安定拡散Web UI](https://github.com/automatic1111/stable-diffusion-webui)のすべての主要な機能をカプセル化するモジュール式の軽量のPythonクライアントになるように設計されています。 Auto 1111 SDKは現在、3つの主要なコア機能を提供しています。
- テキストからイメージ、画像間、イメージ、入力、および中断のパイプライン。パイプラインは、安定した拡散Web UIとまったく同じパラメーターをサポートしているため、SDKのWeb UIから作成を簡単に複製できます。
- 数行のコードでEsrganまたはReal Esrgan Upscalerの推論を実行できるアップスケーリングパイプライン。
- Webサイトからモデルを直接ダウンロードするためのCivitAIとの統合。
私たちの不一致に参加してください!
デモ
Auto 1111 SDKの多くの操作を実行できるコラブデモがあります。ここでチェックしてください!!
インストール
Pypiの仮想環境にAuto 1111 SDKをインストールすることをお勧めします。現在、私たちはまだConda環境をサポートしていません。
Auto 1111 SDKの最新バージョン(ControlNetが含まれている)をインストールするには、実行してください。
pip3 install git+https://github.com/saketh12/Auto1111SDK.git
クイックスタート
Auto 1111 SDKで画像を生成するのは非常に簡単です。テキストからイメージ、画像間、イメージ、入力、中断、または安定した拡散のアップスケールの推論を実行するには、これらすべての操作をサポートできるパイプラインが1つあります。これにより、他のソリューションで複数のパイプラインオブジェクトを作成する必要があることから、大量のRAMが節約されます。
from auto1111sdk import StableDiffusionPipeline
pipe = StableDiffusionPipeline ( "<Path to your local safetensors or checkpoint file>" )
prompt = "a picture of a brown dog"
output = pipe . generate_txt2img ( prompt = prompt , height = 1024 , width = 768 , steps = 10 )
output [ 0 ]. save ( "image.png" )
ControlNet
現在、ControlNetはFP32でのみ動作します。すぐにFP16のサポートを追加します。
from auto1111sdk import StableDiffusionPipeline
from auto1111sdk import ControlNetModel
model = ControlNetModel ( model = "<THE CONTROLNET MODEL FILE NAME (WITHOUT EXTENSION)>" ,
image = "<PATH TO IMAGE>" )
pipe = StableDiffusionPipeline ( "<Path to your local safetensors or checkpoint file>" , controlnet = model )
prompt = "a picture of a brown dog"
output = pipe . generate_txt2img ( prompt = prompt , height = 1024 , width = 768 , steps = 10 )
output [ 0 ]. save ( "image.png" )Windowsで実行されます
ここで指示を見つけてください。 Marco Guardigli、[email protected]
ドキュメント
ここでAuto 1111 SDKを使用する方法のより詳細な例/ドキュメントがあります。米国とハグFaceディフューザーの詳細な比較のために、これを読むことができます。
SDXLの使用方法に関する詳細なガイドについては、これを読むことをお勧めします
特徴
- 元のTXT2IMGおよびIMG2IMGモード
- Real EsrganのアップスケールとEsrganのアップスケール(任意のPTHファイルと互換性があります)
- 中断
- インパインティング
- 安定した拡散の高級
- 注意、モデルがもっと注意を払うべきテキストの部分を指定します
((tuxedo))の男 - タキシードにもっと注意を払うでしょう(tuxedo:1.21)の男性 - 代替構文- テキストを選択して、
Ctrl+UpまたはCtrl+Down (またはCommand+UpまたはCommand+Downを使用している場合はコマンド++ダウン)を選択して、選択したテキストに注意を自動的に調整します(匿名ユーザーが貢献したコード)
- Composable Diffusion:複数のプロンプトを一度に使用する方法
- 大文字と
- プロンプトのウェイトもサポートしています:猫:1.2と犬とペンギン:2.2
- さまざまなサンプラーで動作します
- Civit AIおよびRealesrganチェックポイントからモデルを直接ダウンロードします
- カスタムVAEを設定:SDXLを含む任意のモデルで機能します
- 安定した拡散XLパイプラインによるSDXLのサポート
- モデルにカスタム引数を渡します
- No 77プロンプトトークン制限(この制限があるハグイングフェイスディフューザーとは異なり)
ロードマップ
- サポート雇用の追加修正および精製パラメーターの推論。
- Loraのサポートを追加します
- 顔の修復のサポートを追加します
- DreamBoothトレーニングスクリプトのサポートを追加します。
- ControlNetなどのカスタム拡張機能のサポートを追加します。
これらの機能のサポートをすぐに追加します。また、これらの問題に取り組むための貢献も受け入れます!
貢献
Auto1111SDKは継続的に進化しており、コミュニティの関与に感謝しています。バグレポート、機能リクエスト、コードへの寄付など、あらゆる形態の貢献を歓迎します。
GitHubで問題を開くことにより、バグとリクエスト機能を報告します。リポジトリを分岐/クローン化し、変更を使用してプルリクエストを送信することにより、プロジェクトに貢献します。
クレジット
借りたコードのライセンスはSettings -> Licenses画面、およびhtml/licenses.htmlファイルにもあります。
- 自動1111安定した拡散Web UI-https://github.com/automatic1111/stable-diffusion-webui
- 安定した拡散-https://github.com/stability-ai/stablediffusion、https://github.com/compvis/taming-transformers
- k-diffusion-https://github.com/crowsonkb/k-diffusion.git
- esrgan -https://github.com/xinntao/esrgan
- Midas -https://github.com/isl-org/midas
- 最適化のためのアイデア-https://github.com/basujindal/stable-diffusion
- 交差注意レイヤーの最適化-DoggetTX -https://github.com/doggettx/stable-diffusion、迅速な編集のためのオリジナルのアイデア。
- 交差注意レイヤーの最適化-Invokeai、lstein -https://github.com/invoke-ai/invokeai(元々はhttp://github.com/lstein/stable-diffusion)
- サブクロスクロス注意レイヤーの最適化-Alex Birch(Birch-San/Diffusers#1)、Amin Rezaei(https://github.com/aminrezaei0x443/memory-eficient-attention)
- テキストの反転-RinonGal -https://github.com/rinongal/textual_inversion(私たちは彼のコードを使用していませんが、彼のアイデアを使用しています)。
- SD Upscaleのアイデア-https://github.com/jquesnelle/txt2imghd
- MK2を上回るためのノイズ生成-https://github.com/parlance-zz/g-diffuser-bot
- クリップ尋問室のアイデアといくつかのコードを借りる-https://github.com/pharmapicotic/clip-interrogator
- Composable Diffusionのアイデア-https://github.com/Energy Based-model/compositional-visual-generation-composable-diffusion-models-pytorch
- Xformers -https://github.com/facebookresearch/xformers
- float32 float16 unetからのfloat32のサンプリング-marunine for the idea、diffusers実装の例(https://github.com/birch-san/diffusers-play/tree/92feeee6)の例