Dreambooth Stable Diffusionダウンロード-Dreambooth Dreambooth Stable Diffusionソースコードダウンロード

Dreambooth Stable Diffusion

その他のソースコード

1.0.0

ダウンロード

Yushanによる拡張Dreamboothハウツーガイド

vast.aiで実行するため
Google Colabで実行するため
ローカルPC（Windows）で実行するため
ローカルPCで実行するため（ubuntu）
Corridor DigitalのDreamboothチュートリアルをJoepennaのレポに適応させます
JoepennaのDreamboothのキャプションを使用します

索引

ジョー・ペンナによるメモ
設定
- 簡単なrunpod命令
- vast.aiセットアップ
- ローカルで実行します
  - venv
  - コマンド
- 構成ファイルとコマンドラインの参照
キャプションと複数のサブジェクト/コンセプトサポート
テキストの反転とドリームブース
生成されたモデルを使用します
結果をデバッグします
- 彼らはあなたのように見えません！
- 彼らはあなたのように見えますが、あなたのトレーニング画像とまったく同じです
- 彼らはあなたのように見えますが、あなたが別のスタイルを試すときではありません
顔のディフューザーを抱き締める

以前は「Dreambooth」として知られていたレポ

ジョー・ペンナによるメモ

紹介！

こんにちは！私の名前はジョーペンナです。

Mysterguitarmanの下で私のYouTubeビデオをいくつか見たことがあるかもしれません。私は今長編映画監督です。あなたは北極圏やstowawayを見たことがあるかもしれません。

私の映画では、特定の俳優、小道具、場所などを訓練できる必要があります。そのため、人々の顔を訓練するために @Xavierxiaoのリポジトリにたくさんの変更を加えました。

取り組んでいる映画のすべてのテストをリリースすることはできませんが、自分の顔でテストすると、Twitterページ@mysteryguitarmでそれらをリリースします。

これらのテストの多くは、CorridordigitalのNikoである私の仲間で行われました。このレポを見つけた方法かもしれません！

私は本当にコーダーではありません。私はただ頑固で、グーグルを恐れていません。そのため、最終的には、本当に賢い人々が参加し、貢献してきました。このレポでは、具体的には：@djbielejeski @gammagec @mrsaad - しかし、他の多くの人が私たちの不一致です！

これはもう私のレポではありません。これは、Who-Who-wanna-see-see-dreambooth-on-sdworking-wellのレポです！

さて、これをやろうとしている場合は...以下の警告を最初に読んでください。

警告！

スキルを磨くために何年も費やしてきた人々の努力と創造性を尊重しましょう。
- このDreamBoothのイテレーションは、デジタルアーティストが独自のキャラクターやスタイルを安定した拡散モデルに訓練するためだけでなく、人々が自分の肖像を訓練するために特別に設計されました。私の主な目標は、映画製作者が雇ったコンセプトアーティストと対話するためのツールを作成することです。最初のアイデアの種を生成して、視覚的にコミュニケーションできるようにします。映画製作者、コンセプトアーティスト、漫画本デザイナーなどが使用することを意味します。
- ある日、完璧なデータセットで訓練された安定したディフフォシオンがあります。それまでの間、道徳的 /倫理的 /潜在的に法的な理由のために、私は他の誰かの芸術をこれらのモデルに訓練することを強く落胆させます（明示的な許可を得ていない限り、または彼らがこのテクノロジーについて公開された場合を除きます）。同様の理由で、私はあなたのプロンプトでアーティストの名前を使用することをお勧めします。これを可能にした人々を仕事から追い出しないでください！
技術的な側面：
- これで、 24GBのVRAM （たとえば3090）を搭載したGPUでこれを実行できます。トレーニングは遅くなり、これが実行中の唯一のプログラムであることを確認する必要があります。
- 私と同じように、あなたがたまたまそれらの1つを所有していない場合、私はここにJupyterノートを含めて、レンタルされたクラウドコンピューティングプラットフォームでそれを実行するのに役立ちます。
- 現在、runpod.ioとvast.aiに合わせています
- コラブノートブックもサポートしています。
この実装では、潜在スペースを維持する方法に関するGoogleのアイデアを完全に実装していません。
- あなたがトレーニングするものに似たほとんどの画像はそれに向かってシフトされます。
- たとえば、人を訓練している場合、すべての人があなたのように見えます。オブジェクトをトレーニングする場合、そのクラスのすべてがあなたのオブジェクトのように見えます。
2つの被験者を連続して訓練する簡単な方法はないようです。剪定前に11-12GBファイルになります。
- 提供されたノートブックには、それを~2gbに押し下げるプルナーがあります
ベストプラクティスは、トークンを有名人の名前に変更することです（注：トークン、クラスではなく、プロンプト： Chris Evans personのようなものになります）。これがトークンを除いて、まったく同じ設定で訓練された私の妻です

設定

簡単なrunpod命令

Runpodは、レポが機能しないことにつながる可能性のあるベースDockerイメージを定期的にアップグレードします。 YouTubeビデオはどれも最新ではありませんが、ガイドとしてフォローすることができます。典型的なRunpod YouTubeビデオ/チュートリアルをフォローしてください。

My Podsページ内から、

[メニュー]ボタンをクリックします（紫色の再生ボタンの左側）
[PODの編集]をクリックします
「Docker Image Name」を次のいずれかに更新します（2023/06/27テスト）：
- runpod/pytorch:3.10-2.0.1-120-devel
- runpod/pytorch:3.10-2.0.1-118-runtime
- runpod/pytorch:3.10-2.0.0-117
- runpod/pytorch:3.10-1.13.1-116
[保存]をクリックします。
ポッドを再起動します

ガイドの残りの部分を続けてください：

Runpodにサインアップします。ここで私の紹介リンクを自由に使用してください。
ログインした後、 SECURE CLOUDまたはCOMMUNITY CLOUDいずれかを選択します
ゆっくりしたダウンロードで時間とお金を無駄にしないように、「高い」間に間に、速度を見つけるようにしてください
RTX 3090、RTX 4090、RTX A5000などの少なくとも24GB VRAMを選択します
以下に次のようなビデオの指示に従ってください。

vast.aiの指示

vast.ai（David Bielejeskiによる紹介リンク）にサインアップ
いくつかの資金を追加します（私は通常、$ 10刻みにそれらを追加します）
クライアントに移動する - ページを作成します
- Docker画像としてpytorch/pytorchを選択し、ボタンは「Jupyter Labインターフェイスを使用」と「Jupyter Direct HTTPS」を選択します。
ディスクスペースを増やし、GPU RAMでフィルタリングします（2GBチェックポイントファイル + 2-8GBモデルファイル +正規化画像 +その他のものが高速になります）
- 通常、150GBを割り当てます
- また、十分な帯域幅をアップロード/ダウンロードする速度をチェックするのも良いので、ダウンロードするのを待ってすべてのお金を費やすことはありません。
必要なインスタンスを選択し、 Rentをクリックし、[インスタンス]ページに移動してOpenクリックします
- 安全でない証明書警告が表示されます。警告をクリックするか、膨大な証明書をインストールします。
Notebook -> Python 3をクリックします（次のステップをいくつかの方法で行うことができますが、通常はこれを行います）
このコマンドでジョーのレポをクローンします
- !git clone https://github.com/JoePenna/Dreambooth-Stable-Diffusion.git
- runをクリックします
左側の新しいDreambooth-Stable-Diffusionディレクトリに移動し、 dreambooth_simple_joepenna.ipynbまたはdreambooth_runpod_joepenna.ipynbファイルのいずれかを開きます
ワークブックの指示に従ってトレーニングを開始します

ローカルでの指示を実行します

セットアップ - 仮想環境

前提条件

git
Python 3.10
cmdを開きます
リポジトリをクローンします
1. C:>git clone https://github.com/JoePenna/Dreambooth-Stable-Diffusion
リポジトリに移動します
1. C:>cd Dreambooth-Stable-Diffusion

依存関係をインストールし、環境をアクティブにします

cmd > python -m venv dreambooth_joepenna
cmd > dreambooth_joepennaScriptsactivate.bat
cmd > pip install torch == 1.13.1+cu117 torchvision == 0.14.1+cu117 --extra-index-url https://download.pytorch.org/whl/cu117
cmd > pip install -r requirements.txt

走る

cmd> python "main.py" --project_name "ProjectName" --training_model "C:v1-5-pruned-emaonly-pruned.ckpt" --regularization_images "C:regularization_images" --training_images "C:training_images" --max_training_steps 2000 --class_word "person" --token "zwx" --flip_p 0 --learning_rate 1.0e-06 --save_every_x_steps 250

掃除

cmd > deactivate

セットアップ-Conda

前提条件

git
Python 3.10
Miniconda3
Anaconda Prompt (miniconda3)
リポジトリをクローンします
1. (base) C:>git clone https://github.com/JoePenna/Dreambooth-Stable-Diffusion
リポジトリに移動します
1. (base) C:>cd Dreambooth-Stable-Diffusion

依存関係をインストールし、環境をアクティブにします

(base) C:Dreambooth-Stable-Diffusion > conda env create -f environment.yaml
(base) C:Dreambooth-Stable-Diffusion > conda activate dreambooth_joepenna

走る

cmd> python "main.py" --project_name "ProjectName" --training_model "C:v1-5-pruned-emaonly-pruned.ckpt" --regularization_images "C:regularization_images" --training_images "C:training_images" --max_training_steps 2000 --class_word "person" --token "zwx" --flip_p 0 --learning_rate 1.0e-06 --save_every_x_steps 250

掃除

cmd > conda deactivate

構成ファイルとコマンドラインの参照

構成ファイルの例

 {
    "class_word": "woman",
    "config_date_time": "2023-04-08T16-54-00",
    "debug": false,
    "flip_percent": 0.0,
    "gpu": 0,
    "learning_rate": 1e-06,
    "max_training_steps": 3500,
    "model_path": "D:\stable-diffusion\models\v1-5-pruned-emaonly-pruned.ckpt",
    "model_repo_id": "",
    "project_config_filename": "my-config.json",
    "project_name": "<token> project",
    "regularization_images_folder_path": "D:\stable-diffusion\regularization_images\Stable-Diffusion-Regularization-Images-person_ddim\person_ddim",
    "save_every_x_steps": 250,
    "schema": 1,
    "seed": 23,
    "token": "<token>",
    "token_only": false,
    "training_images": [
        "001@a photo of <token> looking down.png",
        "002-DUPLICATE@a close photo of <token> smiling wearing a black sweatshirt.png",
        "002@a photo of <token> wearing a black sweatshirt sitting on a blue couch.png",
        "003@a photo of <token> smiling wearing a red flannel shirt with a door in the background.png",
        "004@a photo of <token> wearing a purple sweater dress standing with her arms crossed in front of a piano.png",
        "005@a close photo of <token> with her hand on her chin.png",
        "005@a photo of <token> with her hand on her chin wearing a dark green coat and a red turtleneck.png",
        "006@a close photo of <token>.png",
        "007@a close photo of <token>.png",
        "008@a photo of <token> wearing a purple turtleneck and earings.png",
        "009@a close photo of <token> wearing a red flannel shirt with her hand on her head.png",
        "011@a close photo of <token> wearing a black shirt.png",
        "012@a close photo of <token> smirking wearing a gray hooded sweatshirt.png",
        "013@a photo of <token> standing in front of a desk.png",
        "014@a close photo of <token> standing in a kitchen.png",
        "015@a photo of <token> wearing a pink sweater with her hand on her forehead sitting on a couch with leaves in the background.png",
        "016@a photo of <token> wearing a black shirt standing in front of a door.png",
        "017@a photo of <token> smiling wearing a black v-neck sweater sitting on a couch in front of a lamp.png",
        "019@a photo of <token> wearing a blue v-neck shirt in front of a door.png",
        "020@a photo of <token> looking down with her hand on her face wearing a black sweater.png",
        "021@a close photo of <token> pursing her lips wearing a pink hooded sweatshirt.png",
        "022@a photo of <token> looking off into the distance wearing a striped shirt.png",
        "023@a photo of <token> smiling wearing a blue beanie holding a wine glass with a kitchen table in the background.png",
        "024@a close photo of <token> looking at the camera.png"
    ],
    "training_images_count": 24,
    "training_images_folder_path": "D:\stable-diffusion\training_images\24 Images - captioned"
}

トレーニングに構成を使用します

 python "main.py" --config_file_path "path/to/the/my-config.json"

コマンドラインパラメーター

dreambooth_helpers arguments.py

指示	タイプ	例	説明
`--config_file_path`	弦	`"C:\Users\David\Dreambooth Configs\my-config.json"`	構成ファイルを使用するパス
`--project_name`	弦	`"My Project Name"`	プロジェクトの名前
`--debug`	ブール	`False`	オプションのデフォルトは`False`です。デバッグロギングを有効にします
`--seed`	int	`23`	オプションのデフォルトは`23`です。 Seed_Everythingのシード
`--max_training_steps`	int	`3000`	実行するためのトレーニング手順の数
`--token`	弦	`"owhx"`	訓練されたモデルを表現したいユニークなトークン。
`--token_only`	ブール	`False`	オプションのデフォルトは`False`です。トークンとクラスなしのみを使用してトレーニングします。
`--training_model`	弦	`"D:\stable-diffusion\models\v1-5-pruned-emaonly-pruned.ckpt"`	モデルへのトレーニングへのパス（model.ckpt）
`--training_images`	弦	`"D:\stable-diffusion\training_images\24 Images - captioned"`	画像のトレーニングへのパスディレクトリ
`--regularization_images`	弦	`"D:\stable-diffusion\regularization_images\Stable-Diffusion-Regularization-Images-person_ddim\person_ddim"`	正規化画像を備えたディレクトリへのパス
`--class_word`	弦	`"woman"`	class_wordをトレーニングしたい画像のカテゴリに一致させます。例： `man` 、 `woman` 、 `dog` 、または`artstyle` 。
`--flip_p`	フロート	`0.0`	オプションのデフォルトは`0.5`です。フリップパーセンテージ。例： `0.5`に設定すると、トレーニング画像が50％の時間をフリップ（ミラー）します。これにより、より多くのトレーニング画像を含める必要なく、データセットを拡張することができます。ほとんどの人の顔は完全に対称的ではないため、これはフェイストレーニングの結果が悪化する可能性があります。
`--learning_rate`	フロート	`1.0e-06`	オプションのデフォルトは`1.0e-06` （0.000001）です。学習率を設定します。科学的表記を受け入れます。
`--save_every_x_steps`	int	`250`	オプションのデフォルトは`0`です。 xステップごとにチェックポイントを保存します。 `0`では、 `max_training_steps`に到達したときにトレーニングの終了時にのみ保存します。
`--gpu`	int	`0`	オプションのデフォルトは`0`です。トレーニングに使用するには、0以外のGPUを指定します。マルチGPUサポートは現在実装されていません。

トレーニングに構成を使用します

 python "main.py" --project_name "My Project Name" --max_training_steps 3000 --token "owhx" --training_model "D:\stable-diffusion\models\v1-5-pruned-emaonly-pruned.ckpt" --training_images "D:\stable-diffusion\training_images\24 Images - captioned" --regularization_images "D:\stable-diffusion\regularization_images\Stable-Diffusion-Regularization-Images-person_ddim\person_ddim" --class_word "woman" --flip_p 0.0 --save_every_x_steps 500

キャプションと複数のサブジェクト/コンセプトサポート

キャプションがサポートされています。これらの実装方法に関するガイドは次のとおりです。

あなたのトークンが効果であり、あなたのクラスは人であり、あなたのデータルートは /トレーニングであるとしましょう。

training_images/img-001.jpgは、 effy personでキャプションを付けられています

ファイル名の@シンボルの後に追加することで、キャプションをカスタマイズできます。

/training_images/img-001@a photo of effy => a photo of effy

キャプションS大文字とC大文字C-の2つのトークンを使用して、サブジェクトとクラスを示します。

/training_images/img-001@S being a good C.jpg => effy being a good personあること

新しいサブジェクトを作成するには、フォルダーを作成するだけです。それで：

/training_images/bingo/img-001.jpg => bingo person

クラスは同じままですが、今では被験者が変わっています。

繰り返します - トークンSは今ビンゴです：

/training_images/bingo/img-001@S is being silly.jpg => bingo is being silly

1つのフォルダーがより深く、クラスを変更できます： /training_images/bingo/dog/img-001@S being a good C.jpg => bingo being a good dog

キッカーが来ます：1つのレベルの深く、あなたは画像のグループをキャプションできます： /training_images/effy/person/a picture of/img-001.jpg => a picture of effy person

テキストの反転とドリームブース

このレポのコードの大部分は、Rinon Gal etによって書かれました。 Al、テキストInversion Research Paperの著者。正規化画像と以前の損失の保存（「Dreambooth」のアイデア）についてのいくつかのアイデアが追加されましたが、MITチームとGoogleの研究者の両方に敬意を表して、私はこのフォークに「以前は知られていたレポ」に名前を変更しました。 DreamBooth "" 。

別の実装については、以下の「代替オプション」を参照してください。

生成されたモデルを使用します

ground truth （本当の写真、注意：非常に美しい女性）

以下のこれらすべての画像について同じプロンプト：

`sks person`	`woman person`	`Natalie Portman person`	`Kate Mara person`

結果をデバッグします

deove人々が犯す最大の間違い

トークンだけでプロンプト。つまり、「ジョペンナの人」の代わりに「ジョペンナ」

クラスのpersonの下でjoepennaと訓練した場合、モデルはあなたの顔のみを知っている必要があります。

 joepenna person

プロンプトの例：

間違っている（ joepenna後のperson不明者）

 portrait photograph of joepenna 35mm film vintage glass

✅これは正しい（ person joepenna後に含まれている）

 portrait photograph of joepenna person 35mm film vintage glass

Joepennaと一緒にあなたのように見える人を獲得することがあります（特に、あまりにも多くのステップで訓練した場合）が、それは、このトークンのこのトレインのこの現在の繰り返しがそのトークンに出血するからです。

トレーニングする画像の種類に注意してください

トレーニング中、Stableはあなたが人であることを知りません。それが見るものを模倣するだけです。

したがって、これらがあなたのトレーニング画像のように見える場合：

あなたは、白と灰色のシャツを着て、スパイクの木の隣に何世代にもわたってあなたの何世代にもわたって...

代わりに、このトレーニングセットははるかに優れています：

画像間で一貫しているのは主題です。したがって、安定したものは画像を通して見て、顔のみを学習し、それを他のスタイルに「編集」します。

なんてこった！あなたは良い世代を得ていません！

オプション1：彼らはあなたのように見えません！（より長くトレーニングするか、より良いトレーニング画像を取得します）

あなたはそれを促していると確信していますか？

<token> <class> <token>ある必要があります。例えば：

JoePenna person, portrait photograph, 85mm medium format photo

それでもあなたのように見えない場合、あなたは十分に長く訓練しませんでした。

オプション2：彼らはあなたのように見えますが、すべてあなたのトレーニング画像のように見えます。（より少ない手順でトレーニングし、より良いトレーニング画像を取得し、プロンプトで修正）

さて、いくつかの理由：あなたはあまりにも長く訓練したかもしれません...またはあなたの画像があまりにも似ていたか、あなたは十分な画像で訓練しませんでした。

問題ない。プロンプトでそれを修正できます。安定した拡散は、最初に入力するものに多くのメリットを置きます。したがって、後で保存してください：

an exquisite portrait photograph, 85mm medium format photo of JoePenna person with a classic haircut

オプション3：彼らはあなたのように見えますが、あなたが別のスタイルを試すときではありません。（より長くトレーニング、より良いトレーニング画像を入手）

あなたは十分に長く訓練しませんでした...

問題ない。プロンプトでそれを修正できます：

JoePenna person in a portrait photograph, JoePenna person in a 85mm medium format photo of JoePenna person

ここでより多くのヒントとサポート：安定した拡散Dreamboothの不一致

抱きしめるフェイスディフューザー - 代替オプション

DreamBoothは、安定した拡散を備えたトレーニングのために、ハグFace Diffusersでサポートされています。

ここで試してみてください：

拡大する

追加情報

バージョン 1.0.0
タイプその他のソースコード
更新時間 2025-02-25
サイズ 14.09MB
から Github

Dreambooth Stable Diffusion

Yushanによる拡張Dreamboothハウツーガイド

索引

以前は「Dreambooth」として知られていたレポ

ジョー・ペンナによるメモ

紹介！

警告！

設定

簡単なrunpod命令

ガイドの残りの部分を続けてください：

vast.aiの指示

ローカルでの指示を実行します

セットアップ - 仮想環境

前提条件

依存関係をインストールし、環境をアクティブにします

走る

掃除

セットアップ-Conda

前提条件

依存関係をインストールし、環境をアクティブにします

走る

掃除

構成ファイルとコマンドラインの参照

構成ファイルの例

トレーニングに構成を使用します

コマンドラインパラメーター

トレーニングに構成を使用します

キャプションと複数のサブジェクト/コンセプトサポート

テキストの反転とドリームブース

生成されたモデルを使用します

結果をデバッグします

deove人々が犯す最大の間違い

トレーニングする画像の種類に注意してください

なんてこった！あなたは良い世代を得ていません！

オプション1：彼らはあなたのように見えません！ （より長くトレーニングするか、より良いトレーニング画像を取得します）

オプション2：彼らはあなたのように見えますが、すべてあなたのトレーニング画像のように見えます。 （より少ない手順でトレーニングし、より良いトレーニング画像を取得し、プロンプトで修正）

オプション3：彼らはあなたのように見えますが、あなたが別のスタイルを試すときではありません。 （より長くトレーニング、より良いトレーニング画像を入手）

ここでより多くのヒントとサポート：安定した拡散Dreamboothの不一致

抱きしめるフェイスディフューザー - 代替オプション

オプション1：彼らはあなたのように見えません！（より長くトレーニングするか、より良いトレーニング画像を取得します）

オプション2：彼らはあなたのように見えますが、すべてあなたのトレーニング画像のように見えます。（より少ない手順でトレーニングし、より良いトレーニング画像を取得し、プロンプトで修正）

オプション3：彼らはあなたのように見えますが、あなたが別のスタイルを試すときではありません。（より長くトレーニング、より良いトレーニング画像を入手）