UniDiffusion下载 - UniDiffusion源代码下载

UniDiffusion

Ai源码

1.0.0

下载

联合

使用Uni Fied Workflow导航扩散模型的Uni诗歌。

介绍

工作流程

Unidiffusion是一个工具箱，可根据扩散器提供最新的培训和推理算法。 Unidiffusion针对希望深入自定义稳定扩散培训的研究人员和用户。我们希望该代码存储库可以为未来的研究和应用扩展提供出色的支持。

如果您还想实施以下内容，请与Unidiffusion一起玩乐

火车仅cross attention （或convolution / feedforward / ...）层。
为不同的层设置不同的lr / weight decay / ...。
将或支持PEFT/PETL方法用于不同的层，并轻松合并它们，例如，将卷积层和使用Lora更新注意力层。
将所有参数训练在稳定扩散中，包括UNET，VAE，TEXT_ENCODER，并自动保存和加载。

注意：一致开发仍在开发中。某些模块是从其他代码存储库中借来的，尚未进行测试，尤其是默认情况下，在配置系统中未启用的组件。我们正在努力改善该项目。

特征

模块化设计。 Unidiffusion采用模块化架构设计。模块化设计可以轻松实现新方法。
配置系统。 LazyConfig系统，用于更灵活的语法和清洁程序配置文件。
便于使用。
- 分布式培训：使用加速来支持所有分布式培训环境。
- 实验跟踪器：使用WANDB记录所有培训信息。
- 分布式评估：训练期间评估✅FID，✅IS，剪辑得分

统一培训工作流程

在一致中，所有训练方法都分解为三个维度

可学习的参数：将更新哪个层或哪个模块。
PEFT/PETL方法：如何更新它们。例如，芬日，低级适配，适配器等。
培训过程：默认为扩散 - 降解，可以像XTI一样扩展。

它允许我们使用强大的配置系统进行统一的培训管道。

培训工作流程差异的示例。

这是一个简单的示例。在扩散器中，培训text-to-image finetune和dreambooth喜欢：

python train_dreambooth.py --arg ......
python train_finetune.py --arg ......

并且结合或调整某些方法很困难（例如，只有在Dreambooth期间训练交叉注意）。

在Unidiffusion中，我们可以轻松地在配置文件中设计自己的培训参数：

 # text-to-image finetune
unet . training_args = { '' : { 'mode' : 'finetune' }}
# text-to-image finetune with lora
unet . training_args = { '' : { 'mode' : 'lora' }}
# update cross attention with lora
unet . training_args = { 'attn2' : { 'mode' : 'lora' }}

# dreambooth
unet . training_args = { '' : { 'mode' : 'finetune' }}
text_encoder . training_args = { 'text_embedding' : { 'initial' : True }}
# dreambooth with small lr for text-encoder
unet . training_args = { '' : { 'mode' : 'finetune' }}
text_encoder . training_args = { 'text_embedding' : { 'initial' : True , 'optim_kwargs' : { 'lr' : 1e-6 }}}

然后运行

accelerate launch scripts/train.py --config-file /path/to/your/config

这有助于更轻松的定制，组合和增强方法，还可以通过配置文件比较方法之间的相似性和差异。

定期匹配模块选择

在Unidiffusion中，我们为模块选择提供了常规的匹配系统。它允许我们通过常规匹配选择模块。有关更多详细信息，请参见定期匹配以获取模块选择。

对PEFT/PETL方法的强大支持

我们为PEFT/PETL方法提供了强有力的支持。有关更多详细信息，请参见PEFT/PETL方法。

？安装

安装先决条件

Python 3.10
Pytorch 2.0 + CUDA11.8
库丁

安装要求

pip install -e requirements.txt

配置加速度和WANDB

accelerate config
wandb login

？入门

有关详细信息，请参见火车文字反转 / Dreambooth / lora /文本对图像的芬日。

accelerate launch scrits/common.py --config-file configs/train/text_to_image_finetune.py

详细的演示

火车文字反转 / Dreambooth / Lora /文本到图像的芬日。
自定义您的培训过程。

[做]教程

[TODO]支持新数据集。
[TODO]支持新的PETL方法。
[TODO]支持新的培训管道。

？模型动物园

支持的个性化方法

注意：个性化方法是在可训练的参数，PEFT/PETL方法和培训过程中分解的。有关更多详细信息，请参见配置文件。

支持的PEFT/PETL方法

Finetune
洛拉
还原器

托多

将来我们将添加以下功能。我们也欢迎社区的贡献。随意提取请求或打开问题以讨论新功能的想法。

方法：
- 保存课堂语义先验（Dreambooth）。
- XTI和自定义扩散。
- 还原和利科里斯。
特征：
- 将PEFT合并到原始型号。
- 将模型转换为扩散器和WebUI格式。
- WebUI扩展。

贡献

我们欢迎开源社区的捐款！

承认

扩散教练是基于扩散器建造的。
从detectron2和detrex借用了许多模块设计。
方法的某些实现是从扩散器和利科里斯借来的。

引用

如果您在研究中使用此工具箱或希望参考此处发布的基线结果，请使用以下Bibtex条目：

引用一体式：

 @misc { pu2022diffusion ,
  author =       { Pu Cao, Tianrui Huang, Lu Yang, Qing Song } ,
  title =        { UniDiffusion } ,
  howpublished = { url{https://github.com/PRIV-Creation/UniDiffusion} } ,
  year =         { 2023 }
}