Documento: https://diffsynth-studio.readthedocs.io/zh-cn/latest/index.html
DiffSynth Studio es un motor de difusión. Hemos reestructurado arquitecturas que incluyen Text Encoder, UNet, VAE, entre otras, manteniendo la compatibilidad con modelos de la comunidad de código abierto y mejorando el rendimiento computacional. Ofrecemos muchas características interesantes. ¡Disfruta de la magia de los modelos Diffusion!
Hasta ahora, DiffSynth Studio ha admitido los siguientes modelos:
25 de octubre de 2024 Brindamos un amplio soporte para FLUX ControlNet. Este proyecto admite muchos modelos ControlNet diferentes que se pueden combinar libremente, incluso si sus estructuras difieren. Además, los modelos ControlNet son compatibles con técnicas de control de partición y refinamiento de alta resolución, lo que permite una generación de imágenes controlable muy potente. Consulte ./examples/ControlNet/ .
8 de octubre de 2024. Lanzamos LoRA extendido basado en CogVideoX-5B y ExVideo. Puede descargar este modelo desde ModelScope o HuggingFace.
22 de agosto de 2024. CogVideoX-5B es compatible con este proyecto. Ver aquí. Proporcionamos varias características interesantes para este modelo de texto a video, que incluyen
22 de agosto de 2024. Hemos implementado un pintor interesante que admite todos los modelos de texto a imagen. ¡Ahora puedes crear imágenes impresionantes usando el pintor, con la ayuda de AI!
21 de agosto de 2024. FLUX es compatible con DiffSynth-Studio.
21 de junio de 2024. ??? Proponemos ExVideo, una técnica de post-tuning destinada a mejorar la capacidad de los modelos de generación de video. Hemos ampliado la Difusión de Vídeo Estable para lograr la generación de vídeos largos de hasta 128 fotogramas.
examples/ExVideo .13 de junio de 2024. DiffSynth Studio se transfiere a ModelScope. Los desarrolladores han pasado del "yo" al "nosotros". Por supuesto, seguiré participando en el desarrollo y mantenimiento.
29 de enero de 2024. Proponemos Diffutoon, una solución fantástica para sombrear dibujos animados.
8 de diciembre de 2023. Decidimos desarrollar un nuevo proyecto, con el objetivo de liberar el potencial de los modelos de difusión, especialmente en síntesis de video. Se inicia el desarrollo de este proyecto.
15 de noviembre de 2023. Proponemos FastBlend, un potente algoritmo de eliminación de parpadeo de vídeo.
1 de octubre de 2023. Lanzamos una versión inicial de este proyecto, a saber, FastSDXL. Un intento de construir un motor de difusión.
29 de agosto de 2023. Proponemos DiffSynth, un marco de síntesis de vídeo.
Instalar desde el código fuente (recomendado):
git clone https://github.com/modelscope/DiffSynth-Studio.git
cd DiffSynth-Studio
pip install -e .
O instalar desde pypi:
pip install diffsynth
Los ejemplos de Python están en examples . Ofrecemos una descripción general aquí.
Descarga los modelos preestablecidos. Los ID de los modelos se pueden encontrar en el archivo de configuración.
from diffsynth import download_models
download_models ([ "FLUX.1-dev" , "Kolors" ])Descarga tus propios modelos.
from diffsynth . models . downloader import download_from_huggingface , download_from_modelscope
# From Modelscope (recommended)
download_from_modelscope ( "Kwai-Kolors/Kolors" , "vae/diffusion_pytorch_model.fp16.bin" , "models/kolors/Kolors/vae" )
# From Huggingface
download_from_huggingface ( "Kwai-Kolors/Kolors" , "vae/diffusion_pytorch_model.fp16.safetensors" , "models/kolors/Kolors/vae" ) CogVideoX-5B es lanzado por ZhiPu. Proporcionamos un canal mejorado, que admite conversión de texto a video, edición de video, automejoramiento e interpolación de video. examples/video_synthesis
El vídeo de la izquierda se genera utilizando la canalización de texto a vídeo original, mientras que el vídeo de la derecha es el resultado después de la edición y la interpolación de fotogramas.
Entrenamos modelos de síntesis de video extendidos, que pueden generar 128 cuadros. examples/ExVideo
Represente videos realistas en un estilo aplanado y habilite funciones de edición de video. examples/Diffutoon
Estilización de video sin modelos de video. examples/diffsynth
¡Genera imágenes de alta resolución, rompiendo la limitación de los modelos de difusión! examples/image_synthesis .
El ajuste fino de LoRA se admite en examples/train .
| FLUJO | Difusión estable 3 |
|---|---|
![]() | ![]() |
| colores | Hunyuan-DiT |
|---|---|
![]() | ![]() |
| Difusión estable | Difusión estable XL |
|---|---|
![]() | ![]() |
¡Crea imágenes impresionantes usando el pintor, con la ayuda de la IA!
Este video no se renderiza en tiempo real.
Antes de iniciar WebUI, descargue los modelos en la carpeta ./models . Ver aquí.
Gradio pip install gradio
python apps/gradio/DiffSynth_Studio.py

Streamlit pip install streamlit streamlit-drawable-canvas
python -m streamlit run apps/streamlit/DiffSynth_Studio.py