Document : https://diffsynth-studio.readthedocs.io/zh-cn/latest/index.html
DiffSynth Studio est un moteur de diffusion. Nous avons restructuré les architectures notamment Text Encoder, UNet, VAE, entre autres, en maintenant la compatibilité avec les modèles de la communauté open source tout en améliorant les performances de calcul. Nous proposons de nombreuses fonctionnalités intéressantes. Profitez de la magie des modèles Diffusion !
Jusqu'à présent, DiffSynth Studio prenait en charge les modèles suivants :
25 octobre 2024 Nous fournissons une prise en charge étendue de FLUX ControlNet. Ce projet prend en charge de nombreux modèles ControlNet différents qui peuvent être librement combinés, même si leurs structures diffèrent. De plus, les modèles ControlNet sont compatibles avec les techniques de raffinement et de contrôle de partition haute résolution, permettant une génération d'images contrôlables très puissantes. Voir ./examples/ControlNet/ .
8 octobre 2024. Nous publions la LoRA étendue basée sur CogVideoX-5B et ExVideo. Vous pouvez télécharger ce modèle depuis ModelScope ou HuggingFace.
22 août 2024. CogVideoX-5B est pris en charge dans ce projet. Voir ici. Nous proposons plusieurs fonctionnalités intéressantes pour ce modèle texte-vidéo, notamment
22 août 2024. Nous avons implémenté un peintre intéressant qui prend en charge tous les modèles texte-image. Vous pouvez désormais créer de superbes images à l’aide du peintre, avec l’aide de l’IA !
21 août 2024. FLUX est pris en charge dans DiffSynth-Studio.
21 juin 2024. ??? Nous proposons ExVideo, une technique de post-réglage visant à améliorer la capacité des modèles de génération vidéo. Nous avons étendu la diffusion vidéo stable pour permettre la génération de vidéos longues jusqu'à 128 images.
examples/ExVideo .13 juin 2024. DiffSynth Studio est transféré vers ModelScope. Les développeurs sont passés du « je » au « nous ». Bien entendu, je participerai toujours au développement et à la maintenance.
29 janvier 2024. Nous proposons Diffutoon, une solution fantastique pour l'ombrage des toons.
8 décembre 2023. Nous décidons de développer un nouveau projet, visant à libérer le potentiel des modèles de diffusion, notamment en synthèse vidéo. Le développement de ce projet est lancé.
15 novembre 2023. Nous proposons FastBlend, un puissant algorithme de suppression des scintillement vidéo.
1er octobre 2023. Nous publions une première version de ce projet, à savoir FastSDXL. Un essai pour construire un moteur de diffusion.
29 août 2023. Nous proposons DiffSynth, un framework de synthèse vidéo.
Installer à partir du code source (recommandé) :
git clone https://github.com/modelscope/DiffSynth-Studio.git
cd DiffSynth-Studio
pip install -e .
Ou installez depuis pypi :
pip install diffsynth
Les exemples Python sont dans examples . Nous en donnons ici un aperçu.
Téléchargez les modèles prédéfinis. Les ID de modèle peuvent être trouvés dans le fichier de configuration.
from diffsynth import download_models
download_models ([ "FLUX.1-dev" , "Kolors" ])Téléchargez vos propres modèles.
from diffsynth . models . downloader import download_from_huggingface , download_from_modelscope
# From Modelscope (recommended)
download_from_modelscope ( "Kwai-Kolors/Kolors" , "vae/diffusion_pytorch_model.fp16.bin" , "models/kolors/Kolors/vae" )
# From Huggingface
download_from_huggingface ( "Kwai-Kolors/Kolors" , "vae/diffusion_pytorch_model.fp16.safetensors" , "models/kolors/Kolors/vae" ) CogVideoX-5B est publié par ZhiPu. Nous fournissons un pipeline amélioré, prenant en charge la conversion texte-vidéo, le montage vidéo, la mise à l'échelle automatique et l'interpolation vidéo. examples/video_synthesis
La vidéo de gauche est générée à l'aide du pipeline texte-vidéo d'origine, tandis que la vidéo de droite est le résultat après montage et interpolation d'images.
Nous avons formé des modèles de synthèse vidéo étendus, capables de générer 128 images. examples/ExVideo
Créez des vidéos réalistes dans un style aplati et activez les fonctionnalités d'édition vidéo. examples/Diffutoon
Stylisation vidéo sans modèles vidéo. examples/diffsynth
Générez des images haute résolution, en brisant les limitations des modèles de diffusion ! examples/image_synthesis .
Le réglage fin de LoRA est pris en charge dans examples/train .
| FLUX | Diffusion stable 3 |
|---|---|
![]() | ![]() |
| Couleurs | Hunyuan-DiT |
|---|---|
![]() | ![]() |
| Diffusion stable | Diffusion stable XL |
|---|---|
![]() | ![]() |
Créez des images époustouflantes à l'aide du peintre, avec l'aide de l'IA !
Cette vidéo n'est pas rendue en temps réel.
Avant de lancer WebUI, veuillez télécharger les modèles dans le dossier ./models . Voir ici.
Gradio pip install gradio
python apps/gradio/DiffSynth_Studio.py

Streamlit pip install streamlit streamlit-drawable-canvas
python -m streamlit run apps/streamlit/DiffSynth_Studio.py