Téléchargement stable diffusion keras ft - Téléchargement de code source stable diffusion keras ft

stable diffusion keras ft

Autre code source

1.0.0

Télécharger

Diffusion stable à réglage fin à l'aide de keras

Ce référentiel fournit du code pour une diffusion stable à réglage fin dans les keras. Il est adapté de ce script en étreignant le visage. Le modèle pré-formé utilisé pour le réglage fin provient de Kerascv. Pour connaître le modèle d'origine, consultez cette documentation.

Le code fourni dans ce référentiel est à des fins de recherche uniquement . Veuillez consulter cette section pour en savoir plus sur les cas d'utilisation potentiels et les limitations.

En chargeant ce modèle, vous acceptez la licence CreativeMl Open Rail-M à https://raw.githubusercontent.com/compvis/stable-diffusion/main/license.

Si vous cherchez simplement les ressources qui l'accompagnent de ce référentiel, voici les liens:

Carnet Colab Inférence
Article de blog sur keras.io
Application interactive de l'espace de visage étreint
Poids du modèle affinés

Table des matières :

Ensemble de données
Formation et détails supplémentaires
Inférence
Résultats
Remerciements

Ce référentiel dispose d'un référentiel sœur (Keras-SD-Serving) qui couvre divers modèles de déploiement pour une diffusion stable.

Mise à jour du 13 janvier 2023 : Ce projet a obtenu la 2e place lors du tout premier concours de prix communautaire Keras organisé par Google.

Ensemble de données

Après le script original de Hugging Face, ce référentiel utilise également l'ensemble de données Pokémon. Mais il a été régénéré de mieux fonctionner avec tf.data . La version régénérée de l'ensemble de données est hébergée ici. Consultez ce lien pour plus de détails.

Entraînement

Le code de réglage fin est fourni dans finetune.py . Avant d'exécuter une formation, assurez-vous que les dépendances (reportez-vous à requirements.txt ) installées.

Vous pouvez lancer une formation avec les arguments par défaut en exécutant python finetune.py . Exécutez python finetune.py -h pour connaître les arguments de ligne de commande pris en charge. Vous pouvez activer la formation de précision mixte en passant le drapeau --mp .

Lorsque vous lancez une formation, un point de contrôle de modèle de diffusion ne sera généré par époque que si la perte actuelle est inférieure à la précédente.

Pour éviter l'OOM et une formation plus rapide, il est recommandé d'utiliser au moins un GPU V100. Nous avons utilisé un A100.

Quelques détails importants à noter :

La formation distribuée n'est pas encore soutenue. L'accumulation de gradient et le point de contrôle du gradient ne sont pas non plus pris en charge.
Seul le modèle de diffusion est affiné. Le VAE et l'encodeur de texte sont maintenus congelés.

Détails de la formation :

Nous avons affiné le modèle sur deux résolutions différentes: 256x256 et 512x512. Nous n'avons varié que la taille du lot et le nombre d'époches pour le réglage fin avec ces deux résolutions différentes. Comme nous n'avons pas utilisé l'accumulation de gradient, nous utilisons cet extrait de code pour dériver le nombre d'époches.

256x256: python finetune.py --batch_size 4 --num_epochs 577
512x512: python finetune.py --img_height 512 --img_width 512 --batch_size 1 --num_epochs 72 --mp

Pour la résolution 256x256, nous avons intentionnellement réduit le nombre d'époches pour gagner du temps de calcul.

Poids affinés :

Vous pouvez trouver les poids du modèle de diffusion affinés ici.

Formation avec des données personnalisées

L'ensemble de données Pokémon par défaut utilisé dans ce référentiel est livré avec la structure suivante:

pokemon_dataset/
    data.csv
    image_24.png   
    image_3.png    
    image_550.png  
    image_700.png
    ...

data.csv ressemble à:

Tant que votre ensemble de données personnalisé suit cette structure, vous n'avez pas besoin de changer quoi que ce soit dans la base de code actuelle, à l'exception du dataset_archive .

Dans le cas où votre ensemble de données a plusieurs légendes par image, vous pouvez en sélectionner un dans le pool de légendes par image pendant la formation.

Sur la base de l'ensemble de données, vous devrez peut-être régler les hyperparamètres.

Inférence

 import keras_cv
import matplotlib . pyplot as plt
from tensorflow import keras

IMG_HEIGHT = IMG_WIDTH = 512


def plot_images ( images , title ):
    plt . figure ( figsize = ( 20 , 20 ))
    for i in range ( len ( images )):
        ax = plt . subplot ( 1 , len ( images ), i + 1 )
        plt . title ( title )
        plt . imshow ( images [ i ])
        plt . axis ( "off" )


# We just have to load the fine-tuned weights into the diffusion model.
weights_path = keras . utils . get_file (
    origin = "https://huggingface.co/sayakpaul/kerascv_sd_pokemon_finetuned/resolve/main/ckpt_epochs_72_res_512_mp_True.h5"
)
pokemon_model = keras_cv . models . StableDiffusion (
    img_height = IMG_HEIGHT , img_width = IMG_WIDTH
)
pokemon_model . diffusion_model . load_weights ( weights_path )

# Generate images.
generated_images = pokemon_model . text_to_image ( "Yoda" , batch_size = 3 )
plot_images ( generated_images , "Fine-tuned on the Pokemon dataset" )

Vous pouvez apporter votre weights_path (devrait être compatible avec le diffusion_model ) et réutiliser l'extrait de code.

Consultez ce carnet Colab pour jouer avec le code d'inférence.

Résultats

Initialement, nous avons affiné le modèle sur une résolution de 256x256. Voici quelques résultats ainsi que des comparaisons avec les résultats du modèle d'origine.

Images	Invite
	Yoda
	chat robotique avec des ailes
	Bonjour Kitty

_Poids

Nous pouvons voir que le modèle affiné a des sorties plus stables que le modèle d'origine. Même si les résultats peuvent être esthétiquement améliorés, les effets de réglage fin sont visibles. De plus, nous avons suivi les mêmes hyperparamètres du script de Huging Face pour la résolution 256x256 (à part le nombre d'époches et la taille du lot). Avec de meilleurs hyperparamètres, les résultats s'amélioreront probablement.

Pour la résolution 512x512, nous observons quelque chose de similaire. Ainsi, nous avons expérimenté le paramètre unconditional_guidance_scale et remarqué que lorsqu'il est défini sur 40 (tout en gardant les autres arguments fixes), les résultats sont mieux sortis.

Images	Invite
	Yoda
	chat robotique avec des ailes
	Bonjour Kitty

_Poids

Remarque : le réglage fin sur le 512x512 est toujours en cours à ce jour. Mais il faut beaucoup de temps pour terminer une seule époque sans la présence d'une formation distribuée et d'une accumulation de gradient. Les résultats ci-dessus proviennent du point de contrôle dérivé après 60e époque.

Avec une recette similaire (mais formée pour plus d'étapes d'optimisation), les laboratoires lambda montrent des résultats incroyables.

Remerciements

Merci à l'étreinte Face pour avoir fourni le script final. C'est très lisible et facile à comprendre.
Merci à l'équipe des programmes de développeurs ML chez Google pour avoir fourni des crédits GCP.

Développer

Informations supplémentaires

Version 1.0.0
Type Autre code source
Date de mise à jour 2025-03-10
taille 15.66KB
Provenant de Github

Applications connexes

stable diffusion webui forge

2024-11-08
GitHub sgrebnov/cordova plugin background download

2024-11-05
krita ai diffusion

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
stable diffusion webui

2024-11-01

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout