Téléchargement charred - Téléchargement du code source charred

charred

Téléchargement de polices

1.0.0

Télécharger

Diffusion consciente des caractères: Encodeurs multilingues aux caractéristiques pour les diffuseurs consacrés à la police qui peuvent réellement épeler

Fatigué des modèles de texte à l'image qui ne peuvent pas épeler ou gérer correctement les polices et la typographie? Le secret semble être dans l'utilisation des encodeurs de transformateurs multilingues, sans tokenisation et consacrés au caractère tels que BYT5 et Canine-C.

Remplacez le clip par BYT5 dans le pipeline `text-to-image` de HF

Dans le cadre du sprint de diffuseur Jax Face étreint, nous remplacerons le tokenizer et l'encodeur de Clip avec le code de pré-formation de texte JAX / Flax de Flax du HF et l'exécuter sur les Ressources TPU sponsorisées fournies par Google pour l'événement.

Plus précisément, voici les principales tâches que nous essaierons d'accomplir pendant le sprint:

Préparation de l'ensemble de données avant la formation: Nous n'allons pas nous entraîner sur lambdalabs/pokemon-blip-captions . Alors, qu'est-ce que ça va être, quelles sont les options? Quelque chose ici ou ici prend votre fantaisie? Ou peut-être diffusiondb? Ou un mélange savant de nombreux ensembles de données? Nous devrons probablement combiner de nombreux ensembles de données alors que nous cherchons à couvrir ces exigences:
- Nous avons besoin d'échantillons pour lesquels il y a du texte dans la scène qui est explicitement spécifié dans la légende et la priorité est de le faire dans les photos complètes de la scène. Si nous n'en trouvons pas assez, nous intégrerons des ensembles de données plus spécialisés pour OCR;
- Approximativement la même distribution linguistique que BYT5, mais incluent également indonésien (pas dans BYT5) pour voir comment fonctionne la sensibilisation aux caractéristiques lorsque le texte dans l'invite est spécifié dans une langue. Nous devons construire des installations de test dans les langues qui sont parlées par les membres de l'équipe et les amis: indonésien, japonais, français, amharique, arabe, norvégien, suédois, hindi, ourdou et anglais.
Nous utilisons autant que possible la bibliothèque d'ensembles de données FACE HUGGINGS car il prend en charge Jax hors de la boîte. Par souci de simplicité, nous nous limiterons à des ensembles de données de visage étreintes concaténées telles que LAION2B EN, MULI et NOLANG. Nous allons cependant précharger, prétraiter et mettre en cache l'ensemble de données sur le disque avant de nous entraîner.
Améliorations au code d'origine:
- ~~Assurez-vous que nous pouvons exécuter le code d'origine tel quel sur la machine virtuelle TPU.~~
- Audit et optimisez le code pour le Google Cloud TPU V4-8 VM: jnp (au lieu de NP) jit , grad , vmap , pmap , pjit Partout! Et nous devons nous assurer que nous ne manquons pas non plus aucune optimisation faite dans le code de sprint.
- Instrumentation pour la surveillance à distance TPU avec télémétrie ouverte, Tensorboard, perfetto, poids et biais et le profil de Jax.
- Implémentez le téléchargement d'instantanés de contrôle de contrôle de contrôle sur le stockage du cloud: nous devons être en mesure de télécharger le modèle pour l'analyse comparative d'inférence locale pour nous assurer que nous sommes sur la bonne voie. Il semble y avoir un support de point de contrôle rudimentaire dans le code d'origine.
- ~~Pas de temps pour la politique. Le filtrage NSFW sera désactivé. Nous éloignons donc de FlaxStableDiffusionSafetyChecker .~~
Remplacez le clip par BYT5 dans le code d'origine:
- Remplacement CLIPTokenizer par ByT5Tokenizer . Étant donné que cela fonctionnera sur les CPU, il n'y a pas besoin de Jax / Flax, sauf s'il y a de l'espoir d'améliorations d'énormes performances. Cela devrait être trivial. Fusionné. A besoin de tests.
- ~~Remplacement FlaxCLIPTextModel par FlaxT5EncoderModel . Cela pourrait être presque aussi facile que le remplacement du tokenzer.~~ Fusionné. A besoin de tests.
- ~~Réécrivez CLIPImageProcessor pour BYT5. Ceci est toujours sous enquête. On ne sait pas à quel point ce sera difficile.~~ Fait. A besoin de tests.
- ~~RADAPT FlaxAutoencoderKL ET FlaxUNet2DConditionModel POUR BYT5 Si nécessaire.~~ Fait. A besoin de tests.
- ~~Décomposez la boucle de pré-formation principale en de nombreuses fonctions dans différents fichiers source pour la lisibilité et la maintenance plus facile.~~

Présentation d'un contrôlet calligraphique et typographique

Deuxièmement, nous nous intégrerons à une implémentation ci-dessus sur une implémentation JAX / Flax ControlNet étreinte pour un meilleur contrôle typographique sur les images générées. À la SD orthographiquement éventée ci-dessus et conformément à la suggestion de Peter von Platen, nous introduisons également l'idée un contrôle typographique formé sur un ensemble de données synthétiques d'images associées à des spécifications multilingues du contenu textuel, de la taxonomie de la police, du poids, de la création, de la direction, de tout autre attribut typographique soutenu par la version du CSS3, les FONTS et les modules d'écriture, comme la version CSS3.

Développer

Informations supplémentaires