Descarga charred - Descarga del código fuente charred

charred

Descarga de fuentes

1.0.0

Descargar

Difusión consciente del carácter: codificadores multilingües conscientes del personaje para difusores de fuentes que en realidad pueden deletrear

¿Cansado de modelos de texto a imagen que no pueden deletrear o tratar correctamente las fuentes y la tipografía? El secreto parece estar en el uso de codificadores de transformadores multilingües, sin tokenización, conscientes de los caracteres como BYT5 y Canine-C.

Reemplace el clip con BYT5 en la tubería `text-to-image` de HF

Como parte de la facultad de abrazo Jax Diffuser Sprint, reemplazaremos el tokenizador y el codificador de Clip con BYT5 en el código de pre-entrenamiento de texto a imagen Jax/lino de HF y lo ejecutarán en las reensaciones de TPU patrocinadas proporcionadas por Google para el evento.

Más específicamente, estas son las tareas principales que intentaremos lograr durante el sprint:

Preparación del conjunto de datos previa al entrenamiento: no vamos a entrenar en lambdalabs/pokemon-blip-captions . Entonces, ¿qué va a ser, cuáles son las opciones? ¿Algo aquí o aquí te toma fantasía? ¿O tal vez DiffusionDB? ¿O una mezcla sabia de muchos conjuntos de datos? Probablemente necesitaremos combinar muchos conjuntos de datos mientras buscamos cubrir estos requisitos:
- Necesitamos muestras para las cuales hay texto en la escena que se especifica explícitamente en el título y la prioridad es hacerlo en fotos de escena completa. Si no podemos encontrar lo suficiente, integraremos conjuntos de datos más especializados para OCR;
- Aproximadamente la misma distribución del idioma que BYT5, pero también incluye indonesio (no en BYT5) para ver cómo funciona la conciencia de los carácter cuando el texto en la solicitud se especifica en un idioma. Necesitamos construir instalaciones de prueba alrededor de los idiomas que hablan los miembros del equipo y los amigos: indonesio, japonés, francés, amárico, árabe, noruego, sueco, hindi, urdu e inglés.
Shove usar la biblioteca de conjuntos de datos de abrazaderas tanto como sea posible, ya que admite Jax fuera de la caja. Por el bien de la simplicidad nos limitaremos a conjuntos de datos faciales concatenados como Laion2b EN, Multi y Nolang. Sin embargo, prepacitaremos, preprocesaremos y almacenaremos el conjunto de datos en el disco antes de capacitarlo.
Mejoras al código original:
- ~~Asegúrese de poder ejecutar el código original como es en la VM TPU.~~
- Auditar y optimizar el código para Google Cloud TPU V4-8 VM: jnp (en lugar de NP) jit , grad , vmap , pmap , pjit en todas partes. Y debemos asegurarnos de que tampoco perdamos ninguna optimización hecha en el código Sprint.
- Instrumentación para monitoreo remoto de TPU con telemetría abierta, placa tensorial, perfeto, pesas y sesgos y el propio perfilador de Jax.
- Implementar la carga de la instantánea de la instantánea del punto de control al almacenamiento en la nube: necesitamos poder descargar el modelo para la evaluación comparativa de inferencia local para asegurarnos de que estamos en el camino correcto. Parece que hay soporte de punto de control rudimentario en el código original.
- ~~No hay tiempo para la política. El filtrado NSFW se apagará. Así que obtenemos FlaxStableDiffusionSafetyChecker fuera del camino.~~
Reemplace el clip con BYT5 en el código original:
- Reemplazo de CLIPTokenizer con ByT5Tokenizer . Dado que esto se ejecutará en las CPU, no hay necesidad de Jax/Flax a menos que haya esperanzas de grandes mejoras de rendimiento. Esto debería ser trivial. Fusionado. Necesita pruebas.
- ~~Reemplazo de FlaxCLIPTextModel con FlaxT5EncoderModel . Esto podría ser casi tan fácil como reemplazar el tokenizador.~~ Fusionado. Necesita pruebas.
- ~~Reescribir CLIPImageProcessor para BYT5. Esto todavía está bajo investigación. No está claro qué tan difícil será.~~ Hecho. Necesita pruebas.
- ~~Radapt FlaxAutoencoderKL y FlaxUNet2DConditionModel para BYT5 si es necesario.~~ Hecho. Necesita pruebas.
- ~~Desglose el bucle principal de pretrario en muchas funciones en diferentes archivos de origen para su legibilidad y mantenimiento más fácil.~~

Introducción de un control de control caligráfico y tipográfico

En segundo lugar, nos integraremos con la implementación de control de control Jax/Flax de la cara de abrazo de abrazo para un mejor control tipográfico sobre las imágenes generadas. A la SD de nivelado ortografía anterior y según la sugerencia de Peter von Platen, también presentamos la idea de un control tipográfico entrenado en un conjunto de datos sintético de imágenes emparejadas con especificaciones multilingües del contenido textual, taxonomía de fuente, peso, kerning, liderazgo, slant y cualquier otro atributo tipográfico respaldado por los textos CSS3, las fuentes y los modos de escritura, los modos de la última versión.

Expandir

Información adicional