El objetivo de este proyecto es explorar los usos potenciales de los modelos de idiomas grandes para la tarea de mejorar los modelos de texto de estado de arte actual, como la difusión estable.
Escribir indicaciones de texto óptimas para guiar mejor un modelo de texto a imagen para un resultado deseado puede ser una tarea compleja, a menudo requerir el uso de palabras clave aparentemente arbitrarias y varios modificadores de estilo.
El uso intensivo de estos modificadores es una práctica común entre los usuarios experimentados debido a su efecto positivo frecuente en la calidad estética subjetiva, así como su capacidad para generar imágenes más estrechamente alineadas con el resultado deseado. Incluso los cambios sutiles en la colocación de palabras pueden tener un efecto significativo, creando un trabajo potencialmente innecesario incluso para los escritores rápidos más calificados.
Dada esta complejidad y falta de intuición, la entrada rápida como UI para modelos de texto a imagen es actualmente menos que ideal.
Este proyecto se encuentra actualmente en la fase exploratoria. Agradecemos todos y cada uno de los comentarios de la comunidad y nos encantaría discutir propuestas potenciales con cualquier persona interesada en el proyecto. Consulte la pestaña Discusiones para comenzar.
| Nombre | Descripción | Estado |
|---|---|---|
| Experimento inicial | Expanda el detalle rápido con un LLM | Completo |
| Modelo de "no simplificación" capacitado | Entrenar un modelo para "no simplificar" las indicaciones | Comentarios solicitados |