O objetivo deste projeto é explorar potenciais usos de grandes modelos de linguagem para a tarefa de melhorar os modelos atuais de texto para imagem, como difusão estável.
Escrever solicitações de texto ideais para melhor guiar um modelo de texto para imagem em direção a um resultado desejado pode ser uma tarefa complexa, geralmente exigindo o uso de palavras-chave aparentemente arbitrárias e vários modificadores de estilo.
O uso pesado desses modificadores é uma prática comum entre os usuários experientes devido ao seu efeito positivo frequente na qualidade estética subjetiva, bem como sua capacidade de gerar imagens mais intimamente alinhadas com o resultado desejado. Mesmo mudanças sutis na colocação de palavras podem ter um efeito significativo, criando um trabalho potencialmente desnecessário até mesmo para os escritores de prompts mais qualificados.
Dada essa complexidade e falta de intuitividade, a entrada imediata como interface do usuário para modelos de texto para imagem é atualmente menor que o ideal.
Este projeto está atualmente na fase exploratória. Congratulamo -nos com todo e qualquer feedback da comunidade e gostaríamos de discutir possíveis propostas com qualquer pessoa interessada no projeto. Confira a guia Discussões para começar.
| Nome | Descrição | Status |
|---|---|---|
| Experimento inicial | Expanda os detalhes rápidos com um LLM | Completo |
| Modelo treinado de “Unimplificação” | Treine um modelo para “não implificar” solicitações | Feedback solicitado |