Ziel dieses Projekts ist es, potenzielle Verwendungen großer Sprachmodelle für die Aufgabe zur Verbesserung der aktuellen Stand der Kunsttext-Image-Modelle wie der stabilen Diffusion zu untersuchen.
Das Schreiben optimaler Textaufforderungen, um ein Text-zu-Image-Modell in Richtung eines gewünschten Ergebniss am besten zu führen, kann eine komplexe Aufgabe sein, die häufig scheinbar willkürliche Schlüsselwörter und verschiedene Stilmodifikatoren verwendet werden muss.
Die starke Verwendung dieser Modifikatoren ist bei erfahrenen Benutzern üblich, da sie häufige positive Auswirkungen auf die subjektive ästhetische Qualität sowie ihre Fähigkeit haben, Bilder, die enger mit dem gewünschten Ergebnis ausgerichtet sind, zu erzeugen. Selbst subtile Veränderungen in der Word -Platzierung können einen erheblichen Effekt haben, was möglicherweise selbst für die erfahrensten Schriftsteller potenziell unnötige Arbeiten erzeugt.
Angesichts dieser Komplexität und des Mangels an Intuitivität ist die sofortige Eingabe als Benutzeroberfläche für Text-zu-Image-Modelle derzeit weniger als ideal.
Dieses Projekt befindet sich derzeit in der Erkundungsphase. Wir begrüßen alle Feedback der Community und würden gerne potenzielle Vorschläge mit jedem, der sich für das Projekt interessiert, diskutieren. Schauen Sie sich die Registerkarte Diskussionen an, um loszulegen.
| Name | Beschreibung | Status |
|---|---|---|
| Erstes Experiment | Erweitern Sie das schnelle Detail mit einem LLM | Vollständig |
| Geschulteres "Unsimplification" -Modell | Trainieren Sie ein Modell, um die Eingabeaufforderungen zu „nicht erklären“ | Feedback angefordert |