Dieses Repository ist die offizielle Implementierung von Zero-Painter.
Zero-Painter: Trainingsfreies Layoutkontrolle für die Text-zu-Image-Synthese
Marianna ohanyan*, Hayk Manukyan*, Zhangyang Wang, Shant Navasardyan, Humphrey Shi
Arxiv

Wir präsentieren Zero-Painter , ein neuartiges Training-freier Rahmen für die Layout-Konditionelle Text-zu-Image-Synthese, die die Erstellung detaillierter und kontrollierter Bilder aus textlichen Eingabeaufforderungen erleichtert. Unsere Methode verwendet Objektmasken und individuelle Beschreibungen in Verbindung mit einer globalen Textaufforderung, um Bilder mit hoher Treue zu generieren. Zero-Painter verwendet einen zweistufigen Prozess, der unseren neuartigen , prompt angepassten Cross-Attention-Blöcken (PACA) und die Region-gruppierte Cross-Ass-Blöcke (REGCA) umfasst, um eine genaue Ausrichtung generierter Objekte mit Texteingabeaufforderungen und Maskenformen zu gewährleisten. Unsere umfangreichen Experimente zeigen, dass Zero-Painter die aktuellen Stand der Technik übertrifft, um Textdetails zu erhalten und Formen zu maskieren.
Mit pip einbauen:
pip3 install -r requirements.txtmodels . python zero_painter.py
--mask-path data/masks/1_rgb.png
--metadata data/metadata/1.json
--output-dir data/outputs/
meatadata könnte im folgenden Format sein
[{
"prompt": "Brown gift box beside red candle.",
"color_context_dict": {
"(244, 54, 32)": "Brown gift box",
"(54, 245, 32)": "red candle"
}
}]

Wenn Sie unsere Arbeit in Ihrer Forschung verwenden, zitieren Sie bitte unsere Veröffentlichung:
@article{Zeropainter,
title={Zero-Painter: Training-Free Layout Control for Text-to-Image Synthesis},
url={http://arxiv.org/abs/2406.04032},
publisher={arXiv},
author={Ohanyan, Marianna and Manukyan, Hayk and Wang, Zhangyang and Navasardyan, Shant and Shi, Humphrey},
year={2024}}