charred Download - charred -Quellcode -Download

charred

Schriftarten herunterladen

1.0.0

Herunterladen

Charakterbewusste Diffusion: Mehrsprachige charakterbewusste Encoder für Schriftarten für Schriftarten, die tatsächlich buchstabieren können

Müde von Text-to-Image-Modellen, die nicht korrekt mit Schriftarten und Typografie buchstabieren oder umgehen können? Das Geheimnis scheint in der Verwendung von mehrsprachigen, tokenisierungsfreien, charakterbewussten Transformator-Encodern wie Byt5 und Canine-C zu stehen.

Ersetzen Sie Clip durch BYT5 in der `text-to-image` -Pipeline von HF

Im Rahmen des Umarmungsgesichts-Jax-Diffusor-Sprint werden wir Clips Tokenizer und Encoder durch Byt5 in dem JAX/Flachs-Text-zu-Image-Pre-Training-Code des HF von HF ersetzen und auf den von Google für die Veranstaltung bereitgestellten TPU-Ressourcen ausführen.

Insbesondere hier sind die Hauptaufgaben, die wir während des Sprint erledigen werden:

Vorbereitung vor der Ausbildung: Wir werden nicht auf lambdalabs/pokemon-blip-captions trainieren. Also, was wird es sein, welche Optionen sind die Optionen? Etwas hier oder hier nimmt sich Ihre Phantasie? Oder vielleicht DiffusionDB? Oder eine Savant -Mischung aus vielen Datensätzen? Wir müssen wahrscheinlich viele Datensätze kombinieren, da wir diese Anforderungen erfüllen möchten:
- Wir brauchen Muster, für die es in der Szene Text gibt, die in der Bildunterschrift explizit angegeben ist, und die Priorität besteht darin, dies auf vollständigen Szenenfotos zu tun. Wenn wir nicht genug finden können, werden wir spezialisiertere Datensätze für OCR integrieren.
- Ungefähr die gleiche Sprachverteilung wie BYT5, aber auch Indonesisch (nicht in Byt5), um zu sehen, wie das Charakterbewusstsein funktioniert, wenn der Text in der Eingabeaufforderung in einer Sprache angegeben ist. Wir müssen Testeinrichtungen rund um die Sprachen bauen, die von Teammitgliedern und Freunden gesprochen werden: Indonesisch, Japanisch, Französisch, Amharisch, Arabisch, Norwegisch, Schwedisch, Hindi, Urdu und Englisch.
Wir sollten die Bibliothek der umarmenden Gesichtsdatensätze so weit wie möglich verwenden, da sie JAX unterstützt. Um den Einfachheit halber werden wir uns auf verkettete Umarmungsdatensätze wie Laion2B EN, Multi und Nolang beschränken. Wir werden den Datensatz auf der Festplatte vor dem Training vor dem Training vor dem Training vor dem Training vor dem Training.
Verbesserungen des ursprünglichen Code:
- ~~Stellen Sie sicher, dass wir den ursprünglichen Code als IS auf der TPU-VM ausführen können.~~
- Prüfen und optimieren Sie den Code für die Google Cloud TPU V4-8 VM: jnp (anstelle von NP) jit , grad , vmap , pmap , pjit überall! Und wir sollten sicherstellen, dass wir auch keine Optimierung im Sprint -Code verpassen.
- Instrumentierung für die TPU -Fernüberwachung mit offener Telemetrie, Tensorboard, Perfetto, Gewichten und Vorurteilen und Jax 'eigenem Profiler.
- Implementieren von Checkpoint Milestone Snapshot Uploading in Cloud -Speicher: Wir müssen das Modell für lokale Inferenz -Benchmarking herunterladen können, um sicherzustellen, dass wir auf dem richtigen Weg sind. Es scheint einen rudimentären Checkpoint -Support im ursprünglichen Code zu geben.
- ~~Keine Zeit für die Politik. Die NSFW -Filterung wird ausgeschaltet. Also bekommen wir FlaxStableDiffusionSafetyChecker aus dem Weg.~~
Ersetzen Sie Clip durch BYT5 im Originalcode:
- CLIPTokenizer durch ByT5Tokenizer ersetzen. Da dies auf dem CPUs läuft, besteht keine Notwendigkeit für Jax/Flachs, es sei denn, es gibt Hoffnung auf enorme Leistungsverbesserungen. Dies sollte trivial sein. Zusammengeführt. Muss getestet werden.
- ~~Ersetzen von FlaxCLIPTextModel durch FlaxT5EncoderModel . Dies könnte fast so einfach sein wie das Ersetzen des Tokenizers.~~ Zusammengeführt. Muss getestet werden.
- ~~Schreiben Sie CLIPImageProcessor für BYT5 um. Dies wird noch untersucht. Es ist unklar, wie schwer es sein wird.~~ Erledigt. Muss getestet werden.
- ~~Radapt FlaxAutoencoderKL und FlaxUNet2DConditionModel für Byt5 gegebenenfalls.~~ Erledigt. Muss getestet werden.
- ~~Zeugen Sie die Hauptschleife vor der Vorabstärke in viele Funktionen in verschiedenen Quelldateien zur Lesbarkeit und einfacher Wartung auf.~~

Einführung eines kalligraphischen und typografischen Steuerungsnetzes

Zweitens werden wir uns in die oben genannte Implementierung von Jax/Flax ControlNET integrieren, um die generierten Bilder bessere typografische Steuerung zu erhalten. To the orthographically-enanced SD above and as per Peter von Platen's suggestion, we also introduce the idea a typographic ControlNet trained on an synthetic dataset of images paired with multilingual specifications of the textual content, font taxonomy, weight, kerning, leading, slant and any other typographic attribute supported by the CSS3 Text, Fonts and Writing Modes modules, as implemented by the latest version of Chromium.

Expandieren

Zusätzliche Informationen