Download charred - Unduh Kode Sumber charred

charred

Pengunduhan font

1.0.0

Unduh

Difusi Aware Karakter: Encoder Aware Karakter Multilingual untuk Diffusers Font-Aware yang benar-benar dapat mengeja

Bosan dengan model teks-ke-gambar yang tidak dapat mengeja atau menangani font dan tipografi dengan benar? Rahasianya tampaknya dalam penggunaan encoder transformator multibahasa, bebas tokenisasi, dan sadar karakter seperti BYT5 dan Canine-C.

Ganti klip dengan BYT5 di pipa `text-to-image` HF

Sebagai bagian dari wajah pelukan Jax Diffuser Sprint, kami akan mengganti tokenizer dan encoder Clip dengan BYT5 di kode pra-pelatihan JAX/Flax Text-to-Image HF dan menjalankannya pada sumber TPU yang disponsori yang disediakan oleh Google untuk acara tersebut.

Lebih khusus lagi, berikut adalah tugas utama yang akan kami coba capai selama sprint:

Persiapan dataset pra-pelatihan: Kami tidak akan berlatih di lambdalabs/pokemon-blip-captions . Jadi apa yang akan terjadi, apa saja pilihannya? Ada di sini atau di sini menyukai Anda? Atau mungkin difusiondb? Atau campuran yang tidak banyak dari banyak set data? Kami mungkin perlu menggabungkan banyak set data karena kami ingin memenuhi persyaratan ini:
- Kami membutuhkan sampel yang ada teks dalam adegan yang secara eksplisit ditentukan dalam keterangan dan prioritasnya adalah melakukan itu dalam foto adegan penuh. Jika kami tidak dapat menemukan cukup, kami akan mengintegrasikan dataset yang lebih khusus untuk OCR;
- Kira-kira distribusi bahasa yang sama dengan BYT5, tetapi juga termasuk Indonesia (bukan dalam BYT5) untuk melihat bagaimana kesadaran karakter bekerja ketika teks dalam prompt ditentukan dalam bahasa. Kita perlu membangun fasilitas pengujian di sekitar bahasa yang digunakan oleh anggota tim dan teman: Indonesia, Jepang, Prancis, Amharik, Arab, Norwegia, Swedia, Hindi, Urdu dan Inggris.
Kami harus menggunakan perpustakaan dataset wajah pelukan sebanyak mungkin karena mendukung Jax di luar kotak. Demi kesederhanaan, kita akan membatasi kita untuk menggabungkan kumpulan data wajah seperti Laion2b En, Multi dan Nolang. Kami akan, betapapun pra-muatan, pra-proses, dan menyimpan dataset pada disk sebelum pelatihan di atasnya.
Perbaikan Kode Asli:
- ~~Pastikan kita dapat menjalankan kode asli apa adanya di TPU VM.~~
- Audit dan optimalkan kode untuk Google Cloud TPU V4-8 VM: jnp (bukan NP) jit , grad , vmap , pmap , pjit di mana-mana! Dan kita harus memastikan bahwa kita juga tidak melewatkan optimasi yang dibuat dalam kode sprint.
- Instrumentasi untuk pemantauan jarak jauh TPU dengan telemetri terbuka, tensorboard, perfetto, bobot & bias dan profiler Jax sendiri.
- Menerapkan CHECKPOINT MILESTONE SNAPSHOT UEDLOADING UNTUK PENYIMPANAN CLOUR: Kita harus dapat mengunduh model untuk pembandingan inferensi lokal untuk memastikan kita berada di jalur yang benar. Tampaknya ada dukungan pos pemeriksaan yang belum sempurna dalam kode asli.
- ~~Tidak ada waktu untuk politik. Penyaringan NSFW akan dimatikan. Jadi kami mendapatkan FlaxStableDiffusionSafetyChecker keluar dari jalan.~~
Ganti klip dengan byt5 dalam kode asli:
- ~~Mengganti CLIPTokenizer dengan ByT5Tokenizer . Karena ini akan berjalan di CPU, tidak perlu untuk Jax/Flax kecuali ada harapan untuk peningkatan kinerja yang sangat besar. Ini harus sepele.~~ Gabungan. Perlu pengujian.
- ~~Mengganti FlaxCLIPTextModel dengan FlaxT5EncoderModel . Ini mungkin hampir semudah mengganti tokenizer.~~ Gabungan. Perlu pengujian.
- ~~Tulis ulang CLIPImageProcessor untuk BYT5. Ini masih dalam penyelidikan. Tidak jelas betapa sulitnya itu.~~ Selesai. Perlu pengujian.
- ~~Radapt FlaxAutoencoderKL dan FlaxUNet2DConditionModel untuk BYT5 jika perlu.~~ Selesai. Perlu pengujian.
- ~~Memecah loop pretraining utama ke dalam banyak fungsi dalam file sumber yang berbeda untuk keterbacaan dan pemeliharaan yang lebih mudah.~~

Memperkenalkan Kaligrafi & Kontrolet Tipografi

Kedua, kami akan mengintegrasikan ke atas implementasi JAX/Flax ControlNet di atas untuk kontrol tipografi yang lebih baik atas gambar yang dihasilkan. Kepada SD yang ditahan secara ortografis di atas dan sesuai saran Peter von Platen, kami juga memperkenalkan gagasan kontrol tipografi yang dilatih pada dataset sintetis gambar yang dipasangkan dengan spesifikasi multibahasa dari konten tekstual, taksonomi font, bobot, kering, memimpin, miring, dan atribut tipografi lainnya yang didukung oleh CSSS3, KERNING, KERNING, FONTS, dan ATHRIBUT TYPOGRAPHY lainnya yang didukung oleh CSSS3, CSSS3, CSSS3, KERNING, MODI, DAN ATAT TYPOGROGASA YANG MODIULA YANG MODIUS DUKUNGAN DUKUNGAN DUKUNGAN DENGAN CSS 3 Kromium.

Memperluas

Informasi Tambahan