charred下載 - charred源代碼下載

charred

字體下載

1.0.0

下載

角色吸引的擴散：字體感知器的多語言角色感知的編碼器實際上可以拼寫

厭倦了無法正確拼寫或處理字體和版式的文本對圖像模型？秘密似乎是在使用多語言，無令牌，角色感知的變壓器編碼器，例如Byt5和Canine-C。

在HF的`text-to-image`管道中，用BYT5替換剪輯

作為擁抱臉Jax擴散器Sprint的一部分，我們將用HF的JAX/FLAX文本對圖像預訓練代碼中的BYT5代替Clip的令牌和編碼器，並在Google提供的tpu ressources上運行它。

更具體地說，這是我們將在衝刺期間嘗試完成的主要任務：

預培訓數據集準備：我們不會在lambdalabs/pokemon-blip-captions上進行培訓。那麼，這將是什麼，有什麼選擇？這里或這裡有什麼想像您的幻想嗎？還是dibfusiondb？還是許多數據集的Savant組合？我們可能需要將許多數據集結合起來，因為我們希望涵蓋這些要求：
- 我們需要在字幕中明確指定的場景中有文本的示例，優先級是在完整的場景照片中執行此操作。如果我們找不到足夠的東西，我們將整合更多專業的數據集用於OCR；
- 與BYT5的語言分佈大致相同，但還包括印尼語（不在Byt5中），以查看字符意識在提示中指定在一種語言中時的文本時如何起作用。我們需要圍繞團隊成員和朋友所說的語言建立測試設施：印尼，日語，法語，阿姆哈拉語，阿拉伯語，挪威語，瑞典語，瑞典語，印地語，烏爾都語，烏爾都語和英語。
由於它支持JAX開箱即用，因此我們盡可能多地使用擁抱面部數據集庫。為了簡單起見，我們將限制我們將擁抱面部數據集（例如Laion2b EN，Multi和Nolang）串聯。但是，我們將在對其進行培訓之前進行預加工和磁盤上的數據集緩存。
對原始代碼的改進：
- ~~確保我們可以在TPU VM上運行原始代碼。~~
- 審核並優化Google Cloud TPU V4-8 VM的代碼： jnp （而不是NP） jit ， grad ，VMAP， vmap ， pmap ， pjit無處不在！而且我們應該確保我們也不會錯過Sprint代碼中的任何優化。
- 使用開放式遙測，張量，perfetto，重量和偏見以及Jax自己的探測器的TPU遠程監視的儀器。
- 實施檢查點里程碑快照上傳到雲存儲：我們需要能夠下載用於本地推理基準測試的模型，以確保我們在正確的軌道上。原始代碼中似乎有基本檢查點的支持。
- ~~沒有時間進行政治。 NSFW過濾將關閉。因此，我們將FlaxStableDiffusionSafetyChecker擺脫困境。~~
用原始代碼中的Byt5替換剪輯：
- ~~用ByT5Tokenizer代替CLIPTokenizer 。由於這將在CPU上運行，因此除非有巨大的性能改善，否則不需要JAX/Flax。這應該是微不足道的。~~合併。需要測試。
- ~~用FlaxT5EncoderModel替換FlaxCLIPTextModel 。這可能幾乎與更換令牌儀一樣容易。~~合併。需要測試。
- ~~重寫BYT5的CLIPImageProcessor 。這仍在調查中。目前尚不清楚它將有多困難。~~完畢。需要測試。
- ~~如有必要，radapt FlaxAutoencoderKL和FlaxUNet2DConditionModel 。~~完畢。需要測試。
- ~~將主要預循環分解為不同源文件中的許多功能，以進行可讀性和更容易的維護。~~

引入書法和印刷控製網

其次，我們將集成到上面的擁抱式JAX/FLAX CONTROLNET實現，以更好地對生成的圖像進行印刷控制。在上面的截形式SD上，按照彼得·馮·普拉頓（Peter von Platen）的建議，我們還介紹了在圖像的合成數據集中培訓的印刷控製網絡，並與文本內容，字體分類，重量，重量，領先，領先，傾向和任何其他字體屬於CSS和其他版本的文本和其他版本的文本屬性和任何其他版本的文本屬於Font，Fonthe的屬性和任何其他版本的版本，Fonthe和任何其他版本的文本，FONTES 3的多種語言規格。鉻。

展開

附加信息