charred下载 - charred源代码下载

charred

字体下载

1.0.0

下载

角色吸引的扩散：字体感知器的多语言角色感知的编码器实际上可以拼写

厌倦了无法正确拼写或处理字体和版式的文本对图像模型？秘密似乎是在使用多语言，无令牌，角色感知的变压器编码器，例如Byt5和Canine-C。

在HF的`text-to-image`管道中，用BYT5替换剪辑

作为拥抱脸Jax扩散器Sprint的一部分，我们将用HF的JAX/FLAX文本对图像预训练代码中的BYT5代替Clip的令牌和编码器，并在Google提供的tpu ressources上运行它。

更具体地说，这是我们将在冲刺期间尝试完成的主要任务：

预培训数据集准备：我们不会在lambdalabs/pokemon-blip-captions上进行培训。那么，这将是什么，有什么选择？这里或这里有什么想像您的幻想吗？还是dibfusiondb？还是许多数据集的Savant组合？我们可能需要将许多数据集结合起来，因为我们希望涵盖这些要求：
- 我们需要在字幕中明确指定的场景中有文本的示例，优先级是在完整的场景照片中执行此操作。如果我们找不到足够的东西，我们将整合更多专业的数据集用于OCR；
- 与BYT5的语言分布大致相同，但还包括印尼语（不在Byt5中），以查看字符意识在提示中指定在一种语言中时的文本时如何起作用。我们需要围绕团队成员和朋友所说的语言建立测试设施：印尼，日语，法语，阿姆哈拉语，阿拉伯语，挪威语，瑞典语，瑞典语，印地语，乌尔都语，乌尔都语和英语。
由于它支持JAX开箱即用，因此我们尽可能多地使用拥抱面部数据集库。为了简单起见，我们将限制我们将拥抱面部数据集（例如Laion2b EN，Multi和Nolang）串联。但是，我们将在对其进行培训之前进行预加工和磁盘上的数据集缓存。
对原始代码的改进：
- ~~确保我们可以在TPU VM上运行原始代码。~~
- 审核并优化Google Cloud TPU V4-8 VM的代码： jnp （而不是NP） jit ， grad ，VMAP， vmap ， pmap ， pjit无处不在！而且我们应该确保我们也不会错过Sprint代码中的任何优化。
- 使用开放式遥测，张量，perfetto，重量和偏见以及Jax自己的探测器的TPU远程监视的仪器。
- 实施检查点里程碑快照上传到云存储：我们需要能够下载用于本地推理基准测试的模型，以确保我们在正确的轨道上。原始代码中似乎有基本检查点的支持。
- ~~没有时间进行政治。 NSFW过滤将关闭。因此，我们将FlaxStableDiffusionSafetyChecker摆脱困境。~~
用原始代码中的Byt5替换剪辑：
- ~~用ByT5Tokenizer代替CLIPTokenizer 。由于这将在CPU上运行，因此除非有巨大的性能改善，否则不需要JAX/Flax。这应该是微不足道的。~~合并。需要测试。
- ~~用FlaxT5EncoderModel替换FlaxCLIPTextModel 。这可能几乎与更换令牌仪一样容易。~~合并。需要测试。
- ~~重写BYT5的CLIPImageProcessor 。这仍在调查中。目前尚不清楚它将有多困难。~~完毕。需要测试。
- ~~如有必要，radapt FlaxAutoencoderKL和FlaxUNet2DConditionModel 。~~完毕。需要测试。
- ~~将主要预循环分解为不同源文件中的许多功能，以进行可读性和更容易的维护。~~

引入书法和印刷控制网

其次，我们将集成到上面的拥抱式JAX/FLAX CONTROLNET实现，以更好地对生成的图像进行印刷控制。在上面的截形式SD上，按照彼得·冯·普拉顿（Peter von Platen）的建议，我们还介绍了在图像的合成数据集中培训的印刷控制网络，并与文本内容，字体分类，重量，重量，领先，领先，倾向和任何其他字体属于CSS和其他版本的文本和其他版本的文本属性和任何其他版本的文本属于Font，Fonthe的属性和任何其他版本的版本，Fonthe和任何其他版本的文本，FONTES 3的多种语言规格。铬。

展开

附加信息