تعبت من نماذج النص إلى الصورة التي لا تستطيع تهجئة الخطوط والطباعة بشكل صحيح أو التعامل معها بشكل صحيح؟ يبدو أن السر هو في استخدام محولات محول متعددة اللغات خالية من الرمز المميز ، والمعروف بالأحرف مثل BYT5 و Canine-C.
text-to-image HFكجزء من Sprint Jax Diffuser Sprint ، سنستبدل رمز الرمز المميز والتشفير الخاص بـ Clip بـ BYT5 في رمز التدريب المسبق لـ HF Jax/Flax إلى الحدث.
وبشكل أكثر تحديدًا ، إليك المهام الرئيسية التي سنحاول تحقيقها أثناء العدو:
إعداد مجموعة بيانات ما قبل التدريب: لن نتدرب على lambdalabs/pokemon-blip-captions . إذن ما هي الخيارات؟ أي شيء هنا أو هنا يأخذ خيالك؟ أو ربما diffusionDB؟ أو مزيج منقوش من العديد من مجموعات البيانات؟ ربما سنحتاج إلى الجمع بين العديد من مجموعات البيانات لأننا نتطلع إلى تغطية هذه المتطلبات:
نستخدم مكتبة مجموعات بيانات Face Hugging قدر الإمكان لأنه يدعم Jax خارج الصندوق. من أجل البساطة ، سوف نقصرنا على متسلسل مجموعات بيانات الوجه المعانقة مثل Laion2b EN و Multi و Nolang. سنقوم ، على الرغم من التحميل المسبق ، قبل العملية واخبارك مجموعة البيانات على القرص قبل التدريب عليه.
تحسينات على الكود الأصلي:
jnp (بدلاً من NP) jit و grad و vmap و pmap و pjit في كل مكان! ويجب أن نتأكد من أننا لا نفقد أي تحسين تم إجراؤه في رمز العدو أيضًا.FlaxStableDiffusionSafetyChecker من الطريق.استبدل المقطع بـ BYT5 في الكود الأصلي:
CLIPTokenizer مع ByT5Tokenizer . نظرًا لأن هذا سيتم تشغيله على وحدات المعالجة المركزية ، فليس هناك حاجة إلى Jax/Flax ما لم يكن هناك أمل في تحسين الأداء. هذا يجب أن يكون تافهة.FlaxCLIPTextModel مع FlaxT5EncoderModel . قد يكون هذا سهلاً تقريبًا مثل استبدال الرمز المميز.CLIPImageProcessor لـ BYT5. هذا لا يزال قيد التحقيق. من غير الواضح مدى صعوبة ذلك.FlaxAutoencoderKL و FlaxUNet2DConditionModel لـ BYT5 إذا لزم الأمر.ثانياً ، سوف ندمج ما ورد أعلاه تطبيق Jax/Flax ControlNet المعانقة أعلاه لتحكم طباعة أفضل على الصور التي تم إنشاؤها. إلى SD المتوازن من الناحية المعجزة أعلاه ، ووفقًا لاقتراح بيتر فون بلاتن ، فإننا نقدم أيضًا فكرة التحكم المطبعي المدربين على مجموعة بيانات اصطناعية من الصور المقترنة بمواصفات متعددة اللغات من المحتوى النصي ، والتصنيف للخطوط ، والوزن ، والكيرنينج ، والقيادة ، وأي سمة نموذجية أخرى مدعومة بالمراحل CSS3 ، وكتابة modules.