charred загрузка - charred загрузка исходного кода

charred

Загрузка шрифта

1.0.0

Скачать

Диффузия с учетом символов: многоязычные кодеры с учетом характера для рассеивателей с платкой, которые на самом деле могут заклинать

Устали от моделей текста до изображения, которые не могут правильно писать или иметь дело с шрифтами и типографией? Секрет, по-видимому, заключается в использовании многоязычных, не содержащих токенизации трансформеров, таких как BYT5 и Canine-C.

Замените зажима на BYT5 в конвейере `text-to-image` HF.

В рамках спринта обнимающего лица JAX Diffuser мы заменим токенизатор и кодировщик CLIP на BYT5 в коде предварительного обучения в JAX/лене HF и запустите его на спонсируемом Ressources TPU, предоставленном Google для мероприятия.

Более конкретно, вот основные задачи, которые мы попытаемся выполнить во время спринта:

Подготовка набора данных перед тренировкой: мы не собираемся тренироваться на lambdalabs/pokemon-blip-captions . Так что же будет, каковы варианты? Что -нибудь здесь или здесь увлекается? Или, может быть, диффузиидб? Или Savant Mix из многих наборов данных? Нам, вероятно, нужно будет объединить множество наборов данных, поскольку мы стремимся покрыть эти требования:
- Нам нужны образцы, для которых в сцене есть текст, который явно указан в заголовках, и приоритет - сделать это на полных фотографиях сцены. Если мы не сможем найти достаточно, мы будем интегрировать более специализированные наборы данных для OCR;
- Приблизительно такое же распределение языка, что и BYT5, но также включают в себя индонезийский (не в BYT5), чтобы увидеть, как работает осознание характера, когда текст в подсказке указан на языке. Нам нужно построить тестирование на языках, на которых говорят члены команды и друзья: индонезийский, японский, французский, амхарский, арабский, норвежский, шведский, хинди, урду и английский.
Мы как можно больше используем библиотеку наборов данных об объятиях лица, так как она поддерживает JAX из коробки. Ради простоты мы будем ограничивать нас объединенными наборами данных об объятиях, таких как Laion2b En, Multi и Nolang. Однако, однако, предварительно загружаем, предварительно обрабатывает и кэшируем набор данных на диске, прежде чем обучать его.
Улучшения в исходном коде:
- ~~Убедитесь, что мы можем запустить исходный код, как и на виртуальной машине TPU.~~
- Аудит и оптимизируйте код для Google Cloud TPU V4-8 VM: jnp (вместо NP) jit , grad , vmap , pmap , pjit везде! И мы должны убедиться, что мы не пропустим какую -либо оптимизацию, сделанную в коде спринта.
- Инструментарий для дистанционного мониторинга TPU с открытой телеметрией, тендордоном, перфетто, весами и смещениями и собственным профилировщиком JAX.
- Реализовать загрузку моментального снимка Checkpoint Milestone в облачное хранилище: нам нужно иметь возможность загрузить модель для локального анализа вывода, чтобы убедиться, что мы находимся на правильном пути. Кажется, в исходном коде есть элементарная поддержка контрольной точки.
- Нет времени для политики. Фильтрация NSFW будет отключена. Таким образом, мы получаем с дороги FlaxStableDiffusionSafetyChecker .
Замените клип BYT5 в исходном коде:
- Замена CLIPTokenizer на ByT5Tokenizer . Поскольку это будет работать на процессорах, нет необходимости в JAX/лене, если только нет надежды на огромные улучшения производительности. Это должно быть тривиально. Объединенный. Нуждается в тестировании.
- ~~Замена FlaxCLIPTextModel на FlaxT5EncoderModel . Это может быть почти так же просто, как замена токенизатора.~~ Объединенный. Нуждается в тестировании.
- ~~Перепишите CLIPImageProcessor для BYT5. Это все еще находится под следствием. Неясно, насколько это будет тяжело.~~ Сделанный. Нуждается в тестировании.
- ~~RADAPT FlaxAutoencoderKL и FlaxUNet2DConditionModel для BYT5 при необходимости.~~ Сделанный. Нуждается в тестировании.
- Разбейте основной цикл предварительного подготовки на многие функции в разных исходных файлах для читаемости и легкого обслуживания.

Представление каллиграфической и типографической контрольной сети

Во-вторых, мы будем интегрироваться в вышеупомянутую реализацию JAX/Flax Controlnet для лучшего типографского управления над генерируемыми изображениями. В орфографически принесенный SD выше и согласно предложению Питера Фон Платена, мы также вводим эту идею типографской сети управления, обученной синтетическим набору данных изображений, в сочетании с многоязычными спецификациями текстового содержания, таксономии Font, веса, моделей, ведущих, уклонов, и любых других типографских атрибутов, поддерживаемых CSS3-версиями, моделями написания и письменных моделей, как поставленные в качестве версии.

Расширять

Дополнительная информация