Download charred - Download de código -fonte charred

charred

Baixar fonte

1.0.0

Baixar

Difusão com reconhecimento de caracteres: codificadores multilíngues conscientes para os difusores com reconhecimento de fontes que podem realmente soletrar

Cansado de modelos de texto para imagem que não podem soletrar ou lidar com fontes e tipografia corretamente? O segredo parece estar no uso de codificadores multilíngues, sem tokenização e com consciência de caracteres, como BYT5 e canine-C.

Substitua o clipe pelo byt5 no pipeline `text-to-image` de HF

Como parte do sprint do Hugging Face Jax difuser, substituiremos o tokenizador e o codificador do clipe pelo código de pré-treinamento do Byt5 no Jax/Flax da HF e o execute no TPU Ressources patrocinados fornecido pelo Google para o evento.

Mais especificamente, aqui estão as principais tarefas que tentaremos realizar durante o sprint:

Preparação do conjunto de dados pré-treinamento: não vamos treinar em lambdalabs/pokemon-blip-captions . Então, o que vai ser, quais são as opções? Algo aqui ou aqui leva sua fantasia? Ou talvez DiffusionDB? Ou uma mistura ousada de muitos conjuntos de dados? Provavelmente precisaremos combinar muitos conjuntos de dados, pois procuramos cobrir esses requisitos:
- Precisamos de amostras para as quais há texto na cena que seja explicitamente especificado na legenda e a prioridade é fazer isso nas fotos completas da cena. Se não conseguirmos encontrar o suficiente, integraremos conjuntos de dados mais especializados para OCR;
- Aproximadamente a mesma distribuição de idiomas que o BYT5, mas também inclui o indonésio (não no BYT5) para ver como a consciência do personagem funciona quando o texto no prompt é especificado em um idioma. Precisamos construir instalações de teste em torno dos idiomas falados pelos membros e amigos da equipe: indonésio, japonês, francês, amárico, árabe, norueguês, sueco, hindi, urdu e inglês.
Nós usamos a biblioteca de conjuntos de dados de face abraçados o máximo possível, pois ela suporta Jax fora da caixa. Por uma questão de simplicidade, nos limitaremos a conjuntos de conjuntos de dados de rosto de abraços concatenados, como Laion2b EN, Multi e Nolang. No entanto, devemos, no entanto, pré-carregar, pré-processo e armazenar em cache o conjunto de dados no disco antes de treiná-lo.
Melhorias no código original:
- ~~Verifique se podemos executar o código original como está na TPU VM.~~
- Audite e otimize o código para o Google Cloud TPU V4-8 VM: jnp (em vez de NP) jit , grad , vmap , pmap , pjit em todos os lugares! E devemos garantir que não perdemos nenhuma otimização feita no código Sprint também.
- Instrumentação para o monitoramento remoto da TPU com telemetria aberta, tensorboard, perfetto, pesos e vieses e o próprio perfil de Jax.
- Implemente o upload de instantâneos do ponto de verificação do ponto de verificação para armazenamento em nuvem: precisamos ser capazes de baixar o modelo para o benchmarking de inferência local para garantir que estamos no caminho certo. Parece haver suporte de ponto de verificação rudimentar no código original.
- ~~Sem tempo para a política. A filtragem NSFW será desligada. Por isso, obtemos FlaxStableDiffusionSafetyChecker do caminho.~~
Substitua o clipe por BYT5 no código original:
- Substituindo CLIPTokenizer pelo ByT5Tokenizer . Como isso será executado nas CPUs, não há necessidade de Jax/linho, a menos que haja esperança para grandes melhorias no desempenho. Isso deve ser trivial. Mesclado. Precisa de testes.
- ~~Substituindo FlaxCLIPTextModel por FlaxT5EncoderModel . Isso pode ser quase tão fácil quanto substituir o tokenizer.~~ Mesclado. Precisa de testes.
- ~~Reescreva CLIPImageProcessor PARA BYT5. Isso ainda está sob investigação. Não está claro o quão difícil será.~~ Feito. Precisa de testes.
- ~~RADAPT FlaxAutoencoderKL E FlaxUNet2DConditionModel PARA BYT5, se necessário.~~ Feito. Precisa de testes.
- ~~Divida o loop principal de pré -treinamento em muitas funções em diferentes arquivos de origem para obter legibilidade e manutenção mais fácil.~~

Apresentando uma rede caligráfica e tipográfica

Em segundo lugar, nos integraremos ao acima, uma implementação de ControlNet Jax/Flax de Face Hugging para um melhor controle tipográfico sobre as imagens geradas. To the orthographically-enanced SD above and as per Peter von Platen's suggestion, we also introduce the idea a typographic ControlNet trained on an synthetic dataset of images paired with multilingual specifications of the textual content, font taxonomy, weight, kerning, leading, slant and any other typographic attribute supported by the CSS3 Text, Fonts and Writing Modes modules, as implemented by the latest version of Chromium.

Expandir

Informações adicionais