charred 다운로드 - charred 소스 코드 다운로드

charred

글꼴 다운로드

1.0.0

다운로드

캐릭터 인식 확산 : 실제로 철자를 할 수있는 글꼴 인식 확산기를위한 다국어 문자 인식 인코더

글꼴과 타이포그래피를 올바르게 철자하거나 처리 할 수없는 텍스트-이미지 모델에 지쳤습니까? 비밀은 Byt5 및 Canine-C와 같은 다국어, 토큰 화가없는 문자 인식 변압기 인코더를 사용하는 것으로 보입니다.

HF의 `text-to-image` 파이프 라인에서 클립을 BYT5로 교체하십시오

Hugging Face Jax Diffuser Sprint의 일환으로 HF의 JAX/Flax Text-Image Pre-Training Code에서 Clip의 토큰 화기 및 인코더를 BYT5로 교체하여 이벤트를 위해 Google이 제공 한 스폰서 TPU Ressources에서 실행합니다.

보다 구체적으로, 스프린트 중에 달성하려는 주요 작업은 다음과 같습니다.

사전 훈련 데이터 세트 준비 : 우리는 lambdalabs/pokemon-blip-captions 훈련시키지 않을 것입니다. 그렇다면 옵션은 무엇입니까? 여기 또는 여기에있는 것이 당신의 공상을 취하고 있습니까? 아니면 diffusiondb? 아니면 많은 데이터 세트의 저항 믹스? 우리는 다음과 같은 요구 사항을 다루려고 할 때 많은 데이터 세트를 결합해야 할 것입니다.
- 장면에 캡션에 명시 적으로 지정된 텍스트가있는 샘플이 필요하며 우선 순위는 전체 장면 사진에서이를 수행하는 것입니다. 충분히 찾을 수 없다면 OCR에보다 전문화 된 데이터 세트를 통합 할 것입니다.
- BYT5와 거의 동일한 언어 분포이지만, 프롬프트의 텍스트가 언어로 지정 될 때 캐릭터 인식이 어떻게 작동하는지 확인하기 위해 인도네시아 (BYT5가 아님)를 포함합니다. 우리는 인도네시아, 일본어, 프랑스어, 암하라, 아랍어, 노르웨이어, 스웨덴어, 힌디어, 우르두어 및 영어와 같은 팀원과 친구들이 사용하는 언어를 중심으로 테스트 시설을 구축해야합니다.
우리는 Hugging Face DataSets 라이브러리를 최대한 많이 사용하여 JAX를 상자에서 지원하므로 사용합니다. 단순화를 위해 우리는 Laion2b en, Multi 및 Nolang과 같은 Hugging Face 데이터 세트에 대해 제한 할 것입니다. 그러나 우리는 훈련하기 전에 디스크에서 데이터 세트를 사전로드, 사전 프로세스 및 캐시해야합니다.
원래 코드 개선 :
- ~~TPU VM에서 원본 코드를 실행할 수 있는지 확인하십시오.~~
- Google Cloud TPU V4-8 VM의 코드를 감사하고 최적화하십시오 : jnp (NP 대신) jit , grad , vmap , pmap , pjit Everywhere! 그리고 우리는 스프린트 코드에서 이루어진 최적화를 놓치지 않도록해야합니다.
- 개방형 원격 측정, 텐서 보드, Perfetto, Weights & Biases 및 Jax의 자체 프로파일 러가있는 TPU 원격 모니터링을위한 계측.
- Cloud Storage에 업로드하는 Checkpoint Milestone 스냅 샷 구현 : 로컬 추론 벤치마킹 모델을 다운로드하여 올바른 길을 가고 있는지 확인할 수 있어야합니다. 원래 코드에는 기본 체크 포인트 지원이있는 것 같습니다.
- ~~정치를위한 시간이 없습니다. NSFW 필터링이 꺼집니다. 그래서 우리는 FlaxStableDiffusionSafetyChecker 방해하지 않습니다.~~
원래 코드로 클립 클립을 BYT5로 바꾸십시오.
- CLIPTokenizer ByT5Tokenizer 로 교체합니다. 이것은 CPU에서 실행되므로 성능 향상에 대한 희망이 없다면 Jax/Flax가 필요하지 않습니다. 이것은 사소해야합니다. 병합. 테스트가 필요합니다.
- ~~FlaxCLIPTextModel FlaxT5EncoderModel 로 교체합니다. 이것은 토큰 화기를 교체하는 것만 큼 쉽습니다.~~ 병합. 테스트가 필요합니다.
- ~~Byt5의 CLIPImageProcessor 다시 작성하십시오. 이것은 여전히 조사 중입니다. 얼마나 힘든지는 불분명합니다.~~ 완료. 테스트가 필요합니다.
- ~~필요한 경우 BYT5에 대한 FlaxAutoencoderKL 및 FlaxUNet2DConditionModel .~~ 완료. 테스트가 필요합니다.
- ~~기본 프리 트레인 루프를 다른 소스 파일의 여러 기능으로 나누어 가독성과 유지 보수가 쉬워집니다.~~

서예 및 타이포그래피 Controlnet 소개

둘째, 생성 된 이미지에 대한 더 나은 타이포그래피 제어를 위해 위의 포그 페이스 Jax/Flax Controlnet 구현에 통합 할 것입니다. Peter von Platen의 제안에 따라 위의 직교로 활성화 된 SD에 따르면, 우리는 또한 텍스트 컨텐츠, 글꼴 분류, 무게, 커닝, 선두, 슬랜트 및 기타 버전의 수정 사항에 의해 지원되는 텍스트 컨텐츠, 글꼴 분류, 무게, 커닝, 슬랜트 및 기타 기타 특성의 다국어 데이터 세트와 함께 훈련 된 타이포그래피 컨트롤 네트를 소개합니다.

확장하다

추가 정보