charredダウンロード - charredソースコードのダウンロード

charred

フォントのダウンロード

1.0.0

ダウンロード

キャラクター認識拡散：実際に綴ることができるフォント認識ディフューザー用の多言語文字認識エンコーダー

フォントやタイポグラフィを正しく綴ることができない、または対処できないテキストから画像へのモデルにうんざりしていませんか？この秘密は、BYT5や犬Cなどの多言語、トークン化のない、キャラクター認識の変圧器エンコーダーの使用にあるようです。

HFの`text-to-image`パイプラインのクリップをBYT5に置き換えます

抱きしめるFace Jax Diffuser Sprintの一部として、HFのJax/Flaxテキストから画像のトレーニングコードのBYT5にClipのトークナーとエンコーダを交換し、イベントのためにGoogleが提供するスポンサー付きのTPU Ressourcesで実行します。

より具体的には、スプリント中に達成しようとする主なタスクを次に示します。

トレーニング前のデータセットの準備： lambdalabs/pokemon-blip-captionsをトレーニングするつもりはありません。それで、それは何になるでしょうか、オプションは何ですか？ここまたはここに何かがあなたの空想を取りますか？それともdiffusiondb？または、多くのデータセットのサバントミックスですか？これらの要件をカバーしようとしているため、おそらく多くのデータセットを組み合わせる必要があります。
- キャプションで明示的に指定されているシーンにテキストがあるサンプルが必要であり、優先事項はフルシーンの写真でそれを行うことです。十分に見つからない場合は、OCR用のより専門的なデータセットを統合します。
- BYT5とほぼ同じ言語分布ですが、インドネシア語（BYT5ではない）も含まれており、プロンプト内のテキストが言語で指定されているときにキャラクターアウェアネスがどのように機能するかを確認します。インドネシア語、日本、フランス語、アムハリック、アラビア語、ノルウェー語、スウェーデン語、ヒンディー語、ウルドゥー語、英語など、チームメンバーや友人が話す言語の周りにテスト施設を構築する必要があります。
Jaxを箱から出してサポートするため、ハグFace Datasets Libraryを可能な限り使用します。簡単にするために、Laion2b En、Multi、Nolangなどのフェイスデータセットを連結した連結に制限します。ただし、トレーニングする前に、ディスクのデータセットを事前処理し、キャッシュし、キャッシュします。
元のコードの改善：
- ~~TPU VMで元のコードを実行できることを確認してください。~~
- Google Cloud TPU V4-8 VM： jnp （NPの代わりに） jit 、 grad 、 vmap 、 pmap 、 pjitどこにでもコードを監査および最適化します！また、スプリントコードで行われた最適化も見逃さないようにする必要があります。
- オープンテレメトリ、テンソルボード、パフェット、ウェイト＆バイアス、およびJax独自のプロファイラーを使用したTPUリモートモニタリング用の計装。
- CheckPoint Milestone Snapshotのクラウドストレージへのアップロードを実装する：ローカル推論ベンチマーク用のモデルをダウンロードして、正しい軌道に乗っていることを確認する必要があります。元のコードには初歩的なチェックポイントのサポートがあるようです。
- ~~政治の時間はありません。 NSFWフィルタリングはオフになります。そのため、 FlaxStableDiffusionSafetyChecker邪魔にならないようにします。~~
元のコードでクリップをBYT5に置き換えます。
- CLIPTokenizer ByT5Tokenizerに置き換えます。これはCPUで実行されるため、パフォーマンスの大幅な改善が希望がない限り、Jax/Flaxは必要ありません。これは些細なことです。マージされた。テストが必要です。
- ~~FlaxCLIPTextModel FlaxT5EncoderModelに置き換えます。これは、トークン剤を交換するのとほぼ同じくらい簡単かもしれません。~~マージされた。テストが必要です。
- ~~BYT5のCLIPImageProcessor書き直します。これはまだ調査中です。それがどれほど難しいかは不明です。~~終わり。テストが必要です。
- ~~必要に応じて、byt5用のradapt FlaxAutoencoderKLおよびFlaxUNet2DConditionModel 。~~終わり。テストが必要です。
- ~~メインの事前トレーニングループをさまざまなソースファイルの多くの関数に分解して、読みやすくなり、メンテナンスを容易にします。~~

書道とタイポグラフィのコントロールネットの紹介

第二に、生成された画像をより適切に制御するために、上記の抱きしめるface jax/flax controlnetの実装に統合します。上記の正書法に啓発されたSDに対して、Peter von Platenの提案に従って、テキストコンテンツ、フォント、重量、ケルニング、リーディング、スラント、およびCSSS3のfort firt mods by as fort fids as as fort fort sems as a suted mods as a suted mods as a suptographic属性によってサポートされている属性のある属性のある属性のある属性の多言語、kerning、先頭、スラント、およびその他のタイパグラフィーのマルチに対応した画像の合成データセットで訓練されたタイポグラフィコントロールネットを紹介するアイデアも紹介します。クロム。

拡大する

追加情報