TencentのHunyuan Literature Picture Model(Hunyuan DIT)は最近、重要なアップグレードを案内し、6Gビデオメモリバージョンを起動しました。これにより、パーソナルコンピューターユーザーはこの高度なAIモデルを簡単に実行できます。この新しいバージョンは、LORAやControlNetなどのプラグインを備えたDiffusersライブラリに完全に適応するだけでなく、Kohyaグラフィカルインターフェイスのサポートも追加し、開発者がパーソナライズされたLORAモデルをトレーニングするためのしきい値を大幅に削減します。 Hunyuan DITモデルがバージョン1.2にアップグレードされた後、写真のテクスチャと構成が大幅に改善され、ユーザーがより良い視覚体験をもたらしました。
同時に、Tencentはまた、中国と英語のバイリンガリズムをサポートし、中国のセマンティクスと出力構造をより正確に理解できる文化的および伝記マップシーンを深く最適化した、中国と英語のバイリンガリズムをサポートするHunyuan Literal and Biographical Map Markingモデル「Hunyuan Captioner」も開きます。正確な画像の説明。さらに、Hunyuan Captionerは、よく知られている数字とランドマークを特定することもでき、開発者がパーソナライズされた背景知識を補完し、モデルの実用性と柔軟性をさらに向上させることができます。

Hunyuan Captionerモデルのオープンソースは、世界中の文学的および芸術的な画像研究者とデータアノテーターに強力なツールを提供し、画像の説明の品質を改善し、より包括的で正確な画像の説明を生み出し、それによってモデル効果を改善します。生成されたデータセットは、Hunyuan DITに基づいてモデルをトレーニングするために使用するだけでなく、他の視覚モデルをトレーニングし、画像処理の分野でのAIテクノロジーの開発をさらに促進するためにも使用できます。
Hunyuan DITモデルの3つの主要な更新には、小さなビデオメモリバージョンの発売、Kohyaトレーニングインターフェイスへのアクセス、およびバージョン1.2へのモデルアップグレードが含まれます。 Hunyuan DITモデルの生成された画像はテクスチャが優れていますが、ビデオメモリの以前の高い要件は多くの開発者を妨げています。現在、Hunyuan DITは小さなビデオメモリバージョンを起動しました。使用。
Kohyaは、グラフィカルインターフェイスを提供するオープンソースの軽量モデル微調整トレーニングサービスであり、拡散モデルのようなグラフィックモデルのトレーニングに広く使用されています。ユーザーは、コードを書くことなく、コヒアを介してモデルの完全なパラメーターの微調整とLORAトレーニングを完了し、開発者のワークフローを大幅に簡素化できます。
Hunyuan Captionerモデルは、構造化された画像説明システムを構築し、複数のソースを介して説明の整合性を向上させ、多くの背景知識を注入して出力説明をより正確かつ完全にします。これらの最適化により、Hunyuanは最も人気のある国内のDITオープンソースモデルの1つになり、GitHub Star数は2.6kを超え、開発者コミュニティで人気を完全に示しています。
公式ウェブサイト
https://dit.hunyuan.tencent.com/
コード
https://github.com/tencent/hunyuandit
モデル
https://huggingface.co/tencent-hunyuan/hunyuandit
紙
https://tencent.github.io/hunyuandit/asset/hunyuan_dit_tech_report_05140553.pdf