Model gambar literatur HUNYUAN Tencent (HUNYUAN DIT) baru -baru ini mengantarkan peningkatan penting, meluncurkan versi memori video 6G, yang memungkinkan pengguna komputer pribadi untuk dengan mudah menjalankan model AI canggih ini. Versi baru tidak hanya beradaptasi dengan sempurna ke perpustakaan diffusers dengan plug-in seperti Lora dan ControlNet, tetapi juga menambahkan dukungan untuk antarmuka grafis Kohya, sangat mengurangi ambang batas bagi pengembang untuk melatih model LORA yang dipersonalisasi. Setelah model HUNYUAN DIT ditingkatkan ke versi 1.2, tekstur dan komposisi gambar secara signifikan ditingkatkan, membawa pengguna pengalaman visual yang lebih baik.
Pada saat yang sama, Tencent juga membuka model penandaan peta sastra dan biografis Hunyuan "Captioner HUNYUAN", yang mendukung bilingualisme Cina dan Inggris dan telah mengoptimalkan adegan peta budaya dan biografi secara mendalam, yang dapat lebih akurat memahami semantik dan struktur output Cina, lengkap, lengkap struktur output, lengkap, lengkap, lengkap Tiongkok dan output China, lengkap Tiongkok, lengkap, lengkap Tiongkok, lengkap, lengkap, dan deskripsi gambar yang akurat. Selain itu, camar Hunyuan juga dapat mengidentifikasi angka dan landmark terkenal, dan memungkinkan pengembang untuk melengkapi pengetahuan latar belakang yang dipersonalisasi, lebih lanjut meningkatkan kepraktisan dan fleksibilitas model.

Sumber terbuka model Captioner Hunyuan menyediakan alat yang kuat untuk para peneliti gambar sastra dan artistik dan annotator data di seluruh dunia untuk membantu mereka meningkatkan kualitas deskripsi gambar dan menghasilkan deskripsi gambar yang lebih komprehensif dan akurat, sehingga meningkatkan efek model. Kumpulan data yang dihasilkan tidak hanya dapat digunakan untuk melatih model berdasarkan Hunyuan Dit, tetapi juga untuk melatih model visual lainnya, lebih lanjut mempromosikan pengembangan teknologi AI di bidang pemrosesan gambar.
Tiga pembaruan utama dari model Hunyuan Dit termasuk peluncuran versi memori video kecil, akses ke antarmuka pelatihan Kohya, dan peningkatan model ke versi 1.2, yang lebih jauh menurunkan ambang batas untuk digunakan dan meningkatkan kualitas gambar. Gambar -gambar yang dihasilkan dari model HUNYUAN DIT memiliki tekstur yang lebih baik, tetapi persyaratan tinggi sebelumnya untuk memori video telah mengecilkan banyak pengembang. Sekarang, HUNYUAN DIT telah meluncurkan versi memori video kecil, yang hanya membutuhkan 6g memori video untuk dijalankan. menggunakan.
Kohya adalah layanan pelatihan fine-tuning model ringan sumber terbuka yang menyediakan antarmuka grafis dan banyak digunakan untuk pelatihan model grafis seperti model difusi. Pengguna dapat menyelesaikan fine-tuning parameter lengkap dan pelatihan Lora model melalui Kohya, tanpa menulis kode, sangat menyederhanakan alur kerja pengembang.
Model Captioner Hunyuan membangun sistem deskripsi gambar terstruktur dan meningkatkan integritas deskripsi melalui berbagai sumber, menyuntikkan banyak pengetahuan latar belakang untuk membuat deskripsi output lebih akurat dan lengkap. Optimalisasi ini menjadikan HUNYUAN DIT salah satu model open source di domestik paling populer, dengan nomor bintang GitHub melebihi 2.6K, sepenuhnya menunjukkan popularitasnya di komunitas pengembang.
Situs web resmi
https://dit.hunyuan.tencent.com/
Kode
https://github.com/tencent/hunyuandit
Model
https://huggingface.co/tencent-hunyuan/hunyuandit
kertas
https://tencent.github.io/hunyuandit/asset/hunyuan_dit_tech_report_05140553.pdf