騰訊混元文生圖大模式(混元DiT 模式)正式開源!此次開源包含了完整的訓練程式碼,以及LoRA和ControlNet插件,方便開發者們進行二次開發和應用。 LoRA插件允許在不增加模型大小的情況下微調模型,而ControlNet插件則能夠透過添加額外條件,例如影像邊緣、深度和人體姿態等,更好地控制影像生成過程。騰訊也為混元DiT提供了專屬加速庫,提升推理效率,並簡化使用流程。此模型已廣泛應用於素材創作、商品合成、遊戲出圖等領域,並被騰訊廣告妙思平台和多家媒體採用。
站長之家(ChinaZ.com)6月21日訊息:騰訊混元文生圖大模型(混元DiT 模型)宣布全面開源訓練程式碼,包括LoRA 外掛程式和ControlNet 外掛程式。
LoRA 是一種用於微調大型語言模型的技術,可在不修改原有模型或增加模型大小的情況下,利用少量資料訓練出具有特定特徵的模型。

ControlNet 是一種可控化生成演算法,允許用戶透過添加額外條件來更好地控製影像生成。騰訊混元提供了三個首發ControlNet 模型,可以擷取與應用影像的邊緣、深度和人體姿勢等條件。
此外,混元DiT 發布了專屬加速庫,提升推理效率並簡化使用方式。混元DiT 已被廣泛用於素材創作、商品合成、遊戲出圖等多個領域,包括騰訊廣告妙思平台和多家媒體使用混元DiT 模型進行內容生成。
官網:
https://dit.hunyuan.tencent.com/
代碼:
https://github.com/Tencent/HunyuanDiT
模型:
https://huggingface.co/Tencent-Hunyuan/HunyuanDiT
論文:
https://tencent.github.io/HunyuanDiT/asset/Hunyuan_DiT_Tech_Report_05140553.pdf
數據製作流程:
https://github.com/Tencent/HunyuanDiT/blob/main/IndexKits/docs/MakeDataset.md
騰訊混元DiT模式的開源,為開發者提供了強大的工具和資源,相信將會推動文生圖領域的進一步發展,也期待看到基於此模式的更多創新應用。