Tencent 's Hunyuan 문학 사진 모델 (Hunyuan DIT)은 최근 중요한 업그레이드를 통해 6G 비디오 메모리 버전을 시작하여 개인용 컴퓨터 사용자 가이 고급 AI 모델을 쉽게 실행할 수 있도록했습니다. 새로운 버전은 LORA 및 Controlnet과 같은 플러그인을 사용하여 디퓨저 라이브러리에 완벽하게 적응할뿐만 아니라 Kohya 그래픽 인터페이스에 대한 지원을 추가하여 개발자가 개인화 된 LORA 모델을 훈련시키는 임계 값을 크게 줄입니다. Hunyuan DIT 모델이 버전 1.2로 업그레이드 된 후 사진의 질감과 구성이 크게 개선되어 사용자에게 더 나은 시각적 경험을 제공했습니다.
동시에, Tencent는 또한 중국어와 영어 이중 언어를 지원하고 문화 및 전기지도 장면을 깊이 최적화하여 중국의 반사 및 출력 구조를보다 정확하게 이해할 수있는 Hunyuan 문학 및 전기지도 마킹 모델 "Hunyuan Captioner"를 열어줍니다. 정확한 그림 설명. 또한 Hunyuan Captioner는 잘 알려진 인물과 랜드 마크를 식별 할 수 있으며 개발자는 개인화 된 배경 지식을 보충하여 모델의 실용성과 유연성을 더욱 향상시킬 수 있습니다.

Hunyuan Captioner 모델의 오픈 소스는 전 세계의 문학 및 예술적 이미지 연구원 및 데이터 주석을위한 강력한 도구를 제공하여 이미지 설명의 품질을 향상시키고보다 포괄적이고 정확한 이미지 설명을 생성하여 모델 효과를 향상시킵니다. 생성 된 데이터 세트는 Hunyuan DIT를 기반으로 한 모델을 훈련시키는 데 사용될뿐만 아니라 다른 시각적 모델을 훈련시켜 이미지 처리 분야에서 AI 기술의 개발을 더욱 촉진하는 데 사용될 수 있습니다.
Hunyuan DIT 모델의 세 가지 주요 업데이트에는 작은 비디오 메모리 버전의 출시, Kohya Training 인터페이스에 대한 액세스 및 버전 1.2로의 모델 업그레이드가 포함되며, 이는 사용의 임계 값을 더 낮추고 그림의 품질을 향상시킵니다. Hunyuan DIT 모델의 생성 된 이미지는 더 나은 텍스처를 가지고 있지만, 이전의 비디오 메모리에 대한 높은 요구 사항은 많은 개발자를 낙담 시켰습니다. 이제 Hunyuan Dit은 작은 비디오 메모리 버전을 시작했습니다. 사용.
Kohya는 그래픽 인터페이스를 제공하고 확산 모델과 같은 그래픽 모델의 교육에 널리 사용되는 오픈 소스 가벼운 모델 미세 조정 교육 서비스입니다. 사용자는 코드를 쓰지 않고 Kohya를 통해 모델의 전체 매개 변수 미세 조정 및 LORA 교육을 완료하여 개발자의 워크 플로를 크게 단순화 할 수 있습니다.
Hunyuan Captioner 모델은 구조화 된 그림 설명 시스템을 구성하고 여러 소스를 통해 설명의 무결성을 향상시켜 많은 배경 지식을 주입하여 출력 설명을보다 정확하고 완전하게 만듭니다. 이러한 최적화는 Hunyuan DIT가 가장 인기있는 국내 DIT 오픈 소스 모델 중 하나이며 GitHub 스타 번호는 2.6K를 초과하여 개발자 커뮤니티에서 인기를 완전히 보여줍니다.
공식 웹 사이트
https://dit.hunyuan.tencent.com/
암호
https://github.com/tencent/hunyuandit
모델
https://huggingface.co/tencent-hunyuan/hunyuandit
종이
https://tencent.github.io/hunyuandit/asset/hunyuan_dit_tech_report_05140553.pdf