北京智源人工智能研究院重磅发布原生多模态世界模型Emu3,该模型在图像、视频和文本生成领域展现出令人瞩目的性能,超越了众多现有的开源模型。Emu3基于独特的下一个token预测技术,无需依赖扩散模型或组合方法,即可实现Any-to-Any任务,为多模态人工智能研究提供了新的范式。Downcodes小编将带您深入了解Emu3的创新之处及其开源资源。
北京智源人工智能研究院宣布推出原生多模态世界模型Emu3。这一模型基于下一个token预测技术,无需依赖扩散模型或组合方法,就能够完成文本、图像、视频三种模态数据的理解和生成。Emu3在图像生成、视频生成、视觉语言理解等任务中超过了现有的知名开源模型,如SDXL、LLaVA、OpenSora等,展现了卓越的性能。

Emu3模型的核心是一个强大的视觉tokenizer,它能将视频和图像转换为离散token,这些token可以与文本tokenizer输出的离散token一起送入模型中。模型输出的离散token可以被转换为文本、图像和视频,为Any-to-Any任务提供了统一的研究范式。此外,Emu3的下一个token预测框架的灵活性使得直接偏好优化(DPO)能够无缝应用于自回归视觉生成,使模型与人类偏好保持一致。

Emu3的研究结果证明了下一个token预测可以作为多模态模型的一个强大范式,实现超越语言本身的大规模多模态学习,并在多模态任务中实现先进的性能。通过将复杂的多模态设计收敛到token本身,Emu3在大规模训练和推理中释放了巨大的潜力。这一成果为构建多模态AGI提供了一条前景广阔的道路。
目前,Emu3的关键技术和模型已经开源,包括经过SFT的Chat模型和生成模型,以及相应的SFT训练代码,以便后续研究和社区构建与集成。
代码:https://github.com/baaivision/Emu3
项目页面:https://emu.baai.ac.cn/
模型:https://huggingface.co/collections/BAAI/emu3-66f4e64f70850ff358a2e60f
Emu3的开源发布为多模态AI研究提供了宝贵的资源,期待其在未来推动AGI发展,创造更多可能性。 欢迎访问相关链接了解更多信息。