Multi-modal generative AI (Artificial Intelligence) has attracted increasing attention from both academia and industry. Particularly, two dominant families of techniques have emerged: i) Multi-modal large language models (LLMs) demonstrate impressive ability for multi-modal understanding; and ii) Diffusion models exhibit remarkable multi-modal powers in terms of multi-modal generation. Therefore, this paper provides a comprehensive overview of multi-modal generative AI, including multi-modal LLMs, diffusions, and the unification for understanding and generation. To lay a solid foundation for unified models, we first provide a detailed review of both multi-modal LLMs and diffusion models respectively, including their probabilistic modeling procedure, multi-modal architecture design, and advanced applications to image/video LLMs as well as text-to-image/video generation. Furthermore, we explore the emerging efforts toward unified models for understanding and generation. To achieve the unification of understanding and generation, we investigate key designs including autoregressive-based and diffusion-based modeling, as well as dense and Mixture-of-Experts (MoE) architectures. We then introduce several strategies for unified models, analyzing their potential advantages and disadvantages. In addition, we summarize the common datasets widely used for multi-modal generative AI pretraining. Last but not least, we present several challenging future research directions which may contribute to the ongoing advancement of multi-modal generative AI.


翻译:多模态生成式人工智能(Artificial Intelligence)日益受到学术界与工业界的广泛关注。其中,两类主流技术范式尤为突出:i)多模态大语言模型(LLMs)展现出卓越的多模态理解能力;ii)扩散模型在多模态生成方面表现出强大的潜力。为此,本文系统综述了多模态生成式人工智能的研究进展,涵盖多模态大语言模型、扩散模型以及理解与生成任务的统一框架。为构建统一模型奠定坚实基础,我们首先分别详细梳理了多模态大语言模型与扩散模型的核心内容,包括其概率建模流程、多模态架构设计,以及在图像/视频大语言模型和文本到图像/视频生成中的前沿应用。进一步,我们探讨了面向理解与生成任务的统一模型的最新研究进展。为实现理解与生成的统一,我们深入分析了关键技术设计,包括基于自回归与基于扩散的建模方法,以及稠密架构与混合专家(MoE)架构。随后,我们介绍了多种统一模型的构建策略,并剖析了其潜在优势与局限。此外,我们汇总了多模态生成式人工智能预训练中广泛使用的公共数据集。最后,我们提出了若干具有挑战性的未来研究方向,以期为多模态生成式人工智能的持续发展提供参考。

0
下载
关闭预览

相关内容

用于强化学习的扩散模型:基础、分类与发展
专知会员服务
23+阅读 · 10月15日
KnowledGPT:基于知识库的检索和存储访问增强大型语言模型
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
相关资讯
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
相关基金
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员