【IJCAI2025教程】动态开放环境下的多模态生成式人工智能，90页ppt

2025年的IJCAI（International Joint Conference on Artificial Intelligence）于8月16日至8月22日在加拿大蒙特利尔召开。IJCAI是中国计算机学会推荐的A类国际学术会议，是人工智能领域最具权威性和影响力的学术会议之一。本次IJCAI 2025一共有5404篇投稿，录用1042篇，录用率19.3%。

来自清华大学研究人员给出《动态开放环境下的多模态生成式人工智能》教程，值得关注！

https://mn.cs.tsinghua.edu.cn/ijcai25-aigc/

概述本教程旨在传播和推广多模态生成式人工智能的最新研究进展，重点聚焦于两大类主流技术：用于理解的多模态大语言模型（Multimodal Large Language Models）以及用于视觉生成的扩散模型（Diffusion Models）。本教程系统性地讨论多模态大语言模型与多模态扩散模型，涵盖其概率建模方法、模型架构以及多模态交互机制等内容。在动态与开放的环境中，不断变化的数据分布、新兴概念的出现以及日益复杂的应用场景，为多模态生成模型带来了巨大挑战。本教程将从两个方面探讨应对这些挑战的解决方案及未来方向：其一是能够实现泛化的后训练技术，以帮助多模态生成模型适应新概念；其二是发展统一的多模态生成与理解框架，以支持复杂的多模态任务。教程大纲本教程的时长为1.5小时。第一部分：生成式模型介绍（5分钟）前置知识：大语言模型、多模态生成式人工智能 l大模型新范式 l多模态生成式人工智能的应用领域 l多模态生成式人工智能的两类模型：多模态大语言模型与扩散模型第二部分：多模态大语言模型（10分钟）多模态大型语言模型 (MLLM) 近年来已成为多模态理解领域的主流。本节对多模态大型语言模型进行回顾和总结。 l自回归建模 l视觉语言预训练 l视觉分词器第三部分：扩散模型（10分钟）扩散模型（Diffusion Model）已成为视觉生成领域的主流模型。本节对扩散模型进行回顾和总结。 l去噪扩散概率模型 l潜空间扩散模型 l流匹配 l文生图、文生视频等应用 l第四部分：新概念泛化的后训练（35分钟）介绍动态开放环境的主要挑战，并提出应对这一挑战的方式之一：新概念泛化的后训练技术。 l空间解耦后训练 l时空解耦后训练第五部分：统一理解生成模型（15分钟）本节主要关注统一的多模态理解和生成模型。 l概率建模过程 l模型架构第六部分：未来方向（10分钟） l具有物理规律的生成式人工智能 l理解生成一体化基准测试 l多模态图生成人工智能 l具身生成人工智能第七部分：开放讨论（5分钟）目标受众本教程的目标受众是人工智能领域的研究群体，尤其是对生成式人工智能、多模态、多模态大语言模型以及扩散模型感兴趣的研究人员。教程目标：本教程聚焦于多模态生成式人工智能的最新进展，以及当前的热点方向——统一的多模态生成与理解框架。听众将能够了解多模态生成式人工智能的概率建模方法、模型架构，以及一些前沿应用。