2025年的IJCAI(International Joint Conference on Artificial Intelligence) 于8月16日至8月22日在加拿大蒙特利尔召开。IJCAI是中国计算机学会推荐的A类国际学术会议,是人工智能领域最具权威性和影响力的学术会议之一。本次IJCAI 2025一共有5404篇投稿,录用1042篇,录用率19.3%。
来自清华大学研究人员给出《动态开放环境下的多模态生成式人工智能》教程,值得关注!
https://mn.cs.tsinghua.edu.cn/ijcai25-aigc/
概述 本教程旨在传播和推广多模态生成式人工智能的最新研究进展,重点聚焦于两大类主流技术:用于理解的多模态大语言模型(Multimodal Large Language Models)以及用于视觉生成的扩散模型(Diffusion Models)。本教程系统性地讨论多模态大语言模型与多模态扩散模型,涵盖其概率建模方法、模型架构以及多模态交互机制等内容。 在动态与开放的环境中,不断变化的数据分布、新兴概念的出现以及日益复杂的应用场景,为多模态生成模型带来了巨大挑战。本教程将从两个方面探讨应对这些挑战的解决方案及未来方向:其一是能够实现泛化的后训练技术,以帮助多模态生成模型适应新概念;其二是发展统一的多模态生成与理解框架,以支持复杂的多模态任务。 教程大纲 本教程的时长为1.5小时。 第一部分:生成式模型介绍(5分钟) 前置知识:大语言模型、多模态生成式人工智能 l大模型新范式 l多模态生成式人工智能的应用领域 l多模态生成式人工智能的两类模型:多模态大语言模型与扩散模型 第二部分:多模态大语言模型(10分钟) 多模态大型语言模型 (MLLM) 近年来已成为多模态理解领域的主流。本节对多模态大型语言模型进行回顾和总结。 l自回归建模 l视觉语言预训练 l视觉分词器 第三部分:扩散模型(10分钟) 扩散模型(Diffusion Model)已成为视觉生成领域的主流模型。本节对扩散模型进行回顾和总结。 l去噪扩散概率模型 l潜空间扩散模型 l流匹配 l文生图、文生视频等应用 l第四部分:新概念泛化的后训练(35分钟) 介绍动态开放环境的主要挑战,并提出应对这一挑战的方式之一:新概念泛化的后训练技术。 l空间解耦后训练 l时空解耦后训练 第五部分:统一理解生成模型(15分钟) 本节主要关注统一的多模态理解和生成模型。 l概率建模过程 l模型架构 第六部分:未来方向(10分钟) l具有物理规律的生成式人工智能 l理解生成一体化基准测试 l多模态图生成人工智能 l具身生成人工智能 第七部分:开放讨论(5分钟) 目标受众 本教程的目标受众是人工智能领域的研究群体,尤其是对生成式人工智能、多模态、多模态大语言模型以及扩散模型感兴趣的研究人员。 教程目标:本教程聚焦于多模态生成式人工智能的最新进展,以及当前的热点方向——统一的多模态生成与理解框架。听众将能够了解多模态生成式人工智能的概率建模方法、模型架构,以及一些前沿应用。