计算机视觉顶会ICCV 2025于10月19日至25日在美国夏威夷举行,今年论文投稿数11239篇,录用 2701篇,录用率为 24%,首次突破1w+的投稿量。Orals : 64篇(在总稿中占比0.6%,在录用稿中占比2.4%)、Highlights : 263篇、Posters 2374篇。

视觉语言模型(Vision-Language Models, VLMs)在图像描述(image captioning)和视觉问答(visual question answering)等任务中取得了显著进展,但如何发展出真正的推理能力仍然是一个尚未解决的开放性挑战。与近年来在推理导向的大语言模型(reasoning-focused LLMs)中取得的突破不同,许多现有的 VLM 仍主要依赖于模式识别,对组合逻辑(compositional logic)的处理能力不足。 本教程将系统综述视觉语言模型的推理能力,重点探讨从基础感知到复杂推理的演化过程。内容涵盖多模态语境下的推理导向提示与训练方法、推理能力评估基准,以及视觉—文本融合的结构创新。通过讲座与实践演示相结合的形式,参与者将深入理解当前视觉语言模型的推理能力现状、在组合泛化与可解释性方面的持续挑战,并获得关于推理机制实现的实用指导。 本教程的独特之处在于,它将大语言模型推理领域的最新进展延伸至视觉领域,聚焦空间信息处理的独特挑战,并为构建具备更高认知能力的视觉语言系统提供系统化的研究路线图。目录内容:

成为VIP会员查看完整内容
17

相关内容

CVPR2025开会了!《视觉基础模型》最新进展教程
专知会员服务
17+阅读 · 6月13日
【AAAI2024教程】多目标学习 - 基础与应用,197页ppt
专知会员服务
59+阅读 · 2024年3月2日
【AAAI2024教程】大模型知识编辑,192页ppt
专知会员服务
82+阅读 · 2024年2月29日
【AAAI2024教程】图反事实可解释性:全面的景观,100页ppt
【AAAI2023教程】大规模深度学习优化技术,109页ppt
专知会员服务
63+阅读 · 2023年2月10日
论文浅尝 | 基于属性嵌入的知识图谱间实体对齐方法
开放知识图谱
30+阅读 · 2019年3月26日
课程 | 从零开始精通深度学习
机器之心
10+阅读 · 2017年10月24日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
15+阅读 · 2016年12月31日
国家自然科学基金
3+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年4月20日
国家自然科学基金
40+阅读 · 2014年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
A Survey of Large Language Models
Arxiv
492+阅读 · 2023年3月31日
Arxiv
57+阅读 · 2022年1月5日
Arxiv
31+阅读 · 2020年9月21日
Augmentation for small object detection
Arxiv
13+阅读 · 2019年2月19日
Arxiv
10+阅读 · 2017年12月29日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
15+阅读 · 2016年12月31日
国家自然科学基金
3+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年4月20日
国家自然科学基金
40+阅读 · 2014年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
相关论文
A Survey of Large Language Models
Arxiv
492+阅读 · 2023年3月31日
Arxiv
57+阅读 · 2022年1月5日
Arxiv
31+阅读 · 2020年9月21日
Augmentation for small object detection
Arxiv
13+阅读 · 2019年2月19日
Arxiv
10+阅读 · 2017年12月29日
微信扫码咨询专知VIP会员