【CVPR2024】探索视觉基础模型的三维感知能力 - 专知VIP

会员服务 ·

13

视觉基础模型 · 三维感知 ·

【CVPR2024】探索视觉基础模型的三维感知能力

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

近期在大规模预训练领域的进展已经催生了具有强大能力的视觉基础模型。这些模型不仅能够将训练任务泛化到任意图像，其中间表示也对其他视觉任务如检测和分割非常有用。鉴于这样的模型可以在2D中分类、勾画和定位对象，我们提出一个问题：它们是否也能表征对象的3D结构？在这项工作中，我们分析了视觉基础模型的三维感知能力。我们认为，三维感知意味着表示能（1）编码场景的三维结构；（2）在不同视图中一致地表征表面。我们使用任务特定的探针和冻结特征上的零样本推理流程进行了一系列实验。我们的实验揭示了当前模型的几个限制。我们的代码和分析可以在 https://github.com/mbanani/probe3d 找到。

成为VIP会员查看完整内容

26

相关内容

视觉基础模型

视觉基础模型

【CVPR2024】超越文本：在视觉信号理解中冻结的大型语言模型

【CVPR2024】超越文本：在视觉信号理解中冻结的大型语言模型

专知会员服务

19+阅读 · 3月13日

【大模型最新论文】测量和改进视觉语言模型中的思维链推理

【大模型最新论文】测量和改进视觉语言模型中的思维链推理

专知会员服务

44+阅读 · 2023年9月13日

【普林斯顿】基于大型语言模型的语言智能体认知架构

【普林斯顿】基于大型语言模型的语言智能体认知架构

专知会员服务

58+阅读 · 2023年9月6日

【NeurIPS2022】VICRegL:局部视觉特征的自监督学习

【NeurIPS2022】VICRegL:局部视觉特征的自监督学习

专知会员服务

31+阅读 · 2022年10月6日

【ICML2022】DRIBO:基于多视图信息瓶颈的鲁棒深度强化学习

【ICML2022】DRIBO:基于多视图信息瓶颈的鲁棒深度强化学习

专知会员服务

14+阅读 · 2022年8月13日

【CVPR2022】以人为中心感知的多模态预训练

【CVPR2022】以人为中心感知的多模态预训练

专知会员服务

29+阅读 · 2022年3月28日

【ICML2021】数据表示的几何评估

专知会员服务

35+阅读 · 2021年6月3日

【CVPR2021】多实例主动学习目标检测

【CVPR2021】多实例主动学习目标检测

专知会员服务

41+阅读 · 2021年4月18日

【CVPR2021】加法器神经网络（AdderNet）单图像超分辨率

专知会员服务

17+阅读 · 2021年3月16日

【ACL2020-密歇根州立大学】语言和视觉推理的跨模态关联

【ACL2020-密歇根州立大学】语言和视觉推理的跨模态关联

专知会员服务

55+阅读 · 2020年5月14日

【AAAI2023】用于图对比学习的谱特征增强

【AAAI2023】用于图对比学习的谱特征增强

专知

18+阅读 · 2022年12月11日

【AI与军事】机器学习的军事应用，一种文献计量视角

【AI与军事】机器学习的军事应用，一种文献计量视角

专知

40+阅读 · 2022年4月25日

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知

16+阅读 · 2021年3月2日

【AAAI2021】生成式Transformer的对比三元组提取

【AAAI2021】生成式Transformer的对比三元组提取

专知

11+阅读 · 2021年2月8日

【AAAI2021】自监督对应学习的对比转换

【AAAI2021】自监督对应学习的对比转换

专知

12+阅读 · 2020年12月11日

【KDD2020】图神经网络生成式预训练

【KDD2020】图神经网络生成式预训练

专知

20+阅读 · 2020年7月3日

【CVPR2020-北京大学】自适应间隔损失的提升小样本学习

【CVPR2020-北京大学】自适应间隔损失的提升小样本学习

专知

11+阅读 · 2020年6月9日

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

专知

12+阅读 · 2020年4月1日

【Amazon】使用预训练Transformer模型进行数据增强

【Amazon】使用预训练Transformer模型进行数据增强

专知

12+阅读 · 2020年3月6日

【UC伯克利】可解释性机器学习：定义、方法和应用

【UC伯克利】可解释性机器学习：定义、方法和应用

专知

68+阅读 · 2019年1月19日

基于区分型码本的图像表示的研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

视觉媒体的结构感知处理与分析模型研究

国家自然科学基金

0+阅读 · 2015年12月31日

大脑地形连接组图的张量研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

29+阅读 · 2015年12月31日

基于上下文感知和异质特征集成的SAR图像分割与评价

国家自然科学基金

1+阅读 · 2015年12月31日

稀疏性多维联合优化在线视觉跟踪方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

项目知识情境提取与展现方法研究：基于主题模型和知识地图的大数据视角

国家自然科学基金

0+阅读 · 2014年12月31日

基于机器学习的人脑MR图像结构区域层次化自动标记方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于融合先验知识的机器学习的多传感器融合研究

国家自然科学基金

12+阅读 · 2013年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

12+阅读 · 2008年12月31日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

131+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

30+阅读 · 2023年4月19日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

70+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

135+阅读 · 2023年4月7日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

51+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

324+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

86+阅读 · 2023年3月29日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

53+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

53+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

111+阅读 · 2023年3月24日

VIP会员

相关主题

视觉基础模型

相关VIP内容

【CVPR2024】超越文本：在视觉信号理解中冻结的大型语言模型

【CVPR2024】超越文本：在视觉信号理解中冻结的大型语言模型

专知会员服务

19+阅读 · 3月13日

【大模型最新论文】测量和改进视觉语言模型中的思维链推理

【大模型最新论文】测量和改进视觉语言模型中的思维链推理

专知会员服务

44+阅读 · 2023年9月13日

【普林斯顿】基于大型语言模型的语言智能体认知架构

【普林斯顿】基于大型语言模型的语言智能体认知架构

专知会员服务

58+阅读 · 2023年9月6日

【NeurIPS2022】VICRegL:局部视觉特征的自监督学习

【NeurIPS2022】VICRegL:局部视觉特征的自监督学习

专知会员服务

31+阅读 · 2022年10月6日

【ICML2022】DRIBO:基于多视图信息瓶颈的鲁棒深度强化学习

【ICML2022】DRIBO:基于多视图信息瓶颈的鲁棒深度强化学习

专知会员服务

14+阅读 · 2022年8月13日

【CVPR2022】以人为中心感知的多模态预训练

【CVPR2022】以人为中心感知的多模态预训练

专知会员服务

29+阅读 · 2022年3月28日

【ICML2021】数据表示的几何评估

专知会员服务

35+阅读 · 2021年6月3日

【CVPR2021】多实例主动学习目标检测

【CVPR2021】多实例主动学习目标检测

专知会员服务

41+阅读 · 2021年4月18日

【CVPR2021】加法器神经网络（AdderNet）单图像超分辨率

专知会员服务

17+阅读 · 2021年3月16日

【ACL2020-密歇根州立大学】语言和视觉推理的跨模态关联

【ACL2020-密歇根州立大学】语言和视觉推理的跨模态关联

专知会员服务

55+阅读 · 2020年5月14日

热门VIP内容

相关资讯

【AAAI2023】用于图对比学习的谱特征增强

【AAAI2023】用于图对比学习的谱特征增强

专知

18+阅读 · 2022年12月11日

【AI与军事】机器学习的军事应用，一种文献计量视角

【AI与军事】机器学习的军事应用，一种文献计量视角

专知

40+阅读 · 2022年4月25日

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知

16+阅读 · 2021年3月2日

【AAAI2021】生成式Transformer的对比三元组提取

【AAAI2021】生成式Transformer的对比三元组提取

专知

11+阅读 · 2021年2月8日

【AAAI2021】自监督对应学习的对比转换

【AAAI2021】自监督对应学习的对比转换

专知

12+阅读 · 2020年12月11日

【KDD2020】图神经网络生成式预训练

【KDD2020】图神经网络生成式预训练

专知

20+阅读 · 2020年7月3日

【CVPR2020-北京大学】自适应间隔损失的提升小样本学习

【CVPR2020-北京大学】自适应间隔损失的提升小样本学习

专知

11+阅读 · 2020年6月9日

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

专知

12+阅读 · 2020年4月1日

【Amazon】使用预训练Transformer模型进行数据增强

【Amazon】使用预训练Transformer模型进行数据增强

专知

12+阅读 · 2020年3月6日

【UC伯克利】可解释性机器学习：定义、方法和应用

【UC伯克利】可解释性机器学习：定义、方法和应用

专知

68+阅读 · 2019年1月19日

相关基金

基于区分型码本的图像表示的研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

视觉媒体的结构感知处理与分析模型研究

国家自然科学基金

0+阅读 · 2015年12月31日

大脑地形连接组图的张量研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

29+阅读 · 2015年12月31日

基于上下文感知和异质特征集成的SAR图像分割与评价

国家自然科学基金

1+阅读 · 2015年12月31日

稀疏性多维联合优化在线视觉跟踪方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

项目知识情境提取与展现方法研究：基于主题模型和知识地图的大数据视角

国家自然科学基金

0+阅读 · 2014年12月31日

基于机器学习的人脑MR图像结构区域层次化自动标记方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于融合先验知识的机器学习的多传感器融合研究

国家自然科学基金

12+阅读 · 2013年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

12+阅读 · 2008年12月31日

相关论文

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

131+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

30+阅读 · 2023年4月19日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

70+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

135+阅读 · 2023年4月7日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

51+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

324+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

86+阅读 · 2023年3月29日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

53+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

53+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

111+阅读 · 2023年3月24日

微信扫码咨询专知VIP会员