可供性检测是指识别图像中物体的潜在动作可能性,是智能体感知和操纵的重要能力。为了在未知场景中赋予智能体这种能力,研究员们考虑了具有挑战性的单样本可供性检测问题,即,给定描述动作目的的支持图像,应检测出场景中具有共同可供性的所有对象(如图3.1所示)。

图3.1 单样本可供性检测的流程图

与对象检测/分割问题不同,对象的可供性和语义类别高度相关,但并不相互暗示。一个对象可能有多种可供性(见图 3.2),例如,沙发可用于坐下或躺下。实际上,可能的可供性取决于人在实际应用场景中的目的。在没有目的的指导下直接从单个图像中学习可供性使模型倾向于关注统计上占主导地位的可供性,而忽略可能适合完成任务的其他可供性。

为了解决这个问题:1)研究员们试图从单个支持图像中找到关于动作目的的明确提示(即通过主体和客体的位置信息),它隐含地定义了对象可供性,并且这是未知场景中的合理设置。2)研究员们采用协作学习来捕捉不同对象之间的内在关系,以抵消视觉外观差异带来的干扰,提高泛化能力。具体来说,研究员们设计了一种新颖的 One-Shot Affordance Detection (OS-AD) 网络来解决这个问题(如图3.3所示)。以一张图像作为支持,一组图像(本文中为 5 张图像)作为查询。

网络首先使用意图学习模块(PLM)从支持图像中捕获人与对象的交互,以对动作意图进行编码。然后,设计了一个意图转移模块 (PTM) 以使用动作目的的编码来激活查询图像中具有共同可供性的特征。最后,设计了一个协作增强模块(CEM)来捕捉具有相同可供性的对象之间的内在关系,并抑制与动作意图无关的背景。通过这种方式,OS-AD网络可以学习到良好的适应能力来感知未知场景中的物体可供性。

此外,由于物体可供性多样性的限制,现有数据集相对于实际应用场景仍然存在差距。 为了解决数据集的局限性,研究员们收集并提出了PAD可供性数据集,其中包含 4,002 张不同的图像,涵盖 31 个可供性类别以及来自不同场景的 72 个对象类别。

最后,研究员们对提议的 PAD 基准进行的实验表明,OS-AD网络优于包含3种类型(分割模型,显著性检测模型和协同显著性模型)的6个SOTA模型(UNet, PSPNet, CPD, BASNet, CSNet 和 CoEGNet),可以作为未来研究的强大基线。

成为VIP会员查看完整内容
9

相关内容

专知会员服务
34+阅读 · 2021年6月8日
专知会员服务
16+阅读 · 2021年4月27日
CVPR 2021 | 基于三元合作模式的视频阴影检测
专知会员服务
10+阅读 · 2021年4月25日
【WWW2021】少样本图学习分子性质预测
专知会员服务
35+阅读 · 2021年2月20日
【ACM MM2020】对偶注意力GAN语义图像合成
专知会员服务
35+阅读 · 2020年9月2日
【ACMMM2020】零样本语义分割的上下文感知特征生成
专知会员服务
15+阅读 · 2020年8月21日
【ICML 2020 】小样本学习即领域迁移
专知会员服务
77+阅读 · 2020年6月26日
【MIT】硬负样本的对比学习
专知
13+阅读 · 2020年10月15日
KDD 2019论文解读:异构信息网络上的对抗生成学习
云栖社区
22+阅读 · 2019年8月21日
哈工大SCIR两篇论文被IJCAI 2019录用
哈工大SCIR
7+阅读 · 2019年5月11日
AAAI 2019 | 基于分层强化学习的关系抽取
PaperWeekly
20+阅读 · 2019年3月27日
Arxiv
0+阅读 · 2021年10月18日
Arxiv
14+阅读 · 2019年11月26日
Arxiv
7+阅读 · 2018年5月23日
VIP会员
相关VIP内容
微信扫码咨询专知VIP会员