李飞飞团队最新研究，真实场景中识别物体具体属性，连表面纹理都识别出来了

会员服务 ·

李飞飞团队最新研究，真实场景中识别物体具体属性，连表面纹理都识别出来了

2020 年 7 月 1 日 CVer

点击上方“CVer”，选择加"星标"置顶

重磅干货，第一时间送达

白交发自凹非寺
量子位报道 | 公众号 QbitAI

现在，细微到物体表面的纹理，AI都可以识别。

这就是李飞飞团队新研究。

我们知道，卷积神经网络在识别视觉对象方面很出色，但还不能很好的识别出物体的具体属性，比如表面形状、纹理等。

而最近，李飞飞团队的最新研究——Learning Physical Graph Representations from Visual Scenes，就一举解决了这个问题。

还引入了物理场景图（Physical Scene Graphs，PSG）和对应的PSGNet网络架构。

PSG的概念概括了MONet/IODINE和3D-RelNet的工作思路，力求能够在几何上处理复杂的物体形状和纹理。

这样，在真实世界的视觉数据中学习，可以做到自监督，因而不需要大量和繁琐的场景组件标记。

具体研究是如何呢？我们一起来看看吧！

PSGNet的建构

简单来说，用一张图就可以表示。

棕色方框表示PSGNet的三个阶段。

首先，特征提取。采用ConvRNN从输入中提取特征。

然后，构建图形，负责优化现有PSG级别。

最后，用于端到端训练的图形渲染。

其中，在构建图形这一阶段，由一对可学习的模块组成，即池化和向量化。

前者在现有图节点上动态的构建一个池化核的分区，作为学习的、成对的节点 affinities函数。

后者在与每个池化核相关联的图像区域及其边界上，聚合节点统计，来产生新节点的属性向量。这样便可以直观的表示出真实场景中的物体属性。

在「图形渲染阶段」，PSG相当于通过一个解码器。

在每个时间点将图节点属性，以及图节点顶层空间配准（SR），渲染成RGB、深度、段和RGB变化图z。

举个例子，除开棕色方框部分，就是一个PSG的三个层次以及与其纹理（QTR）和形状（QSR）渲染图。

实验结果

随后，将模型在 TDW-Primitives、TDW-Playroom 和 Gibson 测试集上训练，并与最近基于CNN场景分割方法进行性能比较。

首先说一说这三个数据集，为什么要选择这三个数据集呢？

Primitives和Playroom中的图像由ThreeDWorld (TDW)生成。其中，Primitives是在一个简单的3D房间中渲染的原始形状（如球体、圆锥体和立方体）的合成数据集。

Playroom是具有复杂形状和逼真纹理的物体的合成数据集，如动物、家具和工具，渲染为具有物体运动和碰撞的图形。

Gibson则是由斯坦福大学校园内部建筑物的RBG-D扫描组成。

这三个数据集都提供了用于模型监督的RGB、深度和表面法线图。

性能的比较结果如下：

注意的是，OP3和PSGNetM没有在Gibson或Primitives上进行训练，因为它们有静态测试集。

可以看到与其他模型相比，PSGNet表现出了更优的性能。

△PSGNets的场景分解

此外，文中还通过「手动编辑」PSG顶层的节点，观察其渲染效果，来说明PSG能够正确的将场景表示为离散的对象及其属性。

就像这样。

从图中删除一个节点（DeleteA或者B），将它们移动到新的3D位置（MoveB和Occlude），改变形状属性（Scale/Rot），或者交换两个节点的颜色（Swap RGB）。

结果，发现都会改变相对于原始（Full）预测的图形渲染。

研究团队

这篇论文的研究团队是由斯坦福大学和麻省理工大学多个团队共同合作完成的，其中就包括李飞飞团队和来自MIT CSAIL的团队。

第一作者名叫Daniel Bear，心理学系博士后研究员，来自斯坦福大学吴蔡神经科学研究所。

你可能想问，为何研究脑科学的会跟李飞飞团队一起合作呢？

看了这位作者的研究方向你就知道了。

他一直都在致力于研究动物是如何感知世界。

从一开始哈佛大学本科期间，就主要研究动物电信号，比如来自感官刺激的信号，如何诱导神经元基因表达。

接着在哈佛大学继续攻读博士时，就研究化学信号，比如动物遇到的气味分子，如何转化为嗅觉感知。

而现在博士后研究期间，他就把目光转向了采用计算模型来表示动物大脑中的表征。如果可以，给他进一步的研究提供了思路。

于是，他们就这样交织在了一起。

吴蔡神经科学研究所

也许有朋友会对这个研究所的名字有点陌生。

但这是斯坦福大学里以中国人命名的研究所，2018年10月，出于纪念蔡崇信、吴明华夫妇对该所慷慨捐赠，正式命名为吴蔡神经科学研究所。

蔡崇信，大家都不陌生了。阿里巴巴合伙人，最早慧眼识珠加入马云的阿里事业的那个人。

也是鲜有机会，其夫人也被关注到。

现在，他们捐赠的研究所，产出了新成果。

所以新论文到手，欢迎细致研读后分享你的“读后感”哦。

论文地址：
https://arxiv.org/abs/2006.12373

重磅！CVer-论文写作与投稿交流群成立

扫码添加CVer助手，可申请加入CVer-论文写作与投稿 微信交流群，目前已满2100+人，旨在交流顶会（CVPR/ICCV/ECCV/ICML/ICLR/AAAI等）、顶刊（IJCV/TPAMI等）、SCI、EI等写作与投稿事宜。

同时也可申请加入CVer大群和细分方向技术群，细分方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch和TensorFlow等群。

一定要备注：研究方向+地点+学校/公司+昵称（如论文写作+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲长按加微信群

▲长按关注CVer公众号

整理不易，请给CVer点赞和在看！

登录查看更多

相关内容

李飞飞

关注 8

李飞飞，女，1976年出生于北京，长在四川，16岁随父母移居美国新泽西州。 2015年12月1日，入选2015年“全球百大思想者”。2018年3月，获“影响世界华人大奖”。现为美国斯坦福大学教授、斯坦福大学人工智能实验室与视觉实验室负责人、谷歌云人工智能和机器学习首席科学家，斯坦福以人为本人工智能研究院共同院长。

【CMU博士论文】机器人深度强化学习，128页pdf

专知会员服务

133+阅读 · 2020年8月27日

KDD2020 | 真实世界超图的结构模式和生成模型

专知会员服务

30+阅读 · 2020年8月18日

【浙大博士论文】面向复杂场景理解的视觉内容识别、检测与推理方法研究

专知会员服务

147+阅读 · 2020年7月26日

【斯坦福大学博士论文】自监督场景表示学习， 97页pdf

专知会员服务

95+阅读 · 2020年6月19日