【学界】谷歌NeurIPS 2018论文:GAN生成3D模型,图像自带逼真效果

2018 年 12 月 7 日 GAN生成式对抗网络





来源:venturebeat

编辑:三石

【导读】人工智能合成的3D物体模型不够逼真?谷歌团队最近开发了一个AI系统——视觉对象网络(VON),不仅生成的图像比当前最先进的方法还要逼真,而且还可以做一系列3D操作。


合成现实3D物体模型的人工智能,看上去并没有那么遥不可及。



在2018年蒙特利尔NeurIPS大会上,麻省理工学院计算机科学与人工智能实验室(MIT CSAIL)和谷歌的研究人员发表了一篇论文,描述了一个能够生成具有逼真纹理的人工智能系统。


论文名称:

Visual Object Networks: Image Generation with Disentangled 3D Representation

论文地址:

https://papers.nips.cc/paper/7297-visual-object-networks-image-generation-with-disentangled-3d-representations.pdf


人工智能系统VON,生成最逼真3D图像


该人工智能系统——视觉对象网络(Visual Object Networks,VON),不仅生成的图像比当前最先进的方法还要逼真,还可以进行形状和纹理编辑、视角转换以及其它3D调整。


研究人员写到:“现代深层生成模型学会了合成较为逼真的图像。大多数计算模型只专注于生成2D图像,忽略了世界是3D的本质。这种2D视角不可避免地限制了它们在许多领域的实际应用,比如合成数据生成、机器人学习、视觉现实和游戏行业。”


VON通过联合合成三维形状和二维图像来解决这个问题,研究人员将其称为“disentangled  object representation”。图像生成模型被分解为形状、视点和纹理三个要素,在计算“2.5D”草图和添加纹理之前,首先学习三维形状的合成。


重要的是,因为这三个要素是条件独立的,模型不需要在二维和三维形状之间配对数据。这使得该团队能够对二维图像和三维形状的大规模集合进行训练,比如Pix3D、谷歌图像搜索和ShapeNet,后者包含了55个对象类别的数千个CAD模型。



为了让VON学习如何生成自己的形状,该团队训练了一个生成对抗网络(GAN),试图在上述三维形状数据集上区分生成样本和真实样本。纹理生成被“降级”到另一个基于GAN的神经网络。


经过大约两到三天的训练,人工智能系统产生了逼真的128×128×128模型,具有真实的反射率、环境照度和反照率。


为了评估图像生成模型,团队计算了用于生成三维模型的Fréchet初始距离 。此外,他们还向亚马逊的Mechanical Turk上展示了200对由VON和最先进的模型生成的图像,被试者的任务是在每对图像中选择更加真实的结果。


VON的性能表现非常突出。与其它AI模型相比,它的Fréchet初始距离最低。Mechanical Turk被试者更喜欢VON生成的图像,比例高达74%至85%。


研究人员将专注于更加精细化的建模,以更高的分辨率生成形状和图像,将纹理分解为光照和外观,并合成自然场景。


研究团队写道:“我们的关键思想是将图像生成过程分解为三个要素:形状、视角和纹理,这种分离的3D表示方式使我们能够在对抗学习框架下从3D和2D视觉数据收集中学习模型。与现有的2D生成模型相比,我们的模型合成的图像更加逼真;它还允许3D操作,这用以前的2D方法是无法实现的。”


突飞猛进的GAN


近年来,对GAN的研究突飞猛进,尤其是在机器视觉领域


  • Google旗下的DeepMind去年10月推出了一个基于GAN的系统,可以创建非常逼真的食物、风景、动物等照片;

  • 今年9月,英伟达的研究人员开发了一种AI模型,可以对脑癌进行合成扫描;

  • 今年8月,卡内基梅隆大学(Carnegie Mellon)的一个研究小组展示了如何利用人工智能将一个人录制下来的动作和面部表情在转移到另一张照片或视频中的目标对象;

  • 最近,爱丁堡大学感知研究所和天文学研究所的科学家设计了一种可以产生高分辨率的星系图像。


原文链接:

https://venturebeat.com/2018/12/04/google-ai-generates-images-of-3d-models-with-realistic-lighting-and-reflections/


高质量延伸阅读

☞ OpenPV平台发布在线的ParallelEye视觉任务挑战赛

【学界】第1届“智能车辆中的平行视觉”研讨会成功举行

【学界】生成式对抗网络:从生成数据到创造智能

【学界】OpenPV:中科院研究人员建立开源的平行视觉研究平台

【学界】基于平行视觉的特定场景下行人检测

【学界】ParallelEye:面向交通视觉研究构建的大规模虚拟图像集

【CFP】Virtual Images for Visual Artificial Intelligence

【最详尽的GAN介绍】王飞跃等:生成式对抗网络 GAN 的研究进展与展望

【智能自动化学科前沿讲习班第1期】王飞跃教授:生成式对抗网络GAN的研究进展与展望

【智能自动化学科前沿讲习班第1期】王坤峰副研究员:GAN与平行视觉

【重磅】平行将成为一种常态:从SimGAN获得CVPR 2017最佳论文奖说起

【平行讲坛】平行图像:图像生成的一个新型理论框架

【学界】基于生成对抗网络的低秩图像生成方法

【学界】Ian Goodfellow等人提出对抗重编程,让神经网络执行其他任务

【学界】六种GAN评估指标的综合评估实验,迈向定量评估GAN的重要一步

【资源】T2T:利用StackGAN和ProGAN从文本生成人脸

【学界】 CVPR 2018最佳论文作者亲笔解读:研究视觉任务关联性的Taskonomy

【业界】英特尔OpenVINO™工具包为创新智能视觉提供更多可能

【学界】ECCV 2018: 对抗深度学习: 鱼 (模型准确性) 与熊掌 (模型鲁棒性) 能否兼得 



登录查看更多
7

相关内容

3D是英文“Three Dimensions”的简称,中文是指三维、三个维度、三个坐标,即有长、有宽、有高,换句话说,就是立体的,是相对于只有长和宽的平面(2D)而言。
CVPR 2020 最佳论文与最佳学生论文!
专知会员服务
34+阅读 · 2020年6月17日
 【SIGGRAPH 2020】人像阴影处理,Portrait Shadow Manipulation
专知会员服务
28+阅读 · 2020年5月19日
姿势服装随心换-CVPR2019
专知会员服务
34+阅读 · 2020年1月26日
必读的10篇 CVPR 2019【生成对抗网络】相关论文和代码
专知会员服务
31+阅读 · 2020年1月10日
八篇NeurIPS 2019【图神经网络(GNN)】相关论文
专知会员服务
43+阅读 · 2020年1月10日
能生成逼真图像的不只有 GAN
机器学习算法与Python学习
8+阅读 · 2019年6月6日
2018 年最棒的三篇 GAN 论文
AI科技评论
4+阅读 · 2019年1月14日
pix2pix 3D版:几笔线条生成超炫猫咪霹雳舞!
新智元
4+阅读 · 2018年9月19日
【学界】 李飞飞学生最新论文:利用场景图生成图像
GAN生成式对抗网络
15+阅读 · 2018年4月9日
Arxiv
14+阅读 · 2019年11月26日
Arxiv
5+阅读 · 2019年6月5日
Arxiv
4+阅读 · 2018年9月25日
VIP会员
相关资讯
能生成逼真图像的不只有 GAN
机器学习算法与Python学习
8+阅读 · 2019年6月6日
2018 年最棒的三篇 GAN 论文
AI科技评论
4+阅读 · 2019年1月14日
pix2pix 3D版:几笔线条生成超炫猫咪霹雳舞!
新智元
4+阅读 · 2018年9月19日
【学界】 李飞飞学生最新论文:利用场景图生成图像
GAN生成式对抗网络
15+阅读 · 2018年4月9日
Top
微信扫码咨询专知VIP会员