马普所智能系统系与苏黎世联邦理工AIT团队，带你全景式领略3D数字人前沿研究

2022 年 3 月 31 日 机器之心

机器之心知识站与国际顶尖实验室及研究团队合作，将陆续推出系统展现实验室成果的系列技术直播，作为深入国际顶尖团队及其前沿工作的又一个入口。赶紧点击「阅读原文」关注起来吧！

4月6日-4月7日，最新一期「机器之心走近全球顶尖实验室」邀请到马普智能系统研究所感知系统系与苏黎世联邦理工AIT团队带来分享。

马普智能系统研究所感知系统系的研究结合了计算机视觉、机器学习和计算机图形学，致力于构建能在虚拟 3D 世界中感知、学习和行动的数字人。相关技术包括使用单目视觉传感器获取真实人类的外形、外观和动作，以及人与人之间、人与场景之间的交互信息。团队利用这些信息来构建人体以及人类行为的生成模型，并通过在虚拟世界中合成逼真的数字人来对这些生成模型进行评估。

苏黎世联邦理工AIT实验室的目标是从机器的视角出发，基于观察到的场景信息，对人体的外观和行为姿态建立更全面和整体的理解。技术上讲，团队以人和人与外界的交互为中心（human- and interaction-centric），分析视频、图像和其他传感器的数据来研究各种算法、方法和表达，并将其用于人与人工智能系统（如机器人）交互的场景。

4月6日-4月7日，来自马普智能系统研究所与苏黎世联邦理工AIT团队的9位嘉宾将带来线上分享，详情如下：

4月6日 19:30-21:30

主题一：基于单张图像的人脸人体重建

分享嘉宾：冯瑶，德国马克斯·普朗克智能系统研究所和瑞士苏黎世联邦理工学院博士生，导师为 Michael J. Black 和 Marc Pollefeys；硕士毕业于上海交通大学，曾在 Facebook Reality Labs 实习；研究方向为三维人脸和人体的重建与建模，目前以第一作者在 ECCV、SIGGRAPH 上发表论文，其在 GitHub 的开源代码共有超过一万的stars。

分享摘要：三维人脸人体重建是计算机视觉和计算机图形学中的一个重要研究课题，广泛应用于三维动画、AR/VR、人机交互等领域中。本次分享会介绍我的两个工作， DECA 和 PIXIE，研究如何从单张图像中重建出三维人脸及人体。DECA 从自然场景图片中学习可动画化细节的三维人脸模型，以重建出具有几何细节的人脸模型，PIXIE 可以从单个图像生成具有逼真面部细节，手部动作的三维人体模型。

主题二：如何多快好省地重建三维数字人

分享嘉宾：修宇亮，德国马克斯·普朗克智能系统研究所二年级博士生，导师 Michael J.Black，现研究方向为基于图像和视频的三维人体数字化；之前曾为美国南加州大学计算机系博士生，导师 Hao Li；2019年于上海交通大学计算机系取得硕士学位，导师卢策吾，研究方向为二维人体姿态估计与跟踪；本科毕业于山东大学数字媒体技术专业。

分享摘要：以假乱真的数字虚拟人，是构建 Metaverse 的基础组件。现有的数字人制作流程，需要昂贵的三维扫描设备以及大量的人工后处理，费时费力费钱，因此如何从互联网上现有的照片或视频中（省），规模化地（多）快速（快）生产高质量（好）数字虚拟人，成为一个学界和业界都在关心的问题。在这次分享中，我将介绍我的两个工作：ICON 和 MonoPort，这两个工作都围绕着「将图像中的纸片人还原成几何细节丰富的三维数字虚拟人」这个问题，ICON 主要致力于更高效的训练、更强的泛化性、更稳定的重建效果，而 MonoPort 则聚焦于实时性。

主题三：单目、多人、实时三维人体形态及深度估计

分享嘉宾：孙宇，哈工大机器人所博士生，导师王树国，目前在京东 AI 研究院实习；为介绍两篇与 Michael J. Black 合作的文章，混进了本次直播；研究聚焦于复杂场景的单目多人三维人体形态估计，以一作在 CVPR、ICCV 发表论文。

分享摘要：如何从复杂的实际多人场景中，实时估计相机中每个人的三维形态及多人间的相对位置关系？本次分享介绍针对这一问题设计的系列算法 — ROMP & BEV。ROMP是第一个开源的实时多人三维形态估计算法，至今已迭代优化3版。可实现（Linux\Windows\Mac）的 pip 一键安装，简单易用，实时驱动 blender 中虚拟人物。BEV 继 ROMP 后，增加了对多人深度关系估计和不同年龄段的支持。

主题四：从视频理解人体运动与三维场景

分享嘉宾：易鸿伟，德国马克斯·普朗克智能系统研究所二年级博士生，导师 Michael J.Black 和 Siyu Tang，同时与 Justus Theis 合作紧密；主要研究方向为通过计算机视觉和机器学习从图像或视频理解三维世界（人和场景），其中包括人体运动姿态重建，三维场景重建并考虑人与场景之间的交互等；目前以第一作者身份在。CVPR, ECCV, ICRA发表多篇文章；硕士毕业于北京大学，导师为汪国平，研究方向为多视图立体几何场景重建和人脸重建；本科毕业于北京邮电大学计算机科学与技术系。

分享摘要：人类的行为、人类与环境的互动是三维世界的基础。因此，对于人体和三维场景的重建能够帮助到以人为中心的 AI 和机器人分析和预测人类行为，或者能够应用到 AR/VR 中合成虚拟数字世界。在本次分享，我主要介绍 MOVER，如何从视频中理解人体运动与其交互的三维场景；并简要回顾如何利用深度学习多视图立体对无约束场景进行重建；最后分享对于未来工作的思考，如何从电影、情景喜剧理解人与其交互的三维场景。

主题五：新一代人体重建数据采集

分享嘉宾：黄俊豪，德国马克斯·普朗克智能系统研究所博士后研究员；博士就读慕尼黑工业大学资工系，师从 Slobodan Ilic 和 Nassir Navab，与法国 INRIA 研究员 Edmond Boyer 共同指导；曾以第一作者在 CVPR、3DV、IJCV、TPAMI 发表论文，获 3DV13 best paper runner-up；博士时期专注于多目影像中的人体建模、配准和追踪、可变形的三维人体模型匹配等；博后将焦点转至单目影像重建且考虑人体与场景或人体与人体间的互动，目标是自然场景下能无限制地人体重建与行为理解。

分享摘要：数据集作为机器学习的粮食，在以神经网络为基石的人体重建与动态捕捉中扮演至关重要的角色。本次分享我将以三个 CVPR 工作－AGORA、RICH 和 TUCH 为例，讨论两种经典数据採集方式：CG 合成（AGORA）与自动化标记（RICH）之应用，进而带出一个新式、混和型的人体数据采集方式（MTP）。

4月7日 19:30-21:30

主题一：从数据中学习三维虚拟人建模：几何表征哪家强?

分享嘉宾：马千里，德国马克斯·普朗克智能系统研究所和瑞士苏黎世联邦理工学院博士生，师从 Michael J. Black 及 Siyu Tang。本科毕业于北京大学物理学院；主要研究方向为三维衣着人体的重建与建模，在 CVPR、ICCV、NeurIPS 上发表数篇工作；合著文章之一入围 CVPR2021 最佳论文候选名单。

分享摘要：如何让虚拟人模型更加真实生动？建立起随着身体运动而自然形变的三维衣着模型是重要的一环。在本次分享中，我会带来我们近期在这方面的一系列工作，从稠密点云（SCALE, POP）到隐式几何表征（SCANimate），全方位讨论各种三维几何表征在虚拟人建模方面的优势与不足。这些模型中，SCALE 和 SCANimate 可以利用一组三维扫描建立使用者的数字化身：这些数字化身可以用人体姿态参数驱动，并生成真实的衣着形变。而 POP 则展示了三维点云在虚拟人建模上的独特优势：依靠生动的细节表现力和灵活的拓扑结构，POP 做到了训练单个模型即可覆盖多个服装种类；而训练好的 POP 模型甚至可以让单帧三维扫描动起来。

主题二：三维数字人的生成模型

分享嘉宾：陈旭，瑞士苏黎世联邦理工学院和德国马克斯·普朗克智能系统研究所四年级博士生，导师为 Otmar Hilliges, Michael J. Black 以及 Andreas Geiger；主要研究方向为三维人体建模。2018年取得苏黎世联邦理工学院机器人系统与控制专业硕士学位，2015年取得武汉大学与德国斯图加特大学电子与信息技术专业双学士学位。

分享摘要：三维虚拟数字人已被广泛应用于电影，游戏以及交互，是虚拟世界不可或缺的组成部分。现有的数字人制作流程需要专业人员大量的时间和精力投入。在这次分享中，我将介绍我们的两个工作， SNARF 和 gDNA，关于如何从真实数据中学习自动化生成高质量三维数字人。SNARF 可以从个人的三维扫描中学习人体以及衣服的形状以及形变，从而得到个人定制化的三维数字人，并可以生成各个姿势下真实的形态。在此基础上，gDNA 引入生成模型来生成大量不同身份，衣服以及形态的数字人。

主题三：如何从一段视频得到你的专属定制数字avatar

分享嘉宾：郑羽丰，瑞士苏黎世联邦理工学院和德国马克斯·普朗克智能系统研究所二年级博士生，导师为 Otmar Hilliges 和 Michael J. Black。主要研究方向为三维人脸及头部数字化建模。2020年取得苏黎世联邦理工学院计算机系硕士学位，本科毕业于清华大学电子工程系。

分享摘要：三维人脸以及头部 avatar 的数字建模在 AR/VR 中有重要作用。也许在不久的将来，你可以控制自己的 avatar 在元宇宙中和其他人交流。在这样的应用场景下，你不仅希望你的 avatar 有细致真实的面部形态和相貌，也需要它能准确地表现指定的面部表情，因为面部表情在社交中像语言一样可以传达很多至关重要的信息。这次，我希望和你分享我最近的一个工作：IMavatar，探索如何用单目视频来重建头部的 avatar。IMavatar 拥有丰富的面貌细节，并致力于提高面部表情的可控制性和泛化性。

主题四：从不同传感器重建可驱动的三维数字人

分享嘉宾：董子健，瑞士苏黎世联邦理工学院一年级博士生，导师为 Otmar Hilliges 和 Andreas Geiger。硕士毕业于瑞士苏黎世联邦理工学院机器人系统与控制方向，本科毕业于西安交大钱学森实验班（少年班）。研究方向为三维人体的重建及其与三维场景交互，目前以第（共）一作者在 ECCV、CVPR、ICCV 上发表论文。

分享摘要：三维虚拟人是 VR/AR、游戏以及元宇宙构建中不可缺少的组成部分。现有的数字人制作流程如电影工业，大多需要先扫描人体的三维模型，并需要专业人员花费大量时间，复杂的设备从而得到，大大增加了其应用于普通用户的难度。在本次分享中，我将围绕如何利用常见的传感器来重建三维可驱动的数字人为主题。首先，我会介绍我的第一个工作，通过少量几个 RGB 相机，重建多人场景的三维人体形态。其次我会介绍我的第二个工作 PINA，通过一个 RGBD 相机（如Kinect），更进一步，重建有衣服且可驱动的三维数字人。

加群看直播

直播间 ：关注机器之心机动组视频号，北京时间4月6日-7日19:30 开播。

交流群： 本次直播设有QA环节，欢迎加入本次直播交流群探讨交流。

如群已超出人数限制，请添加机器之心小助手：syncedai2、syncedai3、syncedai4 或 syncedai5，备注「马普所」即可加入。

机器之心 · 机动组

机动组是机器之心发起的人工智能技术社区，聚焦于学术研究与技术实践主题内容，为社区用户带来技术线上公开课、学术分享、技术实践、走近顶尖实验室等系列内容。机动组也将不定期举办线下学术交流会与组织人才服务、产业技术对接等活动，欢迎所有 AI 领域技术从业者加入。

点击阅读原文，访问机动组官网，观看往期回顾；
关注机动组服务号，获取每周直播预告。

登录查看更多

相关内容

智能系统

关注 0

智能系统（Intelligence system）是指能产生人类智能行为的计算机系统。智能系统不仅可自组织性与自适应性地在传统的诺依曼的计算机上运行，而且也可自组织性与自适应性地在新一代的非诺依曼结构的计算机上运行。“智能”的含义很广，其本质有待进一步探索，因而，对：“智能”这一词也难于给出一个完整确切的定义，但一般可作这样的表述：智能是人类大脑的较高级活动的体现，它至少应具备自动地获取和应用知识的能力、思维与推理的能力、问题求解的能力和自动学习的能力。

如何造出逼真图像？南洋理工Chuanxia Zheng博士论文《基于深度生成学习的逼真图像合成》197页pdf阐述视觉合成工作

专知会员服务

51+阅读 · 2022年3月9日

【CVPR 2022】paper解读——从头盔信号中解析生成3D姿势，这为AR/VR创造可信虚拟形象迈出了重要一步，FLAG: Flow-based 3D Avatar Generation from Sparse Observations

专知会员服务

19+阅读 · 2022年3月6日

SIGGRAPH 2021 | 学习带神经融合形状的人物动画

专知会员服务

15+阅读 · 2021年6月1日

CVPR 2020 最佳论文与最佳学生论文！

专知会员服务

36+阅读 · 2020年6月17日