我们研究了野外拍摄的视频中多人三维重建的问题。人类的动作是动态的,准确地在各种环境中重建它们对于开发沉浸式社交远程呈现、辅助性人形机器人和增强现实系统至关重要。然而,创建这样的系统需要解决关于数据和模型架构的以前工作的基本问题。在这篇论文中,我们开发了几个大规模的3D基准测试,旨在评估在苛刻条件下的多人重建,以及对遮挡和拥挤环境有韧性的自上而下的算法。 数据 - 为深度学习模型获得大规模的3D监督是实现真实世界泛化的关键。然而,与大规模2D数据集不同,3D数据集的多样性显著受限 - 主要是因为在3D空间中手工注释是不切实际的。因此,大多数3D基准测试都限制于室内环境,或者最多是两个室外的人类主题,摄像机的移动缓慢或固定,并且遮挡最小。为了解决这个差距,我们探索使用3D合成数据,并构建两个真实的多人3D数据集,这些数据集包括动态的人类活动、快速的摄像机移动和人与人之间的接触,这些在之前的基准测试中都被忽视了;以突出现有方法的关键局限性。 方法论 - 一个通用的多人3D重建方法应该对尺度变化和遮挡具有韧性,并结合绝对深度理解。我们在2D和3D设置中引入了这些特性的算法,这些算法使我们能够推理在动态环境和拥挤场景中的多个人。我们的自上而下的方法利用空间-上下文信息来推理3D场景中严重遮挡的人类。 基于这两个组件,我们开发了从野外视频中重建动态场景中的多个人的通用3D方法。

计算机视觉领域的一个主要目标是人体的三维重建[78]。这种能力对于视频游戏、电影和远程呈现的应用至关重要。然而,目前大多数关于3D人体重建的方法和数据集都是针对单一人体场景的[95, 109, 263]。考虑到人类本质上是社交生物,经常与其他人互动,多人场景的存在显得十分重要。现有的方法往往做出了限制性的假设,不容易扩展到这些多人情境。此外,现有的单一人体数据集提供的监督在泛化到多人上下文时,特别是在不可预测的、野外的条件下,都显得不足。 本论文描述了在野外捕获的大规模3D多人数据集的新技术。此外,它还提出了一些不仅定制于多人场景,而且对于拥挤和遮挡等挑战表现出强大韧性的方法。从图像和视频中推导人体的3D结构的主要挑战是这个任务的数学病态性。正如Adelson和Pentland[1]在工作坊的比喻中所强调的,以及Sinha和Adelson[229]的多面体线条图所展示的,许多3D配置都可以匹配一个给定的2D图像。然而,我们的世界是有结构的,这些配置并不都同样可能。尽管如此,我们的世界具有固有的结构,使得某些配置比其他配置更有可能。人们根据环境中的熟悉模式和规律来辨识可能的3D结构。同样地,我们让计算机掌握3D的努力也主要依赖于将这种先验知识嵌入到推断过程中。 在当前的计算机视觉领域,像图像分类[46]、物体检测[144]和语义分割[40]这样的领域,3D人体重建主要依赖于带有3D注释的3D数据集来编码这些固有的先验。获得这些3D人体注释的主要方法是通过多视图捕获设置,因为手工3D注释既低效又具有挑战性。然而,值得注意的是,许多这些3D人体重建数据集主要集中在单一人体场景上,忽视了多人互动。是什么驱动了这种趋势?人们可能会辩称,收集单一人体数据更简单、更直接。此外,在多视图设置中,框架中只有一个主题可以避免多个个体之间的跨视图对应关系的复杂性。然而,这种对数据集组成的狭隘关注无意中推动了该领域朝向在多人环境中失误的方法,参见图1.1。总之,深入研究构建一个全面的多人3D重建系统不仅需要开发能够适当地建模人与人之间的深度关系和互动的方法,如人与人之间的接触,而且更关键的是,解决现有3D人体数据集中的局限性。

在本论文中,我们解决了这两个主要的挑战:创建大规模的多人数据集以及改进3D人体重建技术。我们的讨论分为三部分。在第一部分中,我们探讨了使用合成3D监督以及它纠正当前数据集偏见的潜力。这引出了关键问题:纯粹在合成数据上进行训练的模型可以被信任在真实数据上工作得很好吗?我们如何在它们之间建立域间的桥梁?在第二部分,我们评估了当前方法在多人上下文中的局限性,从简单的任务如2D姿态估计开始,然后转向更复杂的任务,如从单一图像恢复3D网格。在第三部分,我们回到数据主题,考虑在确保其真实性和多样性的同时,在大规模收集实际的多人数据的需要和挑战。 第一部分:合成3D监督。利用最先进的模拟器为3D人体重建的大规模监督生成合成数据的想法是一个令人信服的想法。在这一部分,我们检查一个中心问题:当纯粹在合成数据上进行训练时,3D方法可以可靠地扩展到真实世界的数据吗?在第2章,我们提供了证据,表明使用域随机化的数据允许方法泛化,即使没有真实世界的注释,特别是对于3D对象姿态估计任务。然而,我们观察到,对域随机化的普通方法并不是最有效率的,通常需要许多合成样本才能达到可靠的实数据泛化。第3章解决了这一挑战,引入了一个更有效的域随机化方法,使合成数据的生成与深度模型在训练期间的持续进展保持一致。这一章还概述了关于需要多少数据才能实现可靠的实际世界泛化的理论保证。

第二部分:多人姿态和形状估计。在这部分,我们解决了3D多人重建方法的关键限制。第4章主要关注2D姿态估计,尤其是在由遮挡和拥挤标记的复杂多人情境中。我们介绍了一套专为这些场景设计的新颖的自上而下的方法,有效地摆脱了限制性的单人假设。基于这一基础,第5章扩大了这些方法,以从图像中解决3D人体网格恢复的问题。我们的主要哲学是将人的点基表示与它们的边界框表示相结合。我们展示了,令人惊讶的是,这种简单的集成能够维持自己,即使在具有挑战性的多人遮挡的情境中也能够取得令人印象深刻的结果。 第三部分:真实的3D多人数据集。虽然在第一部分中,我们调查了用于3D的合成数据的使用,但第三部分将焦点转向真实的多人数据。在第6章中,我们设计了一个适合野外设置的无标记捕获系统,以记录多人活动,重点是动态活动,如体育和舞蹈。同时,我们引入了一个半自动的注释流程,以减少人为监督地生成大规模的3D注释,如人体姿态和网格。此外,为了捕获带有移动相机的3D场景,我们利用了主题的自中心视图,并为这一具有挑战性的视图提供了注释。然后第7章深入探讨,重点是多人互动,代表了人与人之间的扩展接触,包括摔跤、拥抱和舞蹈等活动。利用我们之前的方法,我们引入了一个增强的注释协议,旨在充分处理这些活动中固有的遮挡。总之,第6章和第7章中详细描述的努力共同为建立两个全面的多人3D数据集作出了贡献。 然而,为了开发更大的数据集和高效且普遍的3D多人方法,还有更多的工作要做。第8章通过讨论这一领域未来工作的具体方向来结束,包括短期和长期的方向。

成为VIP会员查看完整内容
30

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【MIT博士论文】垂直领域生成式模型,107页pdf
专知会员服务
60+阅读 · 2023年11月13日
【MIT博士论文】高效可靠深度学习的共形方法,213页pdf
专知会员服务
34+阅读 · 2023年11月12日
【伯克利博士论文】视觉和机器人的可扩展表示,125页pdf
【伯克利博士论文】可迁移生成模型,137页pdf
专知会员服务
52+阅读 · 2023年5月23日
【斯坦福大学博士论文】深度学习医学图像解译,205页pdf
专知会员服务
52+阅读 · 2022年11月18日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
131+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
325+阅读 · 2023年3月31日
Arxiv
53+阅读 · 2023年3月26日
Arxiv
111+阅读 · 2023年3月24日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员