Object manipulation from 3D visual inputs poses many challenges on building generalizable perception and policy models. However, 3D assets in existing benchmarks mostly lack the diversity of 3D shapes that align with real-world intra-class complexity in topology and geometry. Here we propose SAPIEN Manipulation Skill Benchmark (ManiSkill) to benchmark manipulation skills over diverse objects in a full-physics simulator. 3D assets in ManiSkill include large intra-class topological and geometric variations. Tasks are carefully chosen to cover distinct types of manipulation challenges. Latest progress in 3D vision also makes us believe that we should customize the benchmark so that the challenge is inviting to researchers working on 3D deep learning. To this end, we simulate a moving panoramic camera that returns ego-centric point clouds or RGB-D images. In addition, we would like ManiSkill to serve a broad set of researchers interested in manipulation research. Besides supporting the learning of policies from interactions, we also support learning-from-demonstrations (LfD) methods, by providing a large number of high-quality demonstrations (~36,000 successful trajectories, ~1.5M point cloud/RGB-D frames in total). We provide baselines using 3D deep learning and LfD algorithms. All code of our benchmark (simulator, environment, SDK, and baselines) is open-sourced, and a challenge facing interdisciplinary researchers will be held based on the benchmark.


翻译:从 3D 视觉输入到 3D 对象操作在建立可概括化的观念和政策模型方面提出了许多挑战。然而,现有基准中的 3D 资产大多缺乏与地貌和几何学中真实世界级内部复杂程度相一致的3D 形状的多样性。 我们在这里提议SAPIEN 操纵技能基准(ManiSkill) 来用全物理模拟器对不同对象的操作技能进行基准测试。 ManiSkill 中的 3D 资产包括大型的类内地形和几何差异。 任务经过仔细选择,以涵盖不同的操作挑战类型。 3D 愿景的最新进展还使我们相信,我们应该定制该基准,从而邀请从事3D 深层学习的研究人员来面对挑战。 为此,我们模拟一个移动的全光谱相机,以自我中心点云或RGB-D 图像为回报。 此外,我们想要 Manisk 来为一组对操纵研究感兴趣的研究人员提供服务。 除了支持从互动中学习政策外,我们还支持从不同的操作中学习(LfD) 演示的最新进展方法, 通过提供大量高质量的演示(~3.5 3D 基准中, 标准中提供我们所有的 3D) 成功的基底底底基 。

0
下载
关闭预览

相关内容

3D是英文“Three Dimensions”的简称,中文是指三维、三个维度、三个坐标,即有长、有宽、有高,换句话说,就是立体的,是相对于只有长和宽的平面(2D)而言。
【MIT】反偏差对比学习,Debiased Contrastive Learning
专知会员服务
91+阅读 · 2020年7月4日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
【泡泡汇总】最强 SLAM Datasets 合辑
泡泡机器人SLAM
17+阅读 · 2019年5月27日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
无人机视觉挑战赛 | ICCV 2019 Workshop—VisDrone2019
PaperWeekly
7+阅读 · 2019年5月5日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
动物脑的好奇心和强化学习的好奇心
CreateAMind
10+阅读 · 2019年1月26日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
【推荐】直接未来预测:增强学习监督学习
机器学习研究会
6+阅读 · 2017年11月24日
Arxiv
0+阅读 · 2021年10月28日
Arxiv
7+阅读 · 2020年10月9日
Arxiv
5+阅读 · 2018年5月22日
Arxiv
7+阅读 · 2017年12月28日
VIP会员
相关资讯
【泡泡汇总】最强 SLAM Datasets 合辑
泡泡机器人SLAM
17+阅读 · 2019年5月27日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
无人机视觉挑战赛 | ICCV 2019 Workshop—VisDrone2019
PaperWeekly
7+阅读 · 2019年5月5日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
动物脑的好奇心和强化学习的好奇心
CreateAMind
10+阅读 · 2019年1月26日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
【推荐】直接未来预测:增强学习监督学习
机器学习研究会
6+阅读 · 2017年11月24日
Top
微信扫码咨询专知VIP会员