3D点云识别安全吗? 学界提出健壮性分析数据集：ModelNet40-C

会员服务 ·

3D点云识别安全吗? 学界提出健壮性分析数据集：ModelNet40-C

2022 年 2 月 26 日 CVer

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

3D点云识别安全吗? 学界提出健壮性分析数据集ModelNet40-C

点云失真为3D深度学习带来新的挑战!

论文：Benchmarking Robustness of 3D Point Cloud Recognition Against Common Corruptions

论文地址: https://arxiv.org/abs/2201.12296

项目主页: https://sites.google.com/umich.edu/modelnet40c

开源Github: https://github.com/jiachens/ModelNet40-C

1. 导语

3D点云广泛应用在3D识别技术中。特别的应用领域往往对3D点云识别的安全性有更高的要求，如自动驾驶、医疗图像处理等。学界的目前对点云安全性的研究集中在对抗攻击的健壮性。与对抗性攻击相比, 自然的的失真和扰动在现实世界中更为常见。然而目前还没有关于3D点云针对失真的健壮性的系统性研究。在这篇论文中, 研究者提出了一个新颖且全面的数据集ModelNet40-C来系统地测试以及进一步提高点云识别模型对于失真的健壮性。ModelNet40-C 包含185000个点云数据，它们来自15种不同的点云失真类型，且每个类型有5种不同的严重程度。这些点云失真分为3大类：密度 (density) 失真、噪音 (noise) 失真、以及变换 (transformation) 失真。实验表明，目前具有代表性的3D点云识别模型（比如：PointNet、PointNet++、DGCNN以及PCT）在ModelNet40-C上的错误率比在原本ModelNet40数据集上的错误率高出超过3倍，如图1所示。这证明了点云深度模型框架仍然非常容易受到常见失真的影响。

根据这一发现作者进而做了大量的测试去探索不同模型架构，数据增强，以及自适应方法对于失真健壮性的影响。作者根据实验结果总结了多个发现来帮助3D点云识别技术的开发者们设计更健壮的模型以及训练方案。例如，作者发现基于Transformer的点云识别架构在提高模型对于失真的健壮性有很大的优势；不同类型的数据增强策略对各种类型的失真有不同的优势；测试时自适应方法对一些很严重的失真有很好的健壮性，等等。

图1. 深度点云识别代表性模型在ModelNet40和ModelNet40-C数据集上的错误率。

2. ModelNet40-C 数据集构建

图2. ModelNet40-C数据集失真类型图示。

失真健壮性在2D图像上已经得到广泛关注，其中CIFAR-C和ImageNet-C通过模拟不同天气，噪声，以及模糊来构建失真数据集。然而本文作者发现3D点云的失真与2D图像有根本的不同，原因在于点云数据结构更加灵活且不规则，例如，一个点云内点的数量是可以改变的，同时3D点云位置的改变也很容易影响语义信息。作者提出3点构建ModelNet40-C的原则：

1) 语义不变性、

2) 失真切实性、

3) 失真多样性来保证数据集的质量。

ModelNet40-C的失真分为密度 (density) 失真，噪音 (noise) 失真，以及变换 (transformation) 失真三类。

密度失真包括“遮挡”，“激光雷达 (LiDAR)”，“局部密度上升”，“局部密度下降”，以及“局部缺失” 5种，它们模拟了现实中不同传感器生成点云密度的不同特征，例如，“遮挡”模拟了传感器在扫描3D物体时受角度限制只能生成一部分点云。
噪音失真包括“均匀分布”，“高斯分布”，“脉冲”，“上采样”，以及“背景”噪音，他们模拟现实中传感器生成时以及程序预处理过程中不可避免的数字噪声与误差。
变换失真包括“旋转”，“错切”，“自由形变”，“径向基形变”，以及“反径向基形变”，前两种模拟了在处理点云数据时非对准状态以及动态采集数据时的失真，后三种则代表了AR/VR游戏以及生成模型 (GAN) 产出的点云失真。

图3. 在ModelNet40-C上6个模型的平均混淆矩阵。

作者阐述了这些失真是点云应用中非常常见的，并且保证了生成的数据集仍然保持了原有的语义，如图2所示。图3展示了在ModelNet40-C上6个模型的平均混淆矩阵，对角线上的比重依然很高，这同样交叉验证了ModelNet40-C的语义不变性。

3 ModelNet40-C 上基准测试 (Benchmarking) 结果与分析

在构建ModelNet40-C之后，作者进行了大批量的基准测试，包含不同模型架构设计，不同数据增强方法，以及不同自适应方法的实验设置。

3.1 不同失真以及模型架构设计对比

表1. 在标准训练下不同模型在ModelNet40-C上的错误率。

如表1所示，作者在PointNet, PointNet++, DGCNN, RSCNN, PCT, 以及SimpleView 六个模型上进行了基准测试。作者总结了一些发现:

1) “遮挡”和“激光雷达”给点云识别模型造成了极高的错误率。

2) 小角度的“旋转”仍然会很大程度影响点云识别性能。

3) “背景”和“脉冲”噪声给大部分模型带来了意想不到的挑战。

作者们进而发现这些也可以反映到模型设计上。

1) PointNet对密度失真较为健壮，但是整体上缺表现不佳。这是因为PointNet只编码全局特征而没有局部特征，这种特性一直以来被认为是PointNet的主要缺点。但是密度失真是局部特征损失，这反而对PointNet的影响有限，但是这种机制确实导致PointNet对其他的失真类型非常敏感。作者建议今后对PointNet的使用应该考虑应用场景。

2) 球查询 (ball query) 的聚类方法对“背景”和“脉冲”噪声更加健壮。这是因为球聚类相对于kNN聚类限定了最大聚类半径，这样的设计有助于帮助模型去除相差很远的异常值的影响。

3) 基于 Transformer的点云识别模型对变换失真更加健壮，这是因为自注意力 (self-attention) 机制能够使得模型能够学习到更健壮以及全面的全局特征，而且Transformer架构也实现了更大的模型容量，使得其对于全局的形变失真更健壮。

3.2 不同数据增强方法对比

表2. 在标准训练下不同模型在ModelNet40-C上的错误率。

如表2所示，作者采用PointCutMix-R, PointCutMix-K, PointMixup, RSMix, 以及对抗训练(Adversarial Training) 作为5种数据增强的训练方式。作者发现: 1) 这些数据增强的方案虽然对于干净数据集上对模型性能的提升有限，但是都显而易见地提高了模型在点云失真场景下的健壮性。2) 没有一种数据增强方案可以主宰所有的失真类型。PointCutMix-R对于噪音失真的健壮性很好因为它随机采样两个不同类别的点云并直接合成，所以生成的点云是两个已有点云降采样的“重叠”，以至于每个降采样的点云对于另一半来说都相当于噪音失真。所以这样的数据增强模式可以极大地提高噪音失真的健壮性。PointMixup对变换失真的表现较好因为PointMixup是对两个不同类别的点云做最小距离配对并“插值”采样，所以生成的点云的形状介于两种种类之间，这种于变换失真中的整体形变接近，所以其对变换失真更为健壮。RSMix则对密度失真健壮，虽然RSMix整体思路与PointCutMix接近，但其严格规定刚性合成，即两个不同类别的点云采样过后在3D空间仍然是独立的，没有“叠加”。这样的合成相当于两个独立的局部缺失的点云，所以其对密度失真的健壮性较好。

3.3 不同自适应方法对比

表3. 在标准训练下不同模型在ModelNet40-C上的错误率。

本文作者首次将测试时自适应方法应用到点云识别的任务中来，他们采用了BN和TENT方法去更新模型的批标准化层 (BatchNorm Layer)的参数。作者们发现: 1) 测试时自适应方法可以稳定地提升模型的健壮性，但总体上并没有数据增强的效果好。2) 测试自适应方法对一些困难的失真类型效果出乎意料的好。例如，平均而言，TENT有助于在“遮挡” (错误率=47.6%)，“激光雷达 (错误率=54.1%)，和“旋转” (错误率=19.8%) 失真类型下实现最强的健壮性，分别比最佳数据增强方法高出6.7%，1.9%，和7.9%。这证明了自适应方法在提高点云识别失真健壮性的巨大潜力。

作者最后将数据增强中整体表现最好的PointCutMix-R与自适应方法TENT结合发现基于Transformer架构的PCT模型达到了目前最好的整体失真健壮性 (错误率=13.9%)。这一发现同时验证了Transformer在模型健壮性的成功，与之前在学者在Transformer对2D图像的结论基本吻合(Bai, Yutong, et al. "Are Transformers more robust than CNNs?." Advances in Neural Information Processing Systems 34 (2021).)。

4. 总结

本文提出了一个新颖并且全面的3D点云识别健壮性分析数据集ModelNet40-C。作者提出并构建了了75种不同的失真类型和程度来模拟真实场景中由于物理限制、传感器准确度限制、以及处理过程中造成的点云失真和损坏。ModelNet40-C包含185000个不同的点云数据。实验表明，目前代表性的模型在ModelNet40-C上的错误率比在原本ModelNet40数据集上的错误率高出~3倍。作者通过大量的基准测试展现了不同模型架构，不同数据增强策略，以及自适应方法在ModelNet40-C上的性能并总结了有用的发现来帮助3D点云社区设计更健壮的识别模型。我们期待着过ModelNet40-C数据集能加速今后更多的点云识别健壮性的研究！

ICCV和CVPR 2021论文和代码下载

后台回复：CVPR2021，即可下载CVPR 2021论文和代码开源的论文合集

后台回复：ICCV2021，即可下载ICCV 2021论文和代码开源的论文合集

后台回复：Transformer综述，即可下载最新的3篇Transformer综述PDF

CVer-3D点云交流群成立

扫码添加CVer助手，可申请加入CVer-3D点云 微信交流群，方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch和TensorFlow等群。

一定要备注：研究方向+地点+学校/公司+昵称（如3D点云+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群