加州大学博士论文《多模态传感器系统的稳健可解释预测》

智能物联网设备、智能手机和可穿戴设备正在渗透到我们日常生活的各个方面。这些设备配备了各种传感方式，包括视频、音频、惯性传感器、激光雷达等，实现了多种传感应用。研究表明，与其孤立地操作每个传感器，不如将来自多个传感流的信息结合起来，从而提高性能。这种方法被称为多模态传感器融合，人类活动识别（HAR）是受益于使用多种传感器的应用之一。近年来，深度学习算法已被证明可以在使用多模态传感器数据的HAR中实现高精度。然而，为了设计一个可靠的HAR系统，仍然需要解决以下挑战。第一个挑战是传感设备的异质性。这是因为监测一个人的设备集可能随时间变化，或者设备可能有不同的采样频率。第二个挑战是深层神经网络（DNNs）被认为是黑盒，因为研究它们的结构往往不能深入了解实际的基本机制。很难 "进入"网络并确定为什么模型在训练期间选择特定的特征而不是其他特征，从而使DNNs的预测对终端用户来说不值得信任。这种缺乏信任的情况阻碍了DNN模型在健康相关应用和其他高风险应用中的采用，在这些应用中，敏感的决策需要有足够的附带解释。因此，本论文提出了一些方法，通过对现有设备的信息进行利用，并向终端用户提供伴随每个预测的、人类可理解的解释，从而产生对设备异质性的准确预测。

首先，我们提出了一个解决方案，以解决我们的工作 "SenseHAR "中与活动识别的传感器设备异质性相关的挑战。我们设计了一个可扩展的基于深度学习的解决方案，其中每个设备学习自己的传感器融合模型，将原始传感器值映射到一个共享的低维潜在空间，我们称之为 "SenseHAR"--一个虚拟活动传感器。无论设备的子集、传感器的可用性、采样率或设备位置如何，虚拟传感器都有相同的格式和行为。SenseHAR帮助机器学习工程师在这个虚拟活动传感器的基础上，以一种与硬件无关的方式开发他们的特定应用（例如，从手势识别到日常生活的活动）模型。

接下来，我们解决深度学习模型中活动识别的可解释性问题。我们首先从终端用户的角度出发，为不同模式的分类任务确定最受欢迎的事后解释技术。为此，我们进行了一项大规模的亚马逊Mechanical Turk研究，比较了流行的最先进的解释方法，以确定哪些是更好的解释模型决定的经验。我们的结果显示，通过实例进行解释是最受欢迎的解释类型。我们还提供了一个开源库ExMatchina，提供了一个现成的、广泛适用的实例解释的实现路径。然后，我们专注于可解释的DNN模型，特别是提供基于概念的解释的模型。我们提出了CoDEx，一个自动发现和提取概念的模块，它能从视频的自然语言解释中识别丰富的复杂概念--避免了预先定义无定形的概念集的需要。最后，我们介绍了XCHAR，一个可解释的复杂人类活动识别模型，它能准确预测复杂的活动，并以人类可理解的时间概念的形式提供解释。

引言

今天，移动电话、智能物联网设备和可穿戴设备等智能设备正变得真正无处不在。这些设备配备了多个传感器[LML10]，包括摄像头、射频（RF）传感器和惯性测量单元（IMU）（加速计、陀螺仪和磁力计），使这些设备能够推断出人的活动。这些设备上的传感器产生源源不断的数据流，提供关于用户行为的大量信息。此外，随着机器学习技术的不断改进，这些设备有助于支持智能城市、智能家居的发展，提高自动化程度，改善医疗保健，并在全球范围内建立更多的连接。

在各个学科中，关于同一现象的信息可以从不同类型的探测器、在不同条件下、在多个实验或主体中获得，等等。我们用 "模态 "一词来表示每种类型的采集传感器。由于自然现象的丰富特性，单一的模式很少能提供感兴趣的现象的完整知识。为了确保对活动的一致检测，通常采用具有不同类型传感器的多个设备，它们被称为多模态数据源。在同一系统上越来越多的几种模式报告的可用性引入了新的自由度，这就提出了超越与单独利用每种模式相关的问题。为了利用多种传感器的优势，有必要对这些传感器提供的数据进行融合。融合后的数据应包含来自所有传感器的信息，并确保对所进行的活动的检测具有更高的确定性。

凭借其设计架构，深度神经网络（DNNs）已被证明可以接近任意函数，成功地将输入映射到输出。这导致DNN被用来融合这些多模态数据，并在各种复杂的任务中实现超人类水平的性能，如人类活动识别（HAR）、癌症预测、异常检测、计算机视觉、语言翻译等。然而，随着传感器系统采用深度学习的增加，出现了新的挑战。首先是设备的异质性。不是每个设备都是一样的，因此在一个设备的数据上训练的模型不能轻易转移到另一个设备上工作。其次，在这种多模态数据上使用的深度学习模型在关键背景下做出重要的预测，本质上是黑箱。因此，支持模型输出的解释是至关重要的，例如，在精准医疗中，专家需要从模型中获得远比简单的二进制预测更多的信息来支持他们的诊断。对于医生来说，这有助于监测病人的生活习惯和生活方式，以提供更好的治疗。其他的例子包括交通、安全和金融领域的自主车辆。因此，我们需要一个框架来进行预测，该框架对设备的异质性具有鲁棒性，并提供值得信赖的预测，同时提供人类可以理解的解释。

1.1 挑战1:设备的异质性

随着硬件和软件技术的逐年进步，工业界和研究界开发出成千上万种具有不同功能的设备，这就造成了设备之间更多的异质性。三种主要的异质性是：

传感器集：每个设备都有自己的传感器集[LJB17]。例如，与只捕捉RGB图像的监控摄像头不同，自动驾驶汽车上的摄像头也会捕捉深度信息。同样地，所有的智能手机和可穿戴设备都没有相同的惯性传感器集。惯性测量单元可以只有一个加速度计或加速度计和陀螺仪，或加速度计、陀螺仪和磁力计。可穿戴设备通常只配备一个加速度计，没有陀螺仪和磁力计，以减少能源消耗。

采样频率：基于成本、内存和能源消耗，每个设备都被配置为以不同的采样频率捕获数据。例如，运动中使用的摄像机可以每秒120帧以上的速度记录视频，而全天候运行的监控摄像机则以10-30帧的速度记录视频，以节省存储容量。同样地，智能手机可以在50-200赫兹的频率范围内收集惯性传感器读数。相比之下，像智能手表和健康手环这样的可穿戴设备在10-100赫兹的低频率下收集惯性传感器读数，因为低频率有助于增加其电池寿命。

设备的位置：并非所有的设备都放置在同一地点，有时设备的位置会随着时间的推移而变化。例如，一个人可能拥有多个智能设备，通常位于身体的不同位置。(例如，智能手机在口袋里，智能手表在手腕上，智能鞋在脚上)。另外，这个人可能把智能手机放在他们的左边或右边的口袋里，这就无法控制了。

1.2 挑战2: 需要可解释性

越来越多的基于深度学习的解决方案被采用，通常是在关键任务系统中，这就加速了开放这些不透明的DNN并解释导致其决策的内部运作的需要[BCR97, DK17]。在人机混合系统中，伴随着DNN输出的人类可理解的解释可以使人类决策者和他们的机器对应者之间顺利对接。例如，"机器人放射学家 "现在可以提供比一般训练有素的人类专家更出色的MRI和X-Ray图像分类[Rea19]。不可否认的是，生死攸关的诊断有理由使用表现最好的模型；然而，病人或医疗专业人员接受表面价值的自动预测是不合理的。另外，像GDPR这样的隐私法规规定 "解释权 "是内容所有者的一项特权，这使得解释不仅是可取的，而且是必要的[gdp18b]。解释在联合军事领域也同样重要，因为基于机器产生的情景理解的成功的战场决策不仅取决于推断的质量，还取决于向人类决策者提供充分的解释以建立信任和合作。

1.3 愿景: 稳健和可解释的预测

在这篇论文中，我们设计了对设备的异质性具有鲁棒性的深度学习模型。我们还了解人类偏好的解释方法，并设计出可解释的深度学习模型，能够以人类友好的方式在多种模式下解释一个预测，包括像运动传感器这样本质上难以理解的输入。图1.1显示了本论文的整体愿景。

图1.1：愿景：为分类任务提供稳健的预测和人性化的解释

1.4 论文提纲

本论文的主要贡献被组织在以下不同章节：

第2章提出了SenseHAR，一种稳健的虚拟活动传感器，它将原始传感器值映射到一个共享的低维潜在空间，并对设备的异质性没有影响。
第3章，为了解决管理数以百万计的设备的可扩展性问题，我们设计并评估了IoTelligent，该方法基于：（i）自动编码器，从网络流量流中自动提取相关特征；（ii）DBSCAN聚类，识别表现出相似行为的设备组，以标记异常设备。
第4章介绍并讨论了Mechanical Turk研究的结果，该研究确定了普通非技术性终端用户对事后解释方法的相对偏好。它还提供了一个开源的库，ExMatchina，提供了一个现成的、广泛适用的逐例解释的实现。
第5章，我们开发了CoDEx，这是一个概念发现和提取管道，利用NLP技术从众包的自然语言解释中自动提取复杂的概念抽象，用于给定的视频和标签，避免了手动定义必要和充分的概念集的需要。
第6章介绍了XCHAR，一个用于可解释的复杂人类活动识别的可解释的DNN模型，它达到了最先进的准确性，并以时间概念的形式提供人类可理解的解释。
最后，第七章提供了我们未来可能的研究方向，第八章总结了本论文。