微表情检测和识别的研究进展与趋势

2018 年 3 月 23 日 中国计算机学会 中国计算机学会

CCF于1月11日发布了最新一期《中国计算机科学技术发展报告》，对软件智能化开发技术等11个方向的研究进展做了详细介绍和讨论。我们将分期分享报告中的精彩内容，加入CCF会员登录CCF官网，可在数字图书馆栏目下载和浏览。

1 引言

情绪是人类心理的重要组成部分，它通过声音、面部表情、肢体语言等方式表现。其中，面部表情（facial expression）作为情绪表达最重要的方式，受到心理学研究者的广泛关注。面部表情通过眼部肌肉、颜面肌肉和口部肌肉的变化来表现各种情绪状态。但是，情绪并不是一览无余地表现在脸上的。在很多情况下，人们会隐藏、伪装或抑制他们真实的情绪，于是产生局部、快速、不对称的面部表情，这被称为微表情。微表情是一种快速的面部表情，持续的时间往往在0.5秒之内，往往能够揭示人类试图隐藏的真实情绪。微表情通常出现在高风险环境中（high-stakes），例如它可能会在人们得到或失去一些有价值的事情时产生。微表情能反映一个人的真正意图，尤其是带有恶意性质的事情。因此微表情能为测谎提供必要的线索，并以此来检测危险的行为。另外微表情在许多领域都有潜在的用途，例如国家安全，临床诊断和审讯等等。由于微表情持续时间短且强度低，它很难被肉眼识别。当前仅有经过高强度训练的人能区分微表情，但是即使经过高强度训练，识别率也仅有47%。因此，计算机视觉和模式识别领域的研究者需要研发微表情检测和识别方法来识别微表情。

1.1什么是微表情

表情是在心理抑制状态下，面部肌肉由于不受控制地收缩而产生的，是人类经过长期进化遗传而继承下来的。但微表情在1969年才由著名心理学家Ekman教授在一段对抑郁症患者的访谈录像中首次发现，并借此成功地识破该患者为获得出院机会而故意编造的谎言。

1.2微表情和普通表情有什么区别

相对于普通表情，微表情不仅具有持续时间短暂、变化幅度微弱和动作区域较少等明显不同的外在特点，而且在心理形成机制上也有本质区别。

首先，持续时间短是微表情最典型的特点。目前大部分心理学家认为微表情持续时间不超过0.5秒，中国科学院心理研究所傅小兰团队认为启动时间（即从运动开始到高峰的时长）在0.26秒以内的表情符合微表情的本质特点，也将其划为微表情；其次，微表情的肌肉模块运动强度相对一般表情较弱，一般表情肌肉的舒张程度较大，而微表情由于发生机制抑制特点，幅度较小，甚至很多时候凭借肉眼几乎无法直接观测；再次，微表情的面部肌肉运动模块既可能包含普通表情的全部肌肉模块，也可能只包含普通表情肌肉模块的一部分。

心理特征上，表情是受到刺激源刺激产生某种情绪后的外在体现，一般是人自然真实的反应，但是人与人的交往由于受到各种各样社会准则的限制，很多时候情绪的表达都要受到约束和限制，在这种情况下，表情就会比较隐晦，甚至出现“面是心非”的伪装表情。而微表情则是人在受到刺激之后内心的真实反应，一个人可能因为其知识、阅历、能力等原因，能够在内心波涛汹涌的时候做到面不改色，他也许很会掩盖自己的真实想法，但他很难控制自己的微表情，因为微表情是心理抑制状态下人类的本能反应。

1.3微表情的应用——测谎

由于微表情特殊的心理产生机制，它的出现往往意味着人们在掩饰自己的真实情绪。因此，研究微表情在深入理解人类的情绪表达特点之外，还具有很大的现实意义。Ekman教授认为，微表情是识别谎言的有效线索，在测谎领域将会有很大的应用前景。若通过一定的手段检测到微表情的发生并了解到其所代表的情绪意义，就可以准确把握当事人内心的真实想法，并有针对性地开展下一步工作，从而大大提高测谎成功率。例如，当事人出现喜悦的微表情时，根据当时的背景有可能意味着其成功通过测试而产生的窃喜之情；当事人产生恐惧的微表情时，就有可能表明他内心存在不可告人的秘密，害怕被他人发现；当事人出现惊讶的微表情时，有可能表明他从未考虑过相关的问题或者并不了解相关的事物。所以，微表情可能帮助我们了解个体的真实情绪，并为测谎提供了重要线索。

当今社会越来越多的交流和碰撞导致恐怖袭击、极端案件、网络诈骗等危害公共安全的事件层出不穷，令人防不胜防。在危险预测上如果只是依靠人工粗略的检验，很有可能忽略微表情这种重要的信息，因此在车站、机场、学校等人员密集的公共场合和看守所、审讯室等特殊场合，对相关工作人员进行微表情基础知识的培训，结合监控条件下计算机图像分析处理技术，微表情可以在临床诊断、国家安全、案件侦破、机场安全、危险预警、个人防卫、反恐怖等领域发挥很大作用。在临床领域，临床心理学家可以由患者不经意间流露的微表情，了解患者对特定事或人的真正态度和想法，从而更准确地评估患者病情，缩短治疗时间，减少患者的痛苦；在安全领域，安全人员可以通过微表情判断对方是否有攻击的意图，从而防患于未然；在司法领域，法官可以观察犯罪嫌疑人脸上的微表情，判断犯罪嫌疑人是否在说谎等等。

测谎的一个重要手段就是通过识别人脸的微表情来判断。而人工度量微表情耗费人力、耗费时间，而且准确度低，因此，研究微表情自动识别技术和系统实现尤为重要。此外，微表情自动识别系统的建立涉及心理学与信息科学，只有在心理学与信息科学交叉研究的基础上才可能研究开发出微表情自动识别系统，进而在心理检测中进行探索性应用，可以加大对心理危机的识别，有效防范各种事件的发生。

1.4 微表情数据库

微表情检测和识别的算法，需要大量的数据进行训练和建模。目前微表情数据库有：USF-HD数据库，Polikovsky数据库，York DDT数据库，SMIC数据库, CASME数据库, CASME2数据库,SAMM数据库,CAS(ME)数据库。USF-HD数据库用于区分宏表情和微表情，Polikovsky数据库用于检测微表情的关键帧，York DDT数据库用于测谎。这三个数据没有正式对外公开表。

这里我们只讨论对外公开发表的微表情数据库。表 1列出了这五个对外公开发表的微表情数据库。SMIC数据库的前十个参与者，使用了一个100fps的高速摄像机(HR)来记录他们的微表情。对于后十个参与者（5个月后），除了使用这个高速相机记录外，还使用了一个一体化相机盒，其包括一个正常视觉相机（VIS）和一个近红外相机（NIR），两个的帧率都是25fps，分辨率为640×480。添加VIS和NIR相机的如下。第一，提高数据的多样性；第二，调查现在的方法是否可以用在普通速度的25fps的相机上。相比100fps数据的下采样版本，25fps的数据与标准网络摄像头相近。这些微表情是在惩罚威胁犯罪者的审讯室里录制的。被试者被要求观看能够引起情绪波动的视频，并尽力不流露出内在情绪；而记录者则被要求在不观看视频的情况下猜测被试者的情绪。如果被试者的情绪被记录者发现，则被试者需要填一份冗长的问卷作为惩罚。这样的设置是为了促使被试者尽力抑制表情，能够确保微表情的可靠性。SMIC包含2个子任务，检测（微表情/非微表情）和识别（分类）。

此数据库包括HS,VIS,NIR,HS是用每秒100帧的高速摄像机拍摄的，主要为了研究微表情变化速度快的特征；NIS是用近红外摄像机拍摄的，主要是为了解决光照对微表情识别的影响，但近红外拍摄可能会造成细节的丢失。此数据库的不足之处是，没有用FACS标记样本，且样本的标记仅仅根据参与者的自我报告可能导致情绪报告不准确（不同人对同一个视频可能有不同的情绪）。

SAMM数据库包含来自32个参与者（32个人，16个男人，16个女人，平均年龄33.24，包含13个种族，分别是阿拉伯人，英国白人，英国黑人，中国人，马来西亚人，非洲人，加勒比黑人，阿拉伯籍英国白人，印度人，尼泊尔人，西班牙人等）在良好的实验室环境中（为了避免摄像机的闪光，采用一系列灯光设置，如使用光扩散器等；为了使参与者更加放松，让参与者独自呆在实验室的某个空间，使得他们不受其他人的影响）使用200fps的高速摄像机记录制159个自发微表情，分辨率2040×1088。对这些微表情样本的起始帧、顶点帧（变化幅度最大的帧）和结束帧进行编码。微表情样本用情感和FACS（动作单元AU）进行标记。微表情分为7类：蔑视、厌恶、害怕、生气、悲伤、高兴、惊讶。

该数据库解决了先前数据库存在的缺陷，比如为每个参与者量身定制激发情绪的刺激源，而不是一概而论的实验，由于每个人对不同的刺激做出不同的反应，因此对每个参与者进行个性化的实验，这样可以增加情绪出现的机率。通过初步实验对面部微运动进行分类，完成数据集评价。该数据库提供更为广泛的参与者人口结构，参与者来自多个不同的种族，不同的年龄，不同性别，这样可以平衡因种族、年龄对情绪反应带来的影响，可以更好地了解一个总体。所用的相机是Basler Ace acA2000-340km，用灰度传感器，帧率是200fps，分辨率为2040×1088，这是目前用于这种类型数据集的最高分辨率。但样本数量的不足无法满足机器学习算法的需求。

中国科学院心理研究所傅小兰团队建立了CASME，CASMEⅡ及CAS(ME)2。数据采集时要求被试在保持面无表情条件下观看不同情绪视频。这种方式能够诱发自然的微表情，在一定程度上克服了前期一些微表情数据库中非自然的问题。在采集过程中要求被试保持面无表情且身体不动，所以这些微表情比较“纯净”，夹杂较少的非情绪动作。标注微表情样本的动作单元（AU），有助于更客观准确地标注表情。在微表情的情绪标注上，基于心理学研究，综合考虑了AU、视频材料的特点和被试的主观报告。

CASME包含了195个自然微表情样本，以60帧/秒拍摄。CASME数据库分为A部分与B部分，A部分分辨率为640 × 480 像素，拍摄环境为室内，使用两盏LED灯从面部两斜角照明。B部分分辨率为1280 × 720像素，在自然光下拍摄。情绪类型分为高兴、悲伤、厌恶、惊讶、恐惧、抑制、紧张。有些情绪类型的微表情难以在实验室诱发，所以微表情的情绪类别分布不均。

在CASMEⅡ中，有247个微表情。它们的时间分辨率为200fps，拍摄的视频无灯光频闪，光线相对均匀。考虑到CASME中分类过细且类别分布不均且某些情绪类型的样本过少，他们将这些微表情分为高兴、悲伤、厌恶、惊讶及其它。

CAS(ME)2分为A部分和B部分。A部分包含87段长视频，视频中既包含宏表情又包含微表情。B部分包含303个独立的表情样本，每个样本为从表情开始帧到结束帧的截取片段，其中宏表情个数250，微表情个数53。在情绪标定上，采用正性、负性、惊讶、其它的分类方式。

因为微表情的运动幅度非常小，并且相对于常规表情常常是局部的运动，导致在情绪分类上并不是很明确，所以不同数据库的情绪标定标准不一样，所以相似的运动被作为不同类的微表情而不同的运动被视作为同类的表情。这一特点导致使用各种数据库进行微表情识别算法训练的时候会遇到很多问题。所以，一些研究者在使用时常常会进行再次分类，比如把原先大约六类的变成三类或者四类，如将所有样本分为正性、负性和中性。正性包含高兴表情，这种微表情相对比较容易诱发且特征明显；负性包含了厌恶、悲伤、恐惧、愤怒等，这些微表情区分相对比较困难，但是其与正性微表情特征差异明显；而惊讶与正负性没有直接关系，表示出乎意料的情绪，可以根据情境进行解读，且其特征比较明显，所以在识别上可以作为另一类型。这样的分类能够更好地兼容不同的数据库，并且在心理学上有比较好的支持。

表 1 五个公开发表的微表情数据库

目前微表情数据库存在两个主要问题。第一，现在的微表情数据库样本太少，不能提供足够多的用于训练和测试的样本，限制了鲁棒的微表情自动识别研究和相关应用。微表情数据库的建立非常困难，主要是因为微表情的诱发很难，研究者往往要求被试观看情绪视频，激发他们的情绪同时要求他们伪装自己的表情。有些被试可能并没有出现微表情或者出现得很少。另外，微表情的编码十分费时费力。微表情的编码依赖于肉眼，需要观察者慢速观看视频，并且选择脸部运动的起始、高峰、结束并计算他们的时长。而且对于微表情的情绪标定，目前没有统一的标准。第二，由于微表情持续时间短、强度低且经常是局部运动，现在的许多微表情数据库视频质量不能满足微表情识别分析的需要，而具有更高的时间和空间分辨率的视频片段有助于改进识别算法。建立微表情数据库需要考虑的因素讨论如下：

（1）样本数量。现有微表情数据库样本太少，需要建立更多的样本，因为引发微表情是很困难的，需要改进微表情引发方法，例如增加刺激源（如电影视频）数量或让参与者观看多个同类视频做出多组微表情等。另外需要找到更多的参与者来丰富微表情数据库，其中参与者应该来自不同的种族，不同的年龄层，这样记录的样本具有更好的普遍性。

（2）时间和空间分辨率拍摄微表情时，为了提高样本的质量，需要采用高速摄像机来记录微表情，这样可以避免帧的丢失，同时具有更高的时间和空间分辨率的视频序列有助于改进识别算法。

（3）微表情的强度。由于微表情低强度与普通微表情是不同的，计算机可能会将微表情当成中性脸，一帧一帧地观看比实时观察更难发现微表情。换句话说，没有时间信息，微表情很难被检测出来，所以识别微表情的动态信息尤为重要。所以在建立微表情数据库时要考虑动态信息。

（4）微表情的类型。快速启动的表情具有快速的、泄露的特点（虽然其总时长超过了500毫秒）面部表情也应当看成微表情。它们能反映参与者企图掩饰的真实情感。因此，也要将这些样本包含到数据库中。

（5）微表情时间标定：手动定位开始帧（onset）,顶点帧（apex）和结束帧（offset）需要花费很多精力和很长时间，并且不同人在进行手动定位时可能存在一定的偏差。所以需要开发软件来帮助定位开始帧（onset）,顶点帧（apex）和结束帧（offset），这样可以更加精确，更加快速（相比人工作更可靠）。

（6）微表情情绪标定。现有的微表情数据库对于情绪划分的标准不同，不同于传统表情，微表情展现的是局部脸（上半部分或下半部分），所以标记情绪的方法不同于传统面部表情，在建立微表情数据库时，应以Ekman的标准（通过AUs来对微表情分类）作为确定情绪分类的基础，但不应该与传统的面部表情的编码方式完全一致。因为相同的视频片断对不同人的刺激的意义不同，且AU的组合并没有很明确的定义，因此在标记情绪类型时要考虑AU组合、参与者的自我报告和视频片段的主要情绪。

（7）数据库样本的多样性。第一，可以采集多角度的微表情样本。不仅在一个角度记录参与者微表情，还要在不同情况、不同环境下用不同摄像机在多个角度来记录微表情。例如将多个摄像机（如高速，普通，红外等摄像机）放在不同角度上，在不同的季节、时间、环境下采集样本。第二，采集微表情情境的多样性。在可控的实验室环境中可以排除不相关的因素，更好地关注微表情。但微表情受限于特定的实验室环境中，可能无法覆盖在其他环境下所揭示的微表情。例如在警察询问嫌疑人时或者对上司撒谎时产生的微表情可能和在实验室环境下观察到的微表情有所不同。迄今为止，很少有研究深入调查不同情况下产生的微表情所揭示的真实状况。未来应该在不同情况下研究微表情，例如在更加自然的交谈和询问的环境中研究分析微表情。

1.5问题定义

同人脸识别，对于微表情来说，一般有检测和识别两个具体问题。。对于一个实际的人脸识别的应用，都是先进行人脸检测，然后对检测到的人脸进行识别。同样这个过程也适用于微表情识别，先从一段长视频中把发生微表情的视频片段检测出来，然后识别该微表情属于哪一类微表情。

微表情识别是指给定一个已经分割好的视频片断，通过某种计算机算法，识别该微表情的情绪种类。如同三维动态表情识别一样，其处理的对象是视频片断，而不只是单幅图像。对其处理过程中，不仅要考虑空间上的模式，还要考虑时间上的模式。所以许多微表情识别的算法都考虑了时空模式。

微表情检测是指在一段视频流中，检测出是否包含微表情，并标记微表情的起点(onset)、峰值(apex)和终点(offset)。起点(onset) 是指微表情出现的时间；峰值(apex) 是指微表情幅度最大的时间; 终点(offset) 是指微表情消失的时间。

相对于微表情检测来说，微表情识别的难度要小一点，所以对微表情的研究一般从微表情识别开始入手。然而对微表情的检测和定位会更有实用价值。如果能在一段视频中准确地检测和定位到某个时间点有微表情出现，那么就说明这个人在这个时间点上可能会有异常。所以，以后的研究可能会更多的关注微表情的检测工作。

图 1 2009-2016年计算机科学领域中微表情论文发文量的统计（数据来自Scopus）

近几年来，微表情受到越来越多学者们的关注。图 1对2009-2016年计算机科学领域中微表情论文发文量进行了统计。可以看出，近三年来，有关微表情论文的发文量在急剧增长。2009-2016年一共发文81篇，其中2016年就发文30篇，占总数37%。特别是2013年两个微表情数据库公开发布以后，微表情相关的论文发文量逐年递增。

2 国内外研究进展比较

国外做微表情相关工作的主要是芬兰奥卢大学的赵国英团队。他们的论文为微表情识别提出了一个系统的框架，并且公开以布了一个微表情数据库SMIC。因为其所在组主要提出LBP,所以他们的一系列微表情的研究工作还是着重放在LBP及其很多扩展算法在微表情上的应用，如等。

英国曼彻斯特都会大学的Moi Hoon Yap团队也做了一些微表情的工作。比如使用HOG特征结合个性化基线对微表情进行检测

，他们也发布了一个微表情数据库 SAMM

。

马来西亚的Multimedia大学的John See团队也在微表情检测和识别上做了不少工作。但是在他们发表的论文中，很少和当前的微表情检测和识别算法进行实验对比。所以我们很难对他们的工作进行横向对比。

中国科学院心理研究所傅小兰团队。该团队用心理学理论，通过视频图像材料激发被试的情绪，同时也激发被试掩饰情绪的动机，并要求被试在实验过程中要尽量抑制自己的表情。在此情境下拍摄了整个实验过程中被试脸部正面的视频。对拍摄的视频数据进行分析编码后建立了两个微表情数据库CASME

和CASME2

。这两个微表情数据库已经被全球30多个国家的130多个科研团队申请使用。他们还为微表情检测构建了专门的数据库CAS(ME)2

，不仅如此，他们还应邀在《中国科学基金》期刊上发表文章来介绍微表情的研究进展

。他们分别从张量

，稀疏

，流形

和颜色空间

等各种角度来对微表情识别进行系统研究。他们也对视频序列的主方向光流进行最大差分析

，在长视频中来检测和定位微表情发生的时间点。

清华大学刘永进团队提出了一种基于光流域对齐和主方向平均光流特征的微表情识别方法。复旦大学张军平团队用光流提出人脸动态映射来刻画微表情运动粒度的不同，他们还要《自动化学报》上发表了一篇人脸微表情识别综述。山东大学贲晛烨团队提出张量表示的最大边缘投影来进行微表情识别，他们也发表一篇关于微表情自动识别的综述文章。东南大学郑文明团队利用脸部的时空特征和回归模型相结合来识别微表情。中山大学的郑伟诗团队使用多任务学习来抽取微表情的底层特征。

以论文的第一单位我们对以微表情检测和识别的论文进行了统计。芬兰奥鲁大学赵国英团队发表7篇；马来西亚Multimedia大学的John See团队发表6篇；英国曼彻斯特都会大学的Moi Hoon Yap团队发表2篇；美国南佛罗里达大学的Shreve发表2篇；日本筑波大学Polikovsky发表2篇；日本早稻田大学Yao发表1篇。国外的科研单位一共发表20篇论文。

国内做微表情检测和识别的科研机构主要有：中国科学院心理研究所傅小兰团队发表13篇论文（仅统计与计算机有关的论文）。山东大学贲晛烨团队发表3篇；复旦大学张军平团队发表2篇。中山大学发表2篇。还有清华大学、东南大学、西北工业大学、河北工业大学各发表1篇论文。国内的科研单位一共发表24篇论文。

3 发展趋势与展望

由于微表情的运动幅度小，为了减小头动等对微表情识别的影响，在数据预处理时，通常要人脸特征点检测。人脸特征点是一些预先定义好语义位置的点。人脸特征点分为三种类型：标记人脸某个部位具有特别应用的点，例如人眼中心，或者某个边界的尖角；与应用无关的点，例如人脸上延某个方向（鼻梁）处于最高位置的点或者曲线的极点；第三类点是指由前面两类点插值而得到的点，例如面颊轮廓上的一些点。人脸特征点检测分为两个阶段：训练阶段和测试阶段。训练阶段，学习一个人脸图像表象内容到人脸特征点组成形状的关系模型；测试阶段，在人脸检测器检测出的人脸位置上初始化人脸特征点形状后，利用训练得到的模型迭代更新初始化的特征点形状即他们的位置。由于迭代的原因，导致相邻的两帧即使脸部没有任何运动，但由于光照等噪音变化，在这两点是检测的特征点也可能会有较大的改变。为了解决这个问题，需要一些目标跟踪的技术结合到人脸特征点检测中来。在这方面，刘等人进行的初探，提出了光流域对齐的方法进行微表情识别的预处理工作。

由于微表情的诱发，采集和标定都十分的费时费力，造成微表情的样本量非常小，到目前为止，公开发表的微表情样本只有不到800个，是典型的小样本问题。最近几年，由于计算机硬件的迅速发展，深度学习已经在诸如人脸识别，表情识别等领域取得了显著的表现。深度学习是利用多层神经网络在大量数据中发现模式和结构。而对于微表情这样的小样本问题却显得无用武之力。这主要是因为样本量太小，不足以去很好的调节多层神经网络中数以万计的权值。

Benitez-Quiroz等人发布了EmotioNet表情图像数据库。他们提出了一种新的AU识别的算法注释一个百万级自然环境下的情绪面部表情图像数据库。数据库中一共标定了60个AU。进行微表情识别和检测时，可以先用EmotioNet库对深度网络进行预训练。然后在微表情数据库上进行微调。这样可能会得到更好的性能。

微表情不仅样本量少，而且每类样本的数量也严重不均衡。因为有的微表情很容易诱发，而有的微表情却很难诱发。例如，CASME2数据库中“Others”类有102个样本，而“Surprise”类只有25个样本。样本量特别小的类，我们称之为稀缺类。当某类数据过于稀缺时，会在特征空间中引发小区块（small disjuncts）问题，而分类错误大部分都集中在小区块上。这是因为它和噪音难以区分。不仅如此，样本不平衡问题还行导致分类器的决策面发生偏移。例如支持向量机的目标是寻找一个兼顾分类精度和决策面复杂度的一个最优决策面。如果样本不平衡，必然会造成支持向量的个数也不平衡。这样支持向量就会忽略稀有类支持向量的影响，而扩大决策边界，最终导致得到的决策面与最优决策面不一致。对于样本不平衡的问题，也不能通过简单的识别率的指标去评价一个算法的好坏。例如假设CASME2中只有“Others”和“Surprise”两个类别，有一分类器把所有的样本都分成“Others”那么其识别率也是102/(25+102)=80.31%。一般对于训练样本很不平衡时，选用F1得分作为指标要更好，其定义如下。

设有C个类，表示被正确分类为c类样本的个数；表示被分类为c样本个数；表示c类样本的个数。查准率(Precision)和查全率(Recall)可以分别定义如下：

和

那么，F1得分可以定义如下

在这种情况下，如果使用深度学习来做微表情识别的话，就需要考虑根据实际情况，重新定义自己的损失函数等。

相对于微表情识别来说，微表情检测难度相对更大一些，也更有实际意义。微表情检测是指从一段相对较长的视频中，检测从哪些连续的帧是一个微表情。如果检测出来，那么至少可以说明在这个时间结点上，被试可能在说谎。

图11 人脸检测和微表情检测

当然，微表情检测离不开人脸检测。人脸检测的目的是在一个二维的空间区域中找出一个封闭的区域，使得该区域尽量和人脸部分重合，如图 11(a)中绿色矩形区域。而微表情检测的目的是在一个一维的时间区域中，找出一个封闭的区域使得该区域尽可能和微表情发生的时间段重合，如图 11(b)。如同人脸检测中，标注人脸区域的标签不可能十分精确，同样微表情检测中的微表情起止时间点的标注也不可能十分精确。所以在评价微表情检测的指标上，我们也借鉴了人脸检测的指标。即当检测区域和标定区域重复度达到一阈值时，则这次检测正确。除此之外，在微表情检测上，还有头动，光照等因素的影响。

在目前已经发布的微表情数据库中，微表情的表达基本上采用的是抑制的形式，即要求被试在观看情绪刺激材料的时候，尽量保持中性的表情（面无表情）。采用这种方式建立微表情数据库有一个最大的优点，即可以诱发出比较“干净”的微表情。因为用这种方式采集微表情时可以减少眼动、说话时嘴巴的运动以及头部运动等外在因素的影响。用这种方式采集微表情样本所建立的数据库，可以大大减少预处理的难度。这种方式诱发的微表情数据只适合在实验室内对微表情检测和识别的初级研究，但是数据的生态效度比较差，难以训练出更鲁棒的微表情检测和识别模型。因为微表情的重要价值在于实际生活中的应用，即通过计算机对微表情的检测和识别，使得人们能够在日常生活中检测出微表情并且读懂某种微表情背后的真正含义。这同时也意味着，我们要用更加具有生态效度的样本训练计算机算法，才能使得微表情的检测和识别真正应用于真实的情境中。

4 结束语

微表情的检测和识别的研究已经如火如荼地展开了。由于它在实际方面的应用价值，所以她成为表情检测与识别领域的一个重要的方向。经过前期的努力取得，一些团队已经建立了数据库，并且开展了微表情的检测和识别工作，积累了一定的成果。微表情检测和识别的准确率提升，依赖于对细微运动的检测和识别的能力的提升。这对计算机视觉和模式识别的研究者也提出了新的挑战。

作者介绍

王甦菁

中国科学院心理研究所副研究员，硕士生导师。2012年6月博士毕业于吉林大学计算机科学与技术学院，2012年8月至2015年6月在中国科学院心理研究所做博士后工作。2015年7月加入中国科学院心理研究所。主要研究方向为模式识别与机器学习，特别是微表情识别。在国内外重要期刊和学术会议上发表二十多篇论文，包括TIP、TNN、ECCV等。2014年起担任Neurocomputing期刊的Associate Editor，2016年9月起担任CCF计算机视觉专业委员会委员。被新华社称为“中国版霍金”。