人工智能可以预测女朋友什么时候生气吗？

2017 年 11 月 22 日 中科院物理所 孟海华全利平

当下，人工智能的发展备受关注，由于人工智能技术的进步，专家预测在很多行业领域都有着较大的应用潜力，会对传统行业带来较强的冲击力，可供深入讨论的话题很多。但对于年轻人来说，讨论标题这个问题可能更容易引起共鸣。

一、问题讨论

1 必要前提

一是要有数据。对于人工智能来说，没有数据就是无源之水、无本之木。因此，需要采集你女朋友生气和高兴的数据：基本维度、内在因素、外在因素、连带因素、潜在因素、持续时间、生气后果、缓和时间、缓和原因及缓和结果等大项的数据。然后，细分下去有无数的小项，例如，从表情到动作，从五官开始判断变化，头部及四肢会产生哪些行为动作，言语上会说哪些话，对这些进行记录，提取话语中频率较高的词汇等。将以上大项不断细化为小项，进行大量的记录，最后可用量表对现象进行归类，将其数据化，最好能够达到大数据这个级别。

二是要形成可训练的数据集。让机器像人一样思考并自动处理任务，得益于近年来横空出世的深度神经网络(Deep Neural Network)，但是需要有标签的庞大的数据集以及长时间的训练。还记得那个围棋高手AlphaGo吗？据说它的数据集是4000多人手工标签的。从这个意义上来讲，没有人工就没有智能。也就是说，在预测你女朋友什么生气这个问题上，还是需要小伙伴们团结起来，共同努力，单靠一个人单打独斗，可能实现不了。但是一个性格外向，朋友很多的小伙子，会让女朋友不高兴吗？这似乎有点矛盾。

三是要避开“预测即干预”陷阱。这是统计特征带来的陷阱，例如我们在预测“你女朋友什么时候生气”这个问题上，重点关注的是相关性，这是合乎逻辑也是常见的大数据分析方法，但是还需要尽可能地搞清楚背后的关联，但是这种标签数据和生气之间的关联显然是非常复杂的，每一个数据和生气之间的准确关联显然又是一项庞大的工作。例如，你女朋友在单位受到领导的表扬，显得非常高兴。但是，要研究为什么受到表扬，挖掘直接因素、综合因素是一件比较麻烦的事情，从社会学的眼光来看，可能是一件比较唐突或不合乎情理的事情。因此，我们不得不求其次——微调算法，让机器修补之前的测不准，但每次修补又造成了另外的误差。和海森堡（Werner Heisenberg）量子世界中“测不准原理”一样，在大数据世界中，存在“预测即干涉”陷阱。如何避开这个陷阱，需要依靠计算能力的提升或新的算法的出现。

四是要得到你女朋友本人的同意。这是技术在伦理方面的前提，人的表情、心理、动作、喜好显然属于个人隐私范畴。试想一下，如果你女朋友不知情，你又在偷偷研究她，哪一天东窗事发，后果可能是灾难性的，尽管你的出发点是好的，但这已经不重要了.......

2 技术储备

人工智能这事情可是个组合拳，除了前面提到的数据、计算之外，还需要识别、理解、处理、存储、执行类技术，涉及人脸识别、语音识别、语义识别、表情识别、感情识别；文本分类、信息抽取；语言、语音、文本、情感处理等技术。从长远来看，还要对脑科学进行持续研究，没准未来按照脑科学来建立模型，发明可以输入、输出的傻瓜智能，可以省掉目前这些前提。但是，现实是人工智能技术板块的发展有着很大的不均衡性，在技术应用面和应用程度，在不同时间、不同领域会有较大的差异。

一是高灵敏度、高精度机器视觉技术。从实验的结果来看，当前的传感器灵敏度高度依赖于外在环境的变化，在初晨和黄昏的自然光下都很难达到理想化的精度，因此，在“你女朋友什么时候生气”这个问题上可能要加上时间的定语。

二是非结构化数据的结构化处理技术。AlphaGo下棋的棋谱上条条框框都是有规则的，很容易标记为结构化的数据，但是对于我们这个话题的对象来讲，所有动作表现都是连贯的，试图从连贯的影像、语音数据中截取出与“你女朋友什么时候生气”相关的关键数据加以标记，我们的数据基本上都是非结构化的随机数据。非结构化和半结构化数据的个体表现、一般性特征和基本原理尚不清晰，这些都需要通过包括数学、经济学、社会学、计算机科学和管理科学在内的多学科交叉来研究和讨论。给定一种半结构化或非结构化数据，比如“你女朋友生气”图像，如何把它转化成多维数据表、面向对象的数据模型或者直接基于图像的数据模型？因此，“你女朋友生气”每一种表现形式都仅呈现数据本身的侧面表现，并非全貌。

三是与各种性格类型女朋友相匹配的智能软件。由于智能软件算法的聪明程度不足，目前还没有适合每一位女朋友的通用的理解和处理，因此要想解决或创建自己的解决方案，还必须混合和匹配可用的数据，并跟上智能软硬件快速更新的步伐。

二、引发思考

根据相关资料，人工智能预测已经积累了若干成功的案例，例如美国AIME公司开发了针对登革热爆发的人工智能预测平台，该平台根据人口密度、风速、风向、雨量、房屋类型等流行病学研究要素，预测登革热疫情的准确率达到87%。芬兰Valossa公司使用人工智能处理自然语言和分析数以千计的变量来精确搜索电影，能够分析视频流和识别数以千计的主题，使用人工智能技术深入分析内容，号称是最先进的视频分析平台。智利NotCo公司使用AI、生物化学和植物来仿制动物食品的味道和质地，该公司使用神经网络算法检查和辅助仿制肉类和奶制品的分子机构，打造出特别好吃的素食肉、蛋、奶等。但是，上述案例和我们讨论的标题比较，显然我们这个话题来得更复杂。综上所述，在用人工智能预测“你女朋友什么时候生气”问题上，可能还需要在基础层、技术层、应用层面上持续发力：

一是在基础层。云计算、大数据、物联网还有较大的提升空间，对于“你女朋友什么时候生气”这个问题，涉及海量数据，呼唤与人工智能相匹配的云计算新型架构，数据的存储、调取方面实现毫秒传输，不然一切都会显得没有意义；数据结构转化、数据的可信度、数据的汇聚模式、数据的自动化标注、可训练的数据集；高灵敏度、高精度传感器的研发等，也是非常关键的问题，不然“你女朋友什么时候生气”对策的产生也显得没有价值；因此，云计算、大数据、物联网之间的系统化协调匹配等，还需要深入探讨。往大了说，基础层的缺陷是知识爆炸式增长与人类分析利用海量知识能力不足之间矛盾的根本所在。

二是应用技术层。芯片和新型算法永远是永恒的主题，是绕不过去的坎。目前算法技术是启发式的。算法是否会完美解决一个给定的问题是不清楚的，根本没有数学理论可以表明一个“足够好”的算法解决方案是否存在。算法都是启发式的，工作即代表有效。在目前的TPU或GPU能力下，即使是领先的科学家也很难解释某些层面发生了什么，这样的“黑盒子”对解释问题造成障碍，造成“测不准”，有时甚至破坏合规性和道德性。目前机器在学习速度上也不尽如人意。比如一个两岁的孩子可以在被告知几次后识别大象，而深度学习系统可能需要成千上万的例子，并且“看”这些例子数十万或数百万次，才能成功。

三是应用层需要应对策略。技术是一把“双刃剑”，相对于标题这种浪漫轻松的话题来讲，人工智能的应用还会带来一些令人痛苦的事情，比如带来职业分类的改变和相应岗位的流失，甚至是引发人类与机器关系的重新思考。随着深度学习、神经网络技术的普及和应用，公民的隐私权和知情同意权，会受到不同程度的侵犯。对金融证券、交通医疗等领域人工智能可能带来的问题，需要在法规层面提前应对。