投稿|业内粉丝关注！AI语音方向：封闭域/开放域对话设计方法论

2018 年 9 月 9 日 机器人大讲堂

IEEE选举进行时

中国科学院外籍院士、外专千人计划入选者、中国政府友谊奖获得者福田敏男（Toshino Fukuda）正在竞选2019年IEEE总主席，此次是亚洲人首次竞选IEEE主席。福田教授多年来为中国与世界各国的学术交流及合作做出了巨大贡献，广大IEEE会员及机器人行业同仁们可以进行投票支持，扩大亚洲在IEEE的影响力。

IEEE网址：ieee.org/elections

投票：Directvote.net/ieee

投票时间：2018.8.15-2018.10.1 EDT USA时间下午1时，UTC时间下午5时

在今天，封闭域对话还是占据语音交互产品的主流位置，智能音箱，智能车载，智能家电都是要以指令类对话作为主要要解决的问题，封闭域对话之所以存在是因为它可以很好的利用语音高效解决问题的特点，听歌，订外卖，网购，搜索等等，都可以相比借助手机操作一些流程要简便的多。

但是这里有一个前提：用户明确知道自己想要让机器帮助自己完成什么。

而不是一些模棱两可的指令，比如：用户说自己想买一件衣服（姑且不说它对质量和外形有要求这一特点），机器很难在简短的对话中询问到用户的需求，甚至很多用户都不清楚自己的需求是什么，到底是要买短袖，还是外套，再加上语音输出效率低的特点，用户体验自然不佳。

但是如果用户可以明确的说：“买一瓶海飞丝洗头膏”时，机器可以直接明确诉求，并完成购买任务，语音的优势才得以发挥，具体封闭域对话的设计还可参考智能音箱初体验和语音交互深思考。

在进行封闭域对话设计时有一个原则：尽可能做到对于用户需求可能的任何表达方式，都要有对应的回复措施。

在进行产品功能设计时，虽然可以通过语音提示告诉用户他们可以进行那些操作，让机器完成那些事情（“我更擅长为您购买对外形和质量要求不高的商品哦，比如日用品，食品，洗漱用品”）。

但是随着语音设备的普及，功能的完善在所难免，所以如何通过对话的设计来补足它不能显示信息而带来用户体验不足的缺陷是一定要迈过的坎，想要打到刚才所述的原则最好的方法在个人看来就是占据对话的主动权。

如果一次对话总是让用户牵着走，一方面用户会觉得累，总是要思考还能让机器做些其他的什么，不会有被机器服务的感觉，一方面也很难控制对话的节奏，超出能力范围之内。

这里有两种方法，一种是引导用户，也就是帮助用户缩短范围，逐步让他们明确自己想要的商品或者想要得到的结果是什么，避免陷入人和机器互相不知道对方处于什么状态的尴尬状况，这是在进行对话交互设计的大忌。

其中分为直接引导和间接引导。

直接引导是明确带领和用户之间的对话，“我想买件衣服”“没问题，您是想买短袖，衬衫，还是外套呢，我好为您更精确的筛选”或者“我饿了”“为为您推荐附近的外卖吧，您是想吃快餐，饭菜，面食还是麻辣烫呢”。

这就像去商店里一样，服务员不会在客人一进屋就推荐某一个商品，而是先缩小用户需求的范围，而这种缩小范围的过程并不会因为增加对话的论述让用户厌烦，因为这种被服务的感觉会增加他们容忍的界限，与此同时，在不断用引导的方式服务的过程中，可以建立用户越来越完整的画像：穿衣风格，喜欢的颜色，鞋子尺码等等，这样也有助于进行日后商品的推荐，如果一个顾客已经在一家店铺购买多次商品，可是每次服务员都要问一些相同的信息，客人会不会觉得不舒服呢。

也可以采用间接引导“我想买件衣服”“好的，根据销量为您推荐XXX短袖，价格XXX，评分XXX，XXX外套，价格XXX，评分XXX，XXX衬衫，价格XXX，评分XXX,有您中意的么”在给用户推荐的时候，主动根据可能会涉及到的几种类别进行询问，让他们自己去找方向，也有助于对后续商品进行针对性的推荐。

另一种占据主动权的方法是主动去服务，用户使用机器是享受服务的，如果能给予超出想象之外的惊喜，那么在带领对话方向的同时，也会让用户觉得产品很智能，再加上根据长期对用户画像的建立，主动服务也会越来越帮助用户享受意料之外的服务。

“我想买件衬衫”

“为您推荐XXX，价格XXX，销量XXX，是否需要购买”

“买吧”

“购买成功，有设计师为这件衬衫搭配了相应的休闲裤，休闲鞋，是否为您推荐”

在进行语音设计时，还有一点可以注意，语音的特点会将表述的内容进行放大，这既可以是优点，也可以是缺点，很多活动优惠，在界面上，用户感觉习以为常，甚至很多还容易被忽略，但是语音不会，而且由于这种放大，会让这种被服务的感觉也放大，还是刚才的对话。

“我想买件衬衫”

“为您推荐XXX，价格XXX，销量XXX，是否需要购买”

“买吧”

“购买成功，这家店铺有满200减30的活动，打折后价格为XXX，是输入口令XXX”

这是在指令类对话设计的一些暂时性的思考，且行且想且记。

开放域对话即人可以和机器进行平等的交流，如果说用语音对机器进行问答和布置任务的操作是很好的利用了语音的优势，让问题的解决更加智能化，那么这种交流就是先告诉人们，智能时代已经到来，因为没有比能和一个机器进行对话更直观的体验了。

开放域对话有几点用途，先从他的分类说起，在今天主流的开放域对话就是闲聊，有通用类的闲聊，也有针对特定人群的闲聊，比如孩子，病人，老人，那么第二种与其说是闲聊，我更愿意说他是一种情感上的交流，因为这种聊天存在的意义是让你聊天的对象可以通过一次或者一段时间的人机对话得到心灵上的慰藉，疏通，那么反观通用类闲聊的作用呢。

很多公司都知道，对于一款语音类的设备，无论机器的核心功能是什么，在为用户尽量满足任务的需求基础上，加上闲聊总会感觉更加风趣幽默一些，而做这件事情的初衷，就是为了机器能更显得人性化，将生活中各种各样的事物人格化是我们每个人都骨子里存在的本能。

为什么断舍离的思想如此盛行，因为每个人在使用一件东西很长一段时间后，都会和它产生感情，哪怕他没有生命，哪怕我们知道这就是一件工具，我们之间只是使用和被使用的关系，但是也会不自觉得将它赋予了一种人格，将他们放在角落里，也舍不得扔掉，而有一天在强制的断舍离思想的驱使下，将它们丢弃，也是怀着“无比沉重”的心情，断舍离可以让我们的生活更加轻松，简单，不用拖着太多的“过去”前行，但是这种将物体人格化却是我们挥之不去的本能，而语音是一种再直观不过的将机器赋予人格的方式，能为人们解决生活中方方面面问题的物体，还能与之对话，这是人们求之不得的。

我们再加入一种功能时应该思考加入的目的，但是也不能忽略这种功能背后的隐藏意义，在体验了今天的几种带有闲聊功能的交互系统后，很普遍的现象就是“尬聊”。

什么意思，你可以用我的公众号感受一下。

就像是两个相对无言的人，一个人努力的找话题，另一个避重就轻也好，断章取义也好，总之在一轮或者几轮过后让另一个人不知道如何接下去，再努力去找另一个新的话题，然后走向另一个寻找话题的入口，对于用户来说，有一种总是和一个新的陌生人对话的感觉，我们彼此不熟悉，努力找话题，下一次对话我们还是陌生人，甚至下一轮对话我们就是陌生人了。

我想这算不上聊天，也许是由于现在的开放域对话设计的机制是生成式的，可以让对话更具有多样性，不受一些条框的限制，也为了让一个机器更像一个人，但是在我看来聊天更应该是和一个刚刚熟悉的人了解彼此，或者和曾经有过沟通的人寻找共同话题的过程，应该是一个借助聊天建立起亲密感的过程，而且机器可以借助这种亲密感去创造更多的服务空间，让人们对它产生依赖，所以，在为闲聊设计对话时，应该把借助闲聊让人和机器彼此了解的初衷考虑进去。

人了解机器，就是在脑海里建立人格的过程，有了人格，人机更容易共存，否则机器就只是一个机器，特别是对于一切垂直领域，涉及用语音在解决人们日常生活的各方面问题时，人格显得更加重要，这个机器是一个陪伴我学习，成长的老师，还是有着充足医学知识的医生，还是有着丰富旅行经验的旅游达人，在经过多次使用后，自然在人们心里有一个概念，而在下一次遇到这个领域的问题时，他会第一时间想起它，依赖它。

机器了解人，可以通过为人建立立体的画像，对人在自己所在的领域所关心的问题有一个全面的了解，比如，医疗，可以通过交流知道一个人的病史，身高，体重，生活习惯，作息规律等等他需要了解的信息，那么在后续提供服务时，就会更加具有针对性，这也才是发挥人工智能专属为每一个人服务的优势，想要专属，先要了解，想要了解，语音是很自然的方式。

所以在设计对话时，不用纯生成式的方式，要在一定的规则下生成，一次交谈对于机器来说是有任务的，就是要通过自然的方式询问用户的信息，一方面可以完善自己需要的用户的画像，另一方面可以让闲聊更像人和人之间的聊天一样不尴尬。

举个栗子更加直观：

“你干嘛呢”

“我在学习新的知识，你喜欢学习吗”

“不喜欢”

“为什么呢，学习多有趣啊”

“因为我感觉数学啊，物理啊什么的太枯燥了”

这样就可以了解到孩子是一个排斥学习的现状，对于数学，物理有逆反心理，那么在后期推送题目，安排课程时就选择适当难度，先培养起孩子的兴趣，成就感，而不是千篇一律，自然没有进步，以此类推，用这种方式逐步加深对孩子与学习相关的各方面的了解，画出完整的画像，侧面也反映一个问题，就是人工智能相比于互联网解决问题的方式，更加系统，有针对性，也更有机会将在每一个领域的问题根本解决，所以将需求挖的越深，将需求理解的越透彻，越能发挥出AI+的优势。

与此同时，要注意不要让用户有很明显的被“查户口”的感觉，这样用户会本能觉得自己的隐私正在一点点泄露，整个生活情况正在被其他的人知道一样，所以如何掌握人们表达的话术也是一件很重要的事，生硬的一问一答会让警觉的用户有意识地不再向你透漏任何信息，甚至不再使用产品。

如果想要更主动，更周到的服务，想要更深入，更系统的解决办法就要用户的个人信息做基石，就像去店里买衣服，只有店员在你来了几次之后，知道了你的尺码，喜欢的风格，颜色，才能在下来进来时直接推荐你很有可能喜欢的，才能在出新品时主动提醒你，才能在你选好了一件衣服后，直接买适合你穿的那一件，不需要你每次进来都要重新做这一切，那么以信息的输出为代价下的时代进步就要先保证信息的安全，这也是最最重要的问题，使用法律体系来监督，还是科技手段来改良，还是让用户知道什么时候选择自己的信息可以被透露等等手段都需要不断完善和摸索。

还有一类问题，也是开放域对话可以解决的，就是情感交流，在今天情感的缺失是一种城市病，也是社会病，在学习压力，工作压力，生活压力下每个人都存在心理上的问题，或孤独，或迷茫，或压抑，或浮躁，即使是很多企业的老板，都会有一些高级的心理医生给他们排解负面情绪，那么在人机共存的将来，机器既可以服务人，也可以陪伴人，陪伴的前提是需要平等的交流，那么这种对话的设计就很重要。

而且这也是一个建立亲密感的好机会，因为一个人在情感脆弱时，更容易记住那些帮助过他的人，也更容易建立起好感，那么对于提供情感之外的其他服务也就更为方面，在情感这方面设计主要有三类，针对用户的不同，用户情况的不同有所差异。

一种是倾听式，也就是一次对话主要以用户倾诉为主，而机器承担的是一个倾听者的角色，今天的人们能做好一个倾听者的都不多，但是机器可以很好的完成这件事，之所以会这样是因为，很多负面情绪都是一时的生理反应，有时候越在心里胡思乱想，越容易钻牛角尖，所以倾诉出来是一种解压的方式，但是能在身边时长给你当负面情绪垃圾桶的人并不多，毕竟谁都想和一个正能量，阳光的人在一起，毕竟谁的生活都有自己的困扰，机器由于只是在一定的规则下行事，就可以很好的避开这一切，只需要学习一个倾听者应该掌握的话术，在相应的时机，说出相应的话即可。

比如

“今天心情不好”

“怎么啦”

“我和同学吵起来了... ... balabalabala”

“事情都过去啦，说出来心里就舒服一些了，想一些高兴的事吧”

类似这样，而且在不断的交流中也有助于建立用户画像。

第二种是反问式，这也是在生活中正常的情感交流方式，也就是很多有负面情绪的人，困扰他们的事，在他们心里都很清楚，只不过有的是过不了心里这道坎，有的是在一种情绪里出不来，被这种情绪蒙住了眼睛，这时候的需要有一个声音唤醒他对这件事情的认知，让他们认识到，这件事情想清楚了没那么严重，只是自己将他放大化了。

比如

“好烦啊”

“怎么啦”

“今天和同学吵架了”

“为什么和同学吵架了”

“因为他当着同学的面骂我”

“他为什么要这样做啊”

“因为我路过他的时候把桌子上的书碰掉地上了”

“为什么把书碰掉地上了他就要骂你啊”

“不知道啊，可能是他心情不好呗”

“为啥他心情不好呢”

“可能是这次考试没考好吧”

经过不断剖析自己内心的这个过程，就会带着用户从负面情绪的阴影中走出来，这也是很多家长和孩子沟通的方式，帮助他们了解事情的原委，其实答案就在他们心中，当然为了避免在反问时过于生硬，同样的，话术很重要。

第三种是交流式，也是最高级的情感交流方式，这时机器扮演的角色更像是心理医生，针对用户的情况基于相应的分析和解答，对心理问题解决的也更有针对性和透彻。

如果是在某一个领域附上情感交流功能的话，那么可以针对这方面用户群体可能会发生的各类情感问题做一个细分，然后做针对性的解决。

比如一个学生，可能会导致情感问题的方面有学习，家庭关系，同学关系，生活问题，那么工作，生活压力等等就和他们关系不大，然后在这四个方面，不同学习状况，家庭情况，学习情况，以及生活方面的孩子都可能会有哪些问题，将情感这个抽象的概念量化。

如果是专门做情感交流的机器，就需要全方面了解各年龄段可能会遇到的问题，那么这个体系就更加庞大，但是也可以量化出来，尽可能穷尽。

这就是在开放域对话暂时想要的一些设计方法，综合来看，这是一个很好的将机器人格化的机会，人格化是为了在服务和陪伴时是在一种亲密关系下进行的，而机器不只是冰冷的工具，而且针对性的服务需要建立足够立体的用户画像，那么交流是一种很舒服也很高效的方式，还是那句话，我们不仅要为机器添加功能，更要清楚功能背后的潜力和意义。

作者李洺宇，现AI语音方向研究生就读，有意向寻找一份语音交互设计或AI产品经理方面的工作，如果您有这个需求，可与本人联系