CCF精品课|计算所副研究员罗平:大数据背景下的行为机理和可解释性挖掘 (兼谈微信AI生态)|视频+PPT

2017 年 7 月 5 日 中国计算机学会 罗平

点击上方中国计算机学会轻松订阅!

6月24日下午,CCF YOCSEF与腾讯高校合作举办“社交网络与大数据前沿”学术报告会,报告会特别邀请到“犀牛鸟海外专家”卡耐基梅隆大学 Christos Faloutsos 教授;中科院计算所副研究员、微信AI科学顾问罗平博士;清华大学崔鹏副教授畅谈社交网络前沿研究。以下分享的是罗平博士的主题报告“大数据背景下的行为机理和可解释性挖掘 (兼谈微信AI生态)”的视频和PPT。



罗平博士在报告中分享了因为社交网络上用户行为的不确定性和数据的不完备性所带了的数据分析的挑战,针对这些挑战,如何探究行为背后的深层机理,并挖掘可解释的行为因果关联。并介绍了其研究成果在互联网产品设计与运营中的实际应用。同时,作为微信AI科学顾问,罗平就微信的AI能力、未来的AI生态布局向大家一一做了介绍。



科普视频《小手机刷出大科学》


首先谈谈现在比较火爆的深度学习。深度学习方法并不是在所有场景下都能工作,尤其是在行为分析的应用上不具有太多功效。

语言和行为这两种行为的共同特点都是离散型随机变量的序列数据


行为的特点:不确定性

行为的不确定性是非常高的。人们的消费行为是由很多种因素共同决定的,比如心理、传播和社会上的影响,根据以往买东西的内容,很难预测下一个应该买什么。

第二个特点:行为数据的不完备性

人们的行为数据是分散在网络的各个地方的,供分析的数据只是这些数据的片段,这样预测行为就增加了更大的难度。

所以,深度学习模型在行为数据分析上功效不大。针对行为数据的不确定性和不完整性,谈谈我们在探究行为背后的深层机理和挖掘行为间的因果关联,此两方面的尝试。


首先介绍我们在探究手机浏览行为背后的机理的工作。这个工作发表在IJCAI 2016,详见如下论文:

Ping Luo, Ganbin Zhou, Jiaxi Tang, Rui Chen, Zhongjie Yu, Qing He. 

Browsing Regularities in Hedonic Content Systems. IJCAI, 2016.

每个人花费在手机上的时间非常多


人们无时无刻不在用这些APP......


行为分析的工作是,从行为日志里获得分析本质的机理,特别关注的问题是:人为什么要离开一个APP?作为网站的管理员来讲,他们希望用户留在APP/网站上的时间越长越好。

研究思路:从用户行为日志可以分析用户主要受什么因素的影响而离开APP。通过这些分析,从新组织网站内容,来延长用户浏览时间。



我们使用一个用户总量过亿的手机App的日志数据。向“鲜柚桌面”的手机壁纸App致谢! 

APP的操作和功能展示

浏览到某个页面的时候,用户就想退出了,回到手机界面。

把这个问题简化分析,一页有9张图片,9个数字,把这些数字变成一个序列

采样了41天的150多万的数据来分析。

分析结果制作了一个科普视频《小手机刷出大科学》视频从本文上方视频中观看。

序列长度的分布曲线符合逆高斯分布,同时发现曲线背后蕴含非常深刻的物理学和心理学的含义,心理学上符合的Threshold model。


同时,从分析结果可以看出,并不是你点的图片越多,保存的图片越多,继续浏览的意愿就越强烈;实际上是呈现一种“过犹不及”的现象。


根据以上分析结论,从新组织网站内容;比如一个图片APP,怎样组织图片才能延长用户浏览的时间。从细节上说,就是在用户浏览的过程中随时去评估用户离开的概率,动态安排内容。

第二项工作,介绍如何利用概率图模型建模,挖掘不同模态(例如线上和线下)行为间的因果关联。这项工作发表在KDD 2016,详见如下论文:

Ping Luo, Su Yan, Zhiqiang Liu, Zhiyong Shen, Shengwen Yang, Qing He.

From Online Behaviors to Offline Retailing. KDD, 2016.

线上行为:

线下行为:

网上搜索行为与线下购买行为

通过线上行为分析,能够预测线下购买行为。

网上购物虽然火爆,从统计数据来看,全中国90%的零售业都是发生在线下。

基本想法:通过线上搜索得到用户的意图,进而得到线上品牌的推荐。

比如:购买EVISU品牌服装的用户网上搜索的是 游戏、漫画、大学相关的内容。

挑战:

  • 多样性的模态数据数据来自于不同模态的数据,线上模态和线下模态;

  • 模态缺失性:比如有些用户只有线下的,没有线上的模态;

  • 解释性:通过线上的搜索推测出线下的购买行为,应该具有可解释性,而不是“黑盒子”。

线上线下主题建模:



根据以上模型,在推荐的时候用的是因果关系

线上搜索与线下购买商品的关系

比如:搜索宠物的人群线下可能喜欢购买日韩时尚的品牌


线上搜索游戏方面的人群,可能喜欢穿这些运动品牌

线上搜索母婴,线下也是会购买母婴产品

线上搜索减肥操、钟汉良、奶粉等词语,这部分人可能是全职太太,孩子大概四五岁,线下可能会给老公买户外衣服,给孩子买衣服。

在北京某标杆性线下商场,真实评估:

结果发现,结合线上线下数据做推荐的话,你每条推荐短信带来的价值会提高接近30%。

总结2:在比较稀缺的行为数据上面,概率图模型的方法可以去挖掘一些行为之间的因果关系。这样去做推荐,对商业有一定的帮助。

下面介绍一下微信AI生态

微信AI主要做三方面的工作:语音、图像、自然语言处理


微信已经是大家“不可或缺”的社交平台。微信未来的发展方向是成为新一代的信息和知识获取平台。

微信公众号的文章质量非常高,文章里边包含各种领域的专业知识,这些就是非结构化的知识库。


比如微信公号:贤二机器僧


谢谢各位~


讲者:罗平


罗平博士,现任中国科学院计算技术研究所博士生导师,副研究员。研究兴趣主要集中在:数据挖掘、人工智能、机器学习等相关领域的智能算法与模型研究,并特别关注智能技术在金融、互联网领域的创新应用。近年,在数据挖掘、人工智能、大数据等领域的多个顶级国际会议(SIGKDD、IJCAI、CIKM、ICDM)和期刊(TKDE、TIT、 TKDD)上发表四十多篇高质量论文;所指导的学生论文获得第21届国际信息和知识管理大会(CIKM 2012)“最佳学生论文”奖,并两次获得数据挖掘领域国际主流学术会议“最佳论文提名奖”(CIKM 2010、SDM 2010);拥有10余项美国专利。同时,结合多年学术界和工业界的经验,曾为多个知名企业(腾讯、百度、上交所等)提供技术咨询;现担任微信AI科学顾问。



CCF推荐

精品文章

周源源:弥合学术界和工业界之间的鸿沟

陈熙霖:学术界应该做好科研 更应该做好科普

杜子德:CCF的危机

郑宇:AlphaGo并未攻克围棋难题,人类未来仍有希望

黄铁军:电脑传奇(上篇)计算机出世

杜子德:学会为什么要有会员?

杜子德:社团的非营利属性和商业运作

山世光、颜水成、李航、俞凯:深度学习和大数据结合的红利还能持续多久?

郑宇:这个时代不缺数据,缺的是足够开放的思维


精品视频

李国杰:对信息时代的再认识

郑宇:深度学习在时空数据中的应用

张晓东:建设世界一流大学应“追求科学精神,回归教育本源“


CCF诚聘英才
 

招聘岗位:项目管理、刊物编辑、高级文秘、网站建设、美工设计、新媒体运营、会员发展、人力资源等。


简历投递:hr@ccf.org.cn


CCF为员工提供六险一金、年假、免费体检、餐补、交通、通讯补助、全面的培训体系、丰富的团建活动、高于业界平均水平的工资和奖金!


加入CCF,与计算机领域顶尖专家一起工作!


在公众号回复框回复“招聘”查看招聘详情。


更多CCF精彩报道请关注微信公众号


登录查看更多
0

相关内容

罗平,香港大学计算机系助理教授,博士生导师。研究兴趣包括深度学习,计算机视觉和多媒体技术。2014年获香港中文大学信息工程博士学位,师从汤晓鸥教授(商汤科技创始人)和王晓刚教授。在TPAMI、IJCV、ICML、ICLR、NeurIPS、CVPR等顶级会议和期刊发表文章百余篇(包括第一/共一论文20篇),谷歌学术引用近18000次。曾获2014年ImageNet ILSVRC挑战赛亚军、2011年香港政府博士奖学金(HKPFS),2013年微软学者奖(每年亚洲仅10人)。麻省理工科技评论亚太区35岁以下创新者 (MIT TR 35)。实验室网站 http://luoping.me/。
因果图,Causal Graphs,52页ppt
专知会员服务
238+阅读 · 2020年4月19日
【WWW2020-微软】理解用户行为用于文档推荐
专知会员服务
34+阅读 · 2020年4月5日
清华大学唐杰老师:用于理解、推理和决策的认知图计算
专知会员服务
119+阅读 · 2019年11月30日
【推荐系统/计算广告/机器学习/CTR预估资料汇总】
专知会员服务
86+阅读 · 2019年10月21日
分布式智能计算系统前沿
中国计算机学会
18+阅读 · 2019年10月8日
今日头条技术架构分析
互联网架构师
11+阅读 · 2019年8月19日
腾讯85页PPT“智能+”产业报告
物联网智库
52+阅读 · 2019年5月1日
详解 | 推荐系统的工程实现
AI100
42+阅读 · 2019年3月15日
视频中的多目标跟踪【附PPT与视频资料】
人工智能前沿讲习班
30+阅读 · 2018年11月29日
肖仰华 | 知识图谱与认知智能
开放知识图谱
14+阅读 · 2018年4月5日
基于MOOC数据的学习行为分析与预测
计算机研究与发展
6+阅读 · 2017年10月11日
Arxiv
4+阅读 · 2019年1月14日
Arxiv
3+阅读 · 2017年12月23日
Arxiv
4+阅读 · 2017年11月14日
VIP会员
相关资讯
分布式智能计算系统前沿
中国计算机学会
18+阅读 · 2019年10月8日
今日头条技术架构分析
互联网架构师
11+阅读 · 2019年8月19日
腾讯85页PPT“智能+”产业报告
物联网智库
52+阅读 · 2019年5月1日
详解 | 推荐系统的工程实现
AI100
42+阅读 · 2019年3月15日
视频中的多目标跟踪【附PPT与视频资料】
人工智能前沿讲习班
30+阅读 · 2018年11月29日
肖仰华 | 知识图谱与认知智能
开放知识图谱
14+阅读 · 2018年4月5日
基于MOOC数据的学习行为分析与预测
计算机研究与发展
6+阅读 · 2017年10月11日
Top
微信扫码咨询专知VIP会员