研究你为啥看着淘宝想剁手,阿里达摩院论文登上NeurIPS 2019

2019 年 12 月 14 日 量子位
乾明 编辑整理 
量子位 报道 | 公众号 QbitAI

打开淘宝后,你为什么抑制不住想剁手?阿里巴巴也想寻找答案。

其中的一篇论文,也登上AI顶级会议NeurIPS。

NeurIPS 2019在温哥华召开期间,论文作者之一,阿里巴巴达摩院资深算法专家杨红霞也对其进行了深入解读。

你为啥想剁手,AI能理解吗?

阿里的这篇论文,名为Learning Disentangled Representations for Recommendation

其研究的是方向就是人和商品匹配的过程中,人的认知因素。即:

人为什么喜欢一件商品,他是对哪些概念动了心,种了草,他是因为什么原因点了击、收了藏、下了单,他当下关注点在哪个认知层面的东西,推荐系统能显式的知道、消化并且准确响应吗?

达摩院科学家们认为,这些所谓的认知因素,并不是商品固有的细粒度的属性、品类,而是一种从人的角度理解商品的可传播可解释的概念。它们更像是广告商会选择去打动人心的记忆点。

推荐系统与搜索场景一个不同之处在于,它是否能主动激发用户潜在的兴趣,帮助用户找到并接受意料之外的商品。

因此,如何挖掘潜在的认知概念,并以合理的方式,将潜在可接受的认知概念传递给用户,可能是推荐系统需要有所突破的事情。

当然,关注这样的认知过程并不是为了端到端的做“下一个商品”的预测,或者点击率预估亦或者是评分预估。

至少前人在大规模数据的线上经验能表明,产品形态不变的可解释推荐,相比于黑盒模型并不能真正提高最终的点击和转化效果。

因此相比于可解释推荐,认知推荐更强调人的因素,其归宿必然是技术驱动产品形态上的创新。而新的产品形态则可以创造新的需求、用户习惯和新的商业场景。

怎么用AI让你多剁手

基于这样的背景,阿里巴巴决定关注两个和认知相关的子任务:

首先,商品在人的认知空间中是如何表征的,这样的表征是否具有可解释性,比如是否能找到的对应的某一维就能够代表一个独立的“语义”。

这里的语义,其所具有的可解释性其实是本质是一个与认知和传播相关的概念,即是能被人们理解和传播的。

类似的,人在这个空间下的表征,是否也具有这样的语义?

联系解离化表征(Disentangled Representation Learning)在连续型数据上的发展,阿里想要探索是否能从离散数据,特别是用户行为数据上学习到类似的结果。

其次,基于这样的表征,能否提出新型的推荐应用,并至少给出一种原型方案。

这其中探索的一个问题就是,根据用户的行为,能否得到一些认知相关的决策因素,并以可解离的方式对商品和用户进行表示。

他们的目标是获得用户u的向量化表征 ,同时模型也会产出商品的表征 ,以供推荐系统根据用户的表征召回一批商品。

针对电商平台上用户行为的特点,他们的模型采用了层次化的设计:在推理一个用户的表征时将依次进行宏观解离化(macro disentanglement)和微观解离化(micro disentanglement)。

宏观解离化主要的考虑是,用户兴趣通常是非常广泛的,一个用户的点击记录往往会涉及到多个独立的消费意图(比如点击不同大类下的商品)。而用户在执行不同意图时的偏好往往也是独立,比如喜欢深色的衣服并不意味着用户也喜欢深色的电器。

哪怕是价格偏好也常存在不可迁移的情况,比如买高档口红、和买便宜好用的笔记本电脑这两者并不互斥。

另外,宏观解离化也是微观解离化的必要前提。

微观解离化,是希望能把用户在执行某个意图时的偏好进一步地分解到更细的粒度。

而不同大类的商品属性集合是很不同的,用户表征向量的某一个维度,如果已经被用于刻画用户对手机电量的偏好了,那么这一维对服饰等商品就是没有任何意义的。

所以在预测用户是否会点击某个服饰时、在通过用户行为学习某个服饰的表征时,都应当忽略这些只和手机相关的维度。

在这样的思路下,他们提出了这样的一个模型:

这是一个深度生成模型假设用户的表征 指示了这些商品通常都对应哪些宏观的消费意图。为了优化这个深度概率模型,他们还采纳了VAE的框架。以下的伪代码可以有助于更好的理解优化目标:

这个模型能让你多剁手吗?

阿里达摩院的科学家表示,解离化表征在带来一定的可解释性的同时,也带来了一定的可控制性。这种可控制性有望给推荐系统引入一种全新的用户体验。

比如说,既然表征的各个维度关联的是不同的商品属性,那么完全可以把用户的表征向量提供给用户,允许用户自行固定绝大部分维度(比如对应的是衣服的风格、价格、尺寸等)、然后单独调整某个维度的取值(比如颜色对应的维度),系统再根据这个反馈调整推荐结果。

这将帮助用户更加精准地表达自己想要的、并检索得到自己想要的。

他们也展示了调控某个维度后检索得到的两批商品,可以看出这个被调控的维度和背包的颜色这一属性比较相关,并有较为明显的渐变性质:       

以下是在另一个维度上检索得到的两批商品,可以看出这个被调控的维度和背包的颜色这一属性比较相关,并有较为明显的渐变性质:

当然这个研究还有不足:并不是所有的维度都有人类可以理解的语义。

在无监督的情况下,训练出可解释的模型仍然需要运气,避免不了“反复训练多个模型,然后挑出最好的模型”这一陷阱。因此,建议未来的研究者们多多关注(弱/半)监督方法,引入标签信息。

这是在线数据上得到的结果,那离线数据上的定量实验怎么样呢?

他们在某个小规模数据集上定量测量了解离化程度(及其与推荐性能之间的关系)。

初步发现解离化程度较高与推荐性能好这两者之间有较强的相关性,引入宏观解离化后,确实大大改善了微观解离化,他们的方法无论是解离化程度还是推荐性能,都优于基线方法。

他们也在几个离线数据集(包括一个淘宝的数据集AliShop-7C)上测量方法的Top-N推荐表现。

可以看出这个方法优于基线方法,尤其是在小规模或稀疏的数据集上。因为Top-N推荐不是阿里做这个问题的初衷,所以能做出这样的效果也算令人满意。

做这个有啥用呢?在论文中,达摩院的科学家们也给出了解释:

随着现代电商推荐系统的技术发展,学术界和工业界在预估点击率,预测下一个点击商品这些单任务上的提高越发困难,而这样的提高所带来的增量效益也难以很好的估计。

更多用户体验方面的问题被摆在了决策者的眼前,比如为什么买了又推,为什么都是点过的商品,如何创造真正增量的价值。

所以,他们现在选择围绕人的认知行为和过程,来探索新的推荐形态的可能性。

最后介绍下几位作者吧。

一作马坚鑫,是阿里达摩院实习生,清华大学13级本科生,师从清华大学朱文武教授。

另一位一作周畅,也是来自达摩院的算法专家。

论文传送门如下,有兴趣可以关注:

Learning Disentangled Representations for Recommendation
https://arxiv.org/abs/1910.14238

大咖齐聚!量子位MEET2020智能未来大会

量子位 MEET 2020 智能未来大会回放来啦!李开复、倪光南、景鲲、周伯文、吴明辉、曹旭东、叶杰平、唐文斌、王砚峰、黄刚、马原等AI大咖与你一起读懂人工智能。扫码观看回放吧~ ~


量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「在看」吧 !



登录查看更多
1

相关内容

NeurIPS 是全球最受瞩目的AI、机器学习顶级学术会议之一,每年全球的人工智能爱好者和科学家都会在这里聚集,发布最新研究。NeurIPS 2019大会将在12月8日-14日在加拿大温哥华举行。据官方统计消息,NeurIPS今年共收到投稿6743篇,其中接收论文1428篇,接收率21.1%。官网地址:https://neurips.cc/

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【SIGIR2020-微软】知识图谱上的增强推荐推理
专知会员服务
73+阅读 · 2020年5月30日
【哈佛大学】机器学习的黑盒解释性,52页ppt
专知会员服务
166+阅读 · 2020年5月27日
2019->2020必看的十篇「深度学习领域综述」论文
专知会员服务
269+阅读 · 2020年1月1日
专知会员服务
53+阅读 · 2019年12月22日
人工智能学习笔记,247页pdf
专知会员服务
173+阅读 · 2019年12月14日
论文浅尝 | 推荐系统的可解释性浅谈
开放知识图谱
14+阅读 · 2018年11月27日
动态 | 阿里达摩院引入以色列知名科学家 Lihi Zelnik-Manor 教授
中国人工智能学会
3+阅读 · 2018年11月26日
百度的广告和今日头条的广告
keso怎么看
7+阅读 · 2018年2月9日
阿里搜索技术,在AI路上走了多远?
机器学习研究会
11+阅读 · 2017年12月29日
一天造出10亿个淘宝首页,阿里工程师如何实现?
机器学习研究会
5+阅读 · 2017年12月20日
猝不及防!刚刚,马云重大宣布,沸腾了全中国!
今日互联网头条
3+阅读 · 2017年11月23日
Few-shot Adaptive Faster R-CNN
Arxiv
3+阅读 · 2019年3月22日
Arxiv
7+阅读 · 2018年1月31日
Arxiv
12+阅读 · 2018年1月28日
Arxiv
10+阅读 · 2017年11月22日
VIP会员
相关资讯
论文浅尝 | 推荐系统的可解释性浅谈
开放知识图谱
14+阅读 · 2018年11月27日
动态 | 阿里达摩院引入以色列知名科学家 Lihi Zelnik-Manor 教授
中国人工智能学会
3+阅读 · 2018年11月26日
百度的广告和今日头条的广告
keso怎么看
7+阅读 · 2018年2月9日
阿里搜索技术,在AI路上走了多远?
机器学习研究会
11+阅读 · 2017年12月29日
一天造出10亿个淘宝首页,阿里工程师如何实现?
机器学习研究会
5+阅读 · 2017年12月20日
猝不及防!刚刚,马云重大宣布,沸腾了全中国!
今日互联网头条
3+阅读 · 2017年11月23日
Top
微信扫码咨询专知VIP会员