浅析阿里数据新能源技术架构(上)

2017 年 7 月 4 日 AliData 阿里数据

点击标题下「 AliData」可快速关注

本文基于阿里数据资深数据专家杨红霞在2017全球机器学习大会上演讲,修改整理而成。如需转载请于后台联系编辑。

如果大家对阿里巴巴的新闻比较关注,最近可能会频繁听到阿里巴巴谈到“五新”这个词,“五新”中的其中一个概念是新能源。其实新能源就是大数据本身。技术、数据和算法三个方面结合在一起,才可以把数据真正用起来。

大家都知道,Google的数据量是很大的,但是它的数据源本身其实比较单一。以Google  search,Google  map等为主导,并没有太多和商业有直接相关的数据。

再来看看,Facebook。它更多的是社交行为的数据,缺少出行数据、浏览器数据、或者类似优酷的视听数据。

但是,对于阿里来说,上述的这些数据我们都有。我们面临的极大挑战是:怎么样有效的把这些全域数据融合在一起。

首先我们需要把数据有效地收集起来。我们有一个大数据体系“OneData”(有关OneData的内容,回复关键词“OneData”即可获得)。

把数据有效地收集、存储起来之后,接着要做的就是怎么通过算法把这些数据打通,并且真正有效、智能地把这些数据提炼出来。

数据融合的技术框架

这是阿里的一个生态体系图。最底层是阿里巴巴的阿里云,这是我们的一个计算存储框架。上面是阿里妈妈,阿里妈妈是负责整个阿里巴巴计算广告的一个部门,再上面是菜鸟、支付宝和蚂蚁金服。然后是与商业相关的,像淘宝网、天猫、聚划算等等,或者是跟文娱相关的,优酷土豆,还有像阿里旅行,口碑之类的业态。

阿里巴巴数据中台要做的事情是什么呢?

举一个最简单的例子,之前有一个比较火的电视剧《三生三世》。《三生三世》火热上映的时候,与之相关的商品元素,比如饮食或者穿戴之类的商品,也会瞬间在淘宝网上火爆起来。

那么如果我提前就知道某一类人群是《三生三世》的粉丝,我就可以在淘宝网上做非常高效的、准确的定位推广。

阿里数据要做的是:把数据真正打通,深度挖掘数据的价值,为业务创新应用提供数据决策基础和依据。

在真正进入算法之前,我们一定要对数据进行非常认真、仔细地进行清洗过程。俗话说,如果你的数据不清洗,其实就是“learn trash from trash”。所以数据本身一定要做得非常干净。

来看一下架构图。第一个数据层中有各种各样的数据,比如有消费数据,有广告数据,出行数据等等

把这些数据层经过有效结合在一起之后,接下来得到这种特征层的提取。

在阿里数据内部,大概有这样几个比较抽象的维度:像账号设立的静态特征,电商行为的特征,或者设备的特征等等。

在特征层之上,我们会有模型层,这里面有基于业务规则的模型,也有其他的例如异常检测,有监督或者无监督的学习,然后特征的联合校验等模型。

因为我们的数据源非常多,因此我们也可以通过部分的数据源验证另外一个数据源,看数据的增长或者留存是否处于一个正常范围。

另外还有一些比较好的方法,比如基于Graph的一些算法,实时的反作弊算法等等。在算法层之上,就是评估层。在评估层内,我们可以判断留下来的数据是否是真正有效的数据。

在上述这些数据层的上面,会有一个应用层,也同时会抽象出一些产品来帮助内部员工或者外部商家进行使用。

所以,整个数据中台实际上是从底到上对数据进行清洗的一个架构。

当我们有了非常干净的数据之后,我们要做的就是把数据打通。我刚才说了,阿里生态体系会呈现出几百个不同的数据源,这些数据源本身的数据量非常大,收集模式也各不相同。

那么我们是如何进行数据之间的融通的呢?

数据联通的技术思考

这是我们关于怎么把数据打通的一个技术架构。

大家可以看到,整个技术体系都是,先把数据接进来,再通过一些机器学习或者深度学习的办法(像word2vec,node2vec,TFIDF,归一化等)处理特征层,之后映射到一些比较抽象的高纬度Level(比方说像用户的身份信息,网络的环境相似度,文本的相似度,APP相似度等等)。

抽象完这些特征层之后,我们究竟怎样去判断。

这期间的方法大致可以分为四种有效的办法:

第一、是深度学习的模型。

第二、非线性。

第三、线性。

第四、基于图计算

此外,还有一些强召回,就是比如说用户有相同的账号登陆不同的地方。这些是所谓的强召回,它可以非常准确地被判断出来。弱召回就是基于算法特征层的这些模型,有效地判断出所有信息是否真正属于同一个自然人。(/END)


注:基于打通融合的数据,接下来我们还会介绍两款数据应用

持续关注“阿里数据(公众号:Ali_data)”更多数据技术正在破解中!

关于阿里巴巴数据系统架构,我们出版了一本全面系统化的实践书籍——《大数据之路:阿里巴巴大数据实践》点击原文链接,进入试读!

登录查看更多
1

相关内容

阿里巴巴集团于1999年创立,阿里巴巴集团子公司及关联公司有:阿里巴巴网络有限公司、淘宝网、淘宝商城(天猫)、一淘、支付宝、阿里云计算、中国雅虎等。
最新《深度多模态数据分析》综述论文,26页pdf
专知会员服务
295+阅读 · 2020年6月16日
商业数据分析,39页ppt
专知会员服务
158+阅读 · 2020年6月2日
德勤:2020技术趋势报告,120页pdf
专知会员服务
187+阅读 · 2020年3月31日
《人工智能2020:落地挑战与应对 》56页pdf
专知会员服务
195+阅读 · 2020年3月8日
2019->2020必看的十篇「深度学习领域综述」论文
专知会员服务
269+阅读 · 2020年1月1日
【阿里技术干货】知识结构化在阿里小蜜中的应用
专知会员服务
96+阅读 · 2019年12月14日
最佳实践:阿里巴巴数据中台
AliData
26+阅读 · 2019年7月26日
阿里技术大牛:一份架构师成神路线图!
51CTO博客
29+阅读 · 2019年7月6日
企业数据AI化战略:从数据中台到AI中台
36大数据
11+阅读 · 2019年2月18日
携程的旅游知识图谱构建和应用
数据猿
37+阅读 · 2018年12月31日
一篇文章读懂阿里企业级数据库最佳实践
阿里巴巴数据库技术
5+阅读 · 2017年12月20日
【新零售】当下趋势:传统零售将变革为新零售
产业智能官
3+阅读 · 2017年11月12日
【智能零售】零售业的未来是让零售变得无界
产业智能官
3+阅读 · 2017年10月18日
今日头条推荐系统架构演进之路
QCon
32+阅读 · 2017年6月21日
Arxiv
5+阅读 · 2019年6月5日
Arxiv
4+阅读 · 2018年4月29日
Arxiv
3+阅读 · 2012年11月20日
VIP会员
相关资讯
最佳实践:阿里巴巴数据中台
AliData
26+阅读 · 2019年7月26日
阿里技术大牛:一份架构师成神路线图!
51CTO博客
29+阅读 · 2019年7月6日
企业数据AI化战略:从数据中台到AI中台
36大数据
11+阅读 · 2019年2月18日
携程的旅游知识图谱构建和应用
数据猿
37+阅读 · 2018年12月31日
一篇文章读懂阿里企业级数据库最佳实践
阿里巴巴数据库技术
5+阅读 · 2017年12月20日
【新零售】当下趋势:传统零售将变革为新零售
产业智能官
3+阅读 · 2017年11月12日
【智能零售】零售业的未来是让零售变得无界
产业智能官
3+阅读 · 2017年10月18日
今日头条推荐系统架构演进之路
QCon
32+阅读 · 2017年6月21日
Top
微信扫码咨询专知VIP会员