机器学习PAI全新功效——实时新闻热点Online Learning实践

2019 年 1 月 26 日 云栖社区

云栖君导读:打开新闻客户端,往往会收到热点新闻推送相关的内容。新闻客户端作为一个承载新闻的平台,实时会产生大量的新闻,如何快速挖掘出哪些新产生的新闻会成为成为热点新闻,决定着整个平台的新闻推荐质量。



如何从平台中海量的新闻素材中找到最有潜力成为热点的新闻需要使用机器学习相关的算法,传统做法是将每天获取的历史咨询下载并且离线训练模型,再将生成的热点发现模型推上线供第二日使用。但是这种离线训练所生成的模型往往缺乏时效性的属性,因为每天热点新闻都是实时产生的,用过去的模型预测实时产生的数据显然是缺乏对数据时效性的理解。


针对这种场景,PAI平台开创性的提出来Online-Learning的解决方案,通过流式算法和离线算法的结合,既能够发挥离线训练对大规模数据的强大处理能力,又能够发挥流式机器学习算法对实时模型的更新能力,做到流批同跑,完美解决模型时效性的问题。今天就以实时热点新闻挖掘案例为例,为大家介绍PAI OnlineLearning的解决方案。


实验流程


1.切换新版


进入PAI后,点击“体验新版”按钮即可开启试用(目前OnlineLearning只支持新版,且与旧版不兼容)可在模板中一键创建类似于本文介绍的案例,数据和流程都已经内置,开箱即用



模板打开,点击运行后效果(模板目前为简化版本)



2.实验流程介绍



(注:PAI中离线计算组件用蓝色标识,流式计算组件由绿色标识,流式组件相连将形成计算组,因为流式组件需要多个组件的运行停止状态一致)


步骤1:离线模型训练


本文使用的数据是3万条来自UCI开放数据集提供的新闻文本数据。


地址:

https://archive.ics.uci.edu/ml/datasets/Online+News+Popularity


数据组成:包含新闻的URL以及产生时间,另外还包含了58个特征以及1个目标值,目标值“share”是新闻的分享次数,建模过程中将share字段利用sql组件处理成一个二分类问题,新闻share次数超过10000次为热点新闻,小于10000次为非热门新闻


特征的组成如下图所示:



利用逻辑回归模型训练生成一个二分类模型,这个模型用来评估新闻是否会成为热点新闻。


(注:目前PAI OnlineLearning只支持逻辑回归算法)


步骤2:离线模型转换成流式模型


通过“模型转换”组件,可以将离线生成的逻辑回归模型转换成流式算法可读取的流式模型。


步骤3:流式模型训练


从步骤3开始就进入了流式算法组件的步骤,PAI平台提供多种流式数据源,本案例以Datahub为例。


Datahub地址:

https://datahub.console.aliyun.com/datahub


Datahub是一种流式数据对列,支持JAVA、PYTHON等多种语言采集方式,在具体使用过程中可以通过Datahub链接用户实时产生的数据以及PAI的训练服务。注意:Datahub输入的数据流格式需要与离线训练的数据流的字段完全一致,这样才可以对离线的模型进行实时更新。


  • Ftrl训练组件:左侧输入的是转化为流式的离线模型,右侧输入是流式数据表


FTRL算法基本等同于流式的逻辑回归算法,在使用过程中需要按照LR算法配置参数,需要注意”模型保存时间间隔参数“的配置,这个参数决定了实时计算产生模型的时间周期。



新版PAI已经内置了大量流式算法组件:



####

  • PMML模型生成组件:将输出的模型转化成PMML格式

  • OSS文件导出:将模型导出到用户自己的OSS中,可以自己设置名称的前缀和后缀,生成模型可在OSS中查看,如下图



步骤4:流式模型评估


流式模型评估指的是利用评估数据对Ftrl训练生成的模型进行评估,输出的评估指标也可以写入OSS,评估指标与模型一一对应。每个模型和评估指标都有一个ID,如果ID一致,说明模型和评估指标是对应关系,如下图:



评估指标是一个json格式文件,包含精确率、准确率、混淆矩阵等指标:



步骤5:流式预测结果实时导出


可以利用实时生成的模型做实时数据预测,实时的预测结果可以写出到datahub中,如下图:



同时如果输入的预测数据集包含label,还可以添加分类评估组件,可以打开组关系中的最右边按钮:



打开实时的流式预测结果评估页面:



3.模型使用介绍


通过以上步骤已经产生了新闻热点预测模型,生成的模型已经存入OSS,可以直接在PAI-EAS在线预测服务引擎进行部署也可以下载下来在本地预测引擎使用。新闻数据进来后先要做特征工程(同”步骤1:离线模型训练“中的特征处理方式),然后将特征工程处理结果输入”热点新闻挖掘服务“,将会返回新闻是否是热点新闻。



总结


通过本文的案例,实现了将离线历史数据生成LR模型推送到实时训练环境,再利用实时生成的数据对模型进行更新, 这种实时训练的架构可以完美解决实时热点新闻对于新闻推荐模型的影响问题。欢迎大家试用并给出建议。


(机器学习PAI Online Learning模块上线邀测,目前只支持华北2(北京)区域使用,本实验会用到流式机器学习算法)


PAI地址:

https://data.aliyun.com/product/learn


邀测申请地址(或点击左下角阅读原文):

https://data.aliyun.com/paionlinelearning



2019年开发者必读!20位阿里技术大牛们帮你列了一份经典书单!


老代码多=过度耦合=if else?阿里巴巴工程师这样捋直老代码


即将开源! 2亿用户背后的Flutter应用框架Fish Redux

登录查看更多
4

相关内容

新闻,是指报纸、电台、电视台、互联网等媒体经常使用的记录与传播信息的 [2] 一种文体,是反映时代的一种文体。新闻概念有广义与狭义之分。广义上:除了发表于报刊、广播、互联网、电视上的评论与专文外的常用文本都属于新闻,包括消息、通讯、特写、速写(有的将速写纳入特写之列)等等; [3] 狭义上:消息是用概括的叙述方式,以较简明扼要的文字,迅速及时地报道附近新近发生的、有价值的事实,使一定人群了解。新闻一般包括标题、导语、主体、背景和结语五部分。前三者是主要部分,后二者是辅助部分。写法以叙述为主兼或有议论、描写、评论等。新闻是包含海量资讯的新闻服务平台,真实反映每时每刻的重要事件。您可以搜索新闻事件、热点话题、人物动态、产品资讯等,快速了解它们的最新进展。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【CVPR2020-CMU】无数据模型选择,一种深度框架潜力
专知会员服务
21+阅读 · 2020年4月12日
专知会员服务
112+阅读 · 2019年12月24日
【斯坦福&Google】面向机器人的机器学习,63页PPT
专知会员服务
23+阅读 · 2019年11月19日
【课程】伯克利2019全栈深度学习课程(附下载)
专知会员服务
54+阅读 · 2019年10月29日
刚刚,阿里开源首个深度学习框架 X-Deep Learning!
阿里技术
4+阅读 · 2018年12月21日
SLA 99.99%以上!饿了么实时计算平台3年演进历程
51CTO博客
11+阅读 · 2018年4月10日
机器学习在热门微博推荐系统的应用
人工智能头条
6+阅读 · 2018年1月25日
【机器学习】推荐13个机器学习框架
产业智能官
8+阅读 · 2017年9月10日
干货|用机器学习检测异常点击流
全球人工智能
6+阅读 · 2017年7月30日
大数据分析研究组开源Easy Machine Learning系统
中国科学院网络数据重点实验室
14+阅读 · 2017年6月13日
DNN个性化推荐模型
产业智能官
7+阅读 · 2017年5月19日
Arxiv
13+阅读 · 2019年11月14日
Arxiv
9+阅读 · 2019年4月19日
Arxiv
13+阅读 · 2019年1月26日
Meta-Transfer Learning for Few-Shot Learning
Arxiv
7+阅读 · 2018年12月6日
Arxiv
4+阅读 · 2018年9月11日
Arxiv
21+阅读 · 2018年8月30日
VIP会员
相关资讯
刚刚,阿里开源首个深度学习框架 X-Deep Learning!
阿里技术
4+阅读 · 2018年12月21日
SLA 99.99%以上!饿了么实时计算平台3年演进历程
51CTO博客
11+阅读 · 2018年4月10日
机器学习在热门微博推荐系统的应用
人工智能头条
6+阅读 · 2018年1月25日
【机器学习】推荐13个机器学习框架
产业智能官
8+阅读 · 2017年9月10日
干货|用机器学习检测异常点击流
全球人工智能
6+阅读 · 2017年7月30日
大数据分析研究组开源Easy Machine Learning系统
中国科学院网络数据重点实验室
14+阅读 · 2017年6月13日
DNN个性化推荐模型
产业智能官
7+阅读 · 2017年5月19日
相关论文
Arxiv
13+阅读 · 2019年11月14日
Arxiv
9+阅读 · 2019年4月19日
Arxiv
13+阅读 · 2019年1月26日
Meta-Transfer Learning for Few-Shot Learning
Arxiv
7+阅读 · 2018年12月6日
Arxiv
4+阅读 · 2018年9月11日
Arxiv
21+阅读 · 2018年8月30日
Top
微信扫码咨询专知VIP会员