公开课 | 年前“封麦”直播:配对标注还原数据真实排序+慢特征分析用于个性化推荐系统+精准营销中的Host2vec用户识别

2018 年 2 月 6 日 大数据文摘 文摘菌

本周四晚,年前“封麦”公开课,3场连续语音直播!错过这场,咱们就年后再见啦。公开课可以永久回听,暂时没空的小伙伴可以扫码进入直播间收藏课程,假期学起来。


抽象数据的智能具象:配对处理让标签精准化


大量有标注数据的产生,是机器学习研究取得进展的重要因素。如果我给你一张“赫敏”的照片,问你“美不美?请用1-10分打分”,你可能会打满分。但是,你的女票/男票对同一张照片会打几分?很难说。


Emma Watson,图片来自网络


如果我同时给你两张照片,比如同时让你看“赫敏”和“罗恩”的照片,让你给出两张照片“美不美”的相对得分,这样是不是更好呢?如果有了很多人给出的照片相对得分,我们可以更科学地恢复出数据中隐藏的“真相”——到底谁美。


本次公开课主要介绍在众包平台中,众多工作者用连续变量对数据进行标注的问题。此类问题经常出现在对视频中人物的图像进行标注、工作面试评估、年龄估计等应用中。为了获得较准确的标注,一般需要专业人员对这些数据进行评估。由于需要标注的数据量较大、专业人员人数少且雇佣成本高,所以通常需要求助于群众的智慧,雇佣众多没有经过专业训练的人对数据进行标注。但当有很多工作者一起对数据进行少量的标注时,工作者的偏见很难进行评估和纠正。配对打分的标注方式,可以在一定程度上降低偏见的问题。在标注的过程中,工作者一次看到一对比较对象,给出他们的偏好,基于这些偏好,我们能够较好的恢复出原始数据的排序。



本次公开课将对比配对Ranking问题中的Fisher信息最大化无监督采样算法、贝叶斯信息最大化有监督采样算法、小世界网络算法,尝试小世界网络图构造。


嘉宾介绍


曾令辉,华院数据技术(上海)有限公司算法研究员,致力于基于人格分析的用户智能画像,通过对小数据的精准分析获得用户的人格特质,立体化深度洞察人与人的内驱差异。复旦大学计算数学专业理学博士,博士期间主要研究力学和工程中的数值代数和科学计算问题。曾任职华为,历任无线网络研究部MBB研究部和云核心网 NFV 研究部研发工程师,主要从事于云计算和区块链等技术在电信网络中的应用。


2月8日(周四)19:00

扫码听课👇


慢特征分析及其在个性化推荐中的应用


慢特征分析(SFA)是Wiskott提出的一种在快速变化的时序信号中抽取慢特征的批量学习算法。


我们常见的视频、脑电波和时间序列等都属于时序信号。什么是慢特征?慢特征就是变化比较缓慢的特征。


比如,人的感观器官中,视网膜比较原始(能处理的信号维度少),对光线强弱的变化明显,即随时间变化快。而大脑处理的信号维度比较多,层次较为复杂,随时间的变化相对比较缓慢。


本次公开课将介绍如何采取定量刻画的方式提取慢特征,从数学的角度进行分析,包括数学模型和输入输出信号的分析。


最后,我们将结合个性化推荐系统的一个案例,具体给出行为数据中的慢特征分析方法。


为帮助大家理解此次公开课内容,大数据文摘特意采访了公开课嘉宾徐清博士——


大数据文摘:对于从未接触过慢特征的小白来说,怎么理解慢特征比较合适?


徐博士:慢特征就是变化比较缓慢的特征。比如说,一段视频中,有一只猴子从左边走到右边。像素点和色块的变化是很快的,但是物体的变化(以及视频中是否有猴子)相对来说比较缓慢。这种变化比较缓慢的特征抗干扰性强,比如说,稍微对像素点加点扰动,或者把彩色的变成黑白的,猴子还是猴子,但是色块已经不是原来的色块了。

视频中是否有猴子,是一种慢特征


大数据文摘:是否可以将猴子的变化理解成一种慢特征?


徐博士:是的,视频中出现的物体是否是猴子,以及猴子的位置,这种都是慢特征


大数据文摘:如何判定大脑处理的高层次信息随时间变化缓慢?


徐博士:大脑处理的信息可以用脑电实验做出来,脑电信号的变化一般来说比像素点的变化缓慢得多。


大数据文摘:请问定量刻画慢特征是如何实现的?


徐博士:这也是本次公开课的重点,这方面结果国内研究和相关资料比较少,也是也比较新研究课题。在这里先给大家透露一下,利用拉格朗日对偶法和广义特征值问题可以定量计算慢特征。


嘉宾介绍


徐清,华院数据技术(上海)有限公司分维(Fra+)团队算法研究员,致力于研究个性化推荐技术,整合不同来源小数据打造新一代智能画像引擎。本科与博士均毕业于复旦大学数学科学学院,研究方向是随机控制、随机分析与优化理论。博士期间建立了无穷时域的二次倒向随机微分方程理论,在金融风险度量、Feymann-Kac表示等领域中有诸多应用,所写论文Some Results on the Controllability of Stochastic Schrodinger Equations荣获第三届随机系统与控制论坛优秀博士生论文奖。在校期间荣获多次全国数学与建模竞赛一等奖,三次荣获国家奖学金,2011届复旦大学本科生毕业之星。


2月8日(周四)19:40

扫码听课👇


新消费升级时代下机器学习在数字化精准营销中的应用


随着人口结构的波峰迁徙、城镇化水平的持续提高、数字化全面渗透至生产生活的各个领域,我们迎来了新消费升级时代。在时代的大趋势下,如何通过机器学习进行用户识别与行为特征分析,进而基于客户需求及动机的深层次消费者洞察,将大数据带来的信息更好的应用在消费场景当中,是数字化精准营销领域一直在研究探索的课题。



本次公开课将主要介绍基于Host2vec Model快速高效的Lookalike用户群拓展算法,以及算法成果在数字化精准营销领域的评估与应用


Lookalike Machine Based on Host2vec Model


Host2vec是Word2vec方法在用户群拓展推荐领域的迁移应用。用户上网行为特征序列等价于Word2vec中的word序列,同一个用户一段时间周期内的上网特征集可视为positive,将one-hot编码后的海量高维稀疏的用户online浏览行为,通过浅层神经网络训练后,映射到低维稠密的向量空间中,最终得到每个上网特征的embedding表示,即用有限维度的低维向量来表示该host(域名/IP/URL标签/Patterns…),进而可以通过计算每个低维向量之间的相似度来衡量host之间乃至用户之间的相似性。



相比较于传统的用户群拓展算法将种子用户标记为正样本、备选用户标记为负样本、并训练分类模型筛选备选用户群,Host2vec方法可以大幅度减少计算时间,同时在错误标签的检测和纠错方面也有良好的表现



以股票app用户举例,与同花顺股票最为近似的标签集中于金融相关的外汇、财经、基金、证券等,截图内,中国游戏中心也与同花顺股票非常近似,实际为其旗下的德州扑克游戏人群与同花顺股票人群重合度较高,需要另外拆分标签。


嘉宾介绍


林昱洲,华院分析DMP数据产品总监,高级数据分析师。中国人民大学统计学学士,意大利佛罗伦萨大学统计精算与金融学硕士。在数据挖掘、统计建模、大数据处理技术、互联网精准营销、DMP产品设计等领域有丰富的项目经验,擅长使用R语言、Python、SAS等统计程序实现评分卡、协同过滤、文本挖掘、BP神经网络、逻辑回归、RFM、Embedding等算法模型。曾负责实施运营商、金融、电商等多个领域的数据分析和挖掘项目,在数据运营、精准营销、风险评估、客户画像等领域有多年的市场经验。


2月8日(周四)20:20

扫码听课👇


公开课福利!进入直播间后,点击“邀请朋友一起来听课”,生成专属邀请海报,开课前邀请人数排名前5的小伙伴,将获赠大数据文摘与清华大学数据科学研究院联合发布的2017年《顶级数据团队建设全景报告》完整版PDF一份。如有疑问,请添加课程小助手微信(微信ID:ai_learner)



【今日机器学习概念】

Have a Great Defination

登录查看更多
2

相关内容

缺失数据统计分析,第三版,462页pdf
专知会员服务
103+阅读 · 2020年2月28日
 【中科院信工所】社交媒体情感分析,40页ppt
专知会员服务
94+阅读 · 2019年12月13日
清华大学唐杰老师:用于理解、推理和决策的认知图计算
专知会员服务
119+阅读 · 2019年11月30日
用户研究:如何做用户画像分析
产品100干货速递
44+阅读 · 2019年5月9日
人脸专集5 | 最新的图像质量评价
计算机视觉战队
27+阅读 · 2019年4月13日
爱奇艺视频人物识别技术及应用
QCon
7+阅读 · 2019年4月8日
金融风控背后的技术综述
七月在线实验室
44+阅读 · 2019年2月28日
已删除
将门创投
4+阅读 · 2018年12月10日
如何利用动态信息数据构建用户画像?
NPDP产品经理资讯
6+阅读 · 2017年10月11日
用户画像之用户性别识别
大数据杂谈
6+阅读 · 2017年6月24日
Compositional Generalization in Image Captioning
Arxiv
3+阅读 · 2019年9月16日
3D Face Modeling from Diverse Raw Scan Data
Arxiv
5+阅读 · 2019年2月13日
Arxiv
11+阅读 · 2018年5月13日
Arxiv
3+阅读 · 2012年11月20日
VIP会员
相关资讯
用户研究:如何做用户画像分析
产品100干货速递
44+阅读 · 2019年5月9日
人脸专集5 | 最新的图像质量评价
计算机视觉战队
27+阅读 · 2019年4月13日
爱奇艺视频人物识别技术及应用
QCon
7+阅读 · 2019年4月8日
金融风控背后的技术综述
七月在线实验室
44+阅读 · 2019年2月28日
已删除
将门创投
4+阅读 · 2018年12月10日
如何利用动态信息数据构建用户画像?
NPDP产品经理资讯
6+阅读 · 2017年10月11日
用户画像之用户性别识别
大数据杂谈
6+阅读 · 2017年6月24日
Top
微信扫码咨询专知VIP会员