聊聊工业界做机器学习的里程碑

2020 年 9 月 28 日 AINLP

文 | 吴海波

编 | YY


阅读说明,本文的机器学习领域限制于互联网搜索、推荐、广告场景,仅限于个人观点。

2017年,我和团队的几个核心去了趟北京,找了各大互联网公司一线实战的同学,交流各自在机器学习上的经验。这次交流让我的认知上了一个台阶,开始思考什么是真正优秀的机器学习团队。

感慨一句,百度,特别是凤巢,真是中国机器学习的黄埔军校,门生遍布天下。

系统——经济基础决定上层建筑

工程系统中,提升收益是优化算法的根本动机。 业界流行过这样一句话:“能加几台机器解决的问题,不要让人去优化。”乍一眼看有些反直觉,但是结合语境细想,这句话的核心思想是做事应当把控好大方向。机器便宜,人力昂贵,在业务快速发展的阶段,有很多更重要的事情要去做。能不能比竞争对手快一个周期,就是团队生与死的差别。这种情况下,过度追求算法的提升可能是在舍本逐末,反而不明智。

对比学术界,互联网中搜索推荐及广告的场景,有个明显的特点,就是数据规模大,训练数据丰富,正负反馈获取成本低。这就造成了和传统机器学习算法格格不入的方案,通常模型方案都是不那么经济。

此外,大多数工程系统,是从业务需求侧或者产品需求侧设计的,很少会把算法当做真正的业务方。 工程师对研究者常见的批评,有一条就是开发的算法往往缺少对应的需求。而业务方的要求,就算有时在实现难度上大到不合理,通常也是市场的客观反映。因此,大部分工程上针对算法的设计方案,更像是主流需求外的附加需求,常常是阉割再阉割。

采用机器学习时,有几个问题是共通的:数据质量建设——ABtest怎么做的,流量波动大不大,实验置信度有多少,埋点方案有没有第三方检验,数据口径是否统一。

为什么说大规模Logistics Regression是一个里程碑

这两年,各大公司分别实现了一波少帅的Parameter Server,动不动就号称千亿级的特征规模。这套广告业务的核心技术:点击率 (Click Through Rate, CTR) 。预估任务最开始由Google提出,而国内选择的突破口是在Logistics Regression中引入id类特征,这就造成了极大的运算量。众所周知,LR模型是线性模型,需要做特征交叉,互联网的用户、商品、内容都是一个非常夸张的量级,交叉之后往往会得到一个规模极大的特征集。

大规模首先要解决计算力问题。 很多互联网公司的机器学习团队虽然有很多数据,但是跑不动,就只能用部分数据;又因为训练数据不足,特征工程就不能做多,只好人工进行特征选择,费时费力。如果计算力足够,样本量级上去,这个问题就可以迎刃而解。

同样搞机器学习,大公司可能一天进行十几种尝试,小公司却只能做一两种。冷兵器对上火炮,只有被碾压。少帅在14年提出的SOTA,100T数据,10亿特征,半个小时迭代100轮的计算力,到了现在能实现的公司也寥寥无几。

另一方面是线上服务。 这么大规模的模型,怎么发布上线,更新模型的时候怎么保持线上数据的一致性,处处都是难题。模型大了,相应的特征也很多,那么哪里存储这些特征?离线的特征可以存缓存,实时特征怎么办,数据还要沟通,能做到实时吗?如果模型不能被单机加载到内存,难度又得上一个量级。

综合起来,大规模LR模型非常考验团队工程系统能力。从另一个角度看,这是一种工业级的哲学观,追求通用,追求效率,降低模型对个别算法的依赖,通过堆切大量特征的方式击败小作坊式特征工程,充满暴力美学。

为何要搞深度学习?因为效率

上文的大规模LR看起来是一种“笨方法”。最近这几年工业界投入甚多的深度学习,则是另一条被看好的道路。说实话,大部分的深度学习在推荐和搜索,并没有取得像图像领域那样让人印象深刻的效果。但它拥有一个致命的诱惑——不需要或需要少量的人工特征工程。

就是这个方案对比以前的模型没有提升,但它不需要特征工程,于是能带来巨大的效率提升。如果想做出较通用的解决方案,对业务来讲,原先可能要好几个同学哼哧哼哧搞好几个月的特征工程,现在深度学习方案能快速的搞出来。

写在最后

总的来说,目前的机器学习还有很大的发展空间,让我们把喧嚣留给媒体,自己安安静静地继续探索吧~


     
     
       


欢迎加入AINLP技术交流群
进群请添加AINLP小助手微信 AINLPer(id: ainlper),备注NLP技术交流

推荐阅读

这个NLP工具,玩得根本停不下来

征稿启示| 200元稿费+5000DBC(价值20个小时GPU算力)

完结撒花!李宏毅老师深度学习与人类语言处理课程视频及课件(附下载)

从数据到模型,你可能需要1篇详实的pytorch踩坑指南

如何让Bert在finetune小数据集时更“稳”一点

模型压缩实践系列之——bert-of-theseus,一个非常亲民的bert压缩方法

文本自动摘要任务的“不完全”心得总结番外篇——submodular函数优化

Node2Vec 论文+代码笔记

模型压缩实践收尾篇——模型蒸馏以及其他一些技巧实践小结

中文命名实体识别工具(NER)哪家强?

学自然语言处理,其实更应该学好英语

斯坦福大学NLP组Python深度学习自然语言处理工具Stanza试用

关于AINLP

AINLP 是一个有趣有AI的自然语言处理社区,专注于 AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享,主题包括文本摘要、智能问答、聊天机器人、机器翻译、自动生成、知识图谱、预训练模型、推荐系统、计算广告、招聘信息、求职经验分享等,欢迎关注!加技术交流群请添加AINLPer(id:ainlper),备注工作/研究方向+加群目的。


阅读至此了,分享、点赞、在看三选一吧🙏

登录查看更多
0

相关内容

“机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让 可以自动“ 学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多 推论问题属于 无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。” ——中文维基百科

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
机器学习的可解释性
专知会员服务
172+阅读 · 2020年8月27日
专知会员服务
78+阅读 · 2020年6月20日
大数据安全技术研究进展
专知会员服务
90+阅读 · 2020年5月2日
2020年中国《知识图谱》行业研究报告,45页ppt
专知会员服务
234+阅读 · 2020年4月18日
【机器学习课程】机器学习中的常识性问题
专知会员服务
72+阅读 · 2019年12月2日
【机器学习课程】Google机器学习速成课程
专知会员服务
162+阅读 · 2019年12月2日
机器学习入门的经验与建议
专知会员服务
90+阅读 · 2019年10月10日
下一代AI系统基石:知识图谱将何去何从?
AI前线
17+阅读 · 2019年6月4日
BAT机器学习面试题1000题(376~380题)
七月在线实验室
9+阅读 · 2018年8月27日
深度学习平台技术演进
机器学习研究会
3+阅读 · 2017年12月30日
特征选择算法在微博业务应用中的演进历程
CSDN云计算
5+阅读 · 2017年12月22日
一篇文章读懂阿里企业级数据库最佳实践
阿里巴巴数据库技术
5+阅读 · 2017年12月20日
机器学习面试 | 这些题目一定会被问到
七月在线实验室
5+阅读 · 2017年12月10日
干货|用机器学习检测异常点击流
全球人工智能
6+阅读 · 2017年7月30日
Arxiv
0+阅读 · 2020年12月3日
Neural Approaches to Conversational AI
Arxiv
8+阅读 · 2018年12月13日
Arxiv
11+阅读 · 2018年7月8日
Arxiv
8+阅读 · 2018年5月15日
VIP会员
相关VIP内容
机器学习的可解释性
专知会员服务
172+阅读 · 2020年8月27日
专知会员服务
78+阅读 · 2020年6月20日
大数据安全技术研究进展
专知会员服务
90+阅读 · 2020年5月2日
2020年中国《知识图谱》行业研究报告,45页ppt
专知会员服务
234+阅读 · 2020年4月18日
【机器学习课程】机器学习中的常识性问题
专知会员服务
72+阅读 · 2019年12月2日
【机器学习课程】Google机器学习速成课程
专知会员服务
162+阅读 · 2019年12月2日
机器学习入门的经验与建议
专知会员服务
90+阅读 · 2019年10月10日
相关资讯
下一代AI系统基石:知识图谱将何去何从?
AI前线
17+阅读 · 2019年6月4日
BAT机器学习面试题1000题(376~380题)
七月在线实验室
9+阅读 · 2018年8月27日
深度学习平台技术演进
机器学习研究会
3+阅读 · 2017年12月30日
特征选择算法在微博业务应用中的演进历程
CSDN云计算
5+阅读 · 2017年12月22日
一篇文章读懂阿里企业级数据库最佳实践
阿里巴巴数据库技术
5+阅读 · 2017年12月20日
机器学习面试 | 这些题目一定会被问到
七月在线实验室
5+阅读 · 2017年12月10日
干货|用机器学习检测异常点击流
全球人工智能
6+阅读 · 2017年7月30日
Top
微信扫码咨询专知VIP会员