手机里跑个 AI 模型 | 谷歌 Federated Learning 联盟学习

2017 年 6 月 26 日 数说工作室 数说君


各位数据大咖,还记得自己的跑模型的心路历程么?我想大家都在经历着下面的一个或多个阶段:


  • 论文答辩前夕,把自己敲进去的三千多条数据放进SAS中,哗的一下模型出来了,兴奋不已,感觉前途一片光明;


  • 将数据库中几G的本地数据导入SAS中,点击运行,机器轰然作响,几秒的时间模型出来了,感觉自己离CEO又进了一步。

  • 在服务器上跑数据,一天过去,结果出来了,发现代码敲错了一个地方,CAO,再等一天吧。


  • 在分布式集群上跑数据,稍微酷炫一点的模型,就要耗时三五天,因为数据量实在太大了。


数据分析师在进阶,工具在进阶,但数据也在进阶!


传统机器学习方法,需要把训练数据集中于某一台机器或是单个数据中心里,为了满足逐渐增加的数据量级,还要不断加机器、不断建设基础设施。


现在,谷歌研发出一种训练 AI 的新模式,可以直接在用户的手机上训练并改进 AI 算法,数据都保存在终端手机里。更神奇的是,多台手机之间还能进行协作训练,共享预测模型。


它有一个很霸气的名字——Federated Learning,联盟学习!


工作原理


Federated Learning 的工作流程如下:


  • 手机下载现有模型

  • 用手机的本地数据来训练模型

  • 训练好后,迭代更新,并把更新的内容加密上传到云端

  • 与其他用户的更新进行整合,作为对共享模型的改进

  • 该过程不断被重复,改进后的共享模型也会不断的被下载到本地。

(模型训练循环图,图来源于googleblog)


模型优点


这样一种「联盟学习」的模式,有何优点?数说君根据谷歌的官方文章,给出如下总结:


  • 更智能的模型(smarter models)

  • 低延迟(lower latency)

    谷歌开发了 Federated Averageing 算法,能大大降低延迟,具体可见「挑战与解决」。

  • 低功耗(less power consumption)

  • 保障用户隐私(ensuring privacy)

    Federated learning 不需要在云端存储用户数据。但为避免用户隐私泄露,谷歌更进一步还开发了一个名为 Secure Aggregation、使用加密技术的协议(见参考资料(2))。

  • 保障用户体验。

    Federated Learning 在训练本地模型时,使用简化版的 TensorFlow,配合精心的程序调度,并确保训练模型只在手机在闲置、插着电、有 Wi-Fi 时才进行。因此,Federated Learning 不会影响手机的日常使用。


模型应用


目前,谷歌已经在谷歌输入法 Gboard 上测试该模型。


有个背景数说君要先介绍一下,Gboard 不仅是一个简单的输入法,它还在键盘上集成了 Google 搜索,在输入文字的同时拥有了强大的第二大脑。


当使用 Gboard 集成的 Google搜索 功能时,Google搜索 会显示推荐搜索项,此时手机会在将搜索内容储存在本地。Federated Learning 会对本地的这些数据进行处理训练, 以用来改进 Gboard 检索推荐模型。


挑战与解决


然而问题还是有的,谷歌承认实现 Federated Learning 还有一些技术上的挑战:


在典型的机器学习系统中,超大型数据集会被平均分割到云端的多个服务器上。像随机梯度下降(SGD)这样的优化算法很适合在此上面运行。因为这些反复迭代的算法,需要与训练数据集之间有低延迟、高流量的连接。


但在 Federated Learning 系统中,数据以非常不平均的方式分布在数百万的移动设备上。而且,智能手机的延迟更高、吞吐的流量更低,并且仅可在保证用户日常使用的前提下,断断续续地进行训练。


为解决这些问题,谷歌专门开发出了一套名为 Federated Averageing 的算法(见参考资料(3)),相比于原生 SGD 算法,该算法在训练深度神经网络时,只需要10%~1%的网络通信要求。


由于上传速度一般都会比下载速度慢很多,为把上传速度再提升,谷歌为此还通过使用 random rotation 和 quantization 来压缩更新,把上传速度再减少100倍(见参考资料(4))。


另外,谷歌还专门设计了一个针对高维稀疏 convex 模型的算法 Federate Optimization,该算法特别擅长解决点击率预测等问题(见参考资料(5))。


未来,谷歌会不断拓展 Federated Learning 的功能,并希望能根据手机输入习惯改进语言模型;以及根据图片浏览数据改进图片排列等。


参考资料:

(1) Federated Learning: Collaborative Machine Learning without Centralized Training Data,https://research.googleblog.com/2017/04/federated-learning-collaborative.html


(2) Practical Secure Aggregation for Privacy Preserving Machine Learning,http://eprint.iacr.org/2017/281


(3) Communication-Efficient Learning of Deep Networks from Decentralized Data,https://arxiv.org/abs/1602.05629


(4) Federated Learning: Strategies for Improving Communication Efficiency, https://arxiv.org/abs/1610.05492


(5) Federated Optimization: Distributed Machine Learning for On-Device Intelligence,https://arxiv.org/abs/1610.02527


- END -



有这么一个培训课程,特点是:

  • 从Python从入门到上手,手把手教你从安装常用工具库的使用。

  • 量化投资从基础到策略编写,手把手教你从获取数据自动下单。

  • 每位同学在课程结束后,都能有自己的策略并用Python实现自动交易

  • 课程中配套大量国内量化基金实际案例

  • 任何问题,可通过文字、语音、远程桌面等方式提问,老师亲自解答

  • 每节还配套作业及讲解,做作业,老师会骂人的~!

  • 免费加入主讲老师的「小密圈」(原价66元),获得量化投资最新动态


它叫《Python量化投资入门》 = Python入门课程 + 量化投资入门课程 + Python编写投资策略。


主讲老师邢不行,毕业于香港科技大学金融工程实验室(全额奖学金)、经管之家(原人大经济论坛)「量化投资」版块的版主、多年量化投资实战经验。


课程定价 998元,是市面上 量化/Python培训 的三分之一(可动动小手,在微信搜“量化培训”或“Python培训”),而且你购买了一份永久视频外加老师作业辅导。


详细了解:长按下图——「识别图中二维码」

最后,3人及3人以上同时报名,还有9折优惠!优惠方式:


从二维码进入课程 → 购买课程 → 加微信AnselT,获得返现100元!


注:只能从本文提供的二维码进入,才可以获得优惠返现哦~!


更多咨询:添加微信AnselT,或后台留言。

登录查看更多
0

相关内容

联邦学习(Federated Learning)是一种新兴的人工智能基础技术,在 2016 年由谷歌最先提出,原本用于解决安卓手机终端用户在本地更新模型的问题,其设计目标是在保障大数据交换时的信息安全、保护终端数据和个人数据隐私、保证合法合规的前提下,在多参与方或多计算结点之间开展高效率的机器学习。其中,联邦学习可使用的机器学习算法不局限于神经网络,还包括随机森林等重要算法。联邦学习有望成为下一代人工智能协同算法和协作网络的基础。
【微众银行】联邦学习白皮书_v2.0,48页pdf,
专知会员服务
163+阅读 · 2020年4月26日
联邦学习最新研究趋势!
AI科技评论
52+阅读 · 2020年3月12日
小样本学习(Few-shot Learning)综述
云栖社区
21+阅读 · 2019年4月6日
联邦学习或将助力IoT走出“数据孤岛”?
中国计算机学会
20+阅读 · 2019年3月16日
企业数据AI化战略:从数据中台到AI中台
36大数据
11+阅读 · 2019年2月18日
干货|用机器学习检测异常点击流
全球人工智能
6+阅读 · 2017年7月30日
Arxiv
43+阅读 · 2019年12月20日
Optimization for deep learning: theory and algorithms
Arxiv
102+阅读 · 2019年12月19日
Advances and Open Problems in Federated Learning
Arxiv
18+阅读 · 2019年12月10日
One-Shot Federated Learning
Arxiv
9+阅读 · 2019年3月5日
Federated Learning for Mobile Keyboard Prediction
Arxiv
4+阅读 · 2018年11月8日
Arxiv
22+阅读 · 2018年8月30日
A Survey on Deep Transfer Learning
Arxiv
11+阅读 · 2018年8月6日
Arxiv
6+阅读 · 2018年4月24日
VIP会员
相关资讯
联邦学习最新研究趋势!
AI科技评论
52+阅读 · 2020年3月12日
小样本学习(Few-shot Learning)综述
云栖社区
21+阅读 · 2019年4月6日
联邦学习或将助力IoT走出“数据孤岛”?
中国计算机学会
20+阅读 · 2019年3月16日
企业数据AI化战略:从数据中台到AI中台
36大数据
11+阅读 · 2019年2月18日
干货|用机器学习检测异常点击流
全球人工智能
6+阅读 · 2017年7月30日
相关论文
Arxiv
43+阅读 · 2019年12月20日
Optimization for deep learning: theory and algorithms
Arxiv
102+阅读 · 2019年12月19日
Advances and Open Problems in Federated Learning
Arxiv
18+阅读 · 2019年12月10日
One-Shot Federated Learning
Arxiv
9+阅读 · 2019年3月5日
Federated Learning for Mobile Keyboard Prediction
Arxiv
4+阅读 · 2018年11月8日
Arxiv
22+阅读 · 2018年8月30日
A Survey on Deep Transfer Learning
Arxiv
11+阅读 · 2018年8月6日
Arxiv
6+阅读 · 2018年4月24日
Top
微信扫码咨询专知VIP会员