从清华到阿里，他只用6年时间，影响了数亿用户

2017 年 8 月 18 日 机器学习研究会

“阿里技术直播”，是专为技术人量身制作的视频直播节目，旨在分享行业前沿趋势、技术干货和技术人生。今天为大家送上阿里资深算法专家靖世的精彩直播内容。

阿里资深算法专家靖世直播实录

大家好，我名字叫盖坤，在阿里花名叫靖世。之前在清华大学读的本科跟博士，专业是机器学习跟人工智能。毕业之后一直在阿里巴巴做广告算法，现在在阿里妈妈负责竞争展示广告技术，做的工作包括广告算法，广告算法里面包括匹配算法、预估模型、排序算法，也包括广告工程部分。还有其它相关跟人工智能相关的部分，包括机器学习平台，包括计算机视觉里面有图象识别等等，也包括NLP的一些技术。

今天我的分享有三个部分的内容，希望对大家有用。

1、从找工作的时候选择阿里巴巴，到工作六年来一路走过来的历程跟体会。

2、做AI背后的想法，在AI上取得的一些成果和背后的思考。

3、最后会建议一下大家在面试阿里之前应该准备哪些内容。

缘起阿里：研究与应用有了完美交叉点

先说一下跟阿里巴巴的一个开始。其实我在学生的时候，是做机器学习和计算机视觉，也发了一些国际的会议跟期刊的论文。在毕业的时候，我有一个，或者说在学生的时候我有一个愿望就是希望自己做的东西不但是以论文的形式分享给别人，而且希望能够对于这个世界产生更大的作用。所以当时就希望能够去找一个研究跟应用结合比较好的一个地方。刚开始的目标主要是集中在一些外企的研究院上，当时也聊了一些研究院。

跟阿里巴巴缘分的开始也是一个机缘巧合，之前清华同学经常上的论坛叫水木社区，当时叫水木清华，我在那里的AI版上发现有一个人发了帖子说阿里巴巴要做大规模的机器学习系统，这里面有很多挑战。我当时也是晚上很晚的时候回了一封私信，当时也没多想，而且在学生的时候，说实话有晚上玩游戏的习惯，然后回了之后就玩游戏到两三点，睡得比较晚。结果第二天一早八九点就被阿里巴巴的HR叫醒去面试，这是跟阿里的缘分的开始。

拿到阿里的Offer之后，其实也是思考了很多，纠结了很久，最后选择阿里巴巴，是因为觉得阿里巴巴其实在中国零售的业务上，也是蓬勃发展，业务前景非常好。第二个做机器学习可能最看中的就是数据，阿里巴巴有一个围绕零售的消费者的，从逛到买，再到买之后的后续行为的一个完整的类目数据。

这个类目数据上用人工智能的方法可以做很多事情，有很多可能性，所以会觉得人工智能在阿里巴巴会特别有空间。还有最后一个点，当时也是跟阿里的同学聊了很多，会觉得阿里里面不管团队还是各方面，其实也都说对研究会比较看中，也会在应用之余鼓励做研究的事情，包括鼓励大家去出一些研究的成果。所以当时会觉得就是：

1，业务的应用前景非常的广阔；

2，研究跟应用可以做一些结合。

当时基于这两个考虑选择了阿里巴巴。

我分享一下在阿里巴巴一路走过来的经历，包括其中涉及到一些做的事情，希望给大家一些参考，最后再做个阶段性的总结，想做得更成功的话，应该具备哪些特质。

阿里6年经历：从沉寂半年到连续提升2个10%、每天影响上亿用户

我进阿里巴巴之后，其实前半年的感觉就是自己什么都不会，然后其实进了实际的业务，实际的数据，虽然之前学了很多的机器学习相关的知识，然后发现这些知识可能跟业务跟实际的数据还不能很好的结合在一起。所以前半年其实是一个沉入到业务，沉入到数据，而且是一个相对来讲比较平淡跟寂寞的时间。但后来我会发现，其实必须得沉入到实际的业务，实际的数据里面才有可能做出一些不一样的东西，这个过程是必须经历的，这是很多在实际工作人的一个体会。

但是这半年说实话，虽然可能没有做出惊天动地的事情，但是这里面有一件事情，其实一直在思考。其实在我加入阿里巴巴的时候，当时是机器学习在广告，在CTR预估系统里面开始大规模的使用，然后国内的各个公司也开始建立团队研发这一块。这一块也可以认为是这几年国内的主流业界的公司在机器学习去投入大量的资源的一个开始。

因为大家可能也都知道，整个互联网行业里面，现在收入最大的两个板块：一个是广告，一个是游戏。广告应该是比游戏还要靠前，而且不是所有的公司，包括大公司都做游戏的，大部分公司的支柱收入其实是广告。对于各个公司这么重要的一个业务，背后其实点击率预估是对广告主，浏览者，平台收入，做好了的话是一个三赢的事情，所以各个公司都投入非常多的资源来做这一块。

所以这一块是机器学习可能第一次非常大规模，而且在实际的大业务中起非常核心作用的一个契机，这也是近年来的一个起点。机器学习在后面，在更多的业务里面去发挥更大的作用，这是后面的事了。

在点击率预估里面，当时有一个经典的做法就是叫大规模的特征加上一个简单的线性模型、逻辑回归的一个做法，这个做法简单说一下怎么理解呢？就是其实那时候大规模特征是一种叫ID特征的一种形式。比如，我们假设说现在中国有13亿人，我们有13亿用户。我们一定要用一个向量，有Sample有Label的概念，用一个向量，用样本来表示它。这个样本里面特征怎么办呢？我有13亿用户，我就用13亿的系数向量来表示这个用户，然后13亿维，这个样本对应哪个用户就是在哪一个维度上标记为1，其它维度都为1，是一个非常大规模的一个稀疏的一个表示。

其实用户可以这么表示，商品可以这么表示，所有的信息基本上都可以One hot的编码来表示。所以，其实连续的一些统计值或者连续的一些值也可以做一些离散化，把它变成哪个区段的，继续用One hot来表示，我们会把大量的信息用One hot编码或者用ID特征表示方法来把它给变成规模非常庞大的特征，特征维度也特别大，这可能是没接触过工业界实际的，比如说CTR预估系统的同学可能之前不太知道的一个概念，就是为什么工业界需要这么大量的特征。

这样的特征用简单的逻辑回归来做的话，其中有一个问题，当然这里面挑战也很大，有两个挑战：

1，样本量特别大，特征维度特别大。

样本量特别大什么意思？比如说点击率预估，那我们的Sample，就是用户的历史行为，如果用户看了没点，这就是Label是0，就是负样本；如果看了又点了，这个样本就是一个正样本。其实你每天看大量的东西，大量的用户在网站上浏览，所以我们有非常多的样本。第二个特征维度特别大。所以对逻辑回归来讲的话，一个挑战就是如何能支撑这么大的样本和这么高的维度，这是第一个挑战。然后这里面会涉及到大量的机器学习的并行算法相关的东西。

2，正则化，怎么理解？

就是逻辑回归一般来讲会跟一个L1范数一起来使用，它其实背后有两个目的，第一个目的就是这么大量的特征的化很容易发生过拟合，所以我要用一种方法，在机器学习里面是非常经典的方法，正则化的方法去来抑制过拟合，让这个模型能够在未来的使用的场合里面表现比较好。过拟合的意思就是我只记住了那些已见过的东西，但是对未来新的东西其实预测能力并不好。

第二个其实就是这个特征库特别大的时候，我们在离线做训练的时候也许能够承受这么大规模的特征，但是我们在在线预测的时候，我们希望性能尽量的好。所以我们希望训练的时候做一些特征选择，这么多的特征是不是全需要？很有可能我们其实只需要其中的一小部分。能不能让模型在训练的时候自动做这件事，这就是正则化的一个方法。那加上正则化的方法也是会给整个优化问题带来一些挑战，这是逻辑回归的两个挑战跟难点。

除了这两个挑战和难点解决了很大一方面的问题之外，逻辑回归还有一个问题我倒是一直在思考，这样的特征体系用线性模型够不够，这个问题其实当前来讲在深度学习这么如火如荼的今天来讲大家都不会产生疑问，非线性一定会做得更好，大家可能都这么想。但当时其实还是有挺大争议，很多人会有一个观念，包括一些论文里其实也把这个结论会明确的写出来，就是特征维度比较高的时候，线性模型就够了。

当时在几年前，谷歌还算是在某些方面是国内公司的技术领导者，某些方面的技术大家都是向谷歌看齐。当时谷歌也是用大规模的特征加上一个线性模型，所以你要做非线性模型很多人就会挑战为什么非线性模型有用，线性模型是不是就够了。现在这个观念好像并不是那么的统一，大家都觉得深度学习都用上了，那非线性更强了，非线性一定有用。

但当时其实要打破这个思维定势，其实相当于在挑战公司内外、业界、学术界的权威概念。当时我一直在想够不够，其实我们知道，其中有一个做法很说明问题，就是在使用逻辑回归的时候，我们的特征即原始的特征，就是One hot编码或者ID特征的维度很大，但我还是需要做特征加工、特征工程。比如说我们的目标的目标跟两个相关，可能要对这两种ID做一个笛卡尔积，做笛卡尔积是特征非常爆炸的过程。

比如说一亿维的用户特征，一亿维的宝贝特征，我们要做他们的关系的话，就是笛卡尔积会的话就是1亿×1亿种可能，一下子就爆到1亿亿的维度了。我们在实际工作里面很多公司做过这样的事情，我们用算法工程师来做特征的组合、特征的加工，然后尤其是笛卡尔积等等的工作。这里面非常的繁杂，而且两两特征可以组合，三种特征是不是可以组合，有没有其它的加工方式。所以这里面有大量的繁杂的工作。

这其实是一个很好的例子，就是线性模型并不够，如果线性模型够的话为什么还要做特征加工的工作，用人工来补足呢，其实这是当时业界的一个经典做法，一个经典的思维定势，内部的自我思维的一个矛盾。然后这底下其实我在想的就是如何能够省去这些繁杂的人工处理的工程，而且人工处理对特征加工一定是有限的，我们其实能不能用现在做AI，做智能的方法，去抽取更精确的信息，做更好的预测，这其实可能是一个做AI的人，内心在真正追求的东西。

所以我们其实思考的是能不能够去做一个更强力的人工智能的模型，准确来说是机器学习的模型来代替原来这种重工程的简单的线性模型。两个目的：一个省去人工繁杂的加工动作；第二个就是能够去达到更好的效果。另外一个目的，如果我们做智能的工作可以达到一个端到端的学习，像现在深度学习一样，可以让很多事情更自动化起来。

这个事情其实前半年一直在我脑海里去思考，虽然前半年没做出什么特别惊天动地的事情，然后在日常的项目投入跟业务理解里面，我一直在想这个问题的答案。后面找到一种方法。就是在大规模特征，而且大规模的样本上做非线性的学习，而且还能拿到效果。

下面简单介绍一下后面采取一种方法就是叫分片线性的方法，准确来说是整个高维空间里面，如果维度特别高的话，把空间分成很多不同的区域，每个区域里面有一个自己独立的一个线性模型。这样的话整个空间变成分段线性的模型，如果是二维比较好理解，原来是一条线，现在变成分段折线，折线足够多可以去二维上逼近非常复杂的曲线，可以去逼近任意复杂的一个函数。

其实背后这种思想还是蛮简单直接的，我们会有两个挑战：

1，我们如何能够把空间划分跟最后的每个划分里面分段线性，一起用机器学习的方法去一起把这东西全部学到，然后通过数据的方法学到；

2，我们去面对的数据规模特别大，特征规模也特别大，是不是能发展出一个非常有效的方法做这件事。有一个叫混合逻辑回归的方法，在阿里妈妈内部真正使用的，用分片使用的Softmax函数，最后每个区域内做分类线性的逻辑回归这样的一个组合。实际上当时我应该是研发了差不多有十余种不同的模型，有各种各样的分片的方法，分段的方法，包括有一起并行去学的，也有像GBBT之类的是一个片段一个片段去学，一个片段一个片段续贯学的很多不同的算法。

转自你：阿里技术

登录查看更多