遗传算法和深度强化学习的结合会是新的方向吗？

2019 年 10 月 17 日 极市平台

加入极市专业CV交流群，与6000+来自腾讯，华为，百度，北大，清华，中科院等名企名校视觉开发者互动交流！更有机会与李开复老师等大牛群内互动！

同时提供每月大咖直播分享、真实项目需求对接、干货资讯汇总，行业技术交流。关注 极市平台 公众号，回复 加群，立刻申请入群~

本文来自知乎问答，回答均已获作者授权，禁止二次转载

问题：遗传算法和深度强化学习的结合会是新的方向吗？

问题描述：目前是个在看深度强化学习的小白，之前看到一个观点，说是人工智能目前无法超越人类的一个原因是由于人本身是有基因库遗传的，而目前的机器学习都是从零开始学习，那么考虑将模拟基因优化的遗传算法与深度强化学习结合会不会是一个新的发展方向呢？或者已经有类似的做法了，求大神们推荐

https://www.zhihu.com/question/348474416

知乎高质量回答

一、作者：俞扬

https://www.zhihu.com/question/61174186/answer/746617249

虽然
前面有人贴了
但是
我还是想再贴一遍

这篇1999年的文章
是提出了演化神经网络吗？
不
这是一篇
review
1999年的review

"There has been a great interest in combining learning and evolution with artificial neural networks in RECENT YEARS" @ 1999

20年前

也就是上一波神经网络开始进入低谷的时候

二、作者：Xenophon Tony

https://www.zhihu.com/question/61174186/answer/746872558

首先的首先

人工智能目前无法超越人类的一个原因是由于人本身是有基因库遗传的，而目前的机器学习都是从零开始学习

如果这是你提这个问题的原因，我觉得首先要解释你这个statement。机器学习都是从零开始学习这个观点是非常不准确的，这也是学界几十年如一日想要克服的transfer learninng, few shot learning等问题，甚至拿pretrained过的网络去进行finetune也不能算是从0学起，这句话又从何而生呢？如果这是你的疑问，add keywordstransfer learning, domain adaptation , few shot learning to your search.

few shot learning 链接：https://arxiv.org/abs/1904.05046

回到遗传算法和深度强化学习的结合这个问题，我们其实是要回答一下几个问题，一步跳到深度强化学习很不现实。

1、遗传算法对神经网络，有帮助么？

有人提到Evolving neural network这篇paper，不得不说拿遗传算法来训练神经网络是很有年代感的事情了，主要是源于当年神经网络训练成本太高，学界还没有找到一种有效的方法可以一统神经网络的训练。参数的训练本质上是一种search问题，应用遗传算法是一种很natural的想法。后来的事情大家也知道了，网络层数越来越深，网络结构越来越复杂，应用遗传算法来search参数变得不再可能，backpropagation开始一统天下。用遗传算法来训练网络参数，尤其传统上把每个individual都作为一个parameter vector的那种，恐怕是要永远地待在故纸堆里了。

2、遗传算法对深度学习真的没有优势？遗传是什么？进化又是什么？我们想解决的问题是什么？

那难道遗传算法就完全没有优势了么？想要理解遗传算法在深度学习中可能有的用途，就要试图去理解backpropagation可能的局限性在什么地方。这几年Neural Architecture Search很火，大家争相在参数训练已经被很好解决了的情况下，去搜索更高级的网络结构，以期达到更好的效果。这就涉及到一个问题，我想要搜索的这个问题，是否是可导的？Backpropagation是否仍然有效？毕竟传统意义上的遗传算法是gradient free的一种方法，适用于所有不合适求导的问题。而对于NAS来说，在选择了合适的search space之后，我们还是可以找到一种方式让看似离散的选择变得连续可导，如ENAS（https://arxiv.org/pdf/1802.03268.pdf）。那遗传算法？气氛再次沉默了起来。Neural Architecture Search是不是一种进化，是不是一种evolving？答案当然是yes，因为遗传/进化等看起来高大上的词，并不代表一类算法，而只是理解问题的一种方式，而遗传算法则是借助了生物学概念的一大类算法，它们之间有本质差别。

所以说我们可以借助遗传/进化等概念，但恐怕，出于对目前训练神经网络机器和优化算法的极度信任，目前的研究方向可能会离当年的遗传算法，越来越远。

3、如果9102年的今天，神经网络的训练和搜索不需要遗传算法，那么在（深度）强化学习领域我们是否需要它？

可能的。比如说我司的这篇文章

Deep Neuroevolution: Genetic Algorithms Are a Competitive

文章链接：https://arxiv.org/abs/1712.06567

具体看paper吧，在多个Atari game上可以beat policy gradient和Q learning。不是说遗传算法很慢没办法scale么？一般来说，是的。但这篇工作里，作者们把每个parameter vector表示为了initialization seed加上list of random seeds that produce the series of mutations that produced each θ，通过这种压缩，大大加速了算法的evolve。

4、除了传统的遗传算法，有没有借助遗传概念的算法可以帮助强化学习？

有，比如说这篇文章。这里用到了一种叫Evolution Strategies的算法，

Evolution Strategies as a Scalable Alternative to Reinforcement Learning

链接：https://arxiv.org/abs/1703.03864

只是这并不能算是gradient free的方法，可以把它理解为一种有限元估计gradient的方法（和policy gradient类似，都等价于对decision问题的smoothing，但得到的gradient estimate的variance更小），结果也非常promising。

三、作者：曹磊磊

https://www.zhihu.com/question/61174186/answer/393047991

早在上个世纪八九十年代，就有人尝试用遗传算法训练神经网络，可惜当时的计算能力不足，这个方向没能持续火热，那段时间的进化神经网络工作可以参见以下文献：

X. Yao(1993a), ``A review of evolutionary artificial neural networks,''International Journal of Intelligent Systems,8(4):539--567.

X. Yao(1993c), ``Evolutionary artificial neural networks,''International Journal of Neural Systems, 4(3):203--222.

International Journal of Neural Systems 链接：https://www.worldscientific.com/worldscinet/ijns

X. Yaoand Y. Liu, ``A new evolutionary system for evolving artificial neural networks,'' IEEE Transactions on Neural Networks, 8(3):694-713, May 1997.

随着深度学习的火热以及基于梯度的训练方法的不足，部分学者和机构开始重新关注用进化计算训练深层的神经网络。其中以OpenAI, Uber AI Labs, Google Brain等一些机构为主。

遗传算法是进化计算这一大类算法的一种，较为经典，另外还有进化策略，遗传编程，差分进化等一些算法。将进化计算应用到深度学习又可以分为两个方向：用进化计算生成网络结构，定拓扑神经进化（整体网络架构已经确定）。目前Google Brain正在研究AutoML,, 在ICML 2017上发表的“图像分类器的大规模演化”中，他们用简单的构建模块和初始条件建立了一个演化过程。这个想法简单的说就是“从头开始”，让规模的演化做构建工作。从非常简单的网络开始，该过程发现分类器与当时手动设计的模型相当。这是令人鼓舞的，因为许多应用程序可能需要很少用户参与。另外Uber一次发表了五篇关于神经进化网络的论文，并开源了一种进化神经网络数据可视化工具VINE。

这些机构开始关注这个方向，并取得了初步成果，很有可能预示着进化神经网络的复兴。如果进化神经网络得以复兴，2017年就是元年。

-End-

*延伸阅读

CV细分方向交流群

添加极市小助手微信（ID : cv-mart），备注：研究方向-姓名-学校/公司-城市（如：目标检测-小极-北大-深圳），即可申请加入目标检测、目标跟踪、人脸、工业检测、医学影像、三维&SLAM、图像分割等极市技术交流群，更有每月大咖直播分享、真实项目需求对接、干货资讯汇总，行业技术交流，一起来让思想之光照的更远吧~