【强化学习】强化学习到深度强化学习、强化学习商业用例

会员服务 ·

【强化学习】强化学习到深度强化学习、强化学习商业用例

2019 年 2 月 9 日 产业智能官

强化学习到深度强化学习

来源 | CSDN

作者 | 谢宜廷

开讲前，先给大家看个深度强化学习的例子，下面是深度学习cnn和强化学习结合玩吃豆人的游戏。

看图像我们会发现吃豆人会，吃掉一闪一闪的豆子来消灭怪物，仔细观察会发现，经过训练的吃豆人，甚至会停在某个角落来躲避怪物，这是一个非常有趣的现象，后面会附有个人深度强化学习项目地址。下面我们开始正式介绍强化学习。

强化学习的原理和解释

强化学习任务通常使用马尔可夫决策过程（Markov Decision Process，简称MDP）来描述，具体而言：机器处在一个环境中，每个状态为机器对当前环境的感知；机器只能通过动作来影响环境，当机器执行一个动作后，会使得环境按某种概率转移到另一个状态；同时，环境会根据潜在的奖赏函数反馈给机器一个奖赏。综合而言，强化学习主要包含四个要素：状态、动作、转移概率以及奖赏函数。

根据上图，agent（智能体）在进行某个任务时，首先与environment进行交互，产生新的状态state，同时环境给出奖励reward，如此循环下去，agent和environment不断交互产生更多新的数据。强化学习算法就是通过一系列动作策略与环境交互，产生新的数据，再利用新的数据去修改自身的动作策略，经过数次迭代后，agent就会学习到完成任务所需要的动作策略。

强化学习和机器学习

强化学习是机器学习的分支之一，但是又区别于其他机器学习，主要体现在：

无特定数据，只有奖励信号
奖励信号不一定实时
主要研究时间序列的数据，而不是独立同分布的数据
当前行为影响后续数据

从1.1基本原理我们可以看的强化学习和其他机器学习算法监督学习和无监督学习的差别。监督学习和无监督学习都需要静态的数据，不需要与环境交互，数据输入到相关函数训练就行。而且对于有监督学习和无监督学习来说，有监督学习强调通过学习有标签的数据，预测新数据的标签，无监督学习更多是挖掘数据中隐含的规律。

主要算法和相关分类

根据上面的原理，其实我们可以得到，强化学习关键要素：agent（智能体），reward（奖励），action（行为），state（状态），environment（环境）。

agent：主要涉及到：策略（Policy），价值函数（Value Function）和模型（Model）。Policy，可以理解为行动指南，让agent执行什么动作，在数学上可以理解为从状态state到动作action的映射，可分为确定性策略（Deterministic policy）和随机性策略（Stochastic policy），前者是指在某特定状态下执行某个特定动作，后者是根据概率来执行某个动作。Value Function，对未来总Reward的一个预测。Model，一个对环境的认知框架，可以预测采取动作后的下一个状态是什么，很多情况下是没有模型的，agent只能通过与环境互动来提升策略。

state：可以细分为三种，Environment State，Agent State和Information State。Environment State是agent所处环境包含的信息，简单理解就是很多特征数据，也包含了无用的数据。Agent State是输入给agent的信息，也就是特征数据。Information State是一个概念，即当前状态包含了对未来预测所需要的有用信息，过去信息对未来预测不重要，该状态就满足马尔科夫性（Markov Property）。Environment State，Agent State都可以是Markov Property。

environment：可以分为完全可观测环境（Fully Observable Environment）和部分可观测环境（Partially Observable Environment）。Fully Observable Environment就是agent了解了整个环境，显然是一个理想情况。Partially Observable Environment是agent了解部分环境的情况，剩下的需要靠agent去探索。

强化学习算法按照agent分类，可以分为下面几类：

关注最优策略（Policy based）
关注最优奖励总和（Value based）
关注每一步的最优行动（Action based）

从不同角度也可以继续细分，具体可以看下图：

下面我们简单介绍分析一下Qlearning和Sarsa

（1） Qlearning

（2）Sarsa

从表格我们知道，Qlearning是on-policy，而Saras是off-policy。对于Saras，当agent处于状态s时，根据当前Q网络以及一定的策略来选取动作a，进而观测到下一步状态s'，并再次根据当前Q网络及相同的策略选择动作a'，而Qlearning则是，根据当前Q网络计算出下一步采取哪个动作会得到maxQ值，并用这个Q值作为当前状态动作对Q值的目标。

简单来说，Saras是agent处于新状态s'，就知道要采取行动a'，并且执行了，行动的选择根据策略，Q值的计算是根据动作a'，而Qlearning是agent处于新状态s'，只能知道采取哪个行动可以得到maxQ，并没有采取对应行动，它是根据当前Q和策略来采取行动的。在后面我们会做详细分析。

传统的强化学习局限于动作空间和样本空间都很小，且一般是离散的情境下。然而比较复杂的、更加接近实际情况的任务则往往有着很大的状态空间和连续的动作空间。当输入数据为图像，声音时，往往具有很高维度，传统的强化学习很难处理，深度强化学习就是把深度学习对于的高维输入与强化学习结合起来。

2013和2015年DeepMind的Deep Q Network（DQN）可谓是将两者成功结合的开端，它用一个深度网络代表价值函数，依据强化学习中的Q-Learning，为深度网络提供目标值，对网络不断更新直至收敛。2015 DQN nature算法可以看下图：

DQN用到了两个关键技术涉及到了两个关键技术：

1、样本池（Experience Reply）：将采集到的样本先放入样本池，然后从样本池中随机选出一条样本用于对网络的训练。这种处理打破了样本间的关联，使样本间相互独立。

2、固定目标值网络（Fixed Q-target）：计算网络目标值需用到现有的Q值，现用一个更新较慢的网络专门提供此Q值。这提高了训练的稳定性和收敛性。

DQN在Atari games上用原始像素图片作为状态达到甚至超越人类专家的表现、通过左右互搏（self-play）等方式在围棋上碾压人类、大大降低了谷歌能源中心的能耗等等。当然DQN也有缺点，它是高维输入，低维输出的，当涉及到一次性输出连续动作时，即高维度输出，就束手无策了，DeepMind也在后续提出了DDPG。

根据前面知识可以意识到强化学习本身是非常通用了，智能体可以自己学习，如果和深度学习结合岂不是万能？错了，当前深度强化学习也有许多难点：

样本利用率低，需要长时间训练
很难设计奖励函数
对环境过拟合，比如去玩打砖块很擅长，却很难去适应俄罗斯方块
不稳定，函数对参数很敏感，参数的变动，模型会千差万别

未来可能方向：

与迁移学习结合，适应不同环境
硬件提升
融合更多的模型学习，充分利用样本
自主设定奖励函数

强化学习用例

强化学习适用于许多行业，包括互联网广告和电子商务、金融、机器人和制造业。让我们仔细看看这些用例。

个性化

新闻推荐。机器学习通过分析客户的偏好、背景和在线行为模式的数据，使企业能够大规模地个性化客户交互。然而，推荐像在线新闻这样的内容类型仍然是一项复杂的任务。新闻特写本质上是动态的，很快就会变得不相关。主题中的用户首选项也会发生变化。

DRN:新闻推荐研究论文的深度强化学习框架的作者讲述了与新闻推荐方法相关的三个主要挑战。

首先，这些方法只尝试模拟当前(短期)奖励(例如，显示页面/广告/电子邮件浏览者点击链接的比率的点击率)。

第二个问题是，当前的推荐方法通常将点击/不点击标签或评级作为用户反馈来考虑。

第三，这些方法通常会继续向读者推荐类似的新闻，这样用户就会感到厌烦。研究人员使用了基于深度q学习的推荐框架，该框架同时考虑了当前奖励和未来奖励，以及用户反馈而不是点击数据。

个性化的游戏。游戏公司也加入了个性化派对。真的，为什么不考虑个人玩家的技能水平、游戏风格或偏好的游戏玩法来定制电子游戏体验呢?

游戏体验的个性化是通过玩家建模来实现的，其目的是增加玩家的乐趣。

玩家模型是基于玩家在游戏中的行为对其进行的抽象描述。可以改编的游戏组件包括空间、任务、角色、叙事、音乐和声音、游戏机制、难度缩放和玩家匹配(在多人游戏中)。

RL可用于实时优化游戏体验。在边缘设备的游戏个性化强化学习中，研究人员以Pong游戏为例，展示了这种机器学习技术的能力。

Unity为研究人员和开发人员提供了一个ML工具集，它允许通过一个简单的Python API通过强化学习和演进方法来训练智能。值得一提的是，我们还没有发现RL智能体在生产中的任何应用。

电子商务和互联网广告

专家们正在试验强化学习算法，以解决eBay、淘宝或亚马逊(Amazon)等电子商务网站的印象分配问题。印象是指访问者看到网页、广告或带有描述的产品链接的某些元素的次数。印象通常用来计算广告客户在网站上展示自己的信息需要支付多少钱。每次用户加载一个页面并弹出广告时，它都被视为一种印象。

这些平台的目标是最大限度地从交易中获得总收入，这就是为什么它们必须使用算法，将买家印象(显示买家对商品的要求)分配给最合适的潜在商户。

大多数平台使用协作过滤或基于内容的过滤等推荐方法。这些算法使用依赖于卖家交易历史的历史分数，对具有相似特征的客户进行排名。卖家通过实验价格来获得更高的排名位置，而这些算法没有考虑定价方案的变化。

为了解决这一问题，研究人员应用了一种通用的强化机制设计框架。该框架使用深度强化学习来开发评估卖家行为的有效算法。网上商家还可以通过欺诈交易来提高自己在电子商务平台上的排名，吸引更多的买家。据研究人员称，这降低了利用买家印象的效率，并威胁到商业环境。

但是，通过强化学习，可以在提高平台利润、减少欺诈活动的同时，完善平台的印象分配机制。在关于AI和DS的进展和趋势的文章中，我们讨论了另一个RL用例实时投标策略优化。它允许企业动态分配广告活动预算在所有可用印象的基础上，即时和未来的奖励。在实时竞价过程中，广告客户对一种印象进行竞价，如果他们中标，他们的广告就会显示在出版商的平台上。

金融行业交易

金融机构使用人工智能驱动的系统来自动化交易任务。

通常，这些系统使用监督学习来预测股票价格。他们不能做的是决定在特定情况下采取什么行动:买进、卖出或持有。交易员仍然需要制定业务趋势跟踪、基于模式或反趋势的规则来管理系统选择。另一个问题是，分析人员可能以不同的方式定义模式和确认条件，因此需要一致性。

宾夕法尼亚大学计算机科学教授迈克尔卡恩斯(Michael Kearns)于2018年6月被摩根士丹利(Morgan Stanley)股票交易公司聘用。

此外，交易员还可以了解到最合适的行动时间和/或最佳的交易规模。IBM在其数据科学体验平台上构建了一个利用强化学习的金融交易系统。

IBM的艾西瓦娅•斯里尼瓦桑说:“该模型利用每一步的随机行为对历史股价数据进行训练，我们根据每笔交易的盈亏来计算回报函数。”开发人员使用积极的投资回报来评估model s的性能。主动回报是基准与实际回报率(以百分比表示)之间的差异。

基于监督学习和强化基于学习的交易管道

图片模版： IBM Analytics/Inside Machine Learning on Medium

专家们还根据代表市场总体走势的市场指数来评估投资的表现。最后，我们以简单的买入持有策略和ARIMA-GARCH策略来评估模型。斯里尼瓦桑说:“我们发现，这个模型可以根据市场走势进行非常精确的调整，甚至可以捕捉到头部和肩部的模式，这些都是可以预示市场反转的重要趋势。”

自主车辆的训练

强化学习已被证明是一种有效的方法，用于训练为自动驾驶汽车系统提供动力的深度学习网络。英国公司Wayve声称是第一家在RL的帮助下开发无人驾驶汽车的公司。

开发人员通常会编写大量手写规则来告诉自动驾驶车辆如何驾驶，这导致开发周期变慢。Wayve的专家选择了另一种方式。他们只花了15-20分钟的时间教会一辆汽车从零起步，经过反复试验。

在一次实验中，一名人类驾驶员坐在车里，当算法出错，一辆车偏离轨道时，他进行了干预。该算法在不进行干预的情况下进行长距离驾驶。通过这种方式，汽车在虚拟世界中学会了在每次探险中安全驾驶。研究人员在他们的博客中解释了训练方法的技术细节。

机器人

机器人学中的许多问题可以表述为强化学习问题。机器人通过探索，从环境中获得反馈，学习最优的连续动作，以最大的累积回报完成任务。开发人员不会给出解决问题的详细说明。

《机器人研究中的RL》的作者指出，强化学习为复杂和难以设计的行为设计提供了一个框架和一系列工具。来自谷歌Brain Team和X公司的专家介绍了一种可伸缩的强化学习方法，用于解决训练机器人基于视觉的动态操作技能的问题。其具体目标是训练机器人掌握各种物体，包括在训练过程中看不见的物体。

他们将深度学习和RL技术相结合，使机器人能够不断地从他们的经验中学习，提高他们的基本感觉运动技能。专家们不必自己设计行为:机器人会自动学会如何完成这项任务。专家们设计了一种深度Q-learning算法(QT-Opt)，该算法利用了过去训练期间收集的数据(抓取尝试)。

在四个多月的时间里，7个机器人在800个小时内接受了1000多个视觉和物理上不同的物体的训练。通过对摄像机图像的分析，提出了机器人应该如何移动手臂和抓手的建议。

机器人正在收集抓取数据。来源： Google AI Blog

这种新颖的方法使得在700次测试中，对先前看不见的物体进行抓取的成功率达到96%。专家们之前使用的基于监督学习的方法显示成功率为78%。结果表明，该算法在不需要太多训练数据的情况下也能达到这样的精度(尽管训练时间更长)。

工业自动化

RL具有广泛应用于机械和设备调优的工业环境的潜力，以补充人类操作员。

Bonsai是提供深度强化学习平台的初创企业之一，为建立自主的工业解决方案以控制和优化系统的工作提供了一个深度强化学习平台。

例如，客户可以提高能源效率，减少停机时间，增加设备寿命，实时控制车辆和机器人。您可以收听O Reilly Data Show播客，在该播客中，Bonsai首席执行官和创始人描述了公司和企业各种可能的RL用例。

谷歌利用强化学习的力量变得更加环保。科技公司 IA research group, DeepMind，开发和部署了RL模型，该模型帮助冷却数据中心减少了高达40%的能源消耗和15%的总能源开销。

5.在商业中实施强化学习的挑战

应用RL解决业务问题可能会带来严重的挑战。这是因为这种技术本质上是探索性的。智能体在运行中收集数据，因为没有标记或未标记的数据来指导它实现任务目标。所做的决策会影响接收到的数据。这就是为什么智能体可能需要尝试不同的操作来获取新数据。

环境的不可预测性。RL算法在封闭的、合成的环境中训练时可能表现得很好。例如，在电子游戏中，智能体重复其决策过程的条件不会改变。现实世界并非如此。正是由于这些原因，金融、保险或医疗等行业在将资金投入基于RL的系统的试验之前要三思。

延迟反馈。在实际应用中，不确定需要多少时间才能实现特定决策的结果。例如，如果人工智能交易系统预测对某些资产(房地产)的投资将是有益的，我们将需要等待一个月、一年或几年，直到我们弄清楚这是否是一个好主意。

无限的时间范围。在RL中，智能体的首要目标是获得尽可能高的奖励。由于我们不知道需要多少时间或尝试，我们必须建立一个无限视野的目标。例如，如果我们测试一辆自动驾驶汽车(使用RL)改变车道，我们无法知道它会撞到路上的其他车辆多少次，直到它做对为止。

定义精确的奖励函数。数据科学家可能很难用数学的方法来表达好或坏行为的定义，计算出行为的回报。建议根据当前状态来考虑奖励函数，让代理知道它将要采取的行动是否会帮助它更接近最终目标。例如，如果需要训练一辆自动驾驶汽车在不撞上围栏的情况下右转，奖励功能的大小将取决于汽车与围栏之间的距离以及转向的开始。

数据问题和勘探风险。RL比监督学习需要更多的数据。对于强化学习算法来说，获取足够的数据是非常困难的。计算机科学家、企业家Andrew Ng在2017年旧金山人工智能大会上发表演讲时表示，要将这一理念应用到商业和实践中，还有很多工作要做。试想一下，如果只在街道上测试自动驾驶汽车系统，它会在道路上造成怎样的混乱:它会撞上邻居的汽车、行人，或者撞上护栏。

因此，在真实环境中测试使用RL的设备或系统可能是困难的、经济上不合理的和危险的。其中一种解决方案是在综合数据(3D环境)上进行测试，同时考虑在每个情况或时间步长(行人、道路类型和质量、天气条件等)上可能影响智能体决策的所有变量。

6.结论

尽管训练困难，强化学习仍能在实际业务场景中有效使用。

一般来说，当需要在不断变化的环境中寻找最优解时，RL是有价值的。强化学习用于作业自动化、机械设备控制与维护、能耗优化。

金融业也承认了强化学习的能力，为基于人工智能的培训系统提供动力。虽然通过反复试验来训练机器人是很耗时的，但它可以让机器人更好地评估真实世界的情况，使用它们的技能来完成任务或对意想不到的结果做出相应的反应。此外，RL在收入优化、欺诈预防和通过个性化增强客户体验方面为电子商务参与者提供了机会。

原文地址：https://www.altexsoft.com/blog/datascience/reinforcement-learning-explained-overview-comparisons-and-applications-in-business/

工业互联网

产业智能官 AI-CPS

加入知识星球“产业智能研究院”：先进产业OT（工艺+自动化+机器人+新能源+精益）技术和新一代信息IT技术（云计算+大数据+物联网+区块链+人工智能）深度融合，在场景中构建状态感知-实时分析-自主决策-精准执行-学习提升的机器智能认知计算系统；实现产业转型升级、DT驱动业务、价值创新创造的产业互联生态链。