网易伏羲实验室的论文《学习行使犒赏塑形:犒赏塑形的新方式》(《Learning to Utilize Shaping Rewards: A New Approach of Reward Shaping》)入选,凸显了国际顶尖的科研实力。

网易伏羲在论文中重点钻研的“犒赏塑 形 ”( Reward Shaping )是一栽将先验知识转化为奖励函数,从而挑深邃化学习算法效率的有效技术手腕。 现在,网易伏羲的深化学习技术已成功在《潮人篮球》、《叛变寒》等游玩中落地,而行使先验知识来设计和组织有效的附添奖励函数往往是项现在能够取得挺进的关键之一。

不过,追求卓异的附添奖励函数必要比较专科的周围知识以及一再迭代的人力投入。同时,原由涉及到人的操作,现在的一些形式将规则性的知识转化为算法能够理解的数值奖励时,往往也会将人的认知误差引入其中,对深化学习算法带来负面的影响。举例来说,在设计《潮人篮球》游玩机器人的附添奖励函数时,倘若把握不益对传球行为的奖励值的大幼,比赛中将会展现球员之间一向进走相互传球而不袭击的为难场面。

为了避免上述题目,网易伏羲此次入选的论文始次挑出自适宜地行使给定的附添奖励函数的形式,让学习算法能判定分歧状态下对答附添奖励的益坏,并选择性地添以行使。

在幼车立杆和MuJoCo环境的一系列实验终局外明,网易伏羲所挑出的算法,不光能够分辨出附添奖励的益坏并选择性地行使,甚至还能够将有害的奖励值转化为对学习有协助的奖励值。

浅易来说,网易伏羲挑出的算法不光能让人造智能的深化学习效率变高,还能协助人造智能筛选出准确的知识,让人造智能的学习更添实在。

https://arxiv.org/abs/2011.02669

成为VIP会员查看完整内容
8

相关内容

【布朗大学David Abel博士论文】强化学习抽象理论,297页pdf
专知会员服务
28+阅读 · 2020年12月14日
专知会员服务
18+阅读 · 2020年12月9日
专知会员服务
70+阅读 · 2020年12月7日
专知会员服务
8+阅读 · 2020年11月27日
专知会员服务
27+阅读 · 2020年10月24日
专知会员服务
42+阅读 · 2020年9月25日
【IJCAI2020-华为诺亚】面向深度强化学习的策略迁移框架
专知会员服务
25+阅读 · 2020年5月25日
支持个性化学习的行为大数据可视化研究
强化学习十大原则
专知
11+阅读 · 2018年9月17日
为什么强化学习会成为当下机器学习最火的研究领域?
机器学习算法与Python学习
6+阅读 · 2018年6月15日
学习如何学习的算法:简述元学习研究方向现状
深度学习世界
6+阅读 · 2018年4月9日
【强化学习】强化学习/增强学习/再励学习介绍
产业智能官
10+阅读 · 2018年2月23日
最适合机器学习新手的10种算法
论智
9+阅读 · 2018年1月23日
Arxiv
0+阅读 · 2020年12月14日
Arxiv
7+阅读 · 2020年3月1日
Optimization for deep learning: theory and algorithms
Arxiv
102+阅读 · 2019年12月19日
Arxiv
5+阅读 · 2018年1月30日
VIP会员
相关VIP内容
【布朗大学David Abel博士论文】强化学习抽象理论,297页pdf
专知会员服务
28+阅读 · 2020年12月14日
专知会员服务
18+阅读 · 2020年12月9日
专知会员服务
70+阅读 · 2020年12月7日
专知会员服务
8+阅读 · 2020年11月27日
专知会员服务
27+阅读 · 2020年10月24日
专知会员服务
42+阅读 · 2020年9月25日
【IJCAI2020-华为诺亚】面向深度强化学习的策略迁移框架
专知会员服务
25+阅读 · 2020年5月25日
相关资讯
支持个性化学习的行为大数据可视化研究
强化学习十大原则
专知
11+阅读 · 2018年9月17日
为什么强化学习会成为当下机器学习最火的研究领域?
机器学习算法与Python学习
6+阅读 · 2018年6月15日
学习如何学习的算法:简述元学习研究方向现状
深度学习世界
6+阅读 · 2018年4月9日
【强化学习】强化学习/增强学习/再励学习介绍
产业智能官
10+阅读 · 2018年2月23日
最适合机器学习新手的10种算法
论智
9+阅读 · 2018年1月23日
微信扫码咨询专知VIP会员