【NeurIPS 2020】优化算法升迁深化学习效率 - 专知VIP

会员服务 ·

1

NeurIPS 2020 · 犒赏塑形 ·

2020 年 11 月 10 日

【NeurIPS 2020】优化算法升迁深化学习效率

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

网易伏羲实验室的论文《学习行使犒赏塑形：犒赏塑形的新方式》(《Learning to Utilize Shaping Rewards: A New Approach of Reward Shaping》)入选，凸显了国际顶尖的科研实力。

网易伏羲在论文中重点钻研的“犒赏塑形 ”（ Reward Shaping ）是一栽将先验知识转化为奖励函数，从而挑深邃化学习算法效率的有效技术手腕。现在，网易伏羲的深化学习技术已成功在《潮人篮球》、《叛变寒》等游玩中落地，而行使先验知识来设计和组织有效的附添奖励函数往往是项现在能够取得挺进的关键之一。

不过，追求卓异的附添奖励函数必要比较专科的周围知识以及一再迭代的人力投入。同时，原由涉及到人的操作，现在的一些形式将规则性的知识转化为算法能够理解的数值奖励时，往往也会将人的认知误差引入其中，对深化学习算法带来负面的影响。举例来说，在设计《潮人篮球》游玩机器人的附添奖励函数时，倘若把握不益对传球行为的奖励值的大幼，比赛中将会展现球员之间一向进走相互传球而不袭击的为难场面。

为了避免上述题目，网易伏羲此次入选的论文始次挑出自适宜地行使给定的附添奖励函数的形式，让学习算法能判定分歧状态下对答附添奖励的益坏，并选择性地添以行使。

在幼车立杆和MuJoCo环境的一系列实验终局外明，网易伏羲所挑出的算法，不光能够分辨出附添奖励的益坏并选择性地行使，甚至还能够将有害的奖励值转化为对学习有协助的奖励值。

浅易来说，网易伏羲挑出的算法不光能让人造智能的深化学习效率变高，还能协助人造智能筛选出准确的知识，让人造智能的学习更添实在。

https://arxiv.org/abs/2011.02669

成为VIP会员查看完整内容

9

相关内容

NeurIPS 2020

【布朗大学David Abel博士论文】强化学习抽象理论，297页pdf

【布朗大学David Abel博士论文】强化学习抽象理论，297页pdf

专知会员服务

88+阅读 · 2020年12月17日

【AAAI2021】Lipschitz终身强化学习

专知会员服务

31+阅读 · 2020年12月14日

【AAAI2021】近似梯度下降的学习图神经网络

专知会员服务

20+阅读 · 2020年12月9日

【博士论文】机器学习中部分非凸和随机优化算法研究

专知会员服务

75+阅读 · 2020年12月7日

NeurIPS 2020 | 非诚实拍卖中效用与均衡的学习问题

专知会员服务

9+阅读 · 2020年11月27日

【NeurIPS 2020】广义神经网络中的知识蒸馏: 风险约束、数据效率和不完善的教师

【NeurIPS 2020】广义神经网络中的知识蒸馏: 风险约束、数据效率和不完善的教师

专知会员服务

18+阅读 · 2020年11月11日

【NeurIPS 2020】学习神经网络中的不变性

专知会员服务

29+阅读 · 2020年10月24日

【MIT】约束最小-最大优化的复杂性，84页pdf

专知会员服务

44+阅读 · 2020年9月25日

【IJCAI2020-华为诺亚】面向深度强化学习的策略迁移框架

【IJCAI2020-华为诺亚】面向深度强化学习的策略迁移框架

专知会员服务

28+阅读 · 2020年5月25日

【CVPR2020】我们能用强化学习来学习图模型推断的启发规则吗?

专知会员服务

43+阅读 · 2020年5月5日

视频 | NeurIPS 2019分享：清华大学孙富春组提出全新模仿学习理论

视频 | NeurIPS 2019分享：清华大学孙富春组提出全新模仿学习理论

机器之心

11+阅读 · 2019年11月20日

支持个性化学习的行为大数据可视化研究

支持个性化学习的行为大数据可视化研究

MOOC

18+阅读 · 2019年5月27日

强化学习十大原则

强化学习十大原则

专知

12+阅读 · 2018年9月17日

为什么强化学习会成为当下机器学习最火的研究领域？

为什么强化学习会成为当下机器学习最火的研究领域？

机器学习算法与Python学习

6+阅读 · 2018年6月15日

学习如何学习的算法：简述元学习研究方向现状

学习如何学习的算法：简述元学习研究方向现状

深度学习世界

6+阅读 · 2018年4月9日

深度 | 学习如何学习的算法：简述元学习研究方向现状

深度 | 学习如何学习的算法：简述元学习研究方向现状

机器之心

8+阅读 · 2018年4月5日

基于自适应学习平台促进学生个性化学习的研究

基于自适应学习平台促进学生个性化学习的研究

MOOC

12+阅读 · 2018年4月2日

【强化学习】强化学习/增强学习/再励学习介绍

【强化学习】强化学习/增强学习/再励学习介绍

产业智能官

10+阅读 · 2018年2月23日

最适合机器学习新手的10种算法

最适合机器学习新手的10种算法

论智

9+阅读 · 2018年1月23日

无需奖励机制，伯克利的“反向课程”让强化学习更智能

无需奖励机制，伯克利的“反向课程”让强化学习更智能

论智

7+阅读 · 2017年12月25日

Fair Cake-Cutting in Practice

Arxiv

0+阅读 · 2020年12月14日

Monitoring multimode processes: a modified PCA algorithm with continual learning ability

Monitoring multimode processes: a modified PCA algorithm with continual learning ability

Arxiv

0+阅读 · 2020年12月13日

A Baseline for Few-Shot Image Classification

Arxiv

7+阅读 · 2020年3月1日

Optimization for deep learning: theory and algorithms

Optimization for deep learning: theory and algorithms

Arxiv

106+阅读 · 2019年12月19日

Self-labelling via simultaneous clustering and representation learning

Self-labelling via simultaneous clustering and representation learning

Arxiv

3+阅读 · 2019年11月13日

Adversarial NLI: A New Benchmark for Natural Language Understanding

Arxiv

4+阅读 · 2019年10月31日

Unsupervised Cross-Modality Domain Adaptation of ConvNets for Biomedical Image Segmentations with Adversarial Loss

Arxiv

10+阅读 · 2018年4月29日

MQGrad: Reinforcement Learning of Gradient Quantization in Parameter Server

Arxiv

4+阅读 · 2018年4月22日

Activation Maximization Generative Adversarial Nets

Arxiv

5+阅读 · 2018年1月30日

SeqGAN: Sequence Generative Adversarial Nets with Policy Gradient

Arxiv

5+阅读 · 2017年8月25日

VIP会员

相关主题

相关VIP内容

【布朗大学David Abel博士论文】强化学习抽象理论，297页pdf

【布朗大学David Abel博士论文】强化学习抽象理论，297页pdf

专知会员服务

88+阅读 · 2020年12月17日

【AAAI2021】Lipschitz终身强化学习

专知会员服务

31+阅读 · 2020年12月14日

【AAAI2021】近似梯度下降的学习图神经网络

专知会员服务

20+阅读 · 2020年12月9日

【博士论文】机器学习中部分非凸和随机优化算法研究

专知会员服务

75+阅读 · 2020年12月7日

NeurIPS 2020 | 非诚实拍卖中效用与均衡的学习问题

专知会员服务

9+阅读 · 2020年11月27日

【NeurIPS 2020】广义神经网络中的知识蒸馏: 风险约束、数据效率和不完善的教师

【NeurIPS 2020】广义神经网络中的知识蒸馏: 风险约束、数据效率和不完善的教师

专知会员服务

18+阅读 · 2020年11月11日

【NeurIPS 2020】学习神经网络中的不变性

专知会员服务

29+阅读 · 2020年10月24日

【MIT】约束最小-最大优化的复杂性，84页pdf

专知会员服务

44+阅读 · 2020年9月25日

【IJCAI2020-华为诺亚】面向深度强化学习的策略迁移框架

【IJCAI2020-华为诺亚】面向深度强化学习的策略迁移框架

专知会员服务

28+阅读 · 2020年5月25日

【CVPR2020】我们能用强化学习来学习图模型推断的启发规则吗?

专知会员服务

43+阅读 · 2020年5月5日

热门VIP内容

开通专知VIP会员享更多权益服务

《步兵小单元山地严寒作战指南》美军最新条令200页

《联合作战概念的发展》最新报告

俄制无人机弹药

《复杂场景下自主着陆的模型预测控制技术》92页

相关资讯

视频 | NeurIPS 2019分享：清华大学孙富春组提出全新模仿学习理论

视频 | NeurIPS 2019分享：清华大学孙富春组提出全新模仿学习理论

机器之心

11+阅读 · 2019年11月20日

支持个性化学习的行为大数据可视化研究

支持个性化学习的行为大数据可视化研究

MOOC

18+阅读 · 2019年5月27日

强化学习十大原则

强化学习十大原则

专知

12+阅读 · 2018年9月17日

为什么强化学习会成为当下机器学习最火的研究领域？

为什么强化学习会成为当下机器学习最火的研究领域？

机器学习算法与Python学习

6+阅读 · 2018年6月15日

学习如何学习的算法：简述元学习研究方向现状

学习如何学习的算法：简述元学习研究方向现状

深度学习世界

6+阅读 · 2018年4月9日

深度 | 学习如何学习的算法：简述元学习研究方向现状

深度 | 学习如何学习的算法：简述元学习研究方向现状

机器之心

8+阅读 · 2018年4月5日

基于自适应学习平台促进学生个性化学习的研究

基于自适应学习平台促进学生个性化学习的研究

MOOC

12+阅读 · 2018年4月2日

【强化学习】强化学习/增强学习/再励学习介绍

【强化学习】强化学习/增强学习/再励学习介绍

产业智能官

10+阅读 · 2018年2月23日

最适合机器学习新手的10种算法

最适合机器学习新手的10种算法

论智

9+阅读 · 2018年1月23日

无需奖励机制，伯克利的“反向课程”让强化学习更智能

无需奖励机制，伯克利的“反向课程”让强化学习更智能

论智

7+阅读 · 2017年12月25日

相关论文

Fair Cake-Cutting in Practice

Arxiv

0+阅读 · 2020年12月14日

Monitoring multimode processes: a modified PCA algorithm with continual learning ability

Monitoring multimode processes: a modified PCA algorithm with continual learning ability

Arxiv

0+阅读 · 2020年12月13日

A Baseline for Few-Shot Image Classification

Arxiv

7+阅读 · 2020年3月1日

Optimization for deep learning: theory and algorithms

Optimization for deep learning: theory and algorithms

Arxiv

106+阅读 · 2019年12月19日

Self-labelling via simultaneous clustering and representation learning

Self-labelling via simultaneous clustering and representation learning

Arxiv

3+阅读 · 2019年11月13日

Adversarial NLI: A New Benchmark for Natural Language Understanding

Arxiv

4+阅读 · 2019年10月31日

Unsupervised Cross-Modality Domain Adaptation of ConvNets for Biomedical Image Segmentations with Adversarial Loss

Arxiv

10+阅读 · 2018年4月29日

MQGrad: Reinforcement Learning of Gradient Quantization in Parameter Server

Arxiv

4+阅读 · 2018年4月22日

Activation Maximization Generative Adversarial Nets

Arxiv

5+阅读 · 2018年1月30日

SeqGAN: Sequence Generative Adversarial Nets with Policy Gradient

Arxiv

5+阅读 · 2017年8月25日

微信扫码咨询专知VIP会员