This work discusses a learning approach to mask rewarding objects in images using sparse reward signals from an imitation learning dataset. For that, we train an Hourglass network using only feedback from a critic model. The Hourglass network learns to produce a mask to decrease the critic's score of a high score image and increase the critic's score of a low score image by swapping the masked areas between these two images. We trained the model on an imitation learning dataset from the NeurIPS 2020 MineRL Competition Track, where our model learned to mask rewarding objects in a complex interactive 3D environment with a sparse reward signal. This approach was part of the 1st place winning solution in this competition. Video demonstration and code: https://rebrand.ly/critic-guided-segmentation


翻译:本文讨论使用仿造学习数据集中的微弱奖赏信号在图像中掩盖奖励对象的学习方法。 为此, 我们仅使用来自批评者的反馈来训练沙漏网络。 沙漏网络学会了制作面具, 以减少评论者高分图像的得分, 通过在这两张图像之间互换蒙面区域来增加评论者低分图像的得分。 我们训练了NeurIPS 2020 MineRL 竞赛轨道的模拟学习数据集模型, 我们的模型在复杂的互动的3D环境中以稀有的奖赏信号来掩盖奖励对象。 这种方法是本次竞赛中第1个赢家解决方案的一部分 。 视频演示和代码 : https://rebrand.ly/critic- guided- sectionation

0
下载
关闭预览

相关内容

Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
160+阅读 · 2019年10月12日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
RL解决'LunarLander-v2' (SOTA)
CreateAMind
62+阅读 · 2019年9月27日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
【泡泡一分钟】LIMO:激光和单目相机融合的视觉里程计
泡泡机器人SLAM
12+阅读 · 2019年1月16日
Unsupervised Learning via Meta-Learning
CreateAMind
43+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
《pyramid Attention Network for Semantic Segmentation》
统计学习与视觉计算组
44+阅读 · 2018年8月30日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
LIMO: Lidar-Monocular Visual Odometry
Arxiv
3+阅读 · 2018年7月19日
Arxiv
9+阅读 · 2018年4月20日
VIP会员
相关VIP内容
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
160+阅读 · 2019年10月12日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
相关资讯
RL解决'LunarLander-v2' (SOTA)
CreateAMind
62+阅读 · 2019年9月27日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
【泡泡一分钟】LIMO:激光和单目相机融合的视觉里程计
泡泡机器人SLAM
12+阅读 · 2019年1月16日
Unsupervised Learning via Meta-Learning
CreateAMind
43+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
《pyramid Attention Network for Semantic Segmentation》
统计学习与视觉计算组
44+阅读 · 2018年8月30日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员