【NeurIPS2023】不仅仅是均匀采样：面对不平衡数据集的离线强化学习 - 专知VIP

会员服务 ·

17

NeurIPS 2023 · 强化学习 ·

2023 年 10 月 10 日

【NeurIPS2023】不仅仅是均匀采样：面对不平衡数据集的离线强化学习

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

离线策略学习旨在使用现有的轨迹数据集来学习决策策略，而无需收集额外的数据。使用强化学习（RL）而不是监督学习技术（如行为克隆）的主要动机是找到一个策略，该策略的平均回报高于构成数据集的轨迹。然而，我们经验性地发现，当一个数据集被次优轨迹所支配时，最先进的离线RL算法并没有在数据集中的轨迹平均回报上获得实质性的改进。我们认为这是因为当前的离线RL算法假设要接近数据集中的轨迹。如果数据集主要由次优轨迹组成，这个假设会迫使策略模仿次优动作。我们通过提出一个采样策略来克服这个问题，该策略使策略只受到"好数据"的约束，而不是数据集中的所有动作（即均匀采样）。我们呈现了采样策略的实现和一个算法，该算法可以用作标准离线RL算法中的即插即用模块。我们的评估在72个不平衡数据集、D4RL数据集和三种不同的离线RL算法中显示出显著的性能提升。代码可在https://github.com/Improbable-AI/dw-offline-rl 获取。

成为VIP会员查看完整内容

32

相关内容

NeurIPS 2023

【NeurIPS2023】将持续学习重新定义为序列建模

【NeurIPS2023】将持续学习重新定义为序列建模

专知会员服务

35+阅读 · 2023年10月19日

【CVPR2023】基于图像特定提示学习的零样本生成模型自适应

【CVPR2023】基于图像特定提示学习的零样本生成模型自适应

专知会员服务

31+阅读 · 2023年4月7日

【AAAI2023】基于Dirichlet元模型的事后不确定性学习

【AAAI2023】基于Dirichlet元模型的事后不确定性学习

专知会员服务

16+阅读 · 2022年12月16日

【MIT博士论文】通过奇异值分解、端到端基于模型的方法和奖励塑造的有效强化学习

【MIT博士论文】通过奇异值分解、端到端基于模型的方法和奖励塑造的有效强化学习

专知会员服务

48+阅读 · 2022年9月22日

【伯克利博士论文】学习跨领域的可迁移表示

【伯克利博士论文】学习跨领域的可迁移表示

专知会员服务

47+阅读 · 2022年8月17日

【ICML2021】连续结构非平稳性中的深度强化学习

专知会员服务

15+阅读 · 2021年9月25日

【KDD2021】图神经网络的自适应迁移学习

专知会员服务

66+阅读 · 2021年7月25日

【ICML2021】面向增长数据的自适应神经架构

专知会员服务

25+阅读 · 2021年7月8日

【AAAI2021】协同挖掘:用于稀疏注释目标检测的自监督学习

【AAAI2021】协同挖掘:用于稀疏注释目标检测的自监督学习

专知会员服务

27+阅读 · 2020年12月6日

【ICML2020-南大周志华老师组】针对未见类未标记数据的安全深度半监督学习

【ICML2020-南大周志华老师组】针对未见类未标记数据的安全深度半监督学习

专知会员服务

42+阅读 · 2020年7月5日

【CVPR2023】基于文本驱动软掩码的多模态表示学习

【CVPR2023】基于文本驱动软掩码的多模态表示学习

专知

1+阅读 · 2023年4月10日

【CVPR2023】基于图像特定提示学习的零样本生成模型自适应

【CVPR2023】基于图像特定提示学习的零样本生成模型自适应

专知

5+阅读 · 2023年4月8日

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

9+阅读 · 2023年4月6日

【CVPR2023】自异构融合知识挖掘的长尾视觉识别

【CVPR2023】自异构融合知识挖掘的长尾视觉识别

专知

5+阅读 · 2023年4月6日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

专知

15+阅读 · 2020年8月30日

【ICML2020-南大周志华老师组】针对未见类未标记数据的安全深度半监督学习

【ICML2020-南大周志华老师组】针对未见类未标记数据的安全深度半监督学习

专知

46+阅读 · 2020年7月5日

【KDD2020】图神经网络生成式预训练

【KDD2020】图神经网络生成式预训练

专知

22+阅读 · 2020年7月3日

最新《迁移学习:域自适应理论》综述论文，128页ppt讲解迁移学习与最优传输

最新《迁移学习:域自适应理论》综述论文，128页ppt讲解迁移学习与最优传输

专知

16+阅读 · 2020年4月27日

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

专知

13+阅读 · 2020年4月1日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

41+阅读 · 2015年12月31日

基于对称识别方法的贝叶斯probit模型稳健性研究

国家自然科学基金

3+阅读 · 2015年12月31日

高维回归模型的预测稳定性研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于随机有限集理论的复杂背景视频多目标跟踪研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于最大相关熵准则的支持向量机模型与算法研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

28+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

大数据环境下基于GMDH的客户分类半监督集成模型研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于结构学习的非平行支持向量机最优化方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向众核计算的数值方法协同设计--一种高效且高精度广义有限元方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

Piecewise polynomial regression of tame functions via integer programming

Piecewise polynomial regression of tame functions via integer programming

Arxiv

0+阅读 · 2023年11月22日

A model-free approach to fingertip slip and disturbance detection for grasp stability inference

Arxiv

0+阅读 · 2023年11月22日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

42+阅读 · 2023年4月19日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

103+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

218+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

482+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

148+阅读 · 2023年3月29日

Knowledge Graphs: Opportunities and Challenges

Arxiv

174+阅读 · 2023年3月24日

A survey and taxonomy of loss functions in machine learning

Arxiv

26+阅读 · 2023年1月13日

VIP会员

相关主题

相关VIP内容

【NeurIPS2023】将持续学习重新定义为序列建模

【NeurIPS2023】将持续学习重新定义为序列建模

专知会员服务

35+阅读 · 2023年10月19日

【CVPR2023】基于图像特定提示学习的零样本生成模型自适应

【CVPR2023】基于图像特定提示学习的零样本生成模型自适应

专知会员服务

31+阅读 · 2023年4月7日

【AAAI2023】基于Dirichlet元模型的事后不确定性学习

【AAAI2023】基于Dirichlet元模型的事后不确定性学习

专知会员服务

16+阅读 · 2022年12月16日

【MIT博士论文】通过奇异值分解、端到端基于模型的方法和奖励塑造的有效强化学习

【MIT博士论文】通过奇异值分解、端到端基于模型的方法和奖励塑造的有效强化学习

专知会员服务

48+阅读 · 2022年9月22日

【伯克利博士论文】学习跨领域的可迁移表示

【伯克利博士论文】学习跨领域的可迁移表示

专知会员服务

47+阅读 · 2022年8月17日

【ICML2021】连续结构非平稳性中的深度强化学习

专知会员服务

15+阅读 · 2021年9月25日

【KDD2021】图神经网络的自适应迁移学习

专知会员服务

66+阅读 · 2021年7月25日

【ICML2021】面向增长数据的自适应神经架构

专知会员服务

25+阅读 · 2021年7月8日

【AAAI2021】协同挖掘:用于稀疏注释目标检测的自监督学习

【AAAI2021】协同挖掘:用于稀疏注释目标检测的自监督学习

专知会员服务

27+阅读 · 2020年12月6日

【ICML2020-南大周志华老师组】针对未见类未标记数据的安全深度半监督学习

【ICML2020-南大周志华老师组】针对未见类未标记数据的安全深度半监督学习

专知会员服务

42+阅读 · 2020年7月5日

热门VIP内容

开通专知VIP会员享更多权益服务

新型数字杀伤链：理解综合战术网络对野战炮兵体系的能力与效益

《对抗环境中运用数字孪生技术优化预测性维护与后勤保障》2025最新93页

《任务式指挥十六个案例研究》232页

《幻觉还是事实：国防大型语言模型的可信度评估研究》2025最新109页

相关资讯

【CVPR2023】基于文本驱动软掩码的多模态表示学习

【CVPR2023】基于文本驱动软掩码的多模态表示学习

专知

1+阅读 · 2023年4月10日

【CVPR2023】基于图像特定提示学习的零样本生成模型自适应

【CVPR2023】基于图像特定提示学习的零样本生成模型自适应

专知

5+阅读 · 2023年4月8日

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

9+阅读 · 2023年4月6日

【CVPR2023】自异构融合知识挖掘的长尾视觉识别

【CVPR2023】自异构融合知识挖掘的长尾视觉识别

专知

5+阅读 · 2023年4月6日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

专知

15+阅读 · 2020年8月30日

【ICML2020-南大周志华老师组】针对未见类未标记数据的安全深度半监督学习

【ICML2020-南大周志华老师组】针对未见类未标记数据的安全深度半监督学习

专知

46+阅读 · 2020年7月5日

【KDD2020】图神经网络生成式预训练

【KDD2020】图神经网络生成式预训练

专知

22+阅读 · 2020年7月3日

最新《迁移学习:域自适应理论》综述论文，128页ppt讲解迁移学习与最优传输

最新《迁移学习:域自适应理论》综述论文，128页ppt讲解迁移学习与最优传输

专知

16+阅读 · 2020年4月27日

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

专知

13+阅读 · 2020年4月1日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

41+阅读 · 2015年12月31日

基于对称识别方法的贝叶斯probit模型稳健性研究

国家自然科学基金

3+阅读 · 2015年12月31日

高维回归模型的预测稳定性研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于随机有限集理论的复杂背景视频多目标跟踪研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于最大相关熵准则的支持向量机模型与算法研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

28+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

大数据环境下基于GMDH的客户分类半监督集成模型研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于结构学习的非平行支持向量机最优化方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向众核计算的数值方法协同设计--一种高效且高精度广义有限元方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

相关论文

Piecewise polynomial regression of tame functions via integer programming

Piecewise polynomial regression of tame functions via integer programming

Arxiv

0+阅读 · 2023年11月22日

A model-free approach to fingertip slip and disturbance detection for grasp stability inference

Arxiv

0+阅读 · 2023年11月22日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

42+阅读 · 2023年4月19日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

103+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

218+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

482+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

148+阅读 · 2023年3月29日

Knowledge Graphs: Opportunities and Challenges

Arxiv

174+阅读 · 2023年3月24日

A survey and taxonomy of loss functions in machine learning

Arxiv

26+阅读 · 2023年1月13日

微信扫码咨询专知VIP会员