强化学习(Reinforcement Learning, RL)已成为神经组合优化领域的一项强大工具,使模型能够在无需专家知识的前提下学习启发式策略以求解复杂问题。尽管取得了显著进展,现有的强化学习方法仍面临诸多挑战,如奖励信号逐渐减弱、在庞大的组合动作空间中探索效率低下,最终导致整体性能受限。 为此,本文提出了一种新颖的方法——偏好优化(Preference Optimization),通过统计比较建模将传统的定量奖励信号转化为定性的偏好信号,强调在采样解之间的相对优劣。具体而言,我们通过将奖励函数重参数化为策略形式,并引入偏好建模,构建了一个熵正则化的强化学习目标函数,该目标可使策略直接对齐于偏好,同时规避了难以处理的计算过程。 此外,我们将局部搜索技术集成到策略微调过程中,而非作为后处理步骤,用于生成高质量的偏好对,从而帮助策略跳出局部最优解。 在多个经典基准任务上(如旅行商问题 TSP、有容量限制的车辆路径问题 CVRP,以及柔性流水车间调度问题 FFSP)进行的实证研究表明,所提出的方法在收敛效率和解质量方面均显著优于现有的强化学习算法。

成为VIP会员查看完整内容
1

相关内容

【ICML2024】更快的自适应去中心化学习算法
专知会员服务
22+阅读 · 2024年8月22日
【KDD2024】面向鲁棒推荐的决策边界感知图对比学习
专知会员服务
21+阅读 · 2024年8月8日
【ICML2024】上下文感知标记化的高效世界模型
专知会员服务
29+阅读 · 2024年7月2日
【AAAI2023】类增量学习的在线超参数优化
专知会员服务
20+阅读 · 2023年1月18日
【NeurIPS2022】通过模型转换的可解释强化学习
专知会员服务
37+阅读 · 2022年10月4日
专知会员服务
23+阅读 · 2021年9月27日
专知会员服务
66+阅读 · 2021年7月25日
【ACM MM2020】跨模态分布匹配的半监督多模态情感识别
专知会员服务
43+阅读 · 2020年9月8日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
【KDD2020】动态知识图谱的多事件预测
专知
88+阅读 · 2020年8月31日
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
使用 Keras Tuner 调节超参数
TensorFlow
15+阅读 · 2020年2月6日
DeepMind:用PopArt进行多任务深度强化学习
论智
29+阅读 · 2018年9月14日
国家自然科学基金
41+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Arxiv
169+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
459+阅读 · 2023年3月31日
Arxiv
76+阅读 · 2023年3月26日
Arxiv
168+阅读 · 2023年3月24日
Arxiv
24+阅读 · 2023年3月17日
VIP会员
相关VIP内容
【ICML2024】更快的自适应去中心化学习算法
专知会员服务
22+阅读 · 2024年8月22日
【KDD2024】面向鲁棒推荐的决策边界感知图对比学习
专知会员服务
21+阅读 · 2024年8月8日
【ICML2024】上下文感知标记化的高效世界模型
专知会员服务
29+阅读 · 2024年7月2日
【AAAI2023】类增量学习的在线超参数优化
专知会员服务
20+阅读 · 2023年1月18日
【NeurIPS2022】通过模型转换的可解释强化学习
专知会员服务
37+阅读 · 2022年10月4日
专知会员服务
23+阅读 · 2021年9月27日
专知会员服务
66+阅读 · 2021年7月25日
【ACM MM2020】跨模态分布匹配的半监督多模态情感识别
专知会员服务
43+阅读 · 2020年9月8日
相关资讯
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
【KDD2020】动态知识图谱的多事件预测
专知
88+阅读 · 2020年8月31日
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
使用 Keras Tuner 调节超参数
TensorFlow
15+阅读 · 2020年2月6日
DeepMind:用PopArt进行多任务深度强化学习
论智
29+阅读 · 2018年9月14日
相关基金
国家自然科学基金
41+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
微信扫码咨询专知VIP会员