Human-like agents have long been one of the goals in pursuing artificial intelligence. Although reinforcement learning (RL) has achieved superhuman performance in many domains, relatively little attention has been focused on designing human-like RL agents. As a result, many reward-driven RL agents often exhibit unnatural behaviors compared to humans, raising concerns for both interpretability and trustworthiness. To achieve human-like behavior in RL, this paper first formulates human-likeness as trajectory optimization, where the objective is to find an action sequence that closely aligns with human behavior while also maximizing rewards, and adapts the classic receding-horizon control to human-like learning as a tractable and efficient implementation. To achieve this, we introduce Macro Action Quantization (MAQ), a human-like RL framework that distills human demonstrations into macro actions via Vector-Quantized VAE. Experiments on D4RL Adroit benchmarks show that MAQ significantly improves human-likeness, increasing trajectory similarity scores, and achieving the highest human-likeness rankings among all RL agents in the human evaluation study. Our results also demonstrate that MAQ can be easily integrated into various off-the-shelf RL algorithms, opening a promising direction for learning human-like RL agents. Our code is available at https://rlg.iis.sinica.edu.tw/papers/MAQ.


翻译:类人智能体长期以来一直是人工智能追求的目标之一。尽管强化学习(RL)在许多领域已实现超越人类的表现,但设计类人强化学习智能体却相对较少受到关注。因此,许多奖励驱动的强化学习智能体常表现出与人类相比不自然的行为,引发了对可解释性与可信度的担忧。为实现强化学习中的类人行为,本文首先将类人性建模为轨迹优化问题,其目标是在最大化奖励的同时,寻找与人类行为高度一致的动作序列,并将经典滚动时域控制方法适配至类人学习,作为一种可处理且高效的实现方式。为此,我们提出了宏动作量化(MAQ)框架——一种通过向量量化变分自编码器从人类示范中提炼宏动作的类人强化学习框架。在D4RL Adroit基准测试上的实验表明,MAQ显著提升了类人性,提高了轨迹相似度评分,并在人类评估研究中获得了所有强化学习智能体中最高的类人性排名。我们的结果还证明,MAQ能轻松集成到多种现成的强化学习算法中,为学习类人强化学习智能体开辟了前景广阔的研究方向。代码发布于 https://rlg.iis.sinica.edu.tw/papers/MAQ。

0
下载
关闭预览

相关内容

国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员