Patch foraging involves the deliberate and planned process of determining the optimal time to depart from a resource-rich region and investigate potentially more beneficial alternatives. The Marginal Value Theorem (MVT) is frequently used to characterize this process, offering an optimality model for such foraging behaviors. Although this model has been widely used to make predictions in behavioral ecology, discovering the computational mechanisms that facilitate the emergence of optimal patch-foraging decisions in biological foragers remains under investigation. Here, we show that artificial foragers equipped with learned world models naturally converge to MVT-aligned strategies. Using a model-based reinforcement learning agent that acquires a parsimonious predictive representation of its environment, we demonstrate that anticipatory capabilities, rather than reward maximization alone, drive efficient patch-leaving behavior. Compared with standard model-free RL agents, these model-based agents exhibit decision patterns similar to many of their biological counterparts, suggesting that predictive world models can serve as a foundation for more explainable and biologically grounded decision-making in AI systems. Overall, our findings highlight the value of ecological optimality principles for advancing interpretable and adaptive AI.


翻译:斑块觅食涉及一个经过深思熟虑和规划的过程,即确定离开资源丰富区域并探索潜在更优替代区域的最佳时机。边际价值定理(MVT)常被用来描述这一过程,为此类觅食行为提供了一个最优性模型。尽管该模型已广泛用于行为生态学中的预测,但揭示促进生物觅食者做出最优斑块觅食决策的计算机制仍在探索中。本文中,我们证明了配备学习所得世界模型的人工觅食者会自然地收敛到与MVT一致的策略。通过使用一个基于模型的强化学习智能体,该智能体获取了对其环境的简约预测性表征,我们证明了驱动高效斑块离开行为的是预期能力,而非单纯的奖励最大化。与标准的无模型强化学习智能体相比,这些基于模型的智能体展现出与许多生物对应物相似的决策模式,这表明预测性世界模型可以作为人工智能系统中更具可解释性和生物学基础的决策的基石。总体而言,我们的研究结果凸显了生态最优性原理对于推进可解释和自适应人工智能的价值。

0
下载
关闭预览

相关内容

国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员