【CMU博士论文】基于学习的方法应对多智能体主动搜索中的实际挑战

在自主智能体（无论是软件形式还是具身实体）应用中，交互式决策制定对于其有效运作至关重要。通常，智能体在一个多智能体环境中进行交互，其目标是实现各自或共享的目标。

在本论文中，我们研究了多智能体自适应决策问题，并以**多智能体主动搜索（Multi-Agent Active Search, MAAS）**框架为基础，重点聚焦于多机器人团队在搜索与救援、野生动物巡逻或环境监测等应用场景中的实践问题。

MAAS涉及一个机器人团队（智能体）在其过去观测的基础上，决定何时、在哪里获取周围环境的信息，以估计不同目标物体（OOIs，感兴趣物体）的存在与位置。智能体之间通过异步通信进行协作，无需依赖中心控制器协调其互动。在实际环境中，智能体间通信可能并不可靠，而且野外环境中的机器人还需应对观测噪声和随机动态的环境因素。我们在第一章中对MAAS进行了形式化建模，引入了针对空地机器人在感知、噪声和通信约束方面的现实模型。

本论文第一部分研究了在MAAS中使用Thompson采样和蒙特卡洛树搜索（Monte Carlo Tree Search）进行非短视（non-myopic）前瞻性决策的优势。同时，我们还引入了面向成本的多目标帕累托优化（Pareto optimization）框架，用于主动搜索问题，并指出该问题在部分可观测、去中心化的多智能体决策及其组合状态-动作空间的计算复杂性方面所面临的挑战。

第二部分聚焦于观测噪声和目标动态性所带来的实际挑战，并提出了基于贝叶斯滤波（Bayesian filtering）的算法。实验结果表明，不确定性建模对于推理和决策过程的重要性不容忽视。第三部分则转向用于决策制定的生成模型，特别是**在存在观测噪声的前瞻性MAAS中采用去噪扩散采样（denoising diffusion sampling）**方法。最后，我们探讨了上述方法在机器人多智能体决策以及其他具有类似现实约束的应用中的可行性与局限性。

成为VIP会员查看完整内容

相关内容

博士论文

关注 116

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下，选择自己能够把握和驾驭的潜在的研究方向，开辟新的研究领域。由此可见，这就对作者提出了较高要求，它要求作者必须在本学科的专业领域具备大量的理论知识，并对所学专业的理论知识有相当深入的理解和思考，同时还要具有相当水平的独立科学研究能力，能够为在学科领域提出独创性的见解和有价值的科研成果。因而，较之学士论文、硕士论文，博士论文具有更高的学术价值，对学科的发展具有重要的推动作用。

【CMU博士论文】深度平衡模型与扩散模型的实践应用：提升效率的方法

专知会员服务

4+阅读 · 5月24日

【EPFL博士论文】大型语言模型时代的协作式智能体

专知会员服务

25+阅读 · 5月16日

【NYU博士论文】神经网络中的简单结构：论表达能力、优化性与数据分布

专知会员服务

17+阅读 · 4月30日

【NTU博士论文】基于协作式多智能体强化学习的决策制定

专知会员服务

29+阅读 · 4月21日