在自主智能体(无论是软件形式还是具身实体)应用中,交互式决策制定对于其有效运作至关重要。通常,智能体在一个多智能体环境中进行交互,其目标是实现各自或共享的目标。
在本论文中,我们研究了多智能体自适应决策问题,并以**多智能体主动搜索(Multi-Agent Active Search, MAAS)**框架为基础,重点聚焦于多机器人团队在搜索与救援、野生动物巡逻或环境监测等应用场景中的实践问题。
MAAS涉及一个机器人团队(智能体)在其过去观测的基础上,决定何时、在哪里获取周围环境的信息,以估计不同目标物体(OOIs,感兴趣物体)的存在与位置。智能体之间通过异步通信进行协作,无需依赖中心控制器协调其互动。在实际环境中,智能体间通信可能并不可靠,而且野外环境中的机器人还需应对观测噪声和随机动态的环境因素。我们在第一章中对MAAS进行了形式化建模,引入了针对空地机器人在感知、噪声和通信约束方面的现实模型。
本论文第一部分研究了在MAAS中使用Thompson采样和蒙特卡洛树搜索(Monte Carlo Tree Search)进行非短视(non-myopic)前瞻性决策的优势。同时,我们还引入了面向成本的多目标帕累托优化(Pareto optimization)框架,用于主动搜索问题,并指出该问题在部分可观测、去中心化的多智能体决策及其组合状态-动作空间的计算复杂性方面所面临的挑战。
第二部分聚焦于观测噪声和目标动态性所带来的实际挑战,并提出了基于贝叶斯滤波(Bayesian filtering)的算法。实验结果表明,不确定性建模对于推理和决策过程的重要性不容忽视。 第三部分则转向用于决策制定的生成模型,特别是**在存在观测噪声的前瞻性MAAS中采用去噪扩散采样(denoising diffusion sampling)**方法。最后,我们探讨了上述方法在机器人多智能体决策以及其他具有类似现实约束的应用中的可行性与局限性。