自主多智能体系统必须在动态未知环境中高效规划、探索与导航,尤其在搜救、环境监测等任务中。此类场景常具部分可观测、通信受限与目标动态等特征,需跨智能体灵活协同。设计可随团队规模与任务复杂度扩展的自主性,需采用具备高层推理、信息驱动探索与鲁棒分散执行能力的模块化决策系统。
本论文提出一分层决策框架,从三个互补的自主层级应对上述挑战:高层规划、自适应探索与分散可扩展导航。最高层级LLaMAR(基于语言模型的多智能体机器人长时程规划器)利用大语言模型(LLM)将长时程任务分解为结构化子任务,使智能体动态调整策略。然有效执行这些计划需环境先验知识。中层探索策略BaTMaN(基于赌徒算法的跟踪监测与导航系统)系统化优先选择最大化信息增益的路径点,同时权衡能效与传感器可靠性等现实约束。最终,InforMARL通过基于图的局部信息聚合实现可扩展分散导航,提升样本效率并展现对未知团队规模的泛化能力。
本文逐层开发这些模块以构建自主技术栈。LLaMAR作为高层规划器,将自然语言目标转化为结构化子任务序列,通过“规划-执行-校正-验证”循环融入实时修正。BaTMaN充当中层探索引擎,引导配备传感器的智能体基于不确定性优先探测信息丰富区域。InforMARL在执行层运作,使分散智能体利用基于图的局部信息聚合与反应式控制策略在动态环境中导航。各模块可独立部署并针对不同挑战优化:战略推理、数据高效监测与可扩展导航。三者结合形成应对不确定环境下多智能体系统运行的连贯自主技术栈。