01. 虚幻乐园-基于虚幻引擎的多智能体强化学习通用平台********
Unreal-MAP: Unreal-Engine-Based General Platform for Multi-agent Reinforcement Learning ★O****ral
**作者:**扈天翼,付清旭,蒲志强,王元,丘腾海 本工作推出了多智能体强化学习(MARL)领域中第一个通用平台Unreal-MAP。该平台基于虚幻引擎(UE)打造,允许用户利用UE社区丰富的视觉与物理资源创建定制化MARL任务,并在开发的任务中部署最前沿MARL算法。该平台在部署、修改和可视化方面均用户友好,且所有组件开源。此外,本工作还推出了MARL领域中第一个支持多队伍多算法训练的训练框架HMAP,支持从规则驱动到学习驱动的多种算法,并兼容第三方框架算法。团队通过Unreal-MAP搭建了一系列MARL示例任务,包括大规模、异构、多队伍博弈、稀疏团队奖励等特征,并在这些示例任务中充分测试了SOTA算法。最后,团队完成了sim2real的系统性实验验证。研究认为,通过将现有算法与用户自定义真实任务深度整合,Unreal-MAP将在MARL领域发挥重要推动作用,促进该领域的研究与应用发展。
图1. Unreal-MAP的研究工作流程:针对新手用户,该平台提供对内置任务的直接访问权限,并配备完善的算法部署功能及可视化能力;针对高级用户,Unreal-MAP支持用户修改现有内置任务或自主开发新任务框架,从而验证其研究设想。平台兼容各种算法和算力设备,可实现虚幻端渲染、打包文件渲染以及跨设备训练+实时渲染。
图2. Unreal-MAP的架构设计: 该平台采用层次化五层架构设计,全部功能模块均开源。用户可仅通过Python接口层配置参数,对POMG框架内的所有要素进行编辑修改;对于更复杂的开发需求,用户可借助高级模块层的蓝图系统(Blueprint)灵活调整场景要素。
**02. **TinyChemVL:通过高效视觉令牌缩减与复杂反应任务推进化学视觉语言模型
TinyChemVL: Advancing Chemical Vision-Language Models via Efficient Visual Token Reduction and Complex Reaction Tasks **作者:**赵烜乐,曾舒心,蔡新元,程翔,徐波 尽管视觉语言模型(VLM)在通用视觉理解上能力卓越,但在化学领域的应用却因忽视分子结构等关键视觉信息而受限。现有的化学VLM模型普遍存在两大问题:一是处理完整化学图像导致计算效率低下,二是任务局限于分子层面,导致化学推理能力不足。 为此,本研究提出了 TinyChemVL,一个高效且强大的化学VLM。它通过视觉令牌缩减技术提升效率,并引入反应层面任务来增强模型的推理能力。此外,研究团队还构建了首个反应级基准 ChemRxn-V,用于评估模型的视觉反应识别与预测能力,这对模型的综合识别与推理能力提出了重大挑战。实验结果表明,仅有4B参数的 TinyChemVL 在分子和反应任务上均取得了顶尖性能,且训练与推理速度更快。
图1. TinyChemVL模型算法与结构图
图2. ChemRxn-V任务
**03. **面向情境化语音识别的语音感知长上下文剪枝与集成
Speech-Aware Long Context Pruning and Integration for Contextualized Automatic Speech Recognition **作者:**戎奕名,张逸昕,王子翼,江德扬,赵云龙,吴浩然,周世玉,徐波 自动语音识别(Automatic Speech Recognition, ASR)系统在常规条件下已取得显著性能,但在需要领域特定知识的情境化场景(如会议报告)中,往往难以有效利用长时上下文信息。其主要原因在于模型可用的上下文窗口受限,以及大量上下文噪声中有效信息的稀疏性。 为解决这一问题,本研究提出了SAP2方法,这一全新框架能够通过两阶段动态剪枝与整合相关的上下文关键词。具体而言,每个阶段均采用本研究提出的基于语音驱动的注意力池化机制,从而在保留与语音高度相关信息的同时,高效压缩上下文嵌入。实验结果表明,SAP2在SlideSpeech 与LibriSpeech数据集上均取得了当前最优性能,其字错误率(WER)分别达到 7.71%与1.12%。在 SlideSpeech上,该方法相较于无上下文基线,在有偏关键词错误率(B-WER)上实现了 41.1% 的显著下降。此外,SAP2还展现出良好的可扩展性,在面对大规模上下文输入时依然能够在两项数据集上稳定保持优异表现。
图1. SAP2整体框架示意图
图2. 识别结果对比示例
**04. **基于预训练嵌入的不完美信息博弈无遗憾策略求解
No-Regret Strategy Solving in Imperfect-Information Games via Pre-trained Embedding **作者:**付延昌,刘圣达,徐沛,黄凯奇 高质量信息集约简仍是求解大规模不完美信息扩展型博弈(如无限制德州扑克)的核心挑战 —— 此类博弈中,空间计算资源的有限性阻碍了全博弈层面的策略求解。当前主流人工智能方法依赖预训练离散聚类实现约简,但这种硬分类会不可逆地丢失关键信息:具体而言,信息集之间可量化的细微差异(这对策略求解至关重要),进而影响求解质量。 受自然语言处理中词嵌入范式的启发,本文提出嵌入 CFR 算法(Embedding CFR),一种在嵌入空间中求解不完美信息扩展型博弈策略的新方法。该算法通过预训练将孤立信息集的特征嵌入到相互关联的低维连续空间中,生成的向量能更精准地捕捉信息集之间的差异与关联。嵌入 CFR 在该嵌入空间内,以遗憾累积和策略更新为核心驱动策略求解过程,相关理论分析验证了其降低累积遗憾的能力。在德州扑克的变体实验环境中的验证表明,在相同空间开销下,与基于聚类的约简算法相比,经嵌入 CFR 求解的策略可利用度下降速度显著更快,证实了算法的有效性。嵌入CFR是首个在扑克人工智能中通过低维嵌入预训练信息集约简以实现策略求解的算法。
图1. 德州扑克中手牌■、●、◆(表征信息集)在Embedding CFR与传统信息集约简下的表征行为对比:(a)Embedding CFR将信息集映射为嵌入坐标,该坐标构成m维概率分布,且所有维度的数值之和为1;(b)嵌入坐标的二维投影展示了手牌间的几何拓扑关系,既突出了相似性(■与●之间的近距离),也体现了差异性(与◆的远距离);(c)传统约简方法将信息集映射固定数量(如m个)的约简等价类中,迫使信息集在分类时面临二元选择:以■、●为例,要么将二者细分到不同等价类,要么将二者合并到同一类。这种缺乏中间状态的特性,阻碍了利用信息集间的相似性辅助策略求解的可能。
图2. Embedding CFR与基础CFR算法的运行流程对比:Embedding CFR(左)需要将原空间中的遗憾值在嵌入空间中积累并诱导计算出嵌入空间中的辅助策略并映射回原空间,基础CFR只需要在原空间内积累遗憾并诱导计算策略。
**05. **元认知参考模型引导的大模型智能体策略优化算法
RefRea: Reference-Guided Reasoning with Meta-Cognition for Accurate Language Model Agents **作者:**麦宇翔,尹奇跃,倪晚成,郭建威,欧阳小刚,徐沛,黄凯奇 近年来,随着大语言模型(LLMs)的快速发展,基于 LLM 的智能体在广泛的任务中取得了显著进展。然而, LLMs 的推理不一致性仍然严重限制了智能体在复杂决策场景中的表现。认知科学研究表明,个体通过观察他人的显性思维过程,可以改善自身的策略制定。 受这一机制启发,本章提出了一种新的方法基于参考引导与元认知的推理(RefRea),通过引入参考语言模型来指导和校准推理模型的行为,从而增强决策能力。RefRea 通过整合参考模型与元认知模块提升了推理的准确性与稳定性。参考模型仅依赖经过验证的元认知进行一致性指导,而推理模型则利用经过验证和探索性的元认知与环境交互。两者之间的指导是通过比较参考模型与推理模型的动作相似性实现的。元认知模块在这一过程中发挥支持作用,它通过反思动作历史和环境反馈生成总结性知识,从而促使行为更加适应性和可靠。实验结果表明,RefRea 优于当前最先进的方法。全面的消融实验进一步凸显了参考模型和元认知模块的有效性。
RefRea算法框架,包括推理模型、参考模型和元认知模块。该方法利用参考模型通过元认知对推理模型的动作进行校正,从而实现更高的推理准确性与稳定性。
**06. **意象搜索:面向视频生成的突破语义依赖约束的自适应测试时搜索方法
ImagerySearch: Adaptive Test-Time Search for Video Generation Beyond Semantic Dependency Constraints **作者:**武美奇,朱家树,丰效坤,陈楚彬,朱琛,宋秉泽,毛方圆,吴佳洪,初祥祥,黄凯奇 随着生成模型的飞速发展,视频生成在真实场景中的表现已趋近人类视觉感知,但在需要跨越常识与长语义距离的“想象场景”中仍显乏力。针对这一瓶颈,研究团队提出了全新的推理时动态自适应策略——ImagerySearch,以突破现有视频生成模型在创造性视频生成中的局限。 与传统方法固定搜索空间和静态奖励不同,ImagerySearch受“心象(mental imagery)”启发,能够在推理阶段动态调整生成搜索空间与奖励设计,使模型根据输入文本提示自适应优化生成策略,从而显著提升在想象性与非共现概念场景下的视频生成质量。 为系统评测生成模型的创造性能力,团队还构建了首个面向长语义距离提示的基准数据集——LDT-Bench(Long-Distance Text Benchmark)。该基准包含 2839 组来自多领域具有挑战性的长距离语义概念对,并配套自动化评估指标体系,用于量化模型在跨长语义距离生成任务中的表现。 实验结果表明,ImagerySearch 在 LDT-Bench 上超越现有通用视频生成模型与静态Test-Time Scaling Law的方法,并在 VBench 等通用基准上同样表现优异,验证了其在多样条件下提升视频生成质量的有效性。团队将开源代码,以推动生成模型在创造性与认知一致性方向的进一步研究。
ImagerySearch 的动机。该图展示了两个与骆驼相关的语义依赖场景。左:距离表示在去噪过程中提示词元的相应作用强度。LDT-Bench 由具有长距离语义的想象场景构成,其语义依赖通常较弱。右:Wan2.1 在短距离语义下表现良好,但在长距离语义下失效。测试时缩放方法(如 Video T1(Liu et al., 2025a)、Evosearch(He et al., 2025a))同样表现乏力。然而,ImagerySearch 能生成连贯且具备上下文感知的动作(橙色框)。
**07. **辅助数学推理的偏差约束前缀表示微调
Bias-Restrained Prefix Representation Finetuning for Mathematical Reasoning **作者:**梁思睿,曹鹏飞,赵鉴,黄聪,赵军,刘康 本研究在解决表示微调方法在应用于大型语言模型进行数学推理时性能显著下降的问题。作为一种比参数高效微调更高效的技术,表示微调通过直接优化模型内部表征而非调整权重来适应新任务,但在数学领域表现不佳。通过诊断分析发现,其性能瓶颈主要源于两大原因:一是模型在推理初期难以生成有效的“推理前缀”,导致解题思路存在误导;二是表示微调的干预向量会干扰模型对数字的基础编码,这种错误会在后续的“思维链”生成中不断累积,最终导致计算失败。 为应对这些挑战,本文提出了一种名为“偏差约束前缀表示微调”的新方法。该方法通过前缀训练与早期干预策略,使模型专注于学习生成高质量的初始推理步骤,并仅在早期进行干预以避免误差扩散。同时,通过“偏差约束训练”对干预向量的幅度进行约束,确保在有效引导推理的同时不破坏底层的数值表征。在多种模型架构上的大量实验证明该方法的有效性和通用性,显著提升了大型语言模型在数学推理任务上的表现。
ReFT和BREP的方法对比
**08. **RetroLM:面向长上下文处理的检索增强键值缓存
RetroLM: Retrieval-Augmented KVs For Long-Context Processing **作者:**罗坤,刘政,肖诗涛,陈佳倍,钱泓锦,张配天,江珊珊,董斌,赵军,刘康 该研究针对大语言模型(LLM)在处理长上下文时面临的计算成本高昂和信息检索不准确等挑战,提出了一个名为RetroLM的新颖检索增强框架。 与在原始文本层面进行检索的传统RAG方法不同,RetroLM创新地在模型的键值(Key-Value, KV)缓存层面进行操作。它将KV缓存划分为连续的“页面”,并设计了一个专门的可训练“页面检索器”,以在推理过程中精确、动态地识别并检索出最关键的KV页面用于注意力计算。该框架通过高效的两阶段训练策略进行优化:首先训练检索器,然后对模型进行后训练以适应稀疏的KV上下文。 这种方法有效克服了传统RAG导致的文本碎片化和对检索错误敏感的问题,提升了模型对零散信息的利用效率,并节省了重复编码上下文的开销。在多个长文本基准测试上的实验结果表明,RetroLM的性能显著优于现有的长上下文模型和RAG方法,尤其在需要深度推理或处理超长文本的任务上优势更为明显。
提出的retrolm实现架构创新,有效处理长文本问题
**09. **EPO:基于能量偏好优化的蛋白质系综生成
EPO: Diverse and Realistic Protein Ensemble Generation via Energy Preference Optimization **作者:**孙园成,任宇轩,陈钊铭,韩旭,刘康,叶启威 探索蛋白质构象系综对理解其功能至关重要。传统分子动力学(MD)计算昂贵且易陷入能垒。本研究提出能量偏好优化(Energy Preference Optimization,EPO),在无需额外MD轨迹数据的前提下,将预训练生成模型转化为具备能量感知的采样器。EPO首先通过基于SDE的在线采样拓展构象空间覆盖,然后引入基于列表式偏好优化的能量排序机制,用更具物理能量-采样概率一致性的样本引导模型自我改进。为解决连续时间生成模型中长轨迹概率难以计算的问题,EPO提出了一个实用的上界近似,实现了在现有生成模型上的即插即用。在Tetrapeptides、ATLAS与Fast-Folding等基准上,EPO在九项指标上刷新SOTA,提升了蛋白质系综生成的几何多样性与物理合理性。
(a)EPO流程示意图。(b) 序列ASRE的势能面示意图。通过SDE在线采样实现对构象空间的多样性探索,通过基于能量偏好的微调实现与热力学分布的对齐。
**10. **SR-KI:通过监督注意力实现面向大语言模型的可扩展与实时知识注入
SR-KI: Scalable and Real-Time Knowledge Integration into LLMs via Supervised Attention **作者:**俞博瀚,黄伟,刘康 本文提出了一种名为SR-KI的创新方法,用于将实时、大规模的结构化知识库(KBs)高效地融入大语言模型(LLMs)中。SR-KI首先通过预训练编码器将知识库编码为键值对(key-value pairs),并注入模型的KV 缓存(KV cache)。在此基础上,SR-KI采用了两阶段训练范式:第一阶段定位模型内部的专属“检索层”(retrieval layer),第二阶段在该层施加基于注意力的监督损失,显式引导模型聚焦于相关知识条目。与传统依赖外部检索器和多阶段工作流的检索增强生成方法不同,SR-KI实现了端到端推理,在模型的潜在空间中直接完成知识检索。这一设计不仅提升了知识压缩与利用效率,还支持动态知识更新。 实验结果显示,SR-KI可在单张A100 40GB GPU上为7B参数模型注入多达4万条知识库条目,在最佳任务上实现超过98% Recall@10,平均性能超过88%。在问答和知识标识生成任务中,SR-KI 同样保持了卓越表现,同时实现了高达 99.75% 的知识压缩率。
图1. SR-KI在训练阶段于检索层应用监督注意力的示意图
图2. SR-KI推理阶段示意图
**11. **思考、交流与决策:经济环境中的语言增强多智能体策略学习
Think, Speak, Decide: Language-Augmented Multi-Agent Policy Learning in Economic Environments **作者:**马赫阳,米祈睿,杨企鹏,樊梓君,李博,张海峰 经济决策不仅依赖于价格、税收等结构化信号,也依赖于同伴对话、媒体叙事等非结构化语言信息。虽然多智能体强化学习(MARL)在优化经济决策方面已经展现出潜力,但在处理语言的语义歧义与丰富的上下文时仍然存在困难。为此,本研究提出LAMP(语言增强多智能体策略),这是第一个将语言融入经济决策过程的框架,从而缩小与真实世界场景之间的差距。LAMP 采用“思考–表达–决策”的流程: ● 思考:对数值观测进行解释,提取短期冲击和长期趋势,并缓存高价值的推理轨迹。 ● 表达:基于推理结果生成并交换具有策略性的消息,同时通过解析同伴的交流内容来更新自身信念。 ● 决策:将数值数据、推理过程和反思结果融合到多智能体强化学习策略中,以优化经语言增强的决策过程。 在经济仿真实验中,LAMP 在累计收益(提升 63.5% 和 34.0%)、稳健性(提升 18.8% 和 59.4%)以及可解释性方面,都优于传统 MARL 和仅使用大语言模型的基线方法。结果表明,语言增强策略有望带来更高效且更具鲁棒性的经济决策方案。
LAMP 的工作流程:(a)双路径的思考模块将长期趋势和短期冲击提取为紧凑的推理嵌入;(b)表达模块通过自注意力机制抽样并广播一条消息,并通过反思步骤来更新信念;(c)决策模块的策略网络将数值观测与语言嵌入和反思嵌入拼接起来,从而选择动作。
**12.**SAGE:面向广义零样本学习的结构化属性引导框架
SAGE: Structured Attribute-Guided Enhancement for GZSL **作者:**张早,孙立国,吕品 基于嵌入的广义零样本学习模型通常首先在视觉特征与属性特征之间建立稳健的潜在语义关联,以使知识能够迁移至未见类别。尽管现有方法以属性为先验并学习共享嵌入空间,但它们存在两个关键缺陷:首先,模型对异质粒度的属性进行统一处理,导致语义模糊;其次,类别级误判的根源常与属性级错误不匹配,阻碍模型定位导致错误的特定属性。 为克服这些局限,本研究提出结构化属性引导框架(SAGE)。该框架首先通过共识感知的双向注意力机制,以互蒸馏方式同步视觉与语义的关注区域;接着,研究团队将所有属性划分为两两互斥的子集——全局属性、上下文属性与局部属性,并将其与对应空间尺度提取的视觉特征耦合;最后,设计一种跨样本、子集感知的蒸馏机制——当样本被误分类时,SAGE定位责任属性子集,从记忆库中检索高置信度原型,并对相应特征分支施加KL散度约束,帮助模型正确理解误判来源,从而有效提升模型表现。
图1. 零样本学习中的属性被划分为全局属性、上下文属性与局部属性三个子集(左)。其中,勾号表示预测属性与真实标签匹配,叉号表示不匹配。三个多尺度视觉分支分别与相应的属性子集对齐,它们的融合结果用于预测完整的属性向量(右)。此处的勾号代表施加KL散度惩罚,叉号则代表不施加。
图2. SAGE的模型框架
**13. **MR-COSMO:面向查询驱动三维分割的视觉-文本记忆检索与跨模态直接对齐方法
MR-COSMO: Visual-Text Memory Recall and Direct CrOSs-MOdal Alignment Method for Query-Driven 3D Segmentation **作者:**李查德,张朋举,吴毅红 近年来,视觉-语言模型在三维领域的快速发展显著推动了基于文本查询的点云处理研究。然而,现有方法在点级分割任务中表现受限,主要原因在于三维与文本特征对齐不足,导致局部几何特征难以与本文语义建立有效联系。 为此,本研究提出MR-COSMO,即“视觉文本记忆召回与直接跨模态对齐方法”。该方法通过专门设计的跨模态直接对齐模块,在三维点云与文本及二维图像数据间建立显式对应关系;同时引入视觉-文本记忆模块,构建多源特征库,用于存放文本特征、视觉特征及其映射关系,并在注意力机制下实现动态知识召回,增强场景感知与语义理解能力。该机制使几何与语义特征实现精确融合,有效提升三维场景理解的细粒度表现。研究团队在多种三维任务基准上进行了实验,包括指令式分割、参照式分割和语义分割,结果表明该方法在各项评测中均取得领先性能,验证了其有效性与泛化能力。
提出网络的总体结构示意图。给定点云、图像和文本输入后,点云首先被体素化。随后,研究团队分别通过 MLP、体素编码器、图像编码器和大型语言模型(LLM)编码器提取四种不同的特征表示。这些异构特征经由本研究提出的直接跨模态对齐模块进行统一,生成对齐特征。接着,对齐特征通过多层 Transformer 编码-解码结构进行进一步特征细化。随后,检测头生成候选框预测,并在每个检测区域内提取点级特征。将其与文本查询特征共同输入到所提出的记忆模块中,该模块利用存储的跨模态映射作为先验知识进行特征增强。最后,额外的分类器对融合后的特征进行处理,输出基于查询驱动的三维分割结果。
**14. **Sparse3DPR: 基于稀疏RGB视图的免训练三维场景分层解析与任务自适应子图推理
Sparse3DPR: Training-Free 3D Hierarchical Scene Parsing and Task-Adaptive Subgraph Reasoning from Sparse RGB Views **作者:**冯海达,卫浩,徐泽文,王浩霖,李查德,吴毅红 近年来,大型语言模型(LLMs)在三维场景理解领域展现出巨大的应用潜力。特别地,免训练的三维场景理解方法因其灵活性和泛化能力而备受关注,但实际应用中往往面临精度与效率的双重挑战。 针对这些问题,本研究提出了一种新颖的免训练框架Sparse3DPR,其仅需稀疏RGB视图输入,便可有效利用预训练LLMs强大的推理能力,实现开放式(open-ended)场景理解。具体而言,研究创新性地构建了一种分层平面增强场景图(HPSG),其支持开放词汇,并采用主导平面结构作为空间锚点,从而实现更清晰的推理链路和更可靠的高层语义推断。此外,研究团队设计了任务自适应子图提取方法,可动态过滤与任务无关的信息,有效降低场景上下文噪声,显著提升三维场景推理的效率与精度。Sparse3DPR在Space3DBench测试中较ConceptGraphs方法实现了28.7%的EM@1指标提升和78.2%的推理加速。在ScanQA和SQA3D基准上,其性能与训练方法不相上下,更多的真实世界场景实验进一步验证了该框架的鲁棒性和泛化能力。
Sparse3DPR总体框架概览
**15. **AdaField: 基于物理信息预训练和流场条件自适应的可泛化表面压力场建模
AdaField: Generalizable Surface Pressure Modeling with Physics-Informed Pre-training and Flow-Conditioned Adaptation **作者:**邹俊泓,仇伟,孙振旭,张小梅,张兆翔,朱翔昱 本文提出了一种名为 AdaField 的自适应场学习框架,旨在解决空气动力学子领域中数据稀缺的难题。深度学习模型在数据充足的空气动力学领域,如汽车,表现良好,但在数据稀缺的领域(如列车、飞机)泛化能力差,且不同数据在几何尺度和流动条件上存在显著差异,进一步阻碍了模型通用性。AdaField 在大规模公共数据集上进行预训练,并能有效地迁移到数据受限的子领域。其包含三个关键组件: ●Semantic Aggregation Point Transformer (SAPT):高性能骨干网络,它集成了向量自注意力和语义聚合模块,用于处理点云并提取几何特征。 ●Flow-Conditioned Adapter (FCA):参数量较少的adapter模块,通过流场条件调制将流场信息注入特征中,通过微调该模块来实现不同流场条件的适应。 ●Physics-Informed Data Augmentation (PIDA):基于NS方程,系统地对现有数据进行尺度和速度上的缩放,扩大训练数据分布,增强模型对未见几何和速度的泛化能力。 AdaField在汽车数据集DrivAerNet++上取得了SOTA性能。更重要的是,通过在DrivAerNet++上预训练并在列车和飞机场景上进行微调,AdaField显著降低了预测误差,展现出强大的跨域泛化能力。
图1. AdaField整体框架示意图
图2. AdaField网络结构图
**16. **基于细粒度表征的车道拓扑推理
Fine-Grained Representation for Lane Topology Reasoning **作者:**徐国庆、李毅恒、杨阳 本研究针对自动驾驶场景中车道拓扑推理(Lane Topology Reasoning)这一关键问题展开,旨在提升车辆对复杂道路场景的拓扑推理能力。车道拓扑推理需要检测车道中心线与交通要素,并推断它们之间的拓扑关系,如车道连通性及与交通要素的关联。传统方法依赖繁琐的手工规则与后处理步骤,难以在复杂环境中保持稳定性能和泛化能力。近年来,端到端的统一框架逐渐成为主流,通过将车道与交通要素的检测及其关系推理整合为单一任务,实现整体优化。现有研究如 TopoNet 与 TopoLogic 等通常将每条车道视为一个整体实例(instance-level)进行建模,用单一查询(query)预测整条车道的关键点及其与其他车道的关系。然而,这种实例级表征难以较好地表达形状复杂、局部变化显著的车道。 为此,本文提出 TopoFG,从细粒度层面建模车道结构。TopoFG 将每条车道表示为一系列细粒度查询(fine-grained queries),精准捕捉局部几何变化和结构细节。在此细粒度表征的基础上,进一步引入层次先验提取器、区域聚焦解码器及鲁棒边界点拓扑推理模块,以联合实现车道拓扑关系的推断。其中,边界点推理模块通过对车道起止点查询建模确定连通关系,并采用去噪机制增强结果的稳健性。
方法框架图,包括:层次先验提取器、区域聚焦解码器和鲁棒边界点拓扑推理模块
**17. **融合KAN局部性与特征漂移补偿投影的无数据回放连续人脸伪造检测
Unifying Locality of KANs and Feature Drift Compensation Projection for Data-free Replay based Continual Face Forgery Detection **作者:**张田硕,彭思然,高丽,张浩源,朱翔昱,雷震 随着人脸伪造技术的快速迭代,伪造检测器必须能持续学习新的攻击手段,这使其成为一个连续学习问题。然而,传统模型在学习新任务时,往往会严重“灾难性遗忘”旧知识。 Kolmogorov-Arnold网络(KANs)因其激活函数具有“局部性” ,理论上允许模型通过修改局部函数来学习新任务,而不影响其他区域,因此天然适合连续学习 。但是,KANs在实际应用中面临两大挑战:1) 其样条函数不适用于高维图像数据,而其他适用图像的激活函数又缺乏局部性 ;2) 在连续学习中,不同任务的特征分布重叠,会导致KANs重复修改相同区域,最终同样导致遗忘 。为解决上述问题,本文提出了一种基于KAN的连续人脸伪造检测框架(KAN-CFD) 。该框架由两大核心组件构成: ●域增量分组KAN检测器 (DG-KD): 该检测器创新地使用域特定的径向基函数(RBFs)组合来构建激活函数。这使其在能够拟合高维图像输入的同时,保留了连续学习所必需的局部性和局部可塑性。
图1. 域增量分组KAN检测器 ●基于KAN漂移补偿投影的无数据特征分离策略 (FS-KDCP): 为避免特征重叠,该策略在不存储(Replay)旧任务原始数据的前提下,仅保留旧特征。它引入了一个KAN投影(KDCP)模块,用于建模和补偿因模型迭代(Backbone演进)而产生的“特征漂移。通过将存储的旧特征投影到当前特征空间,该策略成功地分离了新旧任务的特征分布,确保了DG-KD不同域的输入互不重叠。
图2. 基于KAN漂移补偿投影的无数据特征分离策略和KAN-CFD完整框架 大量的实验结果证明,本文提出的KAN-CFD框架取得了SOTA性能,在各项指标上均优于现有方法,并显著降低了模型的遗忘率。
**18. **WorldRFT: 强化学习微调世界模型的端到端自动驾驶方法
WorldRFT: Latent World Model Planning with Reinforcement Fine-Tuning for Autonomous Driving **作者:*杨鹏轩、卢奔、夏中谱、韩超、高胤峰、张腾、詹锟、郎咸朋、郑宇鹏、张启超 本文提出一种面向端到端自动驾驶的隐空间世界模型和强化学习微调框架,旨在解决现有自监督隐空间世界模型中重建导向表征与自动驾驶规划需求错位的问题。框架包含三大核心模块:空间感知世界编码器(SWE, Spatial-aware World Encoder)融合基础模型提升感知能力;分层规划细化(HPR, Hierarchical Planning Refinement)将规划分解为目标区域定位等子任务,通过局部感知迭代优化提取规划关键特征,显著提升规划质量;基于GRPO方法和碰撞感知奖励的强化学习微调,实现主动避撞,为端到端自动驾驶提供了更安全高效的解决方案。 该工作在nuScenes和NavSim基准上表现优异,nuScenes 碰撞率仅为0.05%,和LAW相比降低 83%,在NavSim上仅用相机输入达到87.8分,接近引入激光雷达的SOTA方法(88.1)。
WorldRFT方法框架图
**19. **HDGS:面向城市驾驶场景的分层动态高斯溅射
HDGS: Hierarchical Dynamic Gaussian Splatting for Urban Driving Scenes ★Oral
**作者:**戈福东,高晋,王汉石,张一伟,王珂,胡卫明,张志鹏 本文针对大规模动态3DGS中实现高保真且存储高效的运动表示这一关键挑战展开研究。动机源于一个事实:现有城市级场景建模方法依赖数量庞大且无结构的独立高斯基元,面临严重的可扩展性瓶颈。 受近期压缩研究的启发,研究团队尝试利用锚点驱动方法来解决这一问题。然而,这一过程并非易事。探索性实验表明,将该范式直接应用于动态城市场景会导致性能退化。研究团队将原因归结为层次化锚点设计造成的动态信息丢失。为此,本研究提出了分层动态高斯溅射(HDGS)框架,以适配基于锚点的高斯表示于四维空间。具体而言,首先构建局部支撑网络以增强锚点间一致性,从而缓解深层结构中监督衰减引发的几何与外观断裂;其次,通过自粗到细的运动分解机制,高层锚点负责建模全局运动,而低层锚点对其进行残差细化;最后,引入结合全局几何约束与局部像素线索的混合监督机制,以缓解稀疏激光雷达下的几何不一致问题。大量实验结果表明,HDGS在保持甚至提升渲染质量的同时,存储需求得以降低。
HDGS的方法流程示意图
**20. **MMhops-R1:多模态多跳推理
MMhops-R1: Multimodal Multi-hop Reasoning **作者:**张涛,张子琦,马宗扬,陈禹昕,李兵,原春锋,王光庭,饶峰云,单瀛,胡卫明 现实世界的复杂挑战需要模型具备多模态多跳推理能力,即迭代地整合跨模态信息与外部知识。然而,现有的多模态大语言模型(MLLMs)主要局限于单步推理,同时现有的基准数据集也不足以评估和推动更复杂的多跳能力。 为了弥合这一差距,本研究首先提出了一个全新的、大规模的基准数据集MMhops。该数据集包含“桥接”和“比较”两种挑战性任务,迫使模型必须通过整合外部知识来动态构建复杂的推理链。针对MMhops带来的挑战,本研究进一步提出了MMhops-R1框架。这是一个新颖的多模态检索增强生成(mRAG)框架,它创新性地利用强化学习来优化模型。这使得模型能够自主规划推理路径、制定针对性查询并综合多层次信息,从而克服了传统mRAG框架中固定流程的限制,实现了动态推理。
图1.不同推理类型对比:(A) 早期知识型视觉问答:单步视觉识别后进行知识检索。 (B1) 桥接推理:基于单张图像的多步顺序推理。 (B2) 比较推理:跨图像实体识别和对比分析。
图2. MMHops 数据集的多阶段构建过程
**21. **融合多样化分配策略的 DETR 框架
Integrating Diverse Assignment Strategies into DETRs **作者:**张一伟,高晋,王汉石,戈福东,罗冠,胡卫明,张志鹏 标签分配是目标检测器的重要组成部分,尤其在 DETR 框架中,一对一匹配虽具端到端的优雅性,但因监督稀疏导致收敛缓慢。现有一对多方法虽能增强监督,却往往依赖复杂的特定结构且缺乏统一设计。 本文系统研究了“一对多”监督,发现性能提升源于分配策略的多样性而非数量。基于此,研究团队提出LoRA-DETR:一种灵活轻量的框架,可在任意 DETR 检测器中无缝集成多样化的一对多策略。该方法在训练时为主干网络插入多个低秩适应(LoRA)分支,每个分支采用不同匹配规则,注入并调控多样监督梯度;推理时移除分支,不增加计算开销。该设计在保持结构简洁的同时实现鲁棒联合优化。实验表明,LoRA-DETR 能以高效方式融合多种监督策略,在不牺牲模型优雅性的前提下显著提升检测性能。
图1. 模型结构
图2. Query同时参与多种标签分配策略
欢迎后台留言、推荐您感兴趣的话题、内容或资讯! 如需转载或投稿,请后台私信。