点击蓝字 关注我们

论文:https://arxiv.org/pdf/2502.14354 作者:Moxin Li, Yuantao Zhang, Wenjie Wang, Wentao Shi, Zhuo Liu, Fuli Feng, Tat-Seng Chua 代码:https://github.com/zyttt-coder/SIPO

一、摘要

将大型语言模型(LLMs)对齐至人类偏好的研究,已从单一目标拓展为多目标,旨在更全面地反映人类偏好的多样性与复杂性。多目标对齐(Multi-Objective Alignment, MOA)同时考虑多个偏好维度,如无害性(harmlessness)、有用性(helpfulness)、事实性(factuality)和多样性(diversity),以提升模型的整体表现。其中,直接偏好优化(Direct Preference Optimization, DPO)作为一种有效方法,已被广泛应用于多目标对齐任务中。 然而,我们发现现有基于DPO的多目标对齐方法普遍面临**”偏好冲突”问题,即不同偏好目标往往对应不同的最优回答**,导致模型在多目标优化过程中出现优化方向冲突,从而妨碍在帕累托前沿(Pareto Front)上的有效优化。 为了解决这一问题,我们提出通过构造帕累托最优回答来消解偏好冲突。为高效生成并利用这类回答,我们进一步提出一种自我改进的DPO框架(SIPO),使LLM能够在无需外部标注的情况下,自主生成并筛选帕累托最优的回答,从而实现自监督的多目标偏好对齐。Figure 1: 偏好冲突对多目标对齐的影响示例,以及帕累托最优回答如何缓解这一问题,从而实现更优的帕累托前沿。 Figure 1: 偏好冲突对多目标对齐的影响示例,以及帕累托最优回答如何缓解这一问题,从而实现更优的帕累托前沿。

二、背景

对齐的目标用N个奖励函数来表示: 多目标对齐旨在基于用户提供的偏好权重: 最大化加权的奖励函数: 在不同用户偏好权重下,对齐后的多个模型在评测指标上(近似)构成帕累托前沿。 对齐使用多目标偏好数据集,由问题x,回答对y_1,y_-1,和N个目标上的偏好p_i组成,即 p_i代表每个目标上被偏好的回答。对于每个回答对,如果N个目标的偏好不完全相同,则这个回答对在不同目标上是偏好冲突的。

三、冲突数据对于帕勒托前沿的影响

为验证偏好冲突对帕累托前沿优化的影响,我们在多个数据集、对齐目标和对齐方法上,系统性地调整训练集中偏好冲突样本的比例,并观察所得帕累托前沿的变化。具体而言,我们将冲突样本的比例调整为 0%、30%、60% 和 90%。实验结果显示,随着冲突比例的增加,最终模型的帕累托前沿逐渐向未对齐模型的性能靠近,在 90% 冲突比例下几乎与对齐前完全重合,表明高比例的偏好冲突会严重削弱对齐效果。同时,我们还观察到,多项指标的平均表现也随着冲突比例上升而持续下降,进一步证明了偏好冲突对多目标优化的负面影响。Figure 2: 偏好冲突对帕累托前沿优化的影响。 Figure 2: 偏好冲突对帕累托前沿优化的影响。

三、方法

3.1 帕勒托最优回答

为解决偏好冲突问题,我们引入帕累托最优回答作为应对方案。帕勒托最优回答y_c被定义为在所有目标上比y_1,y_-1更好的回答,即 y_c与y_1,y_-1都不存在偏好冲突,而且在所有偏好目标上也表现出更高的质量,有利于推动得到更好的帕勒托前沿。

3.2 SIPO框架

鉴于对帕累托最优回答进行人工标注在大规模数据集上成本极高且难以实现,我们提出的SIPO框架能够自主生成并利用帕累托最优回答,包含以下三阶段。 * 采样阶段:通过使用DPO将多个模型对齐至不同目标,生成多样且高质量的回答。根据不同的偏好权重对回答进行采样,以捕捉多种权衡方案。 * 改进阶段:通过自我评价改写策略提升采样回答的质量。评估者模型从多个目标角度审查回答,指导原模型对回答进行修订和优化。 * 过滤阶段:通过对齐的DPO模型及额外组合的模型估算隐式奖励,筛选出帕累托最优回答。保留在所有目标上表现优于原始回答的候选,并根据平均奖励选出最佳回答。 Figure 3: 我们提出的SIPO框架示意图。 Figure 3: 我们提出的SIPO框架示意图。

四、实验结论

我们在两种模型(Alpaca-7B, Llama-2-7B-sft, Qwen2.5-3B-Instrutct)和两组目标(安全性和有用性,正确性和冗长程度)上分别测试了我们的方法,并与现有基于DPO的多目标对齐方法进行了比较。实验结果显示: * SOTA表现:相比于现有方法(如DPO Soups,MODPO等),SIPO在两种模型和两组指标上都能产生更好的帕勒托前沿 (Figure 3),并能与现有方法灵活结合。 * 自我提升框架的有效性:利用官方的奖励模型进行验证,SIPO框架采样的回答相对于原始回答在各目标上有所提升。当对非冲突数据使用SIPO框架,回答效果不能明显提升。 * 多轮,多指标,多模型的泛化性:多轮SIPO显著提升了帕累托前沿表现。即使在包含三个指标的更复杂场景下,方法依然有效。同时,该方法在不同模型家族和不同规模的基础模型上均表现出良好的适用性。 Figure 4: 不同方法在HelpSteer(左)和BeaverTails(右)数据集上的帕累托前沿对比。 Figure 4: 不同方法在HelpSteer(左)和BeaverTails(右)数据集上的帕累托前沿对比。

成为VIP会员查看完整内容
6

医疗健康行业是维护全民福祉的重要基石,始终是全球关注的焦点。当前普遍的亚健康状态,以及老龄化带来的慢性疾病增加等,不仅影响着人们的生活质量,也给医疗体系带来了沉重负担。我国医疗体系的“不可能三角”依然突出,即便宜、高效和服务难以兼顾。优质的医疗服务供不应求,医护人员负担较重,而基层医疗能力相对较弱,患者的就医体验也需要进一步提升。另一方面,疾病谱变化快,药物研发周期长、资金需求庞大且成功率较低,现有供给难以快速应对,很大程度上也限制了医疗的突破发展。   面对这些挑战,人工智能技术,特别是以大型模型为代表的生成式AI的迅猛发展,为医疗健康注入了新的机遇。AI的应用能够快速分析海量且复杂的医疗信息,从而支持更加精准的医疗决策,协助医生做出更为科学合理的诊断与治疗规划,有效减轻医护人员的工作压力,并缓解医疗资源紧张的局面。此外,AI技术正在推动医疗服务向自动化和智能化转变,优化包括预约挂号、诊疗服务、费用结算、检验检查等在内的各个环节,将极大提升患者的就医体验。同时,AI助力生物分子结构预测与生成、加快靶点识别和发现,提升药物分子设计与优化,提升临床试验的效率,有效地缩短新药研发周期、降低研发成本、加速新药上市,为医药创新带来新的动力。   AI已经深入医疗健康的各个层面,成为连接医疗机构、科研机构、制药企业以及广大患者的重要纽带,助力构建更加高效、智能、个性化的医疗生态系统。本白皮书将深入探讨AI在医疗健康行业的应用现状、发展趋势和未来机遇,为行业参与者提供有价值的参考和建议。  

成为VIP会员查看完整内容
9

大型语言模型(LLMs)的快速发展正在重塑机器学习领域,实现了前所未有的生成能力。然而,将LLMs与传统软件系统集成时也带来了根本性的挑战,特别是在效率、正确性,以及需要构建结构化编程抽象以协调其概率性特征与传统确定性软件工程系统和实践之间的矛盾。本文将这一趋势视为一种新兴范式,旨在推动我们称之为语言模型编程(Language Model Programming, LMP)的研究进展,通过引入新的程序抽象和算法,实现更高效、更可靠、更可控的LLM编程方式。 为此,本文提出了三个核心贡献:首先,引入了一种新的编程语言和运行时系统——语言模型查询语言(LMQL),用于高效地构造提示词并约束与LLM的程序交互;其次,提出了提示草图(Prompt Sketching),这是一种以模板为中心的解码方法,支持结构化、多阶段的LLM交互,同时确保更准确、更有引导性的生成过程;最后,介绍了一种高效的、基于语法的推测性文本生成算法——Domino,该算法旨在满足高吞吐量推理需求,同时延续了LMQL和更广义LMP范式下对生成的可靠性和控制性要求。 这些工具和算法显著提升了与LLM进行编程的效率、可靠性与可控性,为构建更先进、更个性化、更自主、且更高效的软件系统奠定了基础——以LLM为核心。为实现这一目标,本文不仅借鉴了传统编程语言领域的研究成果,也融合了LLM的最新进展,以及编译器构建、语法解析器、声明式与命令式编程、自然语言处理中的解码算法等相关技术。

综上所述,这些工具从机器学习与编程语言两个维度显著提升了LLM的可靠性,为语言模型编程这一新兴研究领域做出了重要贡献。

成为VIP会员查看完整内容
9

多模态大型语言模型(Multimodal Large Language Models,MLLMs)已迅速发展,超越了文本生成的范畴,如今能够覆盖图像、音乐、视频、人类动作以及三维物体等多种输出模态。它们通过在统一架构下将语言与其他感知模态整合,实现了跨模态的生成能力。本文综述将六大主要生成模态进行分类,并探讨了若干核心技术——包括自监督学习(Self-Supervised Learning, SSL)、专家混合机制(Mixture of Experts, MoE)、基于人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF)以及思维链提示(Chain-of-Thought, CoT)——如何赋能跨模态能力。我们分析了关键模型、架构趋势及其涌现的跨模态协同效应,并重点指出了可迁移的技术路径与尚未解决的挑战。诸如 Transformer 和扩散模型等架构创新为这种融合奠定了基础,使得跨模态迁移与模块化专精成为可能。本文还总结了跨模态协同的最新发展趋势,并指出了评估方式、模块化设计及结构化推理等方面的开放性难题。该综述旨在提供一个关于 MLLM 发展的统一视角,并指明实现更通用、可适应、可解释的多模态系统的关键路径。

1 引言

自 2022 年底首次亮相以来,基于文本的大型语言模型(Large Language Models,LLMs)已成为人工智能领域的基础支柱。这些模型不仅重塑了人工智能的格局,也深刻融入了我们的日常生活。它们的演进推动了自然语言处理、人机交互以及多模态应用等方面的创新,为各个领域的无缝集成铺平了道路。随着发展,LLMs 已从最初的简单文本生成模型,演进为支持上下文学习(in-context learning)【16, 109, 149, 51】、指令跟随(instruction following)【110, 147, 146】以及多步推理(multi-step reasoning)【33】的复杂系统,正在重塑我们与计算机交互、完成任务和创造数字内容的方式。

然而,智能并不局限于语言本身。人类通过丰富的模态——文本、视觉、音频、动作等——来感知和理解世界。硬件的进步使得机器具备了处理、解释和生成这些多样化数据流的能力。这一技术趋势正推动研究社区迈向更加整体化的多模态方法,促使人工智能与人类复杂的感知方式更紧密对齐。因此,先进模型不仅擅长理解和生成文本,还能将文本与视觉结合【123】,或与音频整合【40】。这种演进也体现在输出形式上,它们正日益呈现出多模态和通用化的特征,突破了传统单一模态的响应模式。如今的模型常常以混合类型的数据作为输入【109, 147】,这一多模态集成正在推动人工智能系统逐步理解现实世界的复杂性【1】,不断逼近人类通用理解的能力。

虽然文本依然是这些模型处理的核心要素,但其生成能力已扩展至多个输出模态。为更好地理解这种多样性,本文提出了一个全新的分类方式,将多模态大型语言模型(Multimodal Large Language Models,MLLMs)的主要生成输出划分为六大关键类别:

文本生成文本(Text-to-Text, T2T):为所有语言类任务及自然语言处理的基础,支撑着信息检索、摘要生成、翻译与对话系统。

文本生成图像(Text-to-Image, T2I):用于视觉内容的生成与分析,是各类视觉生成任务的核心。 * 文本生成音乐(Text-to-Music, T2M):音乐是一种复杂的听觉媒介,包含多种乐器与情感表达,其建模难度高于一般音频。 * 文本生成视频(Text-to-Video, T2V):结合时间与视觉信息以生成动态场景,涉及现实物理规律,类似一个世界模型。 * 文本生成人类动作(Text-to-Human-Motion, T2HM):广泛应用于动画、机器人与虚拟人等场景,是实现直观人机交互的重要方式。 * 文本生成三维物体(Text-to-3D-Objects, T2-3D):对虚拟现实、游戏与设计等应用至关重要,有助于在沉浸式环境中实现想象与交互。

这六大类别代表了当前生成模型所涉及的主要模态,每种模态对应一种独特的数据输出形式与应用场景。本文将音乐单独归为 Text-to-Music(T2M),而非更广义的 Text-to-Audio,这是因为语音与文本关系密切,本质上是一种可直接相互转换的形式;而音乐则拥有与语言截然不同的结构、节奏、和声与创作元素,建模复杂性更高,因此值得单独对待。通过明确划分这些能力,我们希望强调生成模型所能覆盖的广泛输出范式,每种模式既有独特的应用场景,也伴随着专属的技术挑战。

支撑这些多模态生成能力的,是一系列基础性的架构创新,主要包括 Transformer【152】及其核心的注意力机制【5】,以及在众多视觉生成任务中表现突出的扩散模型(diffusion models)【106】。随着模态复杂度的不断提升,人工智能系统所需应对的问题日益复杂,模型结构与训练方法也在不断演进。这种演进往往是解锁模型涌现能力的关键【165】。其中有四项技术在提升模型推理能力方面起到了决定性作用:三项主要用于训练阶段,分别是自监督学习(Self-Supervised Learning,SSL)【121】、专家混合机制(Mixture of Experts,MoE)【62】以及基于人类反馈的强化学习(Reinforcement Learning from Human Feedback,RLHF)【26】;第四项是用于推理阶段的思维链提示(Chain-of-Thought,CoT)【164】。

自监督学习(SSL):在训练阶段使模型从海量未标注数据中学习,通过预测输入中被遮蔽的信息,建立起对语言、模式与世界知识的基础理解,为复杂推理提供必需支持。 * 专家混合机制(MoE):通过选择性激活不同“专家”子网络,以较低的计算开销显著提升模型容量,能更高效地学习多样知识与复杂模式,是增强高级推理能力的关键手段。 * 基于人类反馈的强化学习(RLHF):一种训练阶段的微调方法,使模型更符合人类偏好与行为预期。通过人类排名数据训练,RLHF 能提升模型输出的一致性、可靠性与指令理解能力。 * 思维链提示(CoT):在推理阶段引导模型生成一系列中间步骤,以增强多步推理能力。这种显式的思维过程有助于更准确且透明地处理复杂问题。

已有的综述文献也为理解 MLLMs 的发展提供了重要参考。[8] 提出了多模态学习的核心框架,并总结了代表性挑战,包括表示学习、模态翻译、模态对齐、模态融合与协同学习,奠定了 MLLM 研究的基础。[17] 评述了以视觉为中心的 MLLMs,涵盖其架构、模态对齐策略以及视觉定位、图像生成等应用。[183] 关注多模态模型中的人类偏好对齐机制,[30] 则深入探讨了模型的可解释性与可理解性,是可信 AI 的关键因素。[182] 详尽梳理了 MLLMs 在粒度、多模态与多语言覆盖及应用场景上的演进,并进一步推进了如多模态上下文学习、思维链推理、LLM 辅助视觉理解等新方法。[95] 系统地回顾了 MLLMs 在多种模态下的应用与安全性问题,[158] 则深入探讨了多模态思维链推理(Multimodal Chain-of-Thought, MCoT)在不同任务中的潜力。

为全面理解这一不断演化的研究图景,本文结构如下:第 2 节介绍背景知识与基本概念,并定义本文的综述范围与方法论;第 3 节对前述六大生成模态(T2T, T2I, T2M, T2V, T2HM, T2-3D)的历史发展进行梳理;第 4 节讨论四项核心技术(SSL, MoE, RLHF, CoT)的发展过程与关键作用;第 5 节综合分析跨模态的趋势、面临的挑战以及架构层面的共性,探索模态与技术之间的协同效应;第 6 节展望未来研究方向,如扩展 SSL 至新模态、模块化专家机制、以及非文本模态的思维链推理等;第 7 节总结全文核心观点,并探讨通向统一多模态系统的发展路径。

成为VIP会员查看完整内容
13

现阶段距无人驾驶飞机或舰船独立参与战争仍有时日。但人工智能(AI)当前即可为海军提供一项极有价值的基础贡献:运用大语言模型(LLM)快速检索信息,彻底革新训练与作战模式。海军采购、训练并部署经认证可用于涉密信息网络的LLM系统,在舰船上构建基于知识库的智能参考体系。

“哥伦比亚号”核潜艇(SSN-771)部门军官曾埋头钻研鱼雷使用手册、液压系统设计规范、声纳操作规程、通信协议与导航条令等大量文献,以掌握战术运用能力。同样“托皮卡号"核潜艇(SSN-754)机电长更耗费大量时间研读《核动力装置操作手册》及相关出版物,力求精确执行核动力计划运维要求。担任值更官时协调多国演习的复杂条令检索过程,亦倍感压力。

试想若初级军官在资质认证时仅需询问LLM:“目标运动分析的核心原则是什么?”即可获得基于海军所有官方文献的详尽解答——ChatGPT等AI程序已证明此类技术完全可行。

更可畅想:当LLM系统吸纳海军所有声纳作战条令后,其应答目标运动分析的能力将何等强大。通过将每份手册、指令与海军通告纳入数据库,操作员与军官均可获得精准、实时且全面的专业应答。

以掌握对手最新战斗序列为例:曾耗费大量时间研判情报产品以识别对手海军反潜部队编制。LLM可瞬时提供此类信息。若将海军情报局等机构的实时情报产品整合入LLM数据库,操作员便能快速生成全景式敌情清单。

保守观点认为强制水兵查阅原始文献能培养更扎实的“照章办事”能力。但当今舰队文献多已电子化,信息获取媒介本就不会逆转。且LLM若经规范文献训练,其应答必然严格符合条令标准。此举节省的时间将大幅提升组织效能——无论是初级水兵备考资质认证、值更官查询最新航行限制,还是机电师验证核装置维护条件。

部分人担忧LLM差错可能导致操作失误。但需明确:以LLM为参考工具时,人类始终处于决策闭环。指挥官仍行使指挥权,督导官持续履行监督职责,值更团队多重校验机制仍可防范失误。现行分散式条令管理体系下,各舰自编操作指南、标准流程与常规指令本身同样存在错漏风险。而LLM数据库的错误可随条令更新即时修正。

必须区分底层数据错误(会误导人类与LLM)与LLM的“信息幻构”现象。当前主流LLM通过两种方式大幅抑制幻构:检索增强生成(RAG)技术,以及在应答正文标注引文来源。RAG将语言模型与外部队可信数据库(此处即海军出版物与指令)动态关联,使系统生成应答时直接从实体文件/数据集检索信息,避免依赖内部预测或“猜测”。多数LLM现已采用文内引注机制供用户验证可靠性。

相比国防部门正在推进的其他尖端技术,构建基于LLM的军事通用参考系统成本极低。该技术现成可用,可直接改造商用方案进行部署。

图:一名美海军空勤人员在美国军舰的黎波里(LHA-7)上学习训练手册。通过使用LLM来简化信息搜索,可以彻底改变训练和操作。该服务需要一个经过认证的LLM用于分类信息网络,作为船上基于参考的数据库。

物理实施挑战
在空间有限的舰艇/潜艇部署独立LLM需攻克工程难点:额外电力供应与散热需求必须保障。

LLM训练阶段(如GPT-3)能耗显著,约消耗1287兆瓦时能源。但部署后运行仅需适度电力——驱动模型的图像处理器是主要能耗源,典型LLM需5-10个处理器(单处理器功耗约325瓦),总功耗2-3千瓦。这对发电量数兆瓦的舰船供电系统虽属显著增量但可控。

新增LLM服务器需占用机架空间,其热负荷虽增强冷却系统压力却非不可为。舰船常临时加装特种设备(同样挤占空间并增加散热负荷),潜艇亦可应对临时携行设备的热负荷增量。相比快速获取全景实时信息的巨大收益,适度技术调整的代价微乎其微,使得LLM集成成为舰船系统可行且高价值的升级方案。

经过海军条令训练的LLM必将成为舰员的战略性辅助工具。该系统将大幅削减文献检索耗时,强化按章操作能力,提升关键信息可及性,完美契合海军运用尖端科技的使命承诺。

参考来源:USNI

成为VIP会员查看完整内容
6

本基础手册展示前所未有的创新性海上军事防御系统。推出首款水域智能平台母舰系统(Hydronescarrier)及其配套的多型水域智能平台,这些构成Hydronescarrier军事装备体系的核心组件。本手册旨在全面阐述该新型军事防御系统的特性与功能,其可高效遂行攻防作战任务。Hydronescarrier集成人工智能系统、自主防御系统、能源系统及智能控制系统,形成复杂动态防御体系,能为战略区域(包括远距离目标)提供即时高效防护。出于国家安全考量,部分技术参数不予公开。此外,本手册将介绍“神经元无人机决策盒”(NeuronDrone-Box)与“超级神经元无人机决策盒”(MegaNeuronDrone-Box):涵盖硬件架构、核心算法及新型特种军用“水域无人机”(Hydrone)。特别说明:本手册所有算法均基于“混沌理论”与“经济地形学”。后续将展示突破性原型系统:MAR107X水域智能平台、MAR107Y水域智能平台及MAR107Z水域智能平台,三型平台的技术特性与应用场景详见本技术报告。实际上,我们主张在军用无人机系统决策盒(The NeuronDrone-Box)中应用“全自主人工智能”攻防决策体系,以控制接入该系统的Hydronescarrier——该系统通过神经元无人机决策盒实现攻防决策全自主化。

Hydronescarrier系统导论

本手册作为国家海洋平台防御系统(NSPD-System)组成部分,推出首款水域无人机母舰原型Hydronescarrier。该新型海上防御概念依托大型平台构建(宽65英尺/长100英尺/高15英尺)。平台甲板精确划分区域,部署水域智能平台、雷达、天线、导弹、舰炮、散热风扇及分布于不同舱位的电池与充电设备(详见下方8幅图库及1部视频)。顶层甲板设置五条大型可旋转盘式轨道:轨道1配置8台MAR107X型水域智能平台,执行快速打击侦察与搜救;轨道2配置16台MAR107Y型水域智能平台,承担军需物资输送;轨道3部署31台MAR107Z型水域智能平台(含自杀式攻击型与轻型火炮型),执行攻防任务。各轨道可高速运转实现多型平台集群化起降。同步配置四部升降机用于停放平台,另四部专司平台出动。每条轨道下方设微型运输车轨道系统,保障平台起降安全。

平台顶层通过旋转轨道部署55台战备水域智能平台,停泊区另置10台。8部升降机在平台起降前将其转运至独立隔舱,另有8部升降机可同时运送16台平台实施高效快速投送。所有水域智能平台均搭载人工智能系统,配备轻型弹药、导弹及高威力炸弹(详见下方8幅图库及1部视频)。各层设有多处应急通道,支持电力或手动控制以应对紧急状况。为深化理解新型水域智能平台群组,本手册第四章提供详细说明。每台平台均配置专属神经元无人机决策盒(NeuronDrone-Box),使其能基于舰载高功率雷达/天线(位于母舰四角)及卫星图像信号实施自主攻防。

Hydronescarrier主体结构采用轻质高强特种材料,中部配置两组持续接受太阳能充电的超级电池组,为大型电机、平台充电桩(自动为泊位平台充电)、照明系统、计算机系统、散热风扇、雷达及母舰“主控中枢”供能。该中枢系统由70台水域智能平台通过超级神经元无人机决策盒(Mega-NeuronDroneBox)协同操控,本手册以数学建模与图形化方式阐述其编程逻辑。超级神经元无人机决策盒统管内部系统(自动驾驶、推进动力、雷达、指令集、母舰定位、能源管理)及外部系统(水域智能平台集群)。

舰体配置两台大型风扇维持恒温环境,尾部双电机推进器确保持续航速,保障这座搭载70台水域智能平台的巨型结构在各类海况下保持稳定平衡。需着重说明:所有平台均由军用无人机“全自主人工智能攻防决策系统”统一管控。

本报告详述Hydronescarrier原型机的突破性军事特性与应用场景:主张通过战略布局将装备与平台集成至母舰主体结构;作为国家海洋平台防御系统创新设计载体,配备五套导弹系统——两套跨洲际远程导弹、一套洲际中程导弹及百枚五公里射程近程导弹(贮于舰体内部)。人工智能系统实施预先缜密评估,保障导弹全天候全域高效作战。秉持可持续发展理念,母舰搭载太阳能板持续为双电机、无人机充电设备及计算机系统供能。Hydronescarrier可同时运载七十台水域智能平台、重型弹药、炸弹及五型导弹系统,其多功能特性使其成为遂行多样化军事与国家紧急任务的必备装备。

成为VIP会员查看完整内容
5

反无人机系统(C-UAS)的研发与部署近些年显著加速,旨在应对各类无人机(UAS)威胁。探测追踪系统、交战系统及杀伤链其他环节(含指挥控制“C2”)的整合持续进行。值得关注的是,当前多数研发成果专为海上舰船防御设计。由于可能造成“高附带损伤”且技术尚未全面配发舰队,这些技术进步无法在受限水域(无论国内外港口)应用。本项目旨在解决核心问题:如何依托现役武器系统,为停泊在码头的高价值舰船提供针对“武装无人机”的有效防护。本研究将采用参数驱动方法,基于现有技术验证:整合“增强型火控系统”与制式武器能否提升值更人员射击精度,从而实现码头区域安全防御。

人类“逐水而居”。民众聚集于海岸、河流、湖泊与海洋之滨,寻求自然资源馈赠——无论是农田灌溉水源、渔业捕捞场所,抑或休闲娱乐空间,“水体”始终具有强大吸引力。然而“恶意分子”同样趋近水域。虽已有法规条令守护宝贵水道安全,防范国内外敌对势力,但2000年10月12日也门亚丁港恐怖分子驾驶自杀艇撞击美军“科尔号驱逐舰”的事件,彻底颠覆安全格局。对自由的威胁侵蚀了民众“航海活动”的乐趣。自此,军民机构持续探索防御海上基础设施与资产的安全对策[3]。海上安全涵盖军事及民用港口、码头、船坞与锚地防护[6]。“海港”与“母港”构成国家经济军事稳定的基石,这些水道承载着塑造海洋传统的娱乐商业活动。此外,江海湖泊作为“海事基础设施”核心组成部分,其安保需具备前瞻思维,必须时刻防范国内外敌对势力[7]。

2001年“9·11”事件深刻重塑社会结构。国土安全部(DHS)应运而生并推行重大变革:初期聚焦“航空运输安全”,但改革持续深化。DHS同步强化另一关键领域——通过“港口防御体系”保障海上安全。防护重心转向舰船、船舶及港口防袭。无论军用舰艇或民用船舶,实质都是“国家领土的延伸”。悬挂国旗的特性更凸显海上安全的战略意义——这些旗帜本身即可能成为“恐怖袭击目标”。

反无人机系统(C-UAS)的研发与部署近些年显著加速,旨在应对各类无人机(UAS)威胁。当前正整合探测追踪系统、交战系统及杀伤链其他环节(含指挥控制“C2”)。突出问题在于,绝大多数系统专为“海上防御”设计。因可能造成高附带损伤,这些技术无法在国内外港口部署。本项目核心任务是填补停泊码头的高价值舰船面临“武装无人机”威胁时,因探测反制手段稀缺形成的防御缺口。当前亟需发展整合岸基/舰载C-UAS能力及有效“末端防御”策略的“体系架构”(SoS)。在该架构完备前,须部署过渡方案强化安保力量或海军值更人员的反无人机能力。

港口防护是海上安全体系的“关键应用场景”。军舰、军用舰艇、游轮及海事基础设施不仅象征海洋传统,更维系经济命脉。现今局部“防空能力”几近空白——基于“制空权绝对优势”的假设,“空袭威胁”曾被认定消除。但无人机技术的蓬勃兴起颠覆此认知。虽已开发激光武器、“电子战/攻击”(干扰欺骗)、动能拦截等反制手段,但均存在高概率的“周边环境附带损伤”。在公海部署尚可接受,但在国内外商港或军事基地内实施则将引发严重后果。本质上,当前的反制措施因港口环境限制而无法启用。

本研究的研究问题包括:

• 在假定存在「体系架构」(SoS)探测警报系统前提下,为现役制式武器加装「先进火控技术」,能否提升舰载反无人机(C-UAS)防御能力及值更人员的操作性能、射击精度与作战效能?

具体研究目标包含:

• 如何建立框架并确定关键指标,以确保成功防御停泊于海军基地、遭受「武装化小型无人机」(sUAV)自主攻击的「高价值舰船」(HVU)?
• 如何有效构建具备适用指标的模拟模型,验证整合「增强型火控系统」的现役武器能否提升现有值更人员作战效能?
• 如何高效解析数据,以论证该系统在未来应用策略中实施反无人机防御的可行性?

本项目旨在解决现役反无人机(CUAS)防御体系效能不足的问题,定位「纵深防御协议」现存缺口,并验证强化「末端防线」反制措施保护泊位高危高价值舰船的可行性。驱逐舰、巡洋舰等水面战舰在航行时可动用全武备系统对抗敌袭——这些海上舰艇配备尖端技术、优化人员配置且保持战备状态:雷达传感器全时运转,武器系统满载待发。而靠泊港口的舰船则截然相反:驻泊期间仅保留三分之一额定人员,所有雷达传感器关闭,武器系统卸载卸。舰船安危完全依赖「港内值更组」与「甲板值更人员」。本研究试图通过即时提升值更人员射击精度与作战效能,为舰船对抗无人机威胁争取「反击窗口」。若等待激光武器、「眩目器」等新技术研发列装基地,将耗时数年。值更人员亟需当下可用的解决方案。

成为VIP会员查看完整内容
13

机器之心报道 机器之心编辑部

刚刚,在美国田纳西州纳什维尔举办的 CVPR 2025 公布了最佳论文等奖项。

今年共有 14 篇论文入围最佳论文评选,最终 5 篇论文摘得奖项,包括 1 篇最佳论文、4 篇最佳论文荣誉提名。此外,大会还颁发了 1 篇最佳学生论文、1 篇最佳学生论文荣誉提名。

根据会方统计,今年大会共收到 4 万多名作者提交的 13008 份论文。相比去年(11532),今年的投稿数量增长了 13%,最终有 2872 篇论文被接收,整体接收率约为 22.1%。在接收论文中,Oral 的数量是 96(3.3%),Highlights 的数量是 387(13.7%)。

计算机视觉技术的火热给大会审稿带来了空前的压力。本届投稿作者数量、论文评审者和领域主席(AC)数量均创下新高。

今年前来现场参会的学者也超过 9000 人,他们来自 70 余个国家和地区。

CVPR 官方公布了各个细分领域的论文接收情况,如下图所示。可以看到,图像与视频生成领域今年度的论文接收数量最多,而接收率最高的领域则是基于多视角和传感器的 3D 以及基于单图像的 3D。

此次,最佳论文奖委员会成员中有 AI 圈非常熟悉的 ResNet 作者何恺明。

最佳论文 VGGT:Visual Geometry Grounded Transformer

CVPR 2025 的最佳论文来自牛津大学、Meta AI,提出了一种基于纯前馈 Transformer 架构的通用 3D 视觉模型,其能够从单张、多张甚至上百张图像中直接推理出相机内参、外参、深度图、点云及 3D 点轨迹等核心几何信息。

作者:Jianyuan Wang,Minghao Chen,Nikita Karaev 等 * 机构:牛津大学,Meta AI * 链接:https://arxiv.org/abs/2503.11651 * HuggingFace:https://huggingface.co/spaces/facebook/vggt

下图为架构概览。无需任何后处理优化,该模型已经在多个 3D 任务中性能显著超越传统优化方法与现有 SOTA 模型,推理速度可达秒级。这一研究打破了过去 3D 任务依赖繁琐几何迭代优化的传统范式,展示了「越简单,越有效」的强大潜力。

论文第一作者王建元为牛津大学视觉几何组(VGG)与 Meta AI 的联合培养博士生(博士三年级),他长期致力于 3D 重建方法研究。

他的博士工作聚焦于端到端几何推理框架的创新,曾主导开发了 PoseDiffusion、VGGSfM,以及本次提出的通用 3D 基础模型 VGGT,相关成果均发表于 CVPR、ICCV 等顶级会议,推动了数据驱动式 3D 重建技术的演进。

王建元同样作为第一作者的研究 VGGSfM 曾被 CVPR 2024 接收,并收录为 Highlight 论文。

今年 3 月,机器之心专栏曾介绍过 VGGT 研究,更多详情请参阅:《3D 基础模型时代开启?Meta 与牛津大学推出 VGGT,一站式 Transformer 开创高效 3D 视觉新范式

最佳论文荣誉提名

论文 1:MegaSaM: Accurate, Fast, and Robust Structure and Motion from Casual Dynamic Videos

作者:Zhengqi Li,Richard Tucker,Forrester Cole,Qianqian Wang, Linyi Jin, Vickie Ye,Angjoo Kanazawa, Aleksander Holynski, Noah Snavely * 机构:Google DeepMind,加州大学伯克利分校,密歇根大学 * 链接:https://arxiv.org/abs/2412.04463 * 项目:https://mega-sam.github.io/

该论文提出了一个系统,能够从日常的单目动态视频中准确、快速且稳健地估计相机参数和深度图。大多数传统的运动恢复结构和单目 SLAM 技术都假设输入视频主要为静态场景,且存在大量视差。在缺乏这些条件的情况下,此类方法往往会产生错误的估计。近期基于神经网络的方法试图克服这些挑战。然而,此类方法在处理相机运动不受控制或视野未知的动态视频时,要么计算成本高昂,要么性能脆弱。

该论文展示了一个深度视觉 SLAM 框架的惊人有效性:通过对其训练和推理方案进行精心修改,该系统可以扩展到现实世界中相机路径不受约束的复杂动态场景视频,包括相机视差较小的视频。在合成视频和真实视频上进行的大量实验表明,与之前和同期的研究相比,该系统在相机姿态和深度估计方面显著提高了准确性和稳健性,并且运行时间更快或相当。

从随意捕获的动态场景的单目视频中,MegaSaM 可以准确、快速和稳健地估计相机和场景结构。

论文 2:Navigation World Models

作者:Amir Bar, Gaoyue Zhou, Danny Tran, Trevor Darrell, Yann LeCun * 机构:Meta FAIR,纽约大学,伯克利人工智能研究中心 * 链接:https://arxiv.org/pdf/2412.03572 * 项目:https://www.amirbar.net/nwm/

这也是我们之前曾报道过的一项研究成果。整体而言,LeCun 团队的这项导航世界模型(NWM)研究的贡献包括:提出了导航世界模型和一种全新的条件扩散 Transformer(CDiT);相比于标准 DiT,其能高效地扩展到 1B 参数,同时计算需求还小得多;使用来自不同机器人智能体的视频和导航动作对 CDiT 进行了训练,通过独立地或与外部导航策略一起模拟导航规划而实现规划,从而取得了当前最先进的视觉导航性能;通过在 Ego4D 等无动作和无奖励的视频数据上训练 NWM,使其能在未曾见过的环境中取得更好的视频预测和生成性能。

更多详情请参阅《LeCun 团队新作:在世界模型中导航》。

论文 3:3D Student Splatting and Scooping

作者:Jialin Zhu,Jiangbei Yue,贺飞翔、He Wang * 机构:伦敦大学学院(UCL),利兹大学 * 链接:https://arxiv.org/abs/2503.10148

近年来,3D 高斯泼溅(3D Gaussian Splatting,3DGS)为新型视图合成提供了一个新的框架,并掀起了神经渲染及相关应用领域的新一轮研究浪潮。随着 3DGS 逐渐成为众多模型的基础组件,任何对 3DGS 本身的改进都可能带来巨大的收益。本文中,研究者致力于改进 3DGS 的基本范式和构成。

研究者认为,作为非正则化的混合模型,它既不需要是高斯分布,也不需要是泼溅。为此,他们提出了一个新的混合模型,该模型由灵活的学生分布组成,兼具了正密度(Splatting)和负密度(Scooping)特性。

研究者将该模型命名为 Student Splatting and Scooping(SSS)。SSS 在提供更好表达能力的同时,也为学习带来了新的挑战。因此,他们还提出了一种新的原则性采样优化方法。

根据对多个数据集、设置和指标的详尽评估和比较,研究者证明了 SSS 在质量和参数效率方面均优于现有方法。下图为本文方法与现有基线的比较。

论文 4:Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Vision-Language Models

作者:Matt Deitke, Christopher Clark, Sangho Lee, Rohun Tripathi, Yue Yang 等 * 机构:艾伦人工智能研究所,华盛顿大学,宾夕法尼亚大学 * 链接:https://arxiv.org/pdf/2409.17146 * 项目:https://allenai.org/blog/molmo

同样,这也是一篇我们曾经报道过的论文,其中提出了可比肩当时前沿模型的开源模型。其实现在也是如此,当今最先进的视觉语言模型 (VLM) 仍然是专有的。最强大的开放权重模型严重依赖来自专有 VLM 的合成数据来实现良好的性能,这样才能有效地将这些封闭的 VLM 蒸馏为开放的 VLM。因此,社区一直缺乏关于如何从头构建高性能 VLM 的基础知识。

而该团队推出的 Molmo 就为此做出了贡献。这是一个全新的 VLM 系列,在同类开放模型中处于领先地位。该研究的主要贡献是一组名为 PixMo 的新数据集,其中包括一个用于预训练的高精度图像字幕数据集、一个用于微调的自由格式图像问答数据集以及一个创新的 2D 指向数据集,所有这些数据集均无需使用外部 VLM 即可收集。

实际上,该方法的成功依赖于谨慎的模型选择、经过精心调优的训练流程,以及他们新收集的数据集的质量。实际效果也非常不错,他们开源的 72B 模型不仅在开放权重和数据模型方面胜过其他模型,而且还胜过更大的专有模型,包括 Claude 3.5 Sonnet、Gemini 1.5 Pro 和 Flash,在学术基准和大量人工评估方面均仅次于 GPT-4o。

更多详情,请访问《号称击败 Claude 3.5 Sonnet,媲美 GPT-4o,开源多模态模型 Molmo 挑战 Scaling law》。

最佳论文候选名单

除了这些获奖论文,CVPR 官方也公布了获奖论文的候选名单。这些论文同样值得一看,比如商汤及南洋理工 S-Lab 合作的论文「TacoDepth」为雷达 - 相机深度估计提供了新思路,而英伟达的 FoundationStereo 则是一个旨在实现零样本泛化能力的用于立体深度估计的基础模型。

感兴趣的读者请访问这里查看详情: https://cvpr.thecvf.com/virtual/2025/events/AwardCandidates2025

最佳学生论文 Neural Inverse Rendering from Propagating Light

作者:Anagh Malik、Benjamin Attal 、Andrew Xie 、Matthew O’Toole 、David B. Lindell * 机构:多伦多大学、Vector Institute、CMU * 论文地址:https://arxiv.org/pdf/2506.05347 * 论文主页:https://anaghmalik.com/InvProp/

本文提出了首个基于物理的多视角动态光传播神经逆渲染系统。该方法依赖于神经辐射缓存的时间分辨扩展 —— 这是一种通过存储从任意方向到达任意点的无限反射辐射来加速逆向渲染的技术。由此产生的模型能够准确地计算直接和间接光传输效应,并且当应用于从闪光激光雷达系统捕获的测量结果时,能够在强间接光存在的情况下实现最先进的三维重建。此外,本文还演示了传播光的视图合成、将捕获的测量结果自动分解为直接和间接分量,以及诸如对捕获场景进行多视图时间分辨重新照明等新功能。

本方法相较于基线方法能够重建更精确的法线信息,并在强度图像还原方面达到相当或更优的质量。

最佳学生论文荣誉提名

Generative Multimodal Pretraining with Discrete Diffusion Timestep Tokens

作者:Kaihang Pan, Wang Lin, Zhongqi Yue, Tenglong Ao, Liyu Jia, Wei Zhao, Juncheng Li, Siliang Tang, Hanwang Zhang * 机构:浙江大学,南洋理工大学,北京大学,华为新加坡研究中心 * 链接:https://arxiv.org/pdf/2504.14666 * 项目页面:https://ddt-llama.github.io/

近期,多模态大语言模型(MLLMs)的研究致力于通过结合大语言模型(LLM)和扩散模型来统一视觉的理解与生成。现有的方法依赖于空间视觉 token,即图像块按照空间顺序(例如光栅扫描)进行编码和排列。然而,该团队发现空间 token 缺乏语言所固有的递归结构,因此对于大语言模型来说,这是一种无法掌握的语言。

针对此问题,该团队构建了一种合适的视觉语言,可通过利用扩散时间步来学习离散的、递归的视觉 token。

该团队提出的 token 可随着时间步的增加,递归地补偿噪声图像中逐渐损失的属性,使扩散模型能够在任何时间步重建原始图像。这种方法能够有效地整合大语言模型在自回归推理方面的优势以及扩散模型在精确图像生成方面的优势,在一个统一的框架内实现无缝的多模态理解和生成。

其他奖项

年轻研究者奖

本次大会颁发了两个年轻研究者奖,获奖者为加州大学圣迭戈分校副教授 Hao Su 和纽约大学计算机科学助理教授谢赛宁。该奖项每年颁发给在计算机视觉领域做出杰出研究贡献的年轻研究人员,不过这些研究人员获得博士学位算起不能超过七年。

Hao Su,北京航空航天大学应用数学博士、斯坦福大学数学与计算机科学博士,目前在加州大学圣迭戈分校担任副教授(兼职)。他的研究领域涵盖了计算机视觉、计算机图形学、机器学习和通用人工智能以及机器人技术。去年,他参与创办了一家名为 Hillbot 的机器人公司,并担任 CTO。目前,他的论文被引量已超过 12 万。

谢赛宁 2013 年本科毕业于上海交通大学;2018 年,他在加州大学圣迭戈分校的计算机科学与工程系获得博士学位,主要研究方向为深度学习和计算机视觉。之后,他曾任 Facebook 人工智能研究室(FAIR)研究科学家,并在 2022 年和 William Peebles 合作发表了 DiT 论文,首次将 Transformer 与扩散模型结合到了一起。目前谢赛宁的论文被引量已经超过 7.5 万。

Longuet-Higgins 奖

Longuet-Higgins 奖可以理解为时间检验奖。今年的奖项颁给了两篇论文。

第一篇是 Christian Szegedy、Wei Liu、贾扬清等人 2015 年发表在 CVPR 上的 「Going Deeper with Convolutions」(隶属谷歌)。

这篇论文提出了著名的深度卷积神经网络架构 Inception,它在 2014 年 ImageNet 大规模视觉识别挑战赛(ILSVRC2014)中达到了分类和检测领域的新高度。该架构的主要特点是提高了网络内部计算资源的利用率。

这也是贾扬清被引次数最多的论文,已经超过 6.7 万次。

第二篇是 UC 伯克利 Jonathan Long、Evan Shelhamer、Trevor Darrell 2015 年在 CVPR 发表的「Fully Convolutional Networks for Semantic Segmentation」。

这篇论文的关键在于它开创性地建立了一种可以接受任意大小图像并输出与输入等大的图像的全卷积神经网络。在这篇文章中,作者定义了全卷积神经网络 (FCN) 的空间结构、解释了 FCN 在空间密集型预测任务上的应用并且给出了他与之前其他网络之间的联系。它启发了很多后续研究。

目前,这篇论文的引用量已经超过 4.9 万。

Thomas S. Huang 纪念奖

Thomas S. Huang 纪念奖于 CVPR 2020 设立,并于 CVPR 2021 起每年颁发,以表彰在研究、教学 / 指导和服务计算机视觉领域中被认可为典范的研究人员。该奖项旨在纪念已故的 Thomas S. Huang(黄煦涛)教授,他是一位在计算机视觉和图像处理等多个领域留下深刻影响的先驱学者,也是为社区几代研究人员的成长和福祉做出贡献的典范。

该奖项每年颁发一次,授予获得博士学位至少 7 年的研究人员,最好是在职业生涯中期(不超过 25 年)。所有计算机视觉领域的研究人员都将被考虑。该奖项包括 3000 美元的现金奖励和一块奖牌。

今年的获奖者是德克萨斯大学奥斯汀分校计算机科学系的教授 Kristen Grauman,她领导着该大学的计算机视觉研究组。

© THE END 转载请联系本公众号获得授权 投稿或寻求报道:liyazhou@jiqizhixin.com

成为VIP会员查看完整内容
5

统一状态的离散扩散模型因其内在的自我纠错能力,被认为具有快速文本生成的潜力。然而,实际中它们的性能通常不如自回归模型(autoregressive models)和掩码扩散模型(masked diffusion models)。本研究旨在通过一个关键洞察来缩小这一性能差距:统一状态扩散过程本质上可由底层的高斯扩散自然导出。 我们提出了一种新方法 Duo,通过将高斯扩散中的先进技术迁移到离散扩散模型中,以提升训练与采样效果。 * 首先,我们引入了一种由高斯过程指导的课程学习策略(curriculum learning),通过降低方差,将训练速度提高了一倍。采用课程学习训练的模型在 7 个基准测试中的 3 个上,其零样本困惑度(zero-shot perplexity)超过了自回归模型。 * 其次,我们提出了离散一致性蒸馏(Discrete Consistency Distillation),该方法将“连续一致性蒸馏(consistency distillation)”扩展至离散领域。这一算法实现了扩散语言模型的少步采样(few-step generation),使采样速度提高了两个数量级。

相关代码与模型检查点可在项目主页获取: 👉 https://s-sahoo.com/duo

成为VIP会员查看完整内容
7

大语言模型(LLMs)已展现出卓越的能力,越来越多的研究致力于将其作为智能体(agents)使用——即能够将自然语言表达的复杂人类目标转化为在数字环境(如网页浏览器)中的一系列操作行为。要实现这一目标,需具备两个核心能力:第一,理解任意组合性的语言输入;第二,在陌生环境中自主学习,以便将语言目标有效地落实为多步决策行为。本论文正是围绕这两个挑战展开研究。 在第一部分中,我提出了 Tree Projections 框架,用于理解 Transformer 如何构建组合性结构。随后,我基于 Tree Projections 提出一系列研究成果,揭示了 Transformer 中组合泛化(compositional generalization)、“顿悟”现象(grokking)以及样本高效学习的机制。尽管 Tree Projections 有助于解释模型的泛化能力,已有研究表明标准 Transformer 在处理深层递归时表现不佳,其根本原因是缺乏支持无限层级结构的机制。为此,我提出了 Pushdown Layers,一种引入基于栈的记忆机制的结构增强方法。Pushdown Layers 能够提升模型在嵌套或递归推理任务中的样本效率与泛化能力。 在第二部分中,我介绍了 NNetNavBAGEL,两种用于网页环境中无监督、开放式探索的方法,使得模型能够在无需人工监督的情况下,自动为新网页采集训练数据。最佳效果来自于结合 NNetNav 所采集的示范数据对 LLM 进行微调。NNetNav 利用语言的层级结构来引导探索策略。借助 NNetNav,我们从 20 个真实网站中采集了 10,000 条交互示范,并据此微调了一个 80 亿参数的模型,在多个网页浏览基准测试中实现了无监督方法的新 SOTA,超越了零样本设置下的 GPT-4 表现。 总体而言,这些工作将我们更进一步推向具备语言理解与自主交互学习能力的数字语言智能体的发展目标。

成为VIP会员查看完整内容
10
登陆后查看更多精品内容
VIP会员
本周荟萃主题
区块链
区块链(Blockchain)是由节点参与的分布式数据库系统,它的特点是不可更改,不可伪造,也可以将其理解为账簿系统(ledger)。它是比特币的一个重要概念,完整比特币区块链的副本,记录了其代币(token)的每一笔交易。通过这些信息,我们可以找到每一个地址,在历史上任何一点所拥有的价值。
深度学习
机器学习的一个分支,它基于试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的一系列算法。
机器学习
“机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让 可以自动“ 学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多 推论问题属于 无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。”

——中文维基百科
强化学习
强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。
推荐系统
推荐系统,是指根据用户的习惯、偏好或兴趣,从不断到来的大规模信息中识别满足用户兴趣的信息的过程。推荐推荐任务中的信息往往称为物品(Item)。根据具体应用背景的不同,这些物品可以是新闻、电影、音乐、广告、商品等各种对象。推荐系统利用电子商务网站向客户提供商品信息和建议,帮助用户决定应该购买什么产品,模拟销售人员帮助客户完成购买过程。个性化推荐是根据用户的兴趣特点和购买行为,向用户推荐用户感兴趣的信息和商品。随着电子商务规模的不断扩大,商品个数和种类快速增长,顾客需要花费大量的时间才能找到自己想买的商品。这种浏览大量无关的信息和产品过程无疑会使淹没在信息过载问题中的消费者不断流失。为了解决这些问题,个性化推荐系统应运而生。个性化推荐系统是建立在海量数据挖掘基础上的一种高级商务智能平台,以帮助电子商务网站为其顾客购物提供完全个性化的决策支持和信息服务。
卷积神经网络
在深度学习中,卷积神经网络(CNN或ConvNet)是一类深度神经网络,最常用于分析视觉图像。基于它们的共享权重架构和平移不变性特征,它们也被称为位移不变或空间不变的人工神经网络(SIANN)。它们在图像和视频识别,推荐系统,图像分类,医学图像分析,自然语言处理,和财务时间序列中都有应用。
计算机网络
计算机网络( Computer Networks )指将地理位置不同的多台计算机及其外部设备,通过通信线路连接起来,在网络操作系统及网络通信协议的管理和协调下,实现资源共享和信息传递的计算机系统。
命名实体识别
命名实体识别(NER)(也称为实体标识,实体组块和实体提取)是信息抽取的子任务,旨在将非结构化文本中提到的命名实体定位和分类为预定义类别,例如人员姓名、地名、机构名、专有名词等。
机器翻译
机器翻译,又称为自动翻译,是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。它是计算语言学的一个分支,是人工智能的终极目标之一,具有重要的科学研究价值。
计算机视觉
计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取‘信息’的人工智能系统。
微信扫码咨询专知VIP会员