如何解决深度学习中的多体问题?丨Xtecher 前沿

2017 年 9 月 30 日 Xtecher 最in的科技媒体

多个智能体如何协同工作才能高效完成任务?深度学习领域中的多体问题就像物理领域中的一样难解。很多研究机构正致力于研发先进技术处理多代理系统的问题。


来源|机器之心

编辑|Forest

网址|www.xtecher.com

微信公众号ID|Xtecher


「多体问题」(又叫 N 体问题)是看似简单,实际上在当今数学中极难攻克的问题。多体问题是指多个相互作用的实体。在物理学中,任何三体问题都没有一个封闭的形式或解析。像这样简单的问题反映了我们分析工具的局限性。这并不意味着它是不可解的,它只意味着我们必须诉诸于近似和数值技术来进行计算。可以用足够精确的数值计算分析太阳、月球和地球之间的三体问题以帮助宇航员登陆月球。


在深度学习领域,我们也有一个新兴的 N 体问题。许多更先进的系统现在正在处理多代理系统的问题。每个代理都可能有与全局目标合作或竞争的目标(即目标函数)。在多代理深度学习系统中,甚至在模块化的深度学习系统中,研究人员需要设计可扩展的合作方法。


Johannes Kepler 大学、DeepMind、OpenAI 和 Facebook 最近纷纷发表论文探讨了这个问题的各个方面。


在 Johannes Kepler 大学的团队,包括 Sepp Hochreiter(LSTM 的提出者)已提出利用模拟库仑力(即电磁力大小与反向距离的平方成比例)作为一种训练生成对抗网络(GAN)的替代目标函数。



找到两个对抗网络之间的平衡状态是一个热门的研究课题。在深度学习中解决二体问题相当困难。研究发现,使用这种方法可以防止「模式崩溃」的不良情况。此外,设置确保收敛到一个最佳的解决方案,而且只有一个恰好也是全局的局部极小值。Wasserstein 目标函数(又名 Earth Mover Distance)可能是一个更好的解决方案,这在几个月前极其热门。这个团队已经把他们的创造命名为「库仑 GAN」。


微软 Maluuba 发表了一篇论文介绍了一个人工智能玩吃豆人游戏的系统,它的水平已经超过了人类。研究人员挑战的吃豆人游戏跟此类游戏最初的版本类似,人物在收集小球和水果的同时避免怪物。论文的题目是「强化学习的混合式奖励架构」。本文介绍了不同于典型的强化结构的强化学习(RL)的实现(即 HRA):



这篇文章令人惊讶的是所使用的目标函数的数量。本文描述了使用 1800 值函数作为其解决方案的一部分,也就是说,每个小球、每个水果和每个怪物都使用了代理。微软的研究表明使用数以千计的微型代理将问题分解成子问题并实际解决它是有效的!在这个模型中,代理之间的耦合显然是隐式的。


DeepMind 解决了具有共享内存的多代理程序的问题。在论文《Distral: Robust Multitask Reinforcement Learning》中,研究人员通过「思想融合」灵感的代理协调方法来解决一个共同的问题。为此,研究人员采用了一种封装每个代理的方法。然而,它们允许一些信息通过代理的封装边界,希望狭窄的通道更具伸缩性和鲁棒性。


我们提出了多任务联合训练的新方法,我们称之为 distral(提取和迁移学习)。我们不建议在不同的网络之间共享参数,而是共享一个「提取」的策略,以捕获跨任务的共同行为。每个网络都被训练用来解决自己的任务,同时受限于近似共享的策略,而共享策略通过提取训练成为所有任务策略的中心。



其结果引出了更快,更稳定的学习,从而验证了狭窄通道的方法。在这些多代理(N 体问题)开放性问题是这种耦合的本质。DeepMind 的论文表明了更低的耦合相对于原生的紧耦合的方法的有效性(即权重共享)。


OpenAI 最近发表了在他们的系统中训练模型匹配其他代理的多系统的有趣的论文。论文题目为《Learning with Opponent-Learning Awareness》。该论文表明,「以牙还牙」战略的出现源自赋予多代理系统社会意识能力。尽管结果具有弹性问题,但它确实是一种非常令人着迷的方法,因为它解决了人工智能的一个关键维度(参见:多维智能)。


总而言之,许多领先的深度学习研究机构正在积极探索模块化深度学习。这些团体正在探索由不同的对象函数组成的多代理系统,所有这些都用于合作解决单一的全局目标函数的。仍然有许多问题需要解决,但显然,这种做法确实非常有希望取得进展。去年,我发现博弈论的变化对未来进步极具指导意义。在今年,我们将看到更多探索多代理系统的松散耦合尝试。


━━━━━

封面设计:杨帅先  排版:Forest  校对:Forest

━━━━━

如果您有国内外科技行业新鲜资讯或独到见解,欢迎与Xtecher联系

微信:littlefish_forever

邮箱:xiru.duan@xtecher.com


Xtecher官网平台现开通认证作者,

有发稿意向的个人或媒体,可联系微信:springfreedom


(添加好友请注明公司、职位、事由)

点击 | 关键词 | 查看对应内容

Xtecher 精品封面



人工智能

快乐智慧 雷鸣 | 出门问问 李志飞

达闼科技 黄晓庆(上\) | Rokid 黄伽卫

驭势科技 吴甘沙 | 格灵深瞳 赵勇 

地平线 方懿 | 彩云天气 袁行远

车和家 李想51猎头 刘维

Face Think 杨松帆 | 中科视拓 山世光

深鉴科技 汪玉 | 越疆科技 刘培超

码隆科技 黄鼎隆 | 知觉科技 邹琪琳

钢铁侠科技 张锐 | 速感科技 陈震

梅卡曼德 邵天兰 | 艾米机器人 李友芳Novumind CEO吴韧 | 爱因互动 王守崑

Vizum 董霄剑 | 小鹏汽车 夏珩

阿里云的“硬骨头”

吴恩达终于离开,没人感到意外

腾讯优图,AI隐形战队

国产阿尔法狗战胜日本高手

BAT齐谈人工智能

阿里云,打响智能医疗第一枪

冷扑大师,从博弈算法到人类未来

28岁的《攻壳特工队》描述的未来

专访CMU计算机学院院长Andrew Moore

阿里云,用AI让中国“制造”变“智造”

CMU走出的智慧建筑新模式

AI时代,色情江湖攻防战


虚拟现实

Magic Leap:给科技创业公司耐心

IVLab用工业VR降低行业风险

AR/VR还会继续受投资人待见吗

诺亦腾 戴若犁 | 大朋VR 陈朝阳

Ximmerse 贺杰 | Pico 周宏伟
焰火工坊 娄池 | HTCVR 汪丛青 

七鑫易维 彭凡 | 影创科技 孙立

所思科技 罗子雄 | 凌宇智控 张道宁

Dexmo 谷逍驰


大数据

中网数据 孙远根 | 昆仑数据 陆薇

永洪科技 何春涛 | 华农天时 温晗秋子

GrowingIO 张溪梦 | ThinkingData 吕承通
神策数据 桑文锋 | 海云数据 冯一村

佳格数据 张弓 | 普林科技 王储

Datatist 宋碧莲 | 职品汇 龚才春

星环科技 孙元浩 | 人才易 葛昊

科技谷 陈思恩 | 四维图新 程鹏


航空航天

零壹空间 舒畅 | 天仪研究院 杨峰

“潇湘一号”科学实验卫星升空

融资逾亿,零壹空间与它的火箭长征


大健康

人本健康 陈恂 | Haplox 许明炎

奇云诺德 罗奇斌 | 基准医疗 范建兵

哈佛医学院 George Church

推想科技 陈宽

智能出行

小鹏汽车 夏珩 | 奇点汽车 沈海寅

禾赛科技 李一帆 | PulsAI 刘万千


Fintech

智能投顾:理性更多,还是赌性更硅谷投资人:真正的AI还得再等等

toC or toB谁的终结,谁的胜利

安防专家总论勒索病毒

数库科技 刘彦 | Ping++ 金亦冶

abc Fintech 杨永智 | 奇点机智 宋嘉伟

芥末金融 彭晨 | 蓝海智投 刘震

海鲸金融 丁华昆 | 资易通 盛洁俪

点融网 郭宇航


其他科技创业者
科幻作家 郝景芳 | Vinci 宋斯纯

禾赛科技 李一帆 | 诸葛io 孔淼

奥图科技 叶晨光 | 瀚诺半导体 张诚

51猎头 刘维 | 腾展科技 魏松祥

墨刀 张元一 | Phresh Amit

品类 唐十三 | 布比 蒋海

Plug and Play Saeed Amidim

集智俱乐部 张江 | NVIDIA 黄仁勋

NewGen Capital 张璐 | 纵目科技 唐锐Insta360刘靖康 | MORE Health甘伟杰


创业群像

“买买买”狂潮下物流巨链的前生今世

类定律:1年成为1亿美元公司的背后

华强北困局:离席的人,守望的人

区块链创业者们:黎明之前的那一刻

不开源的区块链都是“耍流氓”

华人对冲基金鼎新资本

一下科技通往纳斯达克之路

Uber无人车发生严重事故被叫停

神测数据,帮企业“打好数据底子”

布本智能,做有价值的云头条

个推,第三方推送里的“丐帮”

李志飞:并非上岸,只是出海

个性化时代的阅读之殇

个性化定制,空气从此不再共享

鳍源科技水下无人机:探索海底新纪元

FaceThink推出AI测评系统

30+汽车大佬:究竟需要哪种自动驾驶

比亚迪:从603.62%到-28.79%,只是一步之遥


如果你拥有高精尖科技创业项目,Xtecher将为你提供:

1.专业的科技人物特稿和视频拍摄

2.在Xtecher官网、APP、微信的全方位展示

3.最专业的科技圈投资人、政府资源、产业资源

4.创业企业品牌管家与PR服务

即刻扫码,联系我们。

微信号:Xtecher

关注未来的人

都关注了Xtecher


登录查看更多
2

相关内容

多代理系统由多个代理通过共同合作来组成,其基本单元是代理,代理可以与其所在环境进行互动。代理由3 个功能层组成:管理和组织层、协调层以及执行层。管理和组织层主要是获得目标定义或质询,以及相关约束条件,包括执行计划、功能评估和学习。协调层的任务是根据来自管理和组织层的基本过程定义、动作步骤激活动作的执行;协调层可以对动作进行扩展,从而对事件进行响应。执行层是一系列动作执行,并跟随着对动作的检查。
卷积神经网络的概述论文:分析、应用和展望,21页pdf
专知会员服务
89+阅读 · 2020年4月7日
【强化学习】深度强化学习初学者指南
专知会员服务
178+阅读 · 2019年12月14日
【课程推荐】 深度学习中的几何(Geometry of Deep Learning)
专知会员服务
55+阅读 · 2019年11月10日
近期强化学习领域论文导读(附源码)
人工智能前沿讲习班
7+阅读 · 2019年6月15日
论强化学习的根本缺陷
AI科技评论
11+阅读 · 2018年7月24日
量子计算
人工智能学家
7+阅读 · 2018年4月6日
深度学习2017成果展
论智
4+阅读 · 2017年12月26日
论文结果难复现?本文教你完美实现深度强化学习算法DQN
中国人工智能学会
5+阅读 · 2017年11月24日
【智能医疗】如何利用深度学习诊断心脏病?
产业智能官
8+阅读 · 2017年10月3日
如何在Chatbot中应用深度学习? | 赠书
人工智能头条
5+阅读 · 2017年9月12日
Generating Rationales in Visual Question Answering
Arxiv
5+阅读 · 2020年4月4日
Arxiv
6+阅读 · 2019年8月22日
Arxiv
4+阅读 · 2019年4月3日
Arxiv
4+阅读 · 2018年6月1日
Arxiv
4+阅读 · 2018年5月14日
Arxiv
9+阅读 · 2016年10月27日
VIP会员
相关资讯
近期强化学习领域论文导读(附源码)
人工智能前沿讲习班
7+阅读 · 2019年6月15日
论强化学习的根本缺陷
AI科技评论
11+阅读 · 2018年7月24日
量子计算
人工智能学家
7+阅读 · 2018年4月6日
深度学习2017成果展
论智
4+阅读 · 2017年12月26日
论文结果难复现?本文教你完美实现深度强化学习算法DQN
中国人工智能学会
5+阅读 · 2017年11月24日
【智能医疗】如何利用深度学习诊断心脏病?
产业智能官
8+阅读 · 2017年10月3日
如何在Chatbot中应用深度学习? | 赠书
人工智能头条
5+阅读 · 2017年9月12日
相关论文
Generating Rationales in Visual Question Answering
Arxiv
5+阅读 · 2020年4月4日
Arxiv
6+阅读 · 2019年8月22日
Arxiv
4+阅读 · 2019年4月3日
Arxiv
4+阅读 · 2018年6月1日
Arxiv
4+阅读 · 2018年5月14日
Arxiv
9+阅读 · 2016年10月27日
Top
微信扫码咨询专知VIP会员