【ASSIA】『深度与宽度强化学习』前沿讲习班第二天详细日程及安排

2018 年 5 月 29 日 中国自动化学会

杨颖工程师

杨颖工程师
中车株洲电力机车有限公司

题目：轨道交通车辆预测与健康管理（PHM）技术应用

简介：杨颖，中国中车首席专家，中车株洲电力机车有限公司副总工程师，教授级高级工程师。1988年毕业于中国科技大学获理学学士，2002年毕业于湖南大学获硕士学位，主要从事城市轨道交通车辆研发工作，享受国务院特殊贡献津贴，中国城市轨道交通协会技术装备委员会委员，中国轨道交通CRCC认证委员会委员，曾担任国家863计划项目，湖南省重大专项课题牵头人，目前担任十三五国家重点研发计划200km/h中速磁浮交通系统关键技术研究课题牵头人。获省部级科技进步奖一等奖二项，二等奖二项，获授权发明

赵冬斌研究员

赵冬斌研究员
中国科学院

题目：深度强化学习算法及应用

简介：赵冬斌，中国科学院自动化研究所，研究员、博士、博士生导师，中国科学院大学岗位教授。任IEEE计算智能学会北京分会主席，曾任自适应动态规划和强化学习技术委员会主席、多媒体委员会主席等。IEEE高级会员、自动化学会高级会员等。任领域顶级期刊IEEE TNNLS，IEEE TCyb, IEEE CIM编委等，国际期刊特邀编辑10余次，包括作为首席客座编委组织2018年IEEE TNNLS深度强化学习和自适应动态规划专刊，2019年IEEE TCIAIG深度强化学习和游戏专刊。多次在权威国际会议上担任要职。发表论文300余篇，授权发明专利30项、国际发明专利1项。目前主要研究方向为深度强化学习、计算智能、自适应动态规划方法及在游戏、智能车、机器人、医疗、能源等领域的应用。

摘要：将具有“决策”能力的强化学习(RL: Reinforcement Learning)和具有“感知”能力的深度学习(DL: Deep Learning)相结合，形成深度强化学习(DRL: Deep RL)方法，成为人工智能(AI: Artificial Intelligence)的主要方法之一。2013年，谷歌DeepMind团队提出了一类DRL方法，在视频游戏上的效果接近或超过人类游戏玩家，成果发表在2015年的《Nature》上。2016年，相继发表了所开发的基于DRL的围棋算法AlphaGo，以5:0战胜了欧洲围棋冠军和超一流围棋选手李世石，使围棋AI水平达到了一个前所未有的高度。2017年初，AlphaGo的升级程序Master，与60名人类顶级围棋选手比赛获得不败的战绩。2017年10月，DeepMind团队提出了AlphaGo Zero，完全不用人类围棋棋谱而完胜最高水平的AlphaGo，再次刷新了人们的认识。并进一步形成通用的Alpha Zero算法，超过最顶级的国际象棋和日本将棋AI。DRL在视频游戏、棋类博弈、自动驾驶、医疗等领域的应用日益增多。本报告将介绍强化学习、深度学习和深度强化学习算法，以及在各个领域的典型应用。

刘勇教授

刘勇教授
浙江大学

题目：正则化深度学习及其在机器人环境感知中的应用

简介：刘勇，浙江大学智能系统与控制研究所教授，浙江大学求是青年学者，浙江省“新世纪151 人才工程”第三层次培养人员，担任浙江省机器换人专家组专家。承担NSFC-浙江两化融合联合基金、国家自然科学基金青年和面上项目、科技部863 重点项目子课题、浙江省杰出青年基金、工信部重大专项等国家级省部级项目多项。获得浙江省自然科学奖2017（一等奖），科学进步奖2013（一等奖），发表SCI 论文20 余篇，授权发明专利6 项。主要研究方向包括：智能机器人系统、机器人感知与视觉、深度学习、大数据分析，多传感器融合等。

摘要：近年来，随着人工智能技术的飞速发展，深度神经网络技术在图像分析、语音识别、自然语言理解等难点问题中都取得了十分显著的应用成果。然而该技术在机器人感知领域的应用相对而言仍然不够成熟，主要源于深度学习往往需要大量的训练样本来避免过拟合、提升泛化能力，从而降低其在测试样本上的泛化误差，而机器人环境感知中涉及的任务与环境具有多样化特性，且严重依赖于机器人硬件平台，因而难以针对机器人各感知任务提供大量标注样本；其次，对于解不唯一的病态问题，即使提供大量的训练数据，深度学习方法也难以在测试数据上提供理想的估计，而机器人感知任务中所涉及的距离估计、模型重构等问题就是典型的病态问题，其输入中没有包含对应到唯一输出的足够信息。针对上述问题，本报告以提升深度学习泛化能力为目标、以嵌入先验知识的正则化方法为手段、以机器人环境感知为应用背景展开介绍。

游科友副教授

游科友副教授
清华大学

题目：分布式优化算法与学习

简介：游科友，清华大学自动化系副教授、博士生导师。2007年获中山大学统计科学学士学位，2007年8月至2012年6月在新加坡南洋理工大学电气与电子工程学院攻读博士学位和从事博士后研究。自2012年7月起任教于清华大学自动化系。曾受邀访问意大利都灵理工大学、澳大利亚墨尔本大学、香港科技大学等院校。从事网络化系统系统、分布式优化、强化学习及其应用等方面的研究。在控制系统领域两大权威期刊《Automatica》和《IEEE Trans. Automatic Control》发表论文19篇，其中长文9篇。2010年获中国控制会议关肇直奖，2014年入选第十批“千人计划”青年千人项目和获 IBM 中国优秀教师奖教金， 2017年获国家自然科学基金优秀青年基金项目资助。

徐昕教授

徐昕教授
国防科技大学

题目：自评价学习控制中的特征表示与滚动优化

简介：徐昕，国防科技大学智能科学学院教授，博士生导师，国防科技卓越青年人才基金获得者。主要研究领域是机器人和智能无人系统的机器学习、自主感知与优化控制。任中国人工智能学会理事， IEEE高级会员。获国家自然科学二等奖、湖南省自然科学一等奖、国防科技进步二等奖、湖南省自然科学优秀论文一等奖各1项，入选新世纪优秀人才支持计划，获霍英东青年教师基金资助。主持国家自然科学基金重点项目2项、面上项目3项、973课题等国家和省部级项目10余项。出版专著2部，发表论文150余篇，SCI收录60余篇，EI收录100余篇，他引4000余次，SCI他引1000余次。任Information Sciences (IF=4.03, Elsevier), IEEE Transactions on System, Man, and Cybernetics: Systems, International Journal of Social Robotics等6个国际SCI期刊的Associate Editor或者Guest Editor，以及《自动化学报》编委。

往期文章推荐