分布式智能计算系统前沿

2019 年 10 月 8 日 中国计算机学会

本论坛将于CNCC2019中国计算机大会第三天（10月19日）在苏州金鸡湖国际会议中心A206会议室举行，共邀北理、天大、湖大、清华、西工大、中科大、南开、国防科大、腾讯公司等高校和产业界的专家与您探讨分布式智能计算系统前沿技术。

论坛简介：

人工智能应用的迅速发展，需要分布式智能计算系统的支撑，以高效支持机器学习模型的训练、大规模知识处理和大数据智能应用。很多机器学习模型的参数多、训练和推理的数据规模大，给智能计算系统的系统架构、参数存储、网络通信和同步、算法设计等都带来了很多新的技术挑战，也带来了新的研究机会。论坛邀请了学术界和产业界的著名专家，对分布式智能计算系统前沿技术展开研讨。

论坛主席

李东升

国防科技大学计算机学院教授、博导，并行与分布处理国家级重点实验室副主任，CCF杰出会员、CCF体系结构专委会委员。全国优秀博士学位论文获得者、首批国家优秀青年科学基金获得者，入选教育部新世纪优秀人才计划。主要从事并行与分布式计算、数据处理、并行智能计算等方面科研工作，在《中国科学》、IEEE/ACM Transactions等学术期刊和USENIX ATC、NSDI、EuroSys、VLDB、INFOCOM等会议上发表学术论文100 余篇，主持研制的系统在国家重要领域得到应用。获国家科技进步二等奖1项、湖南省自然科学一等奖1项和中国青年科技奖。

李涛

南开大学教授、博导，智能计算系统研究室负责人，智能物联网教学团队负责人，主要研究领域包括异构计算、机器学习、智能物联网等，主持国家和省部级基金项目10余项，主讲本科生必修课《计算机组成原理》和《智能计算系统》。现任南开大学信息化建设与管理办公室副主任，CCF高级会员、CCF体系结构专委会委员，《中国计算机学会通讯》专题编委，CCF《技术动态》总编，中国科技辅导员协会人工智能普及教育专委会委员；曾任南开大学科学技术处副处长，中国计算机学会青年计算机科技论坛天津主席。

论坛日程安排

时间	报告题目	讲者	单位
13:30- 14:00	未来数据计算	王国仁教授	北京理工大学
14:00- 14:30	知识图谱并行学习和推理	冯志勇教授	天津大学
14:30- 15:00	面向人工智能的大规模张量异构并行处理技术	李肯立教授	湖南大学
茶歇
15:30- 16:00	优化Spark中的集合通信以加速机器学习算法	陈文光教授	清华大学
16:00- 16:30	CrowdOS: 群智感知系统平台	於志文教授	西北工业大学
16:30- 17:00	基于Ring-allreduce的分布式深度学习训练性能优化	李诚研究员	中国科学技术大学
17:00- 17:30	大规模图机器学习系统的设计与实践	刘煜宏总经理	腾讯云数据

讲者和报告简介

王国仁

报告一题目：未来数据计算

报告摘要：经过40余年的发展，当今信息技术社会正在历经IT时代到DT时代的转变，大数据技术正在正在深刻地影响着整个社会和世界。本报告首先回顾了当前大数据计算的发展现状和主要技术进展，包括批处理、流计算等大数据计算平台；展望下一代大数据计算技术，首先分析了新一代大数据计算系统的特征与挑战，然后从批流融合、跨域处理和边缘计算等三个方向介绍未来数据计算的发展趋势。

报告人简历：王国仁，北京理工大学教授、博士生导师、国务院学科评议组成员、长江学者特聘教授、国家杰出青年科学基金获得者、中国计算机学会数据库专业委员会副主任委员。入选国家百千万人才工程国家级人选，授予“有突出贡献中青年专家”荣誉称号。主持国家自然科学基金、国家863计划项目等20余项。发表学术论文100余篇，主要研究方向包括：图数据管理、大数据计算技术、生物信息学等。

冯志勇

报告二题目：知识图谱并行学习和推理

报告摘要：以知识为核心的数据智能时代，知识处理方式因数据处理方式而发生根本性变化，包括从知识建模、到获取，再到知识存储、管理及其推理等全生命过程。知识利用是数据智能时代最终目标，分布式处理作为实际应用中最普遍数据处理方式，也将自然地应用在知识处理上。本报告介绍分布式知识处理中主要四个方面：分布式知识学习和获取、分布式知识存储与管理、分布式知识推理、分布式知识服务。最后，展望分布式知识处理系统架构和应用前景。

报告人简介：冯志勇，天津大学智能与计算学部软件学院教授、博士生导师，国家重点研发计划首席科学家、中国计算机学会理事会杰出会员、理事，中国计算机学会服务计算专业委员会副主任委员，中国计算机学会教育专业委员会资深常务委员，中国计算机学会软件工程专业委员会委员， ACM中国天津分部主席，《计算机研究与发展》、《小型与微型计算机》等杂志编委。主持国家重点研发计划、国家863计划、国家自然科学基金，以及其它省部和企业委托等项目20多项。在AAAI、IJCAI、CVPR、WWW、ICWS、ISWC、ICSOC、PR、TSC、TSVC、TMM、计算机学报、软件学报、计算机研究与发展等国际重要学术期刊和会议发表学术论文200多篇，获得授权发明专利30多项。

李肯立

报告三题目：面向人工智能的大规模张量异构并行处理技术

报告摘要：作为大数据表示的基本方法，张量在图像处理、社交网络、推荐系统等人工智能相关领域领域具有极广泛的应用。张量运算是探寻张量固有内在数据关系的关键。随着人工智能应用的不断深入，用以描述的张量维数或阶数迅速增大，张量运算已成为计算和数据密集型应用，对高性能计算提出了极大的需求和挑战。将针对高维高阶稀疏张量中非零元素的分布特征，设计相应的密度函数，据此探求张量的多维度压缩存储方法，研究新型张量运算异构并行算法，并结合国产异构超算系统的体系结构、面向未来E级计算，探讨其高效可扩展并行处理技术，并通过推荐系统和高光谱遥感图像处理等人工智能相关应用对其性能进行验证，以最终实现大规模张量的快速运算。

报告人简介：李肯立，湖南大学信息科学与工程学院教授、博士生导师、院长，国家杰出青年基金获得者，国家万人计划科技创新领军人才，科技部中青年创新计划领军人才，湖南省芙蓉学者特聘教授，国家超级计算长沙中心主任，数据分析湖南省工程研究中心主任，IEEE Senior Member，CCF杰出会员，超级计算创新联盟副理事长，CCF长沙副主席，湖南省计算机学会秘书长。主要研究领域为并行与分布式处理、大数据管理等，担任IEEE-TC等杂志编委，先后在IEEE-TC,TPDS,TSP,TIFS等国际顶级期刊发表学术论文180余篇，其中SCI收录150多篇，IEEE/ACM Transaction期刊近50篇。主持国家自然科学基金重点项目、科技部国际科技合作专项项目等国家和省部级项目20余项，以排名第一获湖南省技术发明一等奖、科技进步一等奖等省部级奖励4项。

陈文光

报告四题目：优化Spark中的集合通信以加速机器学习算法

报告摘要：Spark是一个被广泛使用的分布式数据处理工具，MLlib是基于Spark的机器学习包。我们发现Spark进行机器学习的扩展性不好，其中一个重要原因是其集合通信的性能很差。进一步探究我们发现Spark的编程接口限制了在其上实现高效集合通信算法。因此，我们提出了一个附加的编程接口，并实现了高效的集合通信算法，可以显著提高Spark在部分机器学习算法上的扩展性。

报告人简介：陈文光清华大学教授，主要研究领域为操作系统，程序设计语言与并行计算，国家自然科学基金杰出青年基金获得者。获国家科技进步二等奖一次，部级科技一等奖两次。ACM 中国理事会主席。担任多个重要学术会议的程序委员会委员的程序委员会委员。

於志文

报告五题目：CrowdOS：群智感知系统平台

报告摘要：群智感知是近年来物联网、普适计算领域的研究热点，各种应用层出不穷，但目前缺乏通用的系统级平台，报告将介绍西北工业大学提出并研制的CrowdOS：面向群智感知的泛在系统软件平台，包括系统架构、主要功能、典型应用等。

报告人简介：於志文，西北工业大学教授，国家杰出青年科学基金获得者，国家“万人计划”领军人才。现任智能感知与计算工信部重点实验室主任，陕西省嵌入式系统技术重点实验室主任，陕西省重点科技创新团队负责人。主要从事物联网、移动互联网、普适计算、人机系统等领域的研究工作。已在国际顶级学术期刊和会议上，如IEEE TMC、IEEE TKDE、INFOCOM、UbiComp、KDD等发表论文150余篇，SCI收录80余篇次。担任国际权威期刊IEEE Transactions on Human-Machine Systems、IEEE Communications Magazine等编委，担任ACM UbiComp、IEEE PerCom、IJCAI等国际会议程序委员或主席40余次。曾获中国计算机学会优秀博士学位论文奖、中国计算机学会青年科学家奖、首批国家优秀青年科学基金、霍英东高等院校青年教师奖、国家级教学成果二等奖和教育部自然科学二等奖。

李诚

报告六题目：基于Ring-allreduce的分布式深度学习训练性能优化

报告摘要：近些年来，由于数据量的增长和模型复杂度的提高，深度学习模型的训练逐渐由在单机上进行向多机器分布式环境转变。与参数服务器相比，由于其网络通信效率上的优势，基于Ring-allreduce通信模式的分布式深度学习训练变得越来越流行。通过性能评估分析，我们发现Ring-allreduce仍然存在一些严重的性能问题。本报告将从不同的深度学习模型训练任务出发，分析各系统子模块中的性能瓶颈，提出优化方案，并展示优化结果。

报告人简介：李诚，中国科学技术大学计算机科学与技术学院/国家高性能计算中心(合肥)特任研究员，博士生导师。德国马普学会软件系统所(MPI-SWS)博士，曾担任美国甲骨文公司瑞士苏黎世实验室 (Oracle Labs Swiss) 高级技术研究员，葡萄牙计算机系统工程研究所 (INESC-ID, Portugal) 访问研究员。李诚研究员一直从事分布式计算、一致性模型、系统性能优化、容灾容错等方面的基础理论和系统构建的研究工作。其成果发表于OSDI，USENIX ATC，EuroSys，Hotstorage，TPDS等系统领域的知名国际会议或期刊上。现担任CCF技术动态编委和FCS期刊青年AE。获得微软亚洲研究院2019年科研合作基金资助和合肥市回国留学人员创新计划支持。曾担任ACM TURC 2018 SIGOPS/第十四届 ChinaSys程序委员会共同主席，SOSP 2017 Poster Session程序委员会共同主席。

刘煜宏

报告七题目：大规模图机器学习系统的设计与实践

报告摘要：腾讯的业务场景中广泛存在着对图数据进行机器学习挖掘的需求。在图分析领域，其算法具有模型离散高维和数据海量稀疏等特性。同时，目前图分析算法不断发展，对大数据机器学习平台提出了新的挑战。腾讯大数据基于Angel平台，结合目前主流的深度学习系统，对大数据场景下图分析应用构建了一套解决方案，有效地解决了腾讯内部対图分析的需求，搭建了可支撑千亿规模图数据的机器学习平台。

报告人简介：刘煜宏，腾讯大数据负责人，腾讯云数据产品线总经理，腾讯T4大数据专家，目前负责腾讯大数据平台及机器学习平台的研发及运营工作。此前，曾就职华为等公司，拥有15年以上的电信及互联网行业的产品研发及运营经验，在电信计费、分布式计算、分布式数据库、机器学习等领域有丰富经验。