CNCC技术论坛丨大数据高峰论坛——大数据智能计算

2019 年 9 月 15 日 中国计算机学会

本论坛将于（10月17日）CNCC2019中国计算机大会第一天，在苏州金鸡湖国际会议中心A302-304会议室举行，今年论坛主题将定位于大数据智能计算与分析技术，将着重研讨大数据深度学习、大数据机器学习、以及自动化机器学习等热点技术问题。

大数据的核心价值在于智能化分析应用。大数据时代的智能化计算分析面临着诸多新的技术挑战，与此同时大数据时代数据资源和计算力的增长，也给智能计算带来诸多机遇，今年论坛主题将定位于大数据智能计算与分析技术，将着重研讨大数据深度学习、大数据机器学习、以及自动化机器学习等热点技术问题。

论坛主席

卜佳俊

博士，浙江大学教授，博导。CCF常务理事、青工委主任。浙江大学软件学院常务副院长，中国残疾人信息和无障碍技术研究中心副主任，浙江省服务机器人重点实验室主任。主要研究方向有智能媒体计算、大数据分析与挖掘、无障碍计算等。发表学术论文100多篇，其中包括CCF A类会议和期刊论文40余篇，获AAAI 2012 Outstanding Paper Award。授权发明专利30多项。获2011年度国家科技进步二等奖，2007年度国家技术发明二等奖等国家和省部科技奖励6项。

论坛共同主席

黄宜华

南京大学教授，博导，CCF大数据专家委员会常务委员、副秘书长, 江苏省计算机学会大数据专家委员会主任，南京大学PASA 大数据实验室负责人。主要研究方向为大数据分布并行处理、大数据机器学习。在国内外学术刊物和国际会议上发表大数据相关学术论文60 多篇，撰写并出版大数据处理书籍/教材2部。主持国家级和省部级科研项目以及与国内外诸多知名IT企业的合作研究项目。

讲者一：李飞飞

报告1：智能化自治数据库内核与平台

报告简介：自治数据库平台(SDDP: Self-Driving DataBase Platform)赋予云数据库智能运维能力以及智能化的数据库内核(例如自适应的冷热分离)。运行在SDDP的数据库系统具备自感知、自决策、自恢复、自优化功能，为云用户提供无感知的不间断服务。对于云数据库而言，内存往往成为系统资源使用瓶颈，如何设置合适的数据库缓存大小对节约成本显得尤为重要。在云环境下，每个用户的数据和workload都不一样，如何针对不同用户场景设置不同的缓存大小为SDDP提出了严峻挑战。人工设置缓存十分低效，无法在大规模场景下实施，特别是在云环境workload动态变化下，人工设置缓存基本没有可行性。因为每个数据库实例都要单独设置不同的缓存大小，使用算法自动化调整缓存具有重要的现实意义。

对此，我们基于深度学习方法，为SDDP设计了一套自动化缓存调整机制，称之为iBTune。iBTune已经大规模上线阿里巴巴生产环境超过1万个数据库实例。其利用相似workload找到当前数据库实例可忍受miss ratio，再使用miss ratio和缓存关系模型找到相应的缓存大小。为了满足SLA (service level agreement)我们设计了pairwise深度神经网络，使得相似数据库实例两两配对以便预测SQL访问延迟上限，缓存调整必须在预测的延迟上限内进行以便保证系统的稳定性。该算法已经成为SDDP重要功能并在阿里巴巴大规模部署并节省了17%内存。

嘉宾简介：李飞飞，阿里巴巴集团副总裁，ACM杰出科学家，达摩院数据库首席科学家，阿里云智能数据库产品事业部总裁，达摩院数据库与存储实验室负责人。犹他大学计算机系终身教授。曾获NSF、ACM、IEEE、Visa、Google、HP、华为等多个奖项，获IEEE ICDE 2014 10年最有影响力论文奖、ACM SIGMOD 2016最佳论文奖、ACM SIGMOD 2015最佳系统演示奖、IEEE ICDE 2004最佳论文奖、美国NSF Career Award、中国基金委海外重点研发奖。担任多个国际一流学术期刊和学术会议的编委、主席。

讲者二：秦涛

报告2：无标数据深度学习研究进展

报告简介：近年来深度学习在若干问题上（如图像识别、语音识别、机器翻译、阅读理解等）取得了巨大突破，这些突破很大程度上依赖于大量人工标注数据。由于标注大量数据成本很高，并且在很多应用场景受到隐私安全等制约很难获得大量标注数据，因此深度学习正面临着如何从海量无标数据进行学习的挑战。报告将介绍近1-2年内基于无标签数据的深度学习的最新进展，主要包括两部分内容。第一部分侧重如何利用机器学习任务之间的结构对偶属性从大量无标签数据进行学习，首先将介绍对偶学习的基本概念，然后介绍机器翻译中的多智能体对偶学习（该算法获得了国际机器翻译大赛WMT2019 4项冠军）和语音合成识别中的对偶学习的最新算法。第二部分侧重于自然语言中基于无标数据的预训练方法，首先介绍针对语言理解任务的BERT算法（该算法在10余项语言理解数据集上取得了最高准确度），然后介绍针对语言生成任务的MASS算法（该算法获得了国际机器翻译大赛WMT2019 2项冠军）。

嘉宾简介：秦涛博士，微软亚洲研究院资深研究员/经理，中国科学技术大学兼职教授和博士生导师，IEEE、ACM高级会员，于清华大学电子工程系获得学士和博士学位。他的主要研究领域包括机器学习和人工智能（重点是深度学习和强化学习的算法设计及在实际问题中的应用）、机器翻译、互联网搜索与计算广告、博弈论和多智能体系统，在国际会议和期刊上发表学术论文100余篇。曾任/现任AAAI、SIGIR、AAMAS、ACML领域主席，WWW 2020研讨会主席，DAI 2019工业论坛主席，担任多个国际学术大会程序委员会成员，曾任多个国际学术研讨会联合主席。他带领的团队获得2019年国际机器翻译大赛8项冠军。

讲者三：陈鹏

报告3：大规模在线学习在腾讯的应用实践

报告简介：在广告、新闻、游戏等诸多互联网产品场景中，产品内容通常具有较短的生命周期，用户兴趣也在快速的变化。在线学习技术可根据用户兴趣变化来实时适应训练模型，提高用户体验和流量转化率。如何在分布式环境下针对海量数据对深度学习模型进行实时更新，无论在学术界还是工业界都是一件十分有挑战的工作。

本报告将分享腾讯在大规模在线学习方面的研究与应用实践，重点介绍一站式在线学习开发和运维平台Oceanus ML的设计思路及应用实践。

嘉宾简介：陈鹏，腾讯数据平台部高级工程师，腾讯实时计算平台的研发负责人。毕业于北京大学，获得博士学位。Apache Flink项目Committer。在SIGMOD, TODS和IPDPS等国际顶级会议和期刊上发表过多篇论文，并担任KDD等国际会议程序委员会委员。

讲者四：涂威威

报告4：AutoML自动化机器学习发展现状与趋势

报告简介：机器学习在计算广告、推荐系统、金融应用、计算机视觉、自然语言处理、生物信息学等诸多领域取得了很多成功。在几乎所有这些成功的机器学习应用中，机器学习专家在机器学习的各个阶段扮演了非常重要的角色，这些阶段包括：收集数据、数据预处理、特征工程、算法选择或设计、超参数优化、模型性能评估、在线部署机器学习系统等复杂的流程。这些任务的复杂性超出了非机器学习专家的能力范围。AutoML（Automatic Machine Learning，自动机器学习）旨在研究在没有专业知识的情况下，使用自动化的机器学习方法解决机器学习建模，以AI设计AI，摆脱对机器学习专家的依赖。近年来，AutoML已经成为机器学习赋能行业的关键技术。AutoML应用前景广阔，却也挑战重重。本次报告将简要分享AutoML的技术现状、求解要素、以及未来发展趋势。

嘉宾简介：涂威威，第四范式主任架构师。在大规模分布式机器学习系统架构、大规模机器学习算法设计和应用、在线营销系统方面有深厚积累。涂威威曾在百度凤巢从事广告点击率预估工作，设计开发了百度机器学习计算框架ELF。目前就职于第四范式，是第四范式先知平台独有的大规模分布式机器学习框架 GDBT 的设计者，将 AutoML 及迁移学习应用到工业界并取得显著的效果提升。涂威威也是NeurIPS 2018 AutoML比赛负责人、PAKDD 2018/2019比赛主席、PRICAI 2018 AutoML Workshop主席，NeurIPS 2019 AutoDL比赛组织者之一，KDD Cup首届AutoML比赛负责人，TPAMI首个AutoML特刊创办者之一。

讲者五：朱光辉

报告5：自动化机器学习AutoML技术研究进展

报告简介：机器学习和人工智能算法设计主要依赖专业人员的经验和技巧。分析建模人员不仅要熟练掌握和使用各种算法模型，而且还要熟悉每个算法的超参数调优技巧。因此，分析建模和算法设计技术门槛高、难度大，即使是专业人员，模型选择和调参优化也是十分费力费时的工作。为了解决上述问题和挑战，近年来国内外出现了自动化机器学习（AutoML）研究领域，即用机器去自动化地完成算法模型选择和参数调优，从而大量节省人力成本，降低人工智能使用门槛，大幅提高建模效率。AutoML使得普通的行业数据分析师，也能够快速完成行业人工智能建模应用。本报告将介绍AutoML近几年来的研究现状与技术层面，包括自动化超参调优、自动化机器学习流水线设计及模型选择、自动化特征工程、自动化神经网络架构搜索，以及学术界在各个技术层面的最新研究进展。同时，本次报告也将重点介绍南京大学PASA大数据实验室在AutoML算法和系统方面的最新进展和成果。

嘉宾简介：朱光辉，江苏鸿程大数据研究院副总经理，南京大学PASA大数据实验室博士研究生。研究方向为大数据并行计算算法和系统、自动化机器学习。朱光辉已在TPDS、ICDE、JPDC、PARCO、ICPADS、计算机学报等国内外著名学术期刊和会议上发表论文多篇，并承担多项国家级以及与华为等知名企业合作的大数据研发项目。从2017年初开始从事AutoML技术的探索和研究，已取得了诸多原创性的技术成果，并连续三次在国际AutoML挑战赛中（PAKDD 2018 AutoML、NeurIPS 2018 AutoML、 KDD Cup 2019 AutoML）获得优异成绩。所研发的基于强化学习的AutoML算法和系统已成功应用于华为、360等国内知名IT企业。

讲者六：李国良

报告6：AI原生数据库系统

报告简介：大数据时代下，数据库系统主要面临着三个方面的挑战。首先，基于专家经验的传统优化技术（如代价估计，连接顺序选择，参数调优）已经不能满足异构数据、海量应用和大规模用户对性能的需求。我们可以设计基于学习的数据库优化技术，使数据库更智能。其次，AI时代很多数据库应用需要使用人工智能算法，如数据库中的图像搜索。我们可以将人工智能算法嵌入到数据库，利用数据库技术加速人工智能算法，并在数据库中提供基于人工智能的服务。再者，传统数据库侧重于使用通用硬件（如CPU），不能充分发挥新硬件（如ARM、AI芯片）的优势。

为了解决这些挑战，我们提出了原生支持人工智能（AI）的数据库系统。一方面，我们将各种人工智能技术集成到数据库中，以提供自监控、自诊断、自愈、自优化、自安全和自组装功能。另一方面，我们通过使用声明性语言让数据库提供人工智能功能，以降低人工智能使用门槛。我们定义了人工智能原生数据库的五个阶段，给出了设计人工智能原生数据库的挑战。最后还以数据库自动调优、基于深度强化学习的查询优化、基于机器学习的基数估计和自治索引/视图推荐为例，展示人工智能原生数据库的优势。

嘉宾简介：李国良，清华大学计算机系教授，软件所所长。主要研究方向为数据库、大数据挖掘与分析、群智计算。在数据库、数据挖掘、信息检索领域的顶级会议和期刊上发表论文100余篇，他引6500余次，入选爱思唯尔2014-2018年中国高被引学者榜单。主持国家优秀青年基金、青年973、自然基金重点等项目。获得了VLDB Early Career Research Contribution Award（VLDB杰出青年贡献奖，亚洲唯一一位）、IEEE TCDE Early Career Award（IEEE 数据工程领域杰出新人奖，亚洲唯一一位）、青年长江学者、国家万人计划青年拔尖人才、计算机学会青年科学家奖等奖项。担任VLDB Journal、IEEE TKDE、IEEE Data Engineering Bulletin、ACM Transactions on Data Science、ACM Data and Information Quality (JDIQ)等期刊编委，多次担任SIGMOD、VLDB、KDD、ICDE、WWW、IJCAI、AAAI等会议的程序委员会委员。获得过A类会议KDD18、ICD18最佳论文候选，B类会议CIKM’17最佳论文奖、DASFAA’14的最佳论文提名奖、C类会议APWeb’14最佳论文奖、EDBT’13大数据比赛冠军。