报告主题: 生成对抗网络
报告摘要: 生成对抗网络(Generative Adversarial Network,GAN)是非监督式学习的一种生成模型,其由一个生成网络与一个判别网络组成,通过让两个神经网络相互博弈的方式进行学习。生成网络从潜在空间(latent space)中随机取样 作为输入,其输出结果需要尽量模仿训练集中的真实样本。判别网络的输入则为真实样本或生成网络的输出,其目的是将生成网络的输出从真实样本中尽可能分辨出来。而生成网络则要尽可能地欺骗判别网络。两个网络相互对抗、不断调整参数,最终目的 是使判别网络无法判断生成网络的输出结果是否真实。虽然生成对抗网络原先是为了无监督学习提出的,它也被证明对半监督学习、监督学习、强化学习同样有用。本报告主要讲述生成对抗网络的基本原理和最新研究进展。
邀请嘉宾: 复旦大学计算机科学技术学院副教授,博士生导师。于复旦大学获得理学学士和博士学位。主要从事自然语言处理、深度学习等方向的研究,在ACL、EMNLP、AAAI、IJCAI等计算机学会A/B类期刊、会议上发表50余篇学术论文,引用 1900余次。开源中文自然语言处理工具FudanNLP作者,FastNLP项目负责人。2015年入选首届中国科协人才托举工程,2017年ACL杰出论文奖,2018年获中国中文信息学会“钱伟长中文信息处理科学技术奖—汉王青年创新奖”。
报告主题: Text Generation: From the Perspective of Interactive Inference
报告摘要: 机器翻译、文本摘要和图片描述等文本生成任务近年来受到越来越多的关注。然而,在文本生成任务中,我们看到几乎所有方法仍采用自左往右的推断模式,缺乏与自右往左推断的交互,限制了其对未来信息的开发和利用;此外, 在多语言翻译或多语言图片描述生成中,将同一个文本或图片自动转换为不同语言的文本时,不同语言的生成过程是相互独立的,推断过程缺乏交互,限制了语言间信息的共享和利用。这个报告首先介绍文本生成的基本范式,然后着重介绍同步双向交互推断的思想,并拓展泛化为通用的交互式推断方法,介绍在(多语言)机器翻译、文本摘要和图片描述生成等任务上的应用。最后,展望文本生成中交互式推断的难点和未来方向。
邀请嘉宾: 张家俊 博士,中科院自动化所模式识别国家重点实验室副研究员。研究方向为自然语言处理和机器翻译等。担任中国中文信息学会机器翻译专委会副主任等学术职务。在著名期刊与会议发表学术论文70余篇,曾四次获得自然语言处理学 术会议最佳论文奖。被ACL-IJCNLP-2015、NAACL-2018和IJCAI-2018评为杰出审稿人和杰出高级程序委员会委员。2014年和2018年分别获中国中文信息学会“钱伟长中文信息处理科学技术奖”一等奖(排名第三)和汉王青年创新奖一等奖。2015年入选首届中国 科协“青年人才托举工程”计划。担任COLING-2018和EMNLP-2019的领域主席和国际人工智能大会IJCAI (2017-2019)和AAAI (2019-2020)的高级程序委员会委员等。
报告主题: 预训练模型--自然语言处理的新范式
报告摘要: 传统的有监督自然语言处理模型依赖大规模的人工标注训练数据,这些数据标注代价非常高,因此规模有限,这也限制了自然语言处理系统进一步提升精度。以Word2vec,GloVe等为代表的词向量技术可以视为一种早期的预训练模型, 从大规模未标注文本中预训练的词向量,在一定程度上提高了上层模型的精度。然而,这些模型假设“一个词由唯一的向量表示”,忽略了它们在不同上下文下的差异。以ELMo为代表的上下文相关词向量模型取消了以上的假设,在不同的上下文环境下,赋予相 同的词以不同的词向量,因此又被称为“动态”词向量。BERT等模型进一步使用更深层的网络进行预训练,并使用了语言模型之外的预训练目标,在应用模式上也从简单的特征提取转换为精调整个网络结构。这些新的预训练模型在众多自然语言处理任务上取得 了很好的效果,已成为自然语言处理的新范式。本报告首先介绍预训练模型的演化过程,接着介绍预训练模型在应用方面的最新研究进展,另外还列举了一些对预训练模型进行定性和定量分析的工作,最后对自然语言处理中预训练模型的发展趋势进行了展望。
邀请嘉宾: 车万翔 博士,哈尔滨工业大学计算机学院教授,博士生导师,斯坦福大学访问学者,合作导师Christopher Manning教授。现任中国中文信息学会计算语言学专业委员会委员、青年工作委员会副主任;中国计算机学会高级会员、曾任 YOCSEF哈尔滨主席(2016-2017年度)。在ACL、EMNLP、AAAI、IJCAI等国内外高水平期刊和会议上发表学术论文50余篇,其中AAAI 2013年的文章获得了最佳论文提名奖,论文累计被引用2,100余次(Google Scholar数据),H-index值为26。出版教材 2 部,译 著 2 部。承担国家自然科学基金、973等多项科研项目。负责研发的语言技术平台(LTP)已被600余家单位共享,提供的在线“语言云”服务已有用户1万余人,并授权给百度、腾讯、华为等公司使用。2018年,获CoNLL多语种句法分析国际评测第1名。2015-16年, 连续两年获Google Focused Research Award(谷歌专注研究奖);2016年,获黑龙江省科技进步一等奖(排名第2);2012年,获黑龙江省技术发明奖二等奖(排名第2);2010年获中国中文信息学会“钱伟长”中文信息处理科学技术奖一等奖(排名第2)、首届 汉王青年创新奖(个人)等多项奖励。2017年,所主讲的《高级语言程序设计(Python)》课程获国家精品在线开放课程。
报告主题:任务型对话系统
报告简介:对话系统一般可以分为两种,即任务型对话系统(也称作目标导向型对话系统)和闲聊对话系统。本讲习班主要介绍任务型对话系统,其多用于垂直领域业务助理系统,如微软小娜、百度度秘、阿里小蜜以及我们研发的对话技术平台(DTP)等。这类系统具有明确需要完成的任务目标,如订餐、订票等。我们将首先介绍任务型对话系统的背景和定义,然后依次介绍其中的关键技术,包括自然语言理解(包括领域意图的识别和语义槽的填充)、对话管理(包括对话状态跟踪和对话策略优化)以及自然语言生成;接着介绍任务型对话系统的评价方法和国内外相关技术评测任务;最后对任务型对话系统的技术和应用趋势进行展望。
邀请嘉宾:车万翔博士,哈尔滨工业大学计算机学院教授,博士生导师,斯坦福大学访问学者,合作导师Christopher Manning教授。现任中国中文信息学会计算语言学专业委员会委员、青年工作委员会副主任;中国计算机学会高级会员、曾任YOCSEF哈尔滨主席(2016-2017年度)。在ACL、EMNLP、AAAI、IJCAI等国内外高水平期刊和会议上发表学术论文50余篇,其中AAAI 2013年的文章获得了最佳论文提名奖,论文累计被引用2,100余次(Google Scholar数据),H-index值为26。出版教材 2 部,译著 2 部。承担国家自然科学基金、973等多项科研项目。负责研发的语言技术平台(LTP)已被600余家单位共享,提供的在线“语言云”服务已有用户1万余人,并授权给百度、腾讯、华为等公司使用。2018年,获CoNLL多语种句法分析国际评测第1名。2015-16年,连续两年获Google Focused Research Award(谷歌专注研究奖);2016年,获黑龙江省科技进步一等奖(排名第2);2012年,获黑龙江省技术发明奖二等奖(排名第2);2010年获中国中文信息学会“钱伟长”中文信息处理科学技术奖一等奖(排名第2)、首届汉王青年创新奖(个人)等多项奖励。2017年,所主讲的《高级语言程序设计(Python)》课程获国家精品在线开放课程。
张伟男,哈尔滨工业大学计算机科学与技术学院副教授/博士。研究兴趣包括人机对话及自然语言处理。在ACL、AAAI、IJCAI及IEEE TKDE等CCF A类国际会议及国际顶级期刊发表论文多篇,主导研发了人机对话系统“笨笨”。目前为中国中文信息学会(CIPS)信息检索专委会委员、青年工作委员会委员,中国人工智能学会(CAAI)青年工作委员会委员。曾获黑龙江省科技进步一等奖、中国人工智能学会最佳青年成果奖、中国人工智能学会“合创杯”第二届全国青年创新创业大赛三等奖及首届“百度奖学金”。
报告主题:开放语义解析
报告摘要:语义解析(Semantic Parsing)是将自然语言句子转换为机器可识别的、可计算的语义表示的任务。语义解析是自然语言处理的核心任务之一,在智能问答、语音助手、智能机器人、代码生成等任务上具有广泛的应用。本报告将详细介绍语义解析这项任务,首先介绍语义解析任务、数据集和工具,然后依次介绍基于文法的语义解析方法(CCG,DCS等)、基于语义图构建的语义解析方法和新兴的神经语义解析方法(Seq2Seq, Seq2Act, coarse-to-fine等),最后对语义解析的前沿方向和重要挑战进行展望,包括上下文有关的语义解析(可用于对话),与周边环境有交互的语义解析(如用于机器人执行指令)。
报告嘉宾:韩先培,博士,中国科学院软件研究所中文信息处理实验室/计算机科学国家重点实验室研究员。主要研究方向为信息抽取、知识图谱、语义解析以及智能问答系统。在ACL、SIGIR、AAAI、EMNLP等重要国际会议发表论文四十余篇。韩先培是中国中文信息学会理事,语言与知识计算专业委员会副主任,中国科学院青促会会员,入选中国科协青年人才托举计划,获得中国中文信息学会汉王青年创新奖。 陈波,博士,中国科学院软件研究所中文信息处理实验室助理研究员,2018年获得中国科学院大学博士学位,并获得优秀毕业生。主要研究方向为语义解析(Semantic Parsing)和自然语言理解。在ACL、COLING、NAACL等自然语言处理国际顶级会议发表学术论文多篇。参与多项国家自然科学基金重点课题以及企业合作科研项目的研发。
报告主题:面向自然语言处理的深度学习基础
报告摘要:深度学习是人工智能领域的前沿热点,已在自然语言处理领域取得了令人瞩目的成绩,本篇报告从自然语言处理着手,以机器学习、网络模型为基础,并结合自然语言处理的实例,以及最新研究进展,全方面多层次地进行讲解,为感兴趣的学者、学生和工程师,提供了一个快速了解相关基础知识、研究内容、发展趋势的窗口。
嘉宾介绍:邱锡鹏,男,复旦大学计算机科学技术学院副教授,中国中文信息学会青年工作委员会委员,中国人工智能学会青年工作委员会常务委员,主要从事自然语言处理、深度学习等方向的研究,在 ACL、EMNLP、AAAI、IJCAI 等计算机学会 A/B 类期刊、会议上发表 50 余篇学术论文。开源自然语言处理工具 FudanNLP [GitHub] [Google Code] 项目开发者,FastNLP [GitHub] 项目负责人。 2015 年入选首届中国科协人才托举工程,2018 年获中国中文信息学会 “钱伟长中文信息处理科学技术奖—汉王青年创新奖”
论文题目: How to Fine-Tune BERT for Text Classification?
论文摘要: 预训练语言模型已经在学习通用语言表示上证明了存在的价值。作为一个 SOTA 预训练语言模型,BERT(基于 Transformer 的双向编码表示)在许多语言理解任务上取得了惊人的结果。在本文中,研究者进行了一项费时费力的实验,用于探索在 BERT 上进行各种微调方法,以使其用于文本分类任务上。最终,研究者提出了一个通用的 BERT 微调方法。论文提出的方法在 8 个常见的文本分类数据集上取得了新的 SOTA 结果。
作者简介:
邱锡鹏,复旦大学计算机科学技术学院副教授,博士生导师。于复旦大学获得理学学士和博士学位。主要从事自然语言处理、深度学习等方向的研究,在ACL、EMNLP、AAAI、IJCAI等计算机学会A/B类期刊、会议上发表50余篇学术论文,引用 1900余次。开源中文自然语言处理工具FudanNLP作者,FastNLP项目负责人。2015年入选首届中国科协人才托举工程,2017年ACL杰出论文奖,2018年获中国中文信息学会“钱伟长中文信息处理科学技术奖—汉王青年创新奖”。
黄萱菁,1989~1998年就读于复旦大学计算机系,先后获学士、博士学位。1998年留校任教,2006年晋升为教授,博士生导师。2008~2009年在美国麻省大学智能信息检索中心从事访问学者研究。现为中国青年科技工作者协会会员,中国中文信息学会理事。等