论文摘要:在编译器质量保证中,编译器测试与调试是其中最广泛使用的技术手段。编译器测试通过运行测试用例进行缺陷检测,编译器调试对缺陷进行诊断及修复。为了保证编译器的质量,本文进一步探索编译器测试与调试相关技术。本文的主要研究工作及创新点如下:

  • 进行了基于测试数据分析的编译器测试技术效果探究。该实证研究探究了三种主流编译器测试技术在两个通用编译器上的测试效果。该实证研究揭示三种编译器测试技术在不同的场景下各具优势、彼此互补,并且测试代码效果、测试预言强度,以及效率对编译器测试效果具有显著影响。
  • 提出了基于历史数据学习的编译器测试加速技术。该技术通过对大量历史数据进行分析,提取出测试代码中与编译器缺陷相关的特征(包括代码的语言特征、操作特 征,以及结构特征),分别利用支持向量机算法(SMO)、高斯过程,以及梯度增强回归算法构造出三个预测模型。
  • 提出了基于历史缺陷分析的编译器重复缺陷检测技术。该技术通过挖掘历史上测试代码触发缺陷的原因,提取出代码特征(包括词法特征、语法特征,以及本文首次提出的数据流特征)和缺陷报告中的文本特征,然后根据这些特征计算触发缺陷的测试代码之间的距离,从而检测重复缺陷。
  • 提出了基于测试数据生成的编译器缺陷辅助定位技术。该技术将缺陷辅助定位问题转化为有效的证人测试代码生成问题。在GCC和LLVM编译器的现实缺陷上进行实验,该技术能够将66.67%的缺陷的缺陷所在文件定位在所有可疑文件的前10位。

关键词:编译器质量,编译器测试,编译器调试,数据驱动

作者介绍:陈俊洁,北京大学计算机软件与理论专业博士,他的博士生导师是谢冰。研究方向为软件测试。

数据驱动的编译器测试与调试若干技术研究.pdf
0+
0+

相关内容

报告主题: 预训练模型--自然语言处理的新范式

报告摘要: 传统的有监督自然语言处理模型依赖大规模的人工标注训练数据,这些数据标注代价非常高,因此规模有限,这也限制了自然语言处理系统进一步提升精度。以Word2vec,GloVe等为代表的词向量技术可以视为一种早期的预训练模型, 从大规模未标注文本中预训练的词向量,在一定程度上提高了上层模型的精度。然而,这些模型假设“一个词由唯一的向量表示”,忽略了它们在不同上下文下的差异。以ELMo为代表的上下文相关词向量模型取消了以上的假设,在不同的上下文环境下,赋予相 同的词以不同的词向量,因此又被称为“动态”词向量。BERT等模型进一步使用更深层的网络进行预训练,并使用了语言模型之外的预训练目标,在应用模式上也从简单的特征提取转换为精调整个网络结构。这些新的预训练模型在众多自然语言处理任务上取得 了很好的效果,已成为自然语言处理的新范式。本报告首先介绍预训练模型的演化过程,接着介绍预训练模型在应用方面的最新研究进展,另外还列举了一些对预训练模型进行定性和定量分析的工作,最后对自然语言处理中预训练模型的发展趋势进行了展望。

邀请嘉宾: 车万翔 博士,哈尔滨工业大学计算机学院教授,博士生导师,斯坦福大学访问学者,合作导师Christopher Manning教授。现任中国中文信息学会计算语言学专业委员会委员、青年工作委员会副主任;中国计算机学会高级会员、曾任 YOCSEF哈尔滨主席(2016-2017年度)。在ACL、EMNLP、AAAI、IJCAI等国内外高水平期刊和会议上发表学术论文50余篇,其中AAAI 2013年的文章获得了最佳论文提名奖,论文累计被引用2,100余次(Google Scholar数据),H-index值为26。出版教材 2 部,译 著 2 部。承担国家自然科学基金、973等多项科研项目。负责研发的语言技术平台(LTP)已被600余家单位共享,提供的在线“语言云”服务已有用户1万余人,并授权给百度、腾讯、华为等公司使用。2018年,获CoNLL多语种句法分析国际评测第1名。2015-16年, 连续两年获Google Focused Research Award(谷歌专注研究奖);2016年,获黑龙江省科技进步一等奖(排名第2);2012年,获黑龙江省技术发明奖二等奖(排名第2);2010年获中国中文信息学会“钱伟长”中文信息处理科学技术奖一等奖(排名第2)、首届 汉王青年创新奖(个人)等多项奖励。2017年,所主讲的《高级语言程序设计(Python)》课程获国家精品在线开放课程。

2+
0+

论文摘要:随着数码相机、智能手机等数码设备的普及,用户可以随时随地拍摄各种感兴趣的场景。然而,在成像过程的曝光时间内存在难以避免的相机抖动、物体运动、场景深度变化等原因,使拍摄的图片和视频中往往存在一些模糊现象,影响对图片内容的理解。因此对这些低质量图片的恢复将有助于人们更好的理解图像内容。本文拟对模糊图片和视频的还原进行研究,分别利用不同的结构先验知识对模糊图像和视频内容进行恢复。本文的主要研究内容和贡献如下:

  1. 针对场景文字图片中文字笔画宽度不同的特性,提出了一种基于文字特有多尺度字典的场景文字去模糊方法。我们统计了场景文字图像中笔画宽度的分布规律,通过该统计规律分别训练得到不同尺度的场景文字字典。然后利用该文字特有多尺度字典对文字图片中的文字区域建模先验知识。本文提出的文字特有多尺度字典可以有效处理场景中不同笔画宽度的场景文字。

  2. 根据图像中相似图像块之间的低秩结构特性,本文提出了一种基于低秩先验的图像去模糊方法。我们观察到在模糊图像中使用低秩约束可以在一定程度上减少图像的模糊效应,同时保留图像的主要结构信息,而这一现象在图像的梯度域上更加明显。基于此本文提出基于低秩近似的图像去模糊方法,分别在图像的灰度域和梯度域增加低秩约束,保留图像的主要边缘结构达到去模糊的效果。

  3. 由于视频中存在复杂的相机抖动,物体运动和场景深度变化等多种原因,传统的基于均匀模糊核或全局非均匀模糊核的视频去模糊方法不能满足真实视频的特性。基于此,我们提出了一种基于像素级非线性模糊核的视频去模糊方法。通过对视频双向光流构造二次方程,来近似求解每个像素的非线性模糊核,可以反映出视频中更真实的模糊核。此外,为了提高光流的准确性,尤其是运动物体的边缘信息,我们将语义分割引入到视频去模糊中,通过不同物体信息对光流进行不同的建模,得到更好的光流估计结果从而进一步提高视频 去模糊的效果。

关键词: 图像去模糊,文字图像去模糊,视频去模糊,稀疏表达,低秩表示,像素级非线性模糊核,光流,语义分割

作者介绍:他目前是天津大学计算机科学与技术学院和美国加州大学默塞德分校电子工程与计算机科学联合培养的博士研究生,他的博士生导师是操晓春,他的研究兴趣包括图像去模糊,图像/视频分析和增强,以及相关的视觉问题,相关研究成果发表在权威期刊和会议上,如IEEE TIP, CVPR, ECCV等。

1+
0+

论文摘要:本工作针对机器学习算法的分布式梯度优化,期望通过设 计一系列算法层面的方法,首先优化计算过程和通信过程,进而从全局上优化整体迭 代过程,最终实现在分布式环境下高效高性能的目标。具体而言,本文的研究内容有 以下三点主要贡献。

  1. 面向高维海量数据的并行策略。目前机器学习算法的分布式梯 度优化使用的数据并行或模型并行策略无法同时解决高维模型和海量数据的双重挑战。作者首先提出一个严格的代价模型,以煇煂煄煔算法为例系统性地比较了已有的分布式系统架构,并选择参数服务器作为底层架构;然后在深入分析算法 特点的基础上,提出了基于参数服务器的混合并行策略,并以煇煂煄煔算法为例设 计和实现了提出的方法。
  2. 面向稀疏梯度的数据压缩。目前机器学习算法的分布式梯度优 化常常使用低精度数据压缩算法来压缩梯度数据,但是并不适合普遍存在的 稀疏梯度数据。作者提出了一种数据压缩算法来压缩以键值对形式存储的稀疏梯度。
  3. 面向异构环境的同步协议。目前机器学习算法的分布式梯度优 化的相关研究应用了多种同步协议,但是真实世界的集群环境往往是异构的,现有的 同步协议不适合这种异构环境,从而造成分布式梯度优化算法性能的显著下降。 作者首先分析现有同步协议造成算法性能下降的原因,在此基础之上针对异构 环境的特点提出了异构感知的同步协议,对模型参数更新的延迟程度建立理论 模型,并提出全局学习速度的机制。

关键词:机器学习,分布式梯度优化,梯度提升树,随机梯度下降,数据草图

作者介绍: 江佳伟,男, 信息科学技术学院 计算机软件与理论专业,他的博士生导师是崔斌教授, 博士学位论文题目为《机器学习算法的分布式梯度优化研究》。博士期间学术成果:CCF A类会议SIGMOD发表第一作者论文3篇,CCF A类SCI期刊TOIS发表第一作者论文1篇,CCF A类会议ICDE发表通讯作者论文1篇,CCF B类会议DASFAA发表第一作者论文1篇,CCF C类会议APWeb-WAIM发表第一作者论文1篇,SCI期刊NSR发表第三作者论文1篇。

机器学习算法的分布式梯度优化研究.pdf
0+
0+

论文摘要:本文基于方差缩减、拒绝采样、访存优化等技术,研究了隐变量模型和深度表示学习两类模型的高效算法,并研究了这些算法在文本分析、生成式模型、图节 点分类等多个任务中的应用。具体地,本文创新点有:

  • 提出隐变量模型的方差缩减 EM 算法,并给出了其局部收敛速度和全局收敛性的理论结果。
  • 提出了缓存高效的 O(1) 时间复杂度主题模型采样算法,该算法较之前算法提速了 5-15 倍,且能扩展到数亿文档、数百万主题、上万 CPU 核的场景。
  • 提出了结构化主题模型的高效算法,具体包括层次化主题模型的部分坍缩吉 布斯采样算法,将该模型扩展到了比之前大5个数量级的数据集上;以及有监督主题模型的坐标下降、拒绝采样算法,较之前算法加速4倍。
  • 提出了总体匹配差异,一个两分布之间距离基于样本的估计;证明了总体匹配差异的一致性,并讨论了其在领域自适应、深度生成模型上的应用。
  • 提出了一个基于控制变量的图卷积网络高效随机训练算法,并给出了其收敛性证明和实验结果,较之前算法收敛速度快了7倍。

关键词:表示学习;隐变量模型;主题模型;采样算法;图卷积网络

作者介绍:陈健飞,他目前是清华大学计算机科学与技术系的博士研究生,他的博士生导师是朱军。他研究兴趣是大规模机器学习,尤其是可扩展的深层生成模型和深层主题模型。之前,他专注于扩展各种主题模型,包括LDA、CTM、DTM等。

1+
0+

异常检测是一个在各个研究领域和应用领域内得到广泛研究的重要问题。本研究的目的有两个方面:首先,我们对基于深度学习的异常检测的研究方法进行了系统全面的综述。此外,我们还回顾了这些方法对不同应用领域异常的应用,并评估了它们的有效性。我们根据所采用的基本假设和方法,将最先进的研究技术分为不同的类别。在每一类中,我们概述了基本的异常检测技术,以及它的变体,并给出了关键的假设,以区分正常行为和异常行为。对于我们介绍的每一类技术,我们还介绍了它们的优点和局限性,并讨论了这些技术在实际应用领域中的计算复杂性。最后,我们概述了研究中的未决问题和采用这些技术时所面临的挑战。

20190114-DEEP LEARNING FOR ANOMALY DETECTION A SURVEY.pdf
8+
0+
Top