论文摘要:图数据上的查询处理(如最短路径查询、可达查询、关键字查询等)是数据库领域最基础的问题之一。本文从用户在不同实际应用场景下的需求入手进行分析,进行合理的建模,并提出了有针对性的高效查询处理算法。

  1. 大规模关联不确定图上的最短路径查询。分析了实际应用中图数据上的不确定信息彼此间存在的相关性,从而提出了一种基于马尔可夫网络的关联不确定图模型,以克服现有独立不确定图模型中的不足。
  2. 分布式环境下不确定图上的可达查询。分析了在实际应用中,尤其是大数据环境下,不确定图数据通常是分布式存储的。
  3. 大规模容错知识图谱上的关键字查询。分析了容错性是知识图谱在现实生活中的主要特征之一。
  4. 基于事件的社交网络上事件参与规划查询。考虑在实际应用中二分图匹配结合了时空信息的情况,提出一种为基于事件的社交网络平台上的用户制定个性化参与其感兴趣的事件的规划查询问题。

关键词:大规模图数据,查询处理,最短路径查询,可达查询,关键字查询,事件参与;规划查询

作者介绍:成雨蓉,女,1989年8月生于辽宁省沈阳市。2008年考入东北大学,于信息学院计算机科学与技术专业攻读本科。本科期间曾任信息学院团委副书记,并多次获得国家、命名及校级奖学金,荣获校级、市级优秀学生等称号。2012年本科毕业后,获得直博名额,在计算机科学与工程学院王国仁教授的指导下攻读博士学位。

大规模图数据查询处理关键技术研究.pdf
1+
0+

相关内容

教程题目:Computational Models for Social and Information Network Analysis

教程简介

在本教程中,系统地介绍了社会信息网络的挖掘和学习,涉及的主题从个人到二元交互到群体集体到信息空间。将从微信的真实例子开始教程,解释在线社交网络如何影响我们的离线物理世界。然后,我们将全面介绍社会网络分析的历史和最新进展,包括用户分析的方法和算法,用户行为建模,社会关系和群体建模,影响和信息扩散的结构。并且介绍如何应用计算模型——图形模型、深度学习和嵌入技术——来挖掘和学习网络结构。本教程的独特之处在于,它的目标是向读者提供以下内容:社会网络分析中的社会与图论基础、将社交网络研究转化为在线和移动应用的经验,包括腾讯微信和游戏、阿里巴巴、XueTangX、AMiner和微软学术。最后,本教程中介绍的所有工作都保证使用开放代码,我们还将借此机会发布最大的开放学术图,其中包含2亿个节点和30亿个链接,用于社会网络分析。

大纲:

1.社会历史和信息网络分析

  • 社会历史和信息网络分析
  • 网络跨学科研究
  • 计算社会科学的出现
  • 社会公益的CSS

2.网络中的社会影响

  • 局部社会影响
  • 从众心理的影响
  • 三位一体和结构影响
  • 社会影响位置
  • 深度学习对社会的影响
  • 问答

3.网络表示学习

  • 图神经网络
  • 网络嵌入审查
  • 网络嵌入理论
  • 网络嵌入作为矩阵分解
  • 高速网络嵌入
  • 问答

4.结论与问答(5分钟)

  • 总结
  • 用于社会和网络信息分析的开放数据
  • 问答

组织者:

唐杰,清华大学计算机科学与技术学院教授,康奈尔大学、香港科技大学、南安普顿大学访问学者。他的兴趣包括社会网络分析、数据挖掘和机器学习。他发表了200多篇期刊/会议论文,拥有20项专利,被引用次数超过1万次。他是CIKM'16、WSDM'15、ASONAM'15、SocInfo'12的PC联合主席,是2018年KDD的副主席,ACM TKDD的代理主编,IEEE TKDE/TBD和ACM TKDD/TIST的副主编。他领导的学术社交网络分析和挖掘项目AMiner.org已经吸引了来自世界220个国家/地区的800多万个独立IP访问。曾获国家自然科学基金杰出青年学者奖、英国皇家学会-牛顿先进奖学金、牛顿先进奖学金、ACM SIGKDD服务奖。

0+
0+

论文摘要:本工作针对机器学习算法的分布式梯度优化,期望通过设 计一系列算法层面的方法,首先优化计算过程和通信过程,进而从全局上优化整体迭 代过程,最终实现在分布式环境下高效高性能的目标。具体而言,本文的研究内容有 以下三点主要贡献。

  1. 面向高维海量数据的并行策略。目前机器学习算法的分布式梯 度优化使用的数据并行或模型并行策略无法同时解决高维模型和海量数据的双重挑战。作者首先提出一个严格的代价模型,以煇煂煄煔算法为例系统性地比较了已有的分布式系统架构,并选择参数服务器作为底层架构;然后在深入分析算法 特点的基础上,提出了基于参数服务器的混合并行策略,并以煇煂煄煔算法为例设 计和实现了提出的方法。
  2. 面向稀疏梯度的数据压缩。目前机器学习算法的分布式梯度优 化常常使用低精度数据压缩算法来压缩梯度数据,但是并不适合普遍存在的 稀疏梯度数据。作者提出了一种数据压缩算法来压缩以键值对形式存储的稀疏梯度。
  3. 面向异构环境的同步协议。目前机器学习算法的分布式梯度优 化的相关研究应用了多种同步协议,但是真实世界的集群环境往往是异构的,现有的 同步协议不适合这种异构环境,从而造成分布式梯度优化算法性能的显著下降。 作者首先分析现有同步协议造成算法性能下降的原因,在此基础之上针对异构 环境的特点提出了异构感知的同步协议,对模型参数更新的延迟程度建立理论 模型,并提出全局学习速度的机制。

关键词:机器学习,分布式梯度优化,梯度提升树,随机梯度下降,数据草图

作者介绍: 江佳伟,男, 信息科学技术学院 计算机软件与理论专业,他的博士生导师是崔斌教授, 博士学位论文题目为《机器学习算法的分布式梯度优化研究》。博士期间学术成果:CCF A类会议SIGMOD发表第一作者论文3篇,CCF A类SCI期刊TOIS发表第一作者论文1篇,CCF A类会议ICDE发表通讯作者论文1篇,CCF B类会议DASFAA发表第一作者论文1篇,CCF C类会议APWeb-WAIM发表第一作者论文1篇,SCI期刊NSR发表第三作者论文1篇。

机器学习算法的分布式梯度优化研究.pdf
0+
0+

论文题目:动态权衡在新型非易失存储器件中的应用研究

作者介绍:张明喆是中科院计算所的博士研究生,他的博士生导师是刘志勇。

指导老师:刘志勇研究员,生于1946年4月,1969年毕业于西安军事电信工程学院通信工程系;1970年至1980年在第六机械工业部汉光机械厂从事计算机控制系统研究设计;1983年在西北电讯工程学院获工学硕士学位(计算机);1983年至1984年在西北电讯工程学院计算机系教学;1987年在中国科学院计算技术研究所获工学博士学位(计算机);其后在中国科学院计算技术研究所从事研究工作,任助理研究员、副研究员、研究员。曾于1988年至1992年及1995年至1996年做为博士后和访问科学家在PennsylvaniaStateUniversity(美国)、UniversityofAlberta(加拿大)、及MassachusettsInstituteofTechnology(美国)工作。1995年3月至2006年4月任国家自然科学基金委员会信息科学部副主任、常务副主任。现任中国科学院计算所前瞻研究中心主任研究员。

论文摘要: 随着大数据、机器学习的新兴数据密集型应用的兴起,存储系统对于提升系统性能和可靠性的重要性日益凸显。同时,大规模数据中心的发展也使得存储系统在成本和能耗方面面临着巨大挑战。由于现有存储器件难以满足未来 EB 级数据处理的需要,新型非易失存储器(Non-VolatileMemory,NVM)受到了来自学术界和工业界越来越多的关注。与现有的基于易失存储器件和磁 盘的存储系统相比,NVM 存储器在集成度、能耗、存储密度、访问速度等方 面具有显著优势。此外,NVM 存储器可支持按字节寻址,这也使得通过细粒 度访存调节优化系统性能成为可能。目前,阻碍 NVM 存储器在实际系统中大规模应用的主要问题是写访问延迟长和写寿命短。针对这两个问题,已有大量基于传统体系结构的优化方法。但是,这些方法往往存在软硬件开销大、无法同时针对不同问题进行优化、难以与现有商用系统集成等问题。 针对传统NVM优化方法存在的不足之处,本文提出了一种新的优化思路, 即:基于应用特性分析结果,利用 NVM 器件自身所具有的动态权衡特性设计动态优化方案。与传统的方法相比,这类动态优化方案具有额外硬件开销小、可同时针对多个目标进行优化、易于与现有系统进行集成等特点。本文针对通 用计算系统中基于 MLC PCM 的主存储器性能和寿命的协同优化问题做出了深入探索,通过对器件自身特性加以利用,不仅提出了新的存储器使用寿命优化方法,同时也研究了如何实现存储器使用寿命和性能的同步提升。

0+
0+

论文题目:基于路径依赖关系的循环分析技术研究

论文作者:谢肖飞,天津大学博士研究生,主要研究方向是计算机科学及计算机应用、软件工程及安全软件工程、可信软件及网络安全等信息安全领域。

指导老师:李晓红,教授,博士生导师,智能与计算学部网络安全学院副院长、软件与信息安全工程研究所所长,天津市先进网络重点室副主任。兼任计算机学会高级会员、中国计算机学会女工委委员、ACM会员、软件工程专委会委员、形式化专委会委员、全国高等学校计算机教育研究会常务理事、天津大学女工委员、智能与计算学部教代会主任。主要从事计算机科学及计算机应用、软件工程及安全软件工程、可信软件及网络安全等信息安全领域的研究工作。 主持和参与科技部“863”计划、国家重大研究计划,国家基金重点、天津市重点等项目20余项,发表重要期刊和会议论文100余篇。在顶级会议和期刊发表论文23篇,其中:CCF A类或SCI一区8篇(TSE2017、JIOT2018、FSE2016、AAAI2017、FSE2017、IJCAI2017、IEEE S&P 2015、IEEE S&P2016),CCF B类9篇(ISSTA2016、ECAI2016,ICSME2017、SANER2017、ICWS2017、ICWS2018、AAMAS2018、ICSOC 2018),JCR一区2篇,SCI二区2篇、SCI三区2篇,论文“Proteus: Computing Disjunctive Loop Summary via Path Dependency Analysis”解决了符号执行中循环处理的难题,被软件工程顶级会议FSE 2016接收,并获得ACM SIGSOFT 2016年度杰出论文奖。曾获授权国家发明专利13项,获湖北省科技进步一等奖1项,天津科技进步三等奖1项。指导博士生获得天津大学优秀博士论文,硕士研究生连续三年获得天津市优秀硕士学位论文。

论文摘要:软件已经被广泛应用于在现代社会的各个领域,由于代码实现不当导致软件 的质量问题也层出不穷。基于静态分析的程序验证和测试是保障软件代码安全性 与正确性的两种主要技术,而循环分析是静态分析中面临的最大挑战之一。在静 态分析中,由于循环的迭代次数往往不能确定,使得无法对循环的所有行为分析 和检测,从而影响程序验证和高覆盖率测试用例生成的效率。循环分析已经成为 程序验证、测试及其它静态分析应用的主要瓶颈。高效的循环分析技术可以提高 程序分析的效率,从而更好地保证软件质量。

0+
0+

报告主题:Natural Language Interface to Knowledge Graph (our experience)

报告摘要:世界上大量的数据存储在关系数据库和知识图谱中。必须学习结构化查询语言(SQL)这样的编程语言,或者使用固定的查询表单来查询数据,即使是非常简单的查询。SQL和SPARQL分别是访问关系数据库和知识图谱最常用的接口。但是,这需要用户对查询语言、数据模式和数据库运行环境有很好的理解,这需要很长的训练时间,对于偶尔查询数据的用户来说是不现实的。在本教程中,我将介绍这一领域的研究进展,并讨论未来的研究方向。。

嘉宾简介:严锡峰(Xifeng Yan)是加州大学圣塔芭芭拉分校的副教授。他担任计算机科学Venkatesh Narayanamurti主席。他获得了博士学位。于2006年获得伊利诺伊大学香槟分校计算机科学博士学位。2006年至2008年,他是IBM TJ Watson研究中心的研究人员。他一直致力于信息网络中图形的建模,管理和挖掘,计算机系统,社交媒体和生物信息学。他的作品得到了广泛的引用,每个Google Scholar的引用次数超过9000,并且下载了数千次软件。他获得了NSF职业奖,IBM发明成就奖,ACM-SIGMOD论文亚军奖和IEEE ICDM十年最高影响力论文奖。

1_CCKS_ATT_XifengYan.pdf
1+
0+

报告嘉宾:金连文(华南理工大学)

报告时间:2019年10月16日(星期三)晚上20:00(北京时间)

报告题目:浅谈文字识别:新思考、新挑战及新机遇

报告人简介:

金连文教授1991年本科毕业于中国科技大学,1996年于华南理工大学获博士学位,目前为华南理工大学二级教授,博士生导师,兼任中国图像图形学学会(CSIG)常务理事、广东省图像图形学会副理事长、CSIG文档图像分析与识别专委会主任、CSIG机器视觉专委会常务委员、CAAI模式识别专委会常务委员、CCF计算机视觉专委会委员等职。主要研究领域为深度学习、机器学习、文字识别、计算机视觉及应用等,在IEEE TPAIMI、IEEE TNNLS、IEEE TIFS、IEEE TMM、IEEE TCSVT、IEEE TCYB、IEEE TITS、IEEE TAFFC、Pattern Recognition、Information Science、Neurocomputing等主流国际期刊上发表学术论文60余篇(其中4篇论文先后入选ESI高被引论文),在ICDAR、CVPR、AAAI、IJCAI等主流国际会议发表论文100余篇,获得发明专利授权50余项,荣获省部级科技奖励5次,荣获国际学术竞赛第一名11次。

个人主页:

http://www.dlvc-lab.net/lianwen/

报告摘要:

文字识别技术在图像理解、信息录入、智慧教育、智慧金融、信息搜索、信息安全等诸多领域有非常广阔的应用前景,是目前计算机视觉及机器学习领域的研究热点问题之一。基于深度学习的文字识别技术近年来取得了极大进步及发展,虽然不少方法在许多复杂场景及各种数据集上取得了卓越性能,但仍存在不少问题及挑战。在此报告中,我将在简要回顾近期研究进展的基础上,对目前文字识别领域存在的一些重要问题及挑战谈一点个人的思考,并对未来发展方向进行讨论和展望。

参考文献:

[1] Zecheng Xie, Yiaoxiong Huang, Yuanzhi Zhu, Lianwen Jin, Yuliang Liu, Lele Xie, Aggregation Cross-Entropy for Sequence Recognition, CVPR 2019.

[2] Yuliang Liu, Lianwen Jin, Zecheng Xie, Canjie Luo, et al., Tightness-aware Evaluation Protocol for Scene Text Detection, CVPR 2019.

[3] Yuliang Liu, Sheng Zhang, Lianwen Jin, et al., Omnidirectional Scene Text Detection with Sequential-free Box Discretization, IJCAI 2019.

[4] Lele Xie, Yuliang Liu, Lianwen Jin, Zecheng Xie, DeRPN: Taking a further step toward more general object detection, AAAI 2019.

[5] Canjie Luo, Lianwen Jin, Zenghui Sun, MORAN: A Multi-Object Rectified Attention Network for Scene Text Recognition, Pattern Recognition, vol. 90, no.6, pp109-118, 2019.

20191017-浅谈文字识别:新观察、新思考、新机遇.pdf
4+
0+

报告主题:自动修辞分析在中文作文评阅中的应用

报告摘要:作文自动评阅是自然语言处理在教育领域的重要应用。目前的作文自动评阅系统大多关注语言规范性等较浅层面,“重挑错、轻鉴赏”,难以有效识别高分段作文。本报告将介绍在篇章表达和修辞手法等语言层面进行自动修辞分析的初步尝试,指出自动修辞分析能够改善中文作文评阅系统识别高分段作文的能力,提供更为丰富的评分解释和反馈,为其他写作相关应用提供素材资源。

嘉宾简介:宋巍,博士,首都师范大学副教授,毕业于哈尔滨工业大学计算机应用技术专业,中文信息学会社交媒体处理专委会通讯委员,中国中文信息学会青年工作委员会委员。主要研究方向为自然语言处理与信息检索。在ACL、SIGIR、WWW、EMNLP、COLING等国际著名学术会议发表论文多篇。主持国家自然科学基金(面上和青年)项目和北京市自然科学基金(面上和青年)项目。

自动修辞分析在中文作文评阅中的应用-宋巍-压缩.pdf
0+
0+

报告主题:任务型对话系统

报告简介:对话系统一般可以分为两种,即任务型对话系统(也称作目标导向型对话系统)和闲聊对话系统。本讲习班主要介绍任务型对话系统,其多用于垂直领域业务助理系统,如微软小娜、百度度秘、阿里小蜜以及我们研发的对话技术平台(DTP)等。这类系统具有明确需要完成的任务目标,如订餐、订票等。我们将首先介绍任务型对话系统的背景和定义,然后依次介绍其中的关键技术,包括自然语言理解(包括领域意图的识别和语义槽的填充)、对话管理(包括对话状态跟踪和对话策略优化)以及自然语言生成;接着介绍任务型对话系统的评价方法和国内外相关技术评测任务;最后对任务型对话系统的技术和应用趋势进行展望。

邀请嘉宾:车万翔博士,哈尔滨工业大学计算机学院教授,博士生导师,斯坦福大学访问学者,合作导师Christopher Manning教授。现任中国中文信息学会计算语言学专业委员会委员、青年工作委员会副主任;中国计算机学会高级会员、曾任YOCSEF哈尔滨主席(2016-2017年度)。在ACL、EMNLP、AAAI、IJCAI等国内外高水平期刊和会议上发表学术论文50余篇,其中AAAI 2013年的文章获得了最佳论文提名奖,论文累计被引用2,100余次(Google Scholar数据),H-index值为26。出版教材 2 部,译著 2 部。承担国家自然科学基金、973等多项科研项目。负责研发的语言技术平台(LTP)已被600余家单位共享,提供的在线“语言云”服务已有用户1万余人,并授权给百度、腾讯、华为等公司使用。2018年,获CoNLL多语种句法分析国际评测第1名。2015-16年,连续两年获Google Focused Research Award(谷歌专注研究奖);2016年,获黑龙江省科技进步一等奖(排名第2);2012年,获黑龙江省技术发明奖二等奖(排名第2);2010年获中国中文信息学会“钱伟长”中文信息处理科学技术奖一等奖(排名第2)、首届汉王青年创新奖(个人)等多项奖励。2017年,所主讲的《高级语言程序设计(Python)》课程获国家精品在线开放课程。

张伟男,哈尔滨工业大学计算机科学与技术学院副教授/博士。研究兴趣包括人机对话及自然语言处理。在ACL、AAAI、IJCAI及IEEE TKDE等CCF A类国际会议及国际顶级期刊发表论文多篇,主导研发了人机对话系统“笨笨”。目前为中国中文信息学会(CIPS)信息检索专委会委员、青年工作委员会委员,中国人工智能学会(CAAI)青年工作委员会委员。曾获黑龙江省科技进步一等奖、中国人工智能学会最佳青年成果奖、中国人工智能学会“合创杯”第二届全国青年创新创业大赛三等奖及首届“百度奖学金”。

CIPS_SSATT_2019_任务型对话系统_车万翔_张伟男.pdf
1+
0+
Top