论文摘要:图数据上的查询处理(如最短路径查询、可达查询、关键字查询等)是数据库领域最基础的问题之一。本文从用户在不同实际应用场景下的需求入手进行分析,进行合理的建模,并提出了有针对性的高效查询处理算法。

  1. 大规模关联不确定图上的最短路径查询。分析了实际应用中图数据上的不确定信息彼此间存在的相关性,从而提出了一种基于马尔可夫网络的关联不确定图模型,以克服现有独立不确定图模型中的不足。
  2. 分布式环境下不确定图上的可达查询。分析了在实际应用中,尤其是大数据环境下,不确定图数据通常是分布式存储的。
  3. 大规模容错知识图谱上的关键字查询。分析了容错性是知识图谱在现实生活中的主要特征之一。
  4. 基于事件的社交网络上事件参与规划查询。考虑在实际应用中二分图匹配结合了时空信息的情况,提出一种为基于事件的社交网络平台上的用户制定个性化参与其感兴趣的事件的规划查询问题。

关键词:大规模图数据,查询处理,最短路径查询,可达查询,关键字查询,事件参与;规划查询

作者介绍:成雨蓉,女,1989年8月生于辽宁省沈阳市。2008年考入东北大学,于信息学院计算机科学与技术专业攻读本科。本科期间曾任信息学院团委副书记,并多次获得国家、命名及校级奖学金,荣获校级、市级优秀学生等称号。2012年本科毕业后,获得直博名额,在计算机科学与工程学院王国仁教授的指导下攻读博士学位。

成为VIP会员查看完整内容
大规模图数据查询处理关键技术研究.pdf
0
6

相关内容

成雨蓉,女,1989年8月生于辽宁省沈阳市。2008年考入东北大学,于信息学院计算机科学与技术专业攻读本科。本科期间曾任信息学院团委副书记,并多次获得国家、命名及校级奖学金,荣获校级、市级优秀学生等称号。2012年本科毕业后,获得直博名额,在计算机科学与工程学院王国仁教授的指导下攻读博士学位。

知识图谱是人工智能的重要基石,因其包含丰富的图结构和属性信息而受到广泛关注.知识图谱可以精确语义描述 现实世界中的各种实体及其联系,其中顶点表示实体,边表示实体间的联系.知识图谱划分是大规模知识图谱分布式处理的 首要工作,对知识图谱分布式存储、查询、推理和挖掘起基础支撑作用.随着知识图谱数据规模及分布式处理需求的不断增 长,如何对其进行划分已成为目前知识图谱研究热点问题.从知识图谱和图划分的定义出发,系统性地介绍当前知识图谱数 据划分的各类算法,包括基本、多级、流式、分布式和其他类型图划分算法.首先,介绍 4 种基本图划分算法:谱划分算法、 几何划分算法、分支定界算法、KL 及其衍生算法,这类算法通常用于小规模图数据或作为其他划分算法的一部分;然后, 介绍多级图划分算法,这类算法对图粗糙化后进行划分再投射回原始图,根据粗糙化过程分为基于匹配的算法和基于聚合的 算法;其次,描述 3 种流式图划分算法,这类算法将顶点或边加载为序列后进行划分,包括哈希算法、贪心算法、Fennel 算法,以及这 3 种算法的衍生算法;再次,介绍以 KaPPa、JA-BE-JA 和轻量级重划分为代表的分布式图划分算法及它们的 衍生算法;同时,在其他类型图划分算法中,介绍近年来新兴的 2 种图划分算法:标签传播算法和基于查询负载的算法。通 过在合成与真实知识图谱数据集上的丰富实验,比较了 5 类知识图谱代表性划分算法在划分效果、查询处理与图数据挖掘方 面的性能差异,分析实验结果并推广到推理层面,获得了基于实验的知识图谱划分算法性能评价结论。最后,在对已有方法 分析和比较的基础上,总结目前知识图谱数据划分面临的主要挑战,提出相应的研究问题,并展望未来的研究方向.

成为VIP会员查看完整内容
0
64

题目: 知识图谱中的关联搜索

摘要: 南京大学计算机科学与技术系副教授程龚在第3届知识工程与问答技术研讨会上介绍了知识图谱中的关联搜索,主要包括关联实体搜索、实体关联搜索 。

作者简介: 程龚,南京大学计算机科学与技术系副教授、江苏省“六大人才高峰”高层次人才。目前主要面向智能软件系统,研究语义网与知识图谱技术,研究主题包括语义搜索、数据摘要、智能问答等。主持国家重点研发计划课题、国家自然科学基金面上项目等多个项目课题。在WWW、AAAI、IJCAI、TKDE等会议期刊上发表论文70余篇,获ISWC最佳论文提名2次、COLING最佳论文提名1次,论文总引用2000余次。现任中国计算机学会系统软件专委委员、中国中文信息学会语言与知识计算专委委员、江苏省人工智能学会知识工程与智能服务专委副秘书长,担任过ISWC短文程序委员会主席、CCKS领域主席等职务。

成为VIP会员查看完整内容
0
59

论文摘要:现有新型体征感知方法在非干预性、可普及性、准确性、适应性等方面尚存在不同程度的不足,难以支撑日常生活环境下长期健康监测的需求。基于此,本文研究日常生活环境下的非干预式体征感知若干关键技术,具体包括:非接触式睡眠呼吸监测、非干预式行走步态感知与分析。本文主要工作和取得成果包括如下几个方面:

  1. 提出了基于胸脯起伏测量的非接触式声波睡眠呼吸监测方法 使用高精度测距技术,实时测量呼吸过程中胸脯起伏位移的微弱变化,实现呼吸监测。具体而言,以胸脯起伏为感知对象,研究并提出了一种高精度声波测距方法 C-FMCW,该方法的测距精度仅与采样率有关。
  2. 提出了基于呼吸气流感知的非接触式声波睡眠呼吸监测方法基于呼吸气流可散射声波这一事实,实时捕捉并分析因呼吸气流散射声而波引入到接收声波中的多普勒效应,度量呼吸气流速度,实现呼吸监测。
  3. 提出了基于细粒度运动参数的非干预式帕金森步态识别方法以人在行走过程中足底压力的变化为研究对象,提取细粒度的运动功能特征度量并分析各运动功能特性与健康人的不同,进而识别帕金森步态模式。
  4. 设计并实现集成化非干预式体征感知平台在综合考虑老年人对非接触式体征感知需求的基础上,对前面提到的两种呼吸监测系统和步态模式识别方法进行功能集成。

关键词:非干预式体征感知,非接触式呼吸感知,声波感知,步态分析与模式识别

作者介绍:王天本,他是西北工业大学计算机科学与技术专业博士研究生、法国国立电信学院博士后,他的导师是张大庆教授,主要研究兴趣包括:普适计算,智能辅助技术,人机交互及行为感知技术。近年来,以第一作者身份在 Ubicomp 2018(CCF 推荐A类会议)、ACM TIST(SCI 1 区)、IEEE TSMC(SCI 2区)、UIC 2018 (CCF 推荐C类会议)发表多篇学术论文,并获得UIC 2015 大会唯一最佳论文奖;以联合作者身份在 WWW 2017(CCF 推荐A类会议),HealthCom 2015 等会议上发表论文;完成发明专利3项。

成为VIP会员查看完整内容
0
4

论文主题:基于属性图挖掘的职业流动行为研究

论文作者:胥皇,西北工业大学博士研究生,他的导师是於志文。

指导老师:於志文,工学博士,西北工业大学教授,博士生导师,洪堡学者。西北工业大学计算机学院兼软件与微电子学院党委书记,智能感知与计算工信部重点实验室主任,陕西省嵌入式系统技术重点实验室主任,普适与智能计算研究所所长。

论文摘要: 职业流动行为是指个人在职业生涯中的工作变动引起的人才流动现象,根据研究的层次,可分为微观(个人)、中观(用人单位内)和宏观(行业和地区间)三个行为粒度。职业流动行为受经济、文化和政治等环境因素的影响,与知识水平、职业追求和家庭背景等个人因素相关,且对个人、家庭、用人单位、社会经济甚至国家的人才战略等都有重要意乂。随着经济全球化的发展,职业流动行为呈现岀逐渐活跃的趋势,为相关分析和研究带来了新的机会和挑战。相关硏究主要集中在人力资源管理和组织行为学等领域,且对微观流动的硏究通常规模较小,对宏观流动的硏究一般粒度较粗。随着互联网的普及,职业流动的信息迅速数字化,为开展大规模细粒度的研究创造了可能。同时,不断增强的数据挖掘技术,以及日益提髙的计算能力,为复杂薮据建模提供了机会。因此,本文基于属性图挖掘技术,研究职业流动行为相关的若干关键问题。具体而言,本文以职业流动的属性图表示为基础,通过图重建技术实现行为粒度的切换,将相关研究问题转换为属性图上的建模任务,并重点解决了静态图聚类和动态图预测两个关键问题。

成为VIP会员查看完整内容
0
6

论文摘要:传统监督学习通常假设训练数据类别标记恒定、特征信息充分、样本充 足。但很多现实的机器学习任务不满足这些假设条件,导致学习效果不尽人 意。为此,本文考虑通过引入增广信息 (Augmented Information) 进行学习。增 广信息包括传统静态学习中未考虑的额外信息以及动态学习过程中出现的新信 息。本文主要工作如下:

  1. 提出了一种训练集标记增广学习方法 GLOCAL。该方法利用标记关系对多 标记训练数据中部分缺失的标记进行恢复补全,但无需额外的先验知识来 指定标记关系矩阵,而是在优化过程中同时习得全局和局部标记关系。实 验验证了本文方法的有效性。
  2. 提出了分别用于静态、动态测试集标记增广学习的方法 DMNL 和 MuENL。 DMNL 通过最小化多示例包级损失和聚类正则化项,预测静态测试集中的多 个新标记;MuENL 通过特征和预测值训练新标记检测器并建立鲁棒模型, 以检测动态新增的标记并对其建模。实验验证了本文方法的有效性。
  3. 提出了一种多示例特征增广学习方法 AMIV-lss。 针对数据特征信息不足 的学习问题,将额外获取的带噪信息形式化为增广多示例视图 (AMIV) 作为 样本的特征增广。AMIV-lss 通过在两个异构视图之间建立公共隐藏语义 子空间,减少噪声影响,提升学习性能。实验验证了本文方法的有效性。
  4. 提出了一种多视图样本增广学习方法 OPMV。 OPMV 通过对每个样本优化 视图一致性约束下的组合目标函数,即可随着新增多视图数据高效更新模 型,并能够利用视图之间结构提升学习性能,而无需存储整个数据集,避 免从头进行训练。理论和实验验证了本文方法的有效性和高效性。
  5. 提出了同时进行标记/特征/样本增广学习的方法 EM3NL。EM3NL 基于多视 图多示例多标记深度卷积神经网络,利用额外文本描述作为图片的补充 (特 ii 征增广),能够检测新标记 (标记增广),并可根据动态增加的样本即时更新 模型 (样本增广)。实验验证了本文方法的有效性。

关键词: 机器学习;增广学习;增广信息;多标记学习;新标记学习;多视图 学习;单趟学习

作者介绍:朱越,他是南京大学计算机科学与技术学院五年级博士生,也是LAMDA集团的成员。在此之前,他于2011年获得了计算机科学与技术的理学学士学位,并于2013年在周志华教授的指导下获得了理学硕士学位。2015年3月至2015年9月,他拜访了香港科技大学James T. Kwok的小组。

成为VIP会员查看完整内容
0
15

论文题目:基于路径依赖关系的循环分析技术研究

论文作者:谢肖飞,天津大学博士研究生,主要研究方向是计算机科学及计算机应用、软件工程及安全软件工程、可信软件及网络安全等信息安全领域。

指导老师:李晓红,教授,博士生导师,智能与计算学部网络安全学院副院长、软件与信息安全工程研究所所长,天津市先进网络重点室副主任。兼任计算机学会高级会员、中国计算机学会女工委委员、ACM会员、软件工程专委会委员、形式化专委会委员、全国高等学校计算机教育研究会常务理事、天津大学女工委员、智能与计算学部教代会主任。主要从事计算机科学及计算机应用、软件工程及安全软件工程、可信软件及网络安全等信息安全领域的研究工作。 主持和参与科技部“863”计划、国家重大研究计划,国家基金重点、天津市重点等项目20余项,发表重要期刊和会议论文100余篇。在顶级会议和期刊发表论文23篇,其中:CCF A类或SCI一区8篇(TSE2017、JIOT2018、FSE2016、AAAI2017、FSE2017、IJCAI2017、IEEE S&P 2015、IEEE S&P2016),CCF B类9篇(ISSTA2016、ECAI2016,ICSME2017、SANER2017、ICWS2017、ICWS2018、AAMAS2018、ICSOC 2018),JCR一区2篇,SCI二区2篇、SCI三区2篇,论文“Proteus: Computing Disjunctive Loop Summary via Path Dependency Analysis”解决了符号执行中循环处理的难题,被软件工程顶级会议FSE 2016接收,并获得ACM SIGSOFT 2016年度杰出论文奖。曾获授权国家发明专利13项,获湖北省科技进步一等奖1项,天津科技进步三等奖1项。指导博士生获得天津大学优秀博士论文,硕士研究生连续三年获得天津市优秀硕士学位论文。

论文摘要:软件已经被广泛应用于在现代社会的各个领域,由于代码实现不当导致软件 的质量问题也层出不穷。基于静态分析的程序验证和测试是保障软件代码安全性 与正确性的两种主要技术,而循环分析是静态分析中面临的最大挑战之一。在静 态分析中,由于循环的迭代次数往往不能确定,使得无法对循环的所有行为分析 和检测,从而影响程序验证和高覆盖率测试用例生成的效率。循环分析已经成为 程序验证、测试及其它静态分析应用的主要瓶颈。高效的循环分析技术可以提高 程序分析的效率,从而更好地保证软件质量。

成为VIP会员查看完整内容
0
5

论文摘要:本文基于方差缩减、拒绝采样、访存优化等技术,研究了隐变量模型和深度表示学习两类模型的高效算法,并研究了这些算法在文本分析、生成式模型、图节 点分类等多个任务中的应用。具体地,本文创新点有:

  • 提出隐变量模型的方差缩减 EM 算法,并给出了其局部收敛速度和全局收敛性的理论结果。
  • 提出了缓存高效的 O(1) 时间复杂度主题模型采样算法,该算法较之前算法提速了 5-15 倍,且能扩展到数亿文档、数百万主题、上万 CPU 核的场景。
  • 提出了结构化主题模型的高效算法,具体包括层次化主题模型的部分坍缩吉 布斯采样算法,将该模型扩展到了比之前大5个数量级的数据集上;以及有监督主题模型的坐标下降、拒绝采样算法,较之前算法加速4倍。
  • 提出了总体匹配差异,一个两分布之间距离基于样本的估计;证明了总体匹配差异的一致性,并讨论了其在领域自适应、深度生成模型上的应用。
  • 提出了一个基于控制变量的图卷积网络高效随机训练算法,并给出了其收敛性证明和实验结果,较之前算法收敛速度快了7倍。

关键词:表示学习;隐变量模型;主题模型;采样算法;图卷积网络

作者介绍:陈健飞,他目前是清华大学计算机科学与技术系的博士研究生,他的博士生导师是朱军。他研究兴趣是大规模机器学习,尤其是可扩展的深层生成模型和深层主题模型。之前,他专注于扩展各种主题模型,包括LDA、CTM、DTM等。

成为VIP会员查看完整内容
0
32

论文摘要:图数据的处理在各个领域都有⼴泛的应⽤。随着图数据规模的扩⼤和对处理能⼒要求的提升,众多专门⾯向图数据的处理系统应运⽽⽣。本⽂先从传统的离线处理⾓度切⼊,研究了如何基于向上和向外两种扩展⽅式进⾏⼤规模图数据的分析,主要⼯作包括:

  • ⾯向单机外存的图数据处理系统 GridGraph,通过⼆维划分和流式处理的⽅式,尽可能地使⽤顺序 I/O 访问外存上的数据并尽可能地将需要随机访问的数据驻留在内存中。通过⼀种创新的双滑动窗⼜的处理模型,结合选择性调度来减少不必要的数据访问,GridGraph 有效地降低了系统在进⾏图计算时的 I/O 量,可以获得与之前的最佳系统 GraphChi 和 X-Stream 相⽐⼗分显著的性能提升。
  • ⾯向分布式内存的图数据处理系统Gemini,通过降低系统设计上分布式带来的开销并尽可能地优化本地计算部分的实现,使得系统能够在获得扩展性的 同时不失⾼效性。基于⾼速⽹络的现状及逐渐普及的发展趋势,Gemini 提出了以计算为中⼼的设计原则,⼀改过去分布式图数据处理系统过度重视通信 代价的理念,可以获得与现有系统相⽐多达数⼗倍的性能提升。离线处理的模式需要⼤量的数据准备时间,其开销甚⾄⾼于实际处理的时间。 因此,本⽂设计并实现了 LiveGraph,⼀个同时兼具数据管理和分析计算功能的在线图处理系统:
  • LiveGraph 创新性地使⽤了⼀种分布式⽇志结构来存储图的拓扑信息,通过给每个顶点的邻接边表预留⼀定空间来⽀持⾼速的数据更新,同时保留了良 好的数据局部性。LiveGraph 不仅在事务处理⽅⾯具有相⽐各类数据库解决⽅案更卓越的性能,其能够直接在最新版本的图数据上进⾏分析计算的特点 更是⼤⼤降低了数据准备的开销,使在线的图数据处理成为了可能。

关键词:⼤数据;图数据处理;离线处理;在线处理;混合事务/分析处理

作者介绍:朱晓伟,他目前是清华大学计算机科学与技术系的博士研究生,他的博士生导师是陈文光。他的研究方向是于并行/分布式计算和大数据分析。

成为VIP会员查看完整内容
0
19

论文题目:大规模结构化知识的 表示学习、自动获取与计算应用

论文作者:林衍凯,腾讯微信模式识别中心高级研究员。博士毕业于来自清华大学自然语言处理组, 由孙茂松教授和刘知远副教授共同指导,主要研究方向为知识图谱表示、构建和应用。目前已在人工智能、自然语言处理等领域的著名国际会议IJCAI,AAAI,EMNLP,ACL发表相关论文多篇,Google Scholar引用数超过1400。曾获2017年百度奖学金、2018年清华大学学术新秀。

指导老师:孙茂松,教授,博士生导师,曾任清华大学计算机科学与技术系系主任,现任教育部在线教育研究中心副主任、清华大学计算机系党委书记、清华大学大规模在线开放教育研究中心主任。

论文摘要:知识图谱是人工智能研究和智能信息服务基础核心技术,能够赋予智能体精 准查询、深度理解与逻辑推理等能力。目前,基于深度学习的自然语言处理技术只 能从数据中机械地学习完成特定任务的语义模式,不具备鲁棒性和可解释性,做 不到对语言的深层理解与推理。我们认为要想实现真正的自然语言理解,需要在 现有深度学习技术的基础上融合知识图谱信息。实现自然语言处理与知识图谱的 融合并非轻而易举,需要解决几个关键问题: (1)知识表示。在深度学习模型中充分利用大规模知识图谱,需要首先解决知 识图谱表示的问题。在这方面,我的工作包括:a. 考虑知识图谱复杂关系的知识 表示:我们提出了基于映射矩阵进行空间投影的知识图谱表示模型,用于处理知 识图谱中的复杂关系。b. 考虑知识图谱复杂路径的知识表示:我们认为实体之间 多步的关系路径同样包含着丰富的关系推理信息,并提出了一种基于路径表示的 知识图谱表示模型。c. 考虑知识图谱复杂属性的知识表示:我们提出了一种同时 学习知识图谱中实体、关系和特性表示的知识图谱表示模型,以提高知识图谱表 示的质量。 (2)知识获取。如何从互联网大规模的结构化、半结构和无结构数据中自动获 取知识,辅以少量人工校验,是大规模知识图谱构建的必由之路。在这方面,我的 工作包括:a. 基于选择注意力机制的关系抽取:针对远程监督数据中存在大量的 噪音的问题,我们提出了一个基于句子级别选择注意力机制的神经网络关系抽取 模型,用于过滤错误标注的句子。b. 基于多语言注意力机制的关系抽取:现有的 关系抽取系统通常专注于如何更好地利用单语言数据,忽略了多语言数据对于关 系抽取任务的帮助。针对这个问题,我们提出了一个基于多语言选择注意力机制 的关系抽取模型。 (3)知识应用。面向不同自然语言处理任务,我们需要探索将知识合理地融合 到该任务下的深度学习模型中,实现知识指导的自然语言理解。在这方面,我的 工作包括:a. 基于知识的实体分类:我们提出了基于知识注意力机制的实体分类 模型,用于考虑命名实体和上下文之间的联系以及知识图谱中丰富的有关信息。b. 基于知识的开放域问答:我们借鉴人类回答问题的模式提出了一个基于 ‘‘粗读-精 读-总结’’ 模式的开放域问答系统。 我们的工作有效地解决了面向知识图谱的知识表示、知识获取、知识应用中 的关键问题,为迈向真正的自然语言理解打下了坚实的基础。

成为VIP会员查看完整内容
博士论文_林衍凯_大规模结构化知识的表示学习、自动获取与计算应用.pdf
0
52
小贴士
相关VIP内容
专知会员服务
64+阅读 · 4月27日
相关论文
Recent Advances and Challenges in Task-oriented Dialog System
Zheng Zhang,Ryuichi Takanobu,Minlie Huang,Xiaoyan Zhu
12+阅读 · 3月19日
Heterogeneous Relational Reasoning in Knowledge Graphs with Reinforcement Learning
Mandana Saebi,Steven Krieg,Chuxu Zhang,Meng Jiang,Nitesh Chawla
7+阅读 · 3月12日
Heterogeneous Graph Transformer
Ziniu Hu,Yuxiao Dong,Kuansan Wang,Yizhou Sun
12+阅读 · 3月3日
Memory Augmented Graph Neural Networks for Sequential Recommendation
Chen Ma,Liheng Ma,Yingxue Zhang,Jianing Sun,Xue Liu,Mark Coates
9+阅读 · 2019年12月26日
HCqa: Hybrid and Complex Question Answering on Textual Corpus and Knowledge Graph
Somayeh Asadifar,Mohsen Kahani,Saeedeh Shekarpour
3+阅读 · 2019年1月3日
Attributed Network Embedding for Incomplete Structure Information
Chengbin Hou,Shan He,Ke Tang
3+阅读 · 2018年11月28日
Linfeng Song,Zhiguo Wang,Mo Yu,Yue Zhang,Radu Florian,Daniel Gildea
6+阅读 · 2018年9月6日
To Cluster, or Not to Cluster: An Analysis of Clusterability Methods
A. Adolfsson,M. Ackerman,N. C. Brownstein
3+阅读 · 2018年8月24日
ShuffleNet V2: Practical Guidelines for Efficient CNN Architecture Design
Ningning Ma,Xiangyu Zhang,Hai-Tao Zheng,Jian Sun
3+阅读 · 2018年7月30日
Yu Zhu,Jinhao Lin,Shibi He,Beidou Wang,Ziyu Guan,Haifeng Liu,Deng Cai
8+阅读 · 2018年5月23日
Top