地理信息的不断泛化对经典的地理信息分析模式提出了巨大挑战,网络化的知识服务将逐渐成为地理信息应用的新模式,助力地理计算到社会计算的形态转变。地理知识服务需要打通人、机构、自然环境、地理实体、地域单元、社会事件之间的关联,促进知识辅助下的数据智能与计算智能。本文聚焦地理时空知识获取与形式化表达及分析的迫切需求,首先分析了时空知识图谱的基本概念与特征,认为时空知识图谱是指具有地理时空分布或位置隐喻的知识构成的有向图,即以时空分布特征为核心的知识图谱;然后提出了时空知识图谱的研究框架,该框架可实现时空大数据到时空知识服务应用的转变,包括泛在时空大数据、时空知识获取、时空知识管理、时空知识图谱、软件系统及行业应用等多个层次;接着从文本描述地理信息抽取、异构地理语义网对齐、时空知识表达与表示学习等方面,介绍了相关研究进展;结合应用实践,介绍了面向行业的时空知识图谱构建与应用途径;最后,讨论了时空知识图谱研究目前面临的关键科学问题与技术瓶颈,提出在大模型时代,构建显式的时空知识图谱,并针对行业需求开展知识推理,仍是时空知识服务的必由之路。

http://www.dqxxkx.cn/article/2023/1560-8999/1560-8999-25-6-1091.shtml

1 引言

随着地球观测与导航及信息通讯技术的迅猛发展,各种显式和隐式的时空数据爆发式增长,已经成为泛在地理时空大数据的重要组成部分。泛化的地理时空大数据处理技术,超越了传统测绘/地理/数据库技术范畴,使得地理信息科学与技术(GIS)向广义化、社会化、知识驱动方向发展,地理空间智能(Geo-spatial Artificial Intelligence, GeoAI)成为研究热点,推动了城市信息学、计算社会科学的涌现,并融入电子商务、文化传媒、体育竞技等行业。GIS的发展目标也从聚焦地理空间实体/过程的几何形态过渡到侧重语义关联,从信息服务过渡到网络化的知识服务,从地理计算过渡到社会计算。

GeoAI是地理空间科学与人工智能相结合的交叉研究方向,通过研究与开发机器的空间智能,提升对于地理现象和地球科学过程的动态感知、智能推理和知识发现能力,并寻求解决人类和地球环境系统相互作用中的重大科学和工程问题[1]。GeoAI针对影像分类、目标探测、场景分割、仿真与插值、链接预测、基于自然语言的地理信息抽取与问答、实时数据集成、地理语义充实等应用需求,利用数据处理技术与数据体制文化的进步,支持更智能的地理信息以及方法、系统与服务的创建[2]。面对不断变化的复杂地理环境与社会系统,GeoAI需要打通人、机构、自然环境、地理实体、地域单元、社会事件之间的关联,促进知识辅助下的数据智能与计算智能。当前流行的大数据工程化驱动的计算智能技术,能力的提升主要依赖于数据规模和计算速度的增长。而大数据“红利”效应正在逐渐减弱。计算智能技术的单点突破也难以为大数据驱动的智能应用提供持续支撑[3]。脱离知识驱动的计算过程,智能化程度终究有限,需要从认知角度确立思维方式,实现知识汇聚与知识推理,才能充分发挥已有经验知识的价值。

GeoAI的成功应用需要系统化、形式化、规范化的地理时空知识支撑。一方面,大量隐藏在结构化或非结构化的地理时空大数据中的新知识等待发现;另一方面,GeoAI需要与地理时空分布相关的可解释、可复用、可推理的知识作为基础设施,辅助人工智能理解地理空间规律。目前基础地理服务普遍存在着“数据海量、信息爆炸、知识难求”现象,原因主要在于以往业界重点关注基础地理数据的空间载体作用,虽然研发了元数据查询、数据浏览下载、应需专题制图、API调用等服务功能,但对基础地理数据的知识存量挖掘不够,提供的地理空间知识服务极少[4]。

在此背景下,时空知识图谱应运而生。时空知识图谱作为一种高效的时空知识组织和表示方式,可为上述问题提供解决方案。时空知识图谱的构建过程,即如何自动化地探测地理实体间的时空关系与语义关系,实现地理信息的自动聚合过程[5]。时空知识图谱是地理信息科学领域的前沿科学问题,也是提升时空大数据价值,促进地理信息服务能力和产业发展的必然要求。

2 时空知识图谱概念与特征

2.1 知识的形成与传承

知识这一概念源于人类不断递进的认知过程,一般遵从数据(Data)-信息(Information)- 知识(Knowledge)-智慧(Wisdom)的金字塔模型(DIKW)①(①https://baike.baidu.com/item/DIKW模型/50904093。),如图1所示。数据是使用约定俗成的关键词,对客观事物数量、属性、位置及相互关系的抽象表示。信息是指具有时效性、有一定含义,有逻辑、经过加工处理、对决策有价值的数据流。知识是不断凝练并与已有知识库进行结构化整合的有价值的信息。智慧是基于已有知识,针对客观世界运动过程中产生的问题,根据获得的信息进行分析、对比、演绎,进而找出解决方案的能力。

更详细地,知识可以定义为:在人类感知世界和实践过程中,对已获取信息进行提炼、归纳,并认为正确的、具有普适性的认识、观点、经验、方法、技能和流程等,是人类探索物质世界和精神世界逐渐累积形成的结果总和。知识包括事实、信息的描述或在教育和实践中获得的技能。知识分类方法很多,可参考图书馆学与知识工程相关文献。从认知心理学角度,知识可分为描述型知识和操作型知识。描述型知识用来回答事物“是什么”、“怎么样”的问题,与人们日常使用的知识概念内涵较一致,包括事实、概念和原理,可以通过语言传授(如“珠穆朗玛峰高程8 848.86 m”、“早高峰由于通勤交通流剧增造成主干道拥堵”等)。描述型知识通过符号系统传播,包括语言、图形、图像、文字(竹简、石碑、书籍、网络文本等各种文字形式)、地图(地表事物和现象分布情况)、数学公式、音视频等,具有隐性、动态、时效性、主观、可复制、可拓展、情境相关等基本特征。操作型知识是关于开展某项工作必需的知识和技能,一般须通过实践才能获得(如机动车驾驶技术等)。本文所述知识主要指描述型知识。

2.2 知识的形式化表达需求

知识表达形式多样,但绝大多数知识表达是服务人类学习的需求,不是服务机器理解的需求。故而知识的数字化过程多限于存储,以便人类用户可以更便捷地检索和学习知识。知识服务的内涵模糊,从图书馆到网络百科、文献共享,乃至基于已有知识的信息推荐,都可称为知识服务。目前各种流行的知识服务系统,大多是从各种知识资源中提炼内容,建立知识网络,为用户提出的问题提供已有知识资源或解决方案的信息服务过程。这些知识服务过程本质上是已有信息汇聚与人机交互查询过程。随着科学研究范式发展到数据驱动型,即科学研究的第四范式,使得可以在不依靠模型和假设的情况下,直接通过数据分析,发现很多以往的研究方法无法发现的新模式和新规律。然而第四范式在揭示事物本质规律方面存在固有的局限性,单独靠第四范式的数据驱动方法,不仅要消耗大量的计算资源,也难以真正预测未来的趋势与变化。目前的计算智能在存储、搜索、感知、确定性问题求解等方面性能表现优越,但在高级认知和复杂问题决策方面与人类智能相差很远[3]。从方法论来看,知识发现过程所需的人工智能,终究需要形式化的、计算机可读的知识体系支撑,实现深度学习与知识辅助的有机融合。因此,从早期的专家系统,到当前流行的知识图谱,业界一直在努力推动知识的形式化表达,以便让计算机能够充分利用已有知识,实现知识的自动推理。

知识图谱(Knowledge graph)概念由谷歌公司于2012年提出,旨在实现更智能的搜索引擎,并且于2013年以后开始在学术界和工业界普及。知识图谱是通过有向图的方式表达实体、概念及其相互之间语义关系的数据组织形式或产品,本质上是一种语义网络(Semantic network)。知识图谱中的“图谱”(Graph)源自图论,其中节点代表实体或者概念,边代表实体/概念的属性或者彼此之间的语义关系[5]。业界开发的通用知识图谱产品包括YAGO、DBpedia、Freebase、NELL、Zhishi.me等。这些知识图谱通过本体(Ontology)、资源描述框架(Resource Description Framework, RDF)等方法实现非结构化或半结构化知识的表达,将人类已有的知识系统中的海量知识点,存储在数据库中,并开发一系列搜索引擎实现访问与查询,辅助网络搜索问答、客服机器人、智能推荐等。

严格意义上,“Knowledge Graph”一词译为“知识图”更合适,因为一般而言“谱”多具有“序列”的内涵,如电磁波谱、基因图谱等。虽然Knowledge Graph中实体或概念之间的逻辑关系结构也具有多尺度和可追溯性,但“序列”内涵较弱。然而,知识图谱的译称已得到业界广泛接受,在此不再进行严格界定。

2.3 时空知识图谱

时空知识图谱,顾名思义,是具有地理时空分布或位置隐喻的知识构成的有向图,即以时空分布特征为核心的知识图谱(Spatial-temporal Knowledge Graph,或Geo-related Knowledge Graph,以下简称GeoKG)。GeoKG旨在通过计算机规范化表达与存储与地理时空分布相关的知识集合,进而支持地理时空分布或位置相关知识检索与知识推理。其中的图(谱)指地理时空分布或位置要素(概念、人类群体/个体、地理实体、事件、现象等)之间的语义联系形成的网状拓扑结构。

以往专业领域的关注点更多在于地理或地学专业知识,因此,常采用地理知识图谱或地学知识图谱的术语[5⇓-7]。在追求自然系统、社会系统统一综合描述的背景下,涉及人类群体/个体、交通工具、建筑楼宇、兴趣点(Point of Interests,POI)以及其他具有社会系统属性与地理空间分布隐喻的概念和实体,无疑也是知识的巨大承载体,应用需求广泛。因此,为了避免与专业化的地理知识或地学知识混淆,本文将时空知识更广泛地定义为一切具有时空位置和动态变化特征的相关知识。时空知识是人类对地理空间上人、物、事件、现象分布、演变过程和相互作用规律的认知结果。除了传统的地理/地学应用外,时空知识也是消费领域基于位置的服务(Location-based Services,LBS)、新型基础设施建设和智慧城市管理的核心支撑。时空知识也可以参考地理知识或地学知识分类方法,分为事实型、规则及控制型、决策型知识3 种类型[6],或者分为数据性、概念性和规律性知识3个层次[7]。业界已有诸多研究介绍了时空知识图谱的基本构建流程[5-6,8-9]。

时空知识图谱是地理信息分析向纵深拓展的关键技术。例如,在信息提取方面,传统的遥感分类和信息提取算法思维,主要是基于数据特征,利用样本学习获取遥感信息的过程。这种算法思维导向的方法可扩展性欠佳,在大区域应用时需要不断地补充新知识,或者使用海量样本训练学习来弥补地表异质性造成的特征差异[7]。业界已充分认识到,缺乏已有专业知识的支撑,很难在海量遥感大数据中获取更新、更广、更深层次的地学知识。在遥感大数据时代背景与深度学习不断发展壮大的趋势下,多源异质的大规模遥感知识图谱构建以及基于图神经网络的知识图谱学习与计算成为内在需求[10]。一方面,知识图谱可以构建遥感知识模型与复杂遥感场景,为知识—数据驱动的数据挖掘提供知识基础。另一方面,利用知识图谱中丰富的语义关系,可以实现面向语义需求的智能检索、增强智能遥感服务。耦合知识图谱和深度学习的新一代遥感影像解译范式,可以承载不同类型和层次的地学知识,使其具有查询检索、知识推理、动态更新、知识拓展等功能,为新时代地学知识驱动下的遥感大数据高精度智能解译服务,有效提升遥感影像的解译性能,并最终实现地学知识的自动化精准和积累[7,11]。在数据集成方面,数字孪生和智慧城市管理等需要实现自然环境/社会环境的多维度刻画与实时更新,从不同维度感知人-地关系,这也是全息地图思想的核心,即以全要素、全信息、全内容、全视角来开展地理空间对象的描述、表达、分析和服务,实现物理系统和社会系统要素在任何时间、任何地点的信息无缝链接与交互[12]。从数据集成的视角,本文认为全息地图可以理解为时空场景测度+知识图谱,即以位置和时空场景实体为载体的异构数据实时关联与聚合平台,强调物理环境变化(水土气生、建筑环境、声光电磁)、社会环境动态(Rich POI/人群流动、地理空间交互、社交关系)和移动对象轨迹/语义的综合集成。场景要素间的动态联系是全息地图的精髓,有助于将地图转化为地理或位置相关知识的表达工具。在数据服务方面,由于各种可获取数据异构性极强,需要在统一时空本体的支撑下,基于地理空间数据的多维度特征,建立地理时空大数据之间的高精度关联,以及面向计算模型的地理空间数据的自动推荐和匹配[13⇓-15]。在数据分析方面,随着机器学习技术不断成熟,其中的深度学习模型,依靠海量的训练数据和强大的算力,在人脸识别、机器翻译、网络问答等任务上性能已经超过人类。然而,深度模型均为面向具体任务的隐性模型,难以迁移,也较难解释。而知识图谱作为显性模型,目前在知识储备量上已经超过人类个体,可广泛适用于不同任务,且采用类似人类的思考方式,具有很好的可解释性。作为人工智能技术的两大驱动力,深度学习和知识图谱需要深度融合②(②王仲远. 美团大脑智享生活.https://m.weike.fm/lecture/10038952 (访问时间2023.01.26)。),才能满足城市智能计算等诸多场景需求,即实现城市多源时空数据的实时学习与时空知识的自动化积累。这也是城市建设与运维体现智慧的核心所在。

需要说明的是,时空知识图谱和地学信息图谱(Geo-information Tupu)是截然不同的2个概念。地学信息图谱是《地球信息科学学报》创刊人陈述彭院士提出的重要学术思想,源于中国历史早已有之的图谱概念。图谱是一种运用图形语言来进行表达与分析的方式。地学图谱是应用于地学分析的系列多维图解。其中图指地图,描述区域、现象的空间范围和分布格局,反映各地理要素的空间配置和相互作用;谱指可从时间上追根溯源的动态系列表达,描述对象的发展方向与演化过程,大都以树状结构图表描述。图谱合一,则是空间与时间动态变化的统一表述。随着GIS技术的发展,地学图谱自然演化为由征兆图、诊断图和实施图组成的地学信息图谱[16⇓-18]。地学信息图谱是认知、方法和动态地图三者的综合与统一。认知是人类对地学对象在图形思维上的观察能力;方法是信息的获取和分析的手段;地图是信息的交互表达形式,它反映的是地学对象的规律[19]。

地学信息图谱源于地理学与地图学,强调基于专业知识图形化描述的形象思维。而时空知识图谱源于计算机科学,强调基于知识表达形式化描述的逻辑思维。时空知识图谱的目标是辅助发现与利用新的与地理位置相关的知识。从这一点上看,就地学分析而言,时空知识图谱和地学信息图谱的目标是一致的。站在今天大数据、人工智能以及高分遥感等新技术的发展背景下,地学信息图谱就是通过信息图谱、知识图谱等方法,实现从数据到信息再到知识的跨越,进而发现和表达地学规律[19]。

3 时空知识图谱研究框架

从国家战略和行业需求的角度来看,自然资源规划利用、生态环境监管、智慧城市建设、公共健康监测等部门,正在全面推进行业治理体系和治理能力现代化,提升智能化管理能力和智慧化服务水平。然而,行业部门普遍存在数据资源整合集成、业务统筹协同难等问题。作为地理空间智能的基石,时空知识图谱是组织和利用大规模时空知识的有效手段。然而,现有的时空知识图谱主要依靠领域专家人工构建,存在行业领域知识不全面、不系统、不精准、更新困难等问题,迫切需要基于泛在时空大数据,在时空知识获取与管理技术支撑下,研发时空知识图谱管理和知识服务的基础软件,形成大规模、高质量的时空知识图谱,进而支撑行业领域时空知识服务应用。时空知识图谱总体研究框架如图2所示。

如何建立符合时空知识特点的时空认知与知识图谱表达方法,形成多维度的时空知识分类体系和统一的时空本体,发展顾及复杂时空特征及关系的时空知识图谱自适应表达模型,是时空知识组织管理、更新与计算推理、时空知识表示学习的理论基础。

时空知识蕴含在不同模态和类型的时空数据中,具有多粒度、异构、高维低密度、样本稀疏等特征,蕴含的时空知识内容、丰富程度和时效性各不相同,质量参差不齐。自动获取这些多模态、多类型的泛在时空数据,统一评估这些数据源所蕴含时空信息的质量,并在时空信息多维度特征和多层次关系综合认知指导下,实现基于统一时空本体的时空信息抽取与融合,为时空知识图谱构建与更新提供可靠语料,是时空知识图谱构建的数据基础。

现有时空知识图谱构建方法自动化程度极为有限,且存在时空知识本体与实例脱节、时空信息利用不充分问题,基于知识图谱的时空知识计算与推理研究更为罕见。亟需发展人工智能支持下群智协同的时空本体构建、基于海量开放语料和深度学习的时空知识图谱自动构建、“本体-实例”迭代融合的时空知识元组补全、时空知识表示学习与链接预测等技术,为大规模时空知识图谱更新与知识推荐提供技术支撑。

4 时空知识图谱研究进展

文本是知识沉淀和传播的载体。各种形式的文本是目前构建时空知识图谱的主要数据源。当前的知识图谱研究也主要是围绕自然语言文本开展工作,以得到地理时空知识元组的规范化显式表达。其他形态的地理信息,如各种格式的专业空间数据、物联感知数据、移动轨迹数据等,在当前的知识图谱研究中,其知识发现结果也基本转化提炼为显式的文本(字符串)形式三元组,才可纳入知识图谱的知识计算过程。

近年来,在国家自然科学基金、国家重点研发计划等项目支持下,业界围绕自然语言文本蕴含地理信息抽取、异构地理语义网对齐、时空知识图谱构建、时空知识图谱领域应用等主题,开展了系统性研究工作。

4.1 地理信息标注语料库构建

地理信息标注语料库是开展文本蕴含地理信息提取与理解的重要基础,旨在为文本信息的时空语义理解提供标准化的训练和测试数据。长期以来,标注语料库的匮乏一直是阻碍文本蕴含地理信息解析的关键因素。针对这一问题,业界设计了文本蕴含地理信息的标注规范,提出了地理实体及关系语料库自动构建方法[20-21],弥补了人工定义标注体系缺乏可扩展性的不足,为语料库快速扩充和开放式地理信息抽取提供了新思路。

(1)地理实体标注语料库迭代式构建

在文本蕴含地理实体识别与语义消歧基础上,可设计人机交互式标注平台,对文本进行地理实体标注和校正[20]。当标注的文本语料达到阈值时,将初始训练语料与标注语料进行融合,输入到地理实体识别模型中再次训练,优化模型参数,提升识别效果,同时将新增语料加入标注语料库;迭代上述步骤直至所构建语料库满足要求。结果显示,在基于相同的语料库情况下,这一方法较传统的基于条件随机场(Conditional Random Field,CRF)的地理实体标注方法,准确率、召回率、综合值均有提高。

(2)地理实体关系语料库自动构建

领域专家构建的地理实体关系标注规范通常要求标注者深入理解上下文语义,且涉及复杂空间关系的标注。如果缺乏人工参与,计算机将无法理解标注规范,不能完成自动标注。此外,同一地理实体的不同表达形式在语料标注的多个环节均可能存在歧义,影响地理实体关系语料库质量。据此,业界提出了基于回标技术的地理实体关系语料库自动构建方法[21],首先利用词嵌入模型对网络百科中的地理实体标签类别进行语义聚类,通过地理实体词条的百度信息框属性名称和属性值筛选出地理实体关系,形成地理实体关系分类体系;其次,如果地理实体词条信息框的属性值也为地理实体,则把记录转化为地理实体关系种子三元组。在实体消歧后,对句子集合和种子三元组集合进行主客体匹配和关系匹配,实现种子三元组映射到句子的定量化评价,筛选出最优匹配项作为地理实体关系回标结果。这种基于百科信息框的回标方法,充分利用百科平台中数据庞大且关系类型丰富的地理实体词条作为构建地理实体关系语料库的数据源,且构建的地理实体关系标注体系涵盖了语义关系和空间关系。

4.2 文本蕴含地理实体识别与语义消歧

文本蕴含地理实体识别与语义消歧是将文本中涉及的地理实体名称进行切分并予以标记的过程,旨在识别出文本中表示地理实体名称的符号,消除“同名异体”或“异名同体”的地理实体歧义现象,获取地理实体对应的位置或空间分布信息[22-23]。文本蕴含地理实体识别与语义消歧可通过实体共现与主题建模方法实现[24],也可通过基于规则的地名词典间地理实体匹配方法实现[25]。以往多采用隐马尔科夫模型、支持向量机、最大熵、条件随机场等机器学习方法开展地理实体识别[26]。近年来,深度学习方法被引入地理实体识别领域,以减少人工方式的地理实体描述语言特征归纳过程,或突破字符串相似性度量指标难以处理由于语言和文化差异形成的地名字符变更问题,例如基于深度神经网络(Deep Neural Network, DNN)的方法[27]、基于深度信念网络(Deep Belief Network,DBN)的方法[28]。DNN方法采用循环节点来表达与待匹配字符串对应的字节序列,并将其与前馈节点相结合,从而决定地名对是否匹配。方法显著优于单一相似度匹配指标及基于监督机器学习的多重指标组合方法[27]。DBN方法通过DBN模型的深层次网络结构,从输入数据中解析更易分类的高维度语言特征,计算每个字符属于地理实体名称组成部分的概率,并采用相邻字符组合方法,得到输入数据中描述地理实体信息的字符串。研究结果显示DBN模型与条件随机场模型的地理实体识别结果具有显著互补性,将二者进行融合有望大幅度提升地理实体识别性能[28]。文本中地理实体描述具有歧义现象,同一地理实体可能对应多个地理位置,同一位置也可能有多个地理实体描述。此外,文本中的地理实体描述还存在显著的离散化和稀疏性特征。针对这一问题,可基于已有的开放型百科知识平台(如维基百科、百度百科等)和自然语言词向量方法,进行地理实体语义消歧[29]。

4.3 文本描述地理实体空间关系抽取

地理实体之间具有密切的空间关系。文本中的地理实体空间关系描述是对地理实体间精确空间关系的抽象化。自然语言理解领域中的关系抽取研究,以往主要集中于语义关系、因果关系、时态关系抽取等,针对空间关系抽取的研究较少[30]。然而,文本蕴含地理实体空间关系抽取对地理位置相关应用至关重要,包括空间查询[31]、空间参考[32]、数据预测[33]等。

已有的空间关系抽取方法可分为传统机器学习方法[34-35]和神经网络方法[36-37]。前者高度依赖人工特征或明确的句法结构,后者基于神经网络,通过依存句法分析产生候选关系,并利用双向长短时记忆网络模型(Bi-directional Long Short-Term Memory,BiLSTM)进行分类,或者利用预训练自然语言模型BERT和CRF模型抽取空间关系。这些方法本质上均属于分类任务,对非空角色关系抽取表现优异,但由于信息缺失的限制,难以胜任空角色(null-role)关系抽取,即难以处理空间位置关系三元组中元组要素缺失的情况。因此,业界提出将生成模型和分类模型相结合,利用分类模型抽取非空角色关系,利用生成模型引入先验知识捕获空角色关系语义,并使得结果具有更好的可解释性[30]。但这种方法在非地理实体之间动态空间关系抽取方面可能有效,对于地理实体之间静态空间关系抽取的有效性尚需验证。此外,也有研究提出融合地理语义的文本描述地理实体空间关系抽取模型[38],将地理实体类型与空间关系特征词两项地理语义与深度学习模型融合,以提高空间关系抽取结果的准确率与召回率,并提升模型对拓扑、方向、距离等空间关系分类的泛化能力。

随着网络文本爆发式增长,预定义的关系类型难以全面覆盖不断变化的地理实体间新型关系,限制了地理语义理解和空间推理。无监督学习方法具有捕获文本的动态变化特征并发现新增关系类型的能力,对动态扩展时空知识图谱中知识三元组类型极具潜力。例如,有学者提出了语境增强的无监督地理实体关系抽取方法[39],首先进行地理实体识别,借助分类知识库确定实体类别,然后基于预训练BERT词向量知识库合并上下文中语义相似的词汇,增强相同类别的地理实体对的上下文语境,最后利用给定的句法特征排序增强语料中各词语的重要性,确定给定地理实体对的关系关键词。结果显示,相较于Domain Frequency和Entropy词频统计的抽取方法,语境增强的无监督地理实体关系抽取方法的关键词提取准确率大幅提升。同时,该方法具有识别新增关键词的能力,可有效扩展地理知识三元组的关系种类。业界进一步利用Stanford OpenIE工具实现了网络文本蕴含地理实体开放关系的实时抽取[40],基于通用知识库的地理实体开放关系过滤方法,从OpenIE抽取的地理实体开放关系中筛选出高质量结果。相比OpenIE的原始抽取结果,该方法大幅度滤除了开放关系抽取结果中的噪声,并最大程度召回正确的地理关系三元组。

4.4 文本描述地理事件信息抽取

不同类型地理事件在文本描述中差异显著,而且地理事件往往涉及多个地理实体及空间位置。针对这一问题,有学者将地理实体关系识别引入事件抽取过程,采用CRF模型和支撑向量机(Support Vector Machine, SVM)模型进行角色和语义关系标注,并以交通为例,通过正则表达式匹配识别事件的时间要素,实现了社交媒体文本中涉及多个地理实体描述的交通事件位置信息抽取[41]。此外,文本中存在大量多种类型地理事件表达共存的现象。基于触发词的方法容易将描述近似但类型不同的地理事件错误分类,而使用传统的文本全局特征向量作为监督分类方法的输入,模型学习的特征大多数与事件主题无关,导致训练分类器对事件分类检测失效。针对这一问题,有研究以环境污染事件为例,提出了基于联合主题特征的文本蕴含地理事件检测方法[42],首先计算文本中主题词频来构建主题分布特征向量,利用事件语料和维基百科语料训练的Word2Vec词向量对初始主题词库进行同义词扩展,然后基于TF-IDF向量表示文本的全局特征向量,计算词汇在各种事件主题类型的词频分布作为文本的主题分布特征向量,最后构建联合主题特征向量,进而采用逻辑回归模型与SVM分类模型提取了地理事件信息。这一方法兼顾文本的全局特征和主题分布特征,使用同义词林和知网改善了多类型地理事件信息检测分类效果。

地理事件具有时空动态变化特征。现有的模式匹配和机器学习算法很难迁移适用。针对这一问题,可在事件抽取过程中结合事件特征和语境特征[43],考虑词汇的事件特征和上下文信息,采用句法分析快速标注事件语料,基于BiLSTM-CRF模型,从文本中抽取出事件的时空属性信息,进而支撑地理事件知识库构建。

4.5 文本描述地理空间范围计算

空间位置与几何形态共同刻画出地理实体、地理事件占据的空间范围。文本描述的空间范围具有显著模糊性。基于文本描述计算地理实体、事件的空间范围,需要明确地理空间位置的认知机制与描述方式,界定地理实体空间位置与几何形态的关系,将文本上下文中特定地理实体的空间关系描述,简化为二元空间关系的组合描述,实现地理实体、事件空间范围描述的近似计算。

针对不同语境中位置描述模糊性差异显著而难以定位的问题,有学者提出了基于超赋值语义的定位方法[44],从多个层次分析位置描述中模糊性的来源,以及在各要素表达形式上的体现,然后从空间对象、距离关系和方向关系3个方面构建定位模型。通过对多个位置描述上下文进行超赋值,从上下文语义中获得观察值阈值,进而实现位置描述的精确化定位。

量化模糊空间边界有助于通过空间计算理解人类活动与地理空间的交互特征。业界提出了基于上下文空间关系的模糊地名空间建模方法[45]、基于核密度分析的地名模糊空间建模方法[46]、基于网络文本地理实体共现关系特征的认知范围方法[47]等。上述方法充分利用了文本中的空间关系词汇信息,但是忽略了不同类型地理实体的特征差异。因此,也可以考虑采用地理时空知识图谱和上下文相结合的方法,利用知识图谱中相关地理实体的时空特征、属性和关系,扩大相关文本数据源,同时提升文本中相关信息获取性能,从而提高地理实体、事件空间范围计算精度。

4.6 异构地理语义网对齐

互联网上有着大量开放的地理语义网(地理知识库)资源,可以作为构建时空知识图谱的重要基础。然而,这些地理语义网产品中不同类型的实体存在词法、结构和空间等方面的异质性,导致不同语义网中知识间的链接关系不可见,冗余数据难识别等问题。为此,业界开展了地理实体对齐形式化表达研究,针对不同应用场景提出了基于词嵌入增强的机器学习和基于空间映射变换的地理实体及类别对齐方法[48⇓⇓-51],可以在地理实体缺乏空间参考或者信息不完整的情况下有效完成实体和类别对齐,并构建了异构地理语义网对齐框架,充分利用多维信息度量地理实体相似性,并集成不同类型的地理实体对齐任务,一次完成地理实体从概念、属性到实例的完整对齐。

(1)词嵌入增强的地理实体对齐

现有文本蕴含地理实体对齐方法严重依赖地理实体的字符距离相似度,无法准确捕捉地理实体的深层次语义相关性,使得对齐性能难以提高。为此,业界提出了基于词嵌入增强的地理实体对齐方法[48],借助大规模文本中丰富的词汇间上下文关系,通过训练和学习,基于词嵌入模型,将文本中的词汇表示为低维实数向量。该向量隐含了从文本中学习到的语义信息以及词汇间的深层次语义相关性。相比于基于字符距离的地理实体相似度,由于词向量隐含了语义信息,可以更准确地捕捉语义相关性,度量其相似程度。

(2)基于空间映射变换的地理实体对齐

现有地理实体对齐方法通常计算实体名称相似度,利用绝对空间坐标来计算空间距离,并利用计算得到的实体名称相似度和空间距离来实现对齐。然而,矢量型地理实体可能存在缺乏空间参考或者信息不完整的情况,严重影响对齐效果。据此,业界提出了基于空间映射变换的地理实体对齐方法[49],通过橡皮页空间映射方式校正待对齐的两个数据集的相对坐标,使得数据集可以实现空间叠置,叠置后的数据集相对坐标可用于计算空间距离等,实现实体对齐。其中,空间映射通过基于控制点的橡皮页变换实现。控制点可通过数据集中部分地理实体对齐和对齐的实体计算得到。

(3)基于词嵌入的地理实体类别对齐

针对已有的地理实体类别对齐主要基于字符或结构相似度方法进行,难以利用深层语义信息的问题,业界提出了地理语义增强的词嵌入地理实体类别对齐方法[50]。首先构建语料库,输入词嵌入模型进行训练,生成能够充分表达地理实体类别语义信息的词向量,然后根据生成的词向量,获得来自不同地理知识库的实体类别的相似度,根据相似度计算结果生成地理实体类别的对齐结果。这种方法可以有效度量类别间的相关性。需要注意的是,词向量维度提升虽然增强了向量对语义相关性的表示精度,提升了对齐结果,但过大的维度却可能导致查全率的降低。需要根据查准率和查全率的均衡确定合适的词向量维度。

(4)异构地理语义网整体对齐框架

目前业界已有大量公开的地理语义网资源,如GeoNames Ontology、OSM Semantic Network Network、 GeoWordNet、LinkedGeoData等。然而不同组织发布的地理语义网标准不同,存在一词多义和同形异义的现象,整体上分散独立。如何整合这些异构分散的知识资源成为亟待解决的难题。通用对齐系统大多缺乏实例对齐功能,需要建立集成框架以支持各种类型的对象对齐。此外,许多地理空间数据使用扁平式存储,缺乏明确的层级结构,和通用链接数据存在本质差异。独立研究各种类型的地理实体对齐方法,不但增加了计算资源,还缺乏相似性度量指标的自动整合机制,限制了对齐方法的可扩展性。鉴于此,业界构建了地理空间数据的整体对齐框架,充分利用了多维信息度量地理实体相似性,集成了不同类型的地理实体对齐任务,可一次完成概念、属性到实例的匹配[51]。其中相似性计算考虑了地理实体的空间相似性、词法相似性、结构相似性和扩展信息相似性;采用初始匹配和增强匹配的两阶段匹配策略。相较于著名的集成对齐系统PARIS,这一集成框架不仅利用了更多类型的信息来协同增强对齐的效果,而且聚合多种相似性度量方法时避免了人工调参,降低了方法对指定信息的依赖,适用于信息分布失衡的数据对齐。

4.7 时空知识表达与表示学习

综合考虑时间和空间2种要素的独特性,业界提出了“以地理实体为核心”的时空知识表示模型,发展了基于描述逻辑语言的时空知识形式化描述方法,建立了时空知识图谱的统一表达框架,解决了“如何将时空知识表示为计算机可接受的符号和可存储数据结构”的问题[6,52],并以网页文本为数据源,探索了基于机器学习模型的时空知识图谱自动生成方法[53]。针对现有知识图谱中地理实体间链接稀疏,无法为已有知识嵌入表示的学习过程提供充足训练数据,导致地理知识嵌入表示效果不佳的问题,提出了顾及地理距离特征的时空知识图谱嵌入表示方法[54],结合时空知识图谱具有空间隐喻的独特性,将隐含的地理实体和地理关系间的空间距离模式引入知识嵌入表示学习过程,优化地理实体和关系在低维向量空间的表示效果,以更好地表达地理实体间稀疏链接的知识图谱三元组,服务时空知识图谱补全等应用场景。

4.8 时空知识图谱应用案例

通用知识图谱作为现代搜索引擎的底层资源,已成为互联网信息服务的核心支撑。与地理位置相关的城市设施与人类个体/群体知识资源,如POI画像与消费者行为轨迹模式等,也已在智慧城市管理、城市电商和零售领域取得了广泛应用。针对行业需求的其他时空知识资源,尚处于应用起步阶段。 例如,针对台风灾害应急管理决策需求,业界提出了台风灾害知识图谱构建方法[55],通过梳理台风灾害知识来源,建立了台风灾害事件知识体系,提出了台风灾害事件知识表达模型,实现了基于“事件-对象-状态-属性”的台风灾害事件知识融合,构建了台风灾害知识图谱,分析了知识图谱在台风灾害对象查询、灾情应对措施推理等场景中的应用途径;针对大气污染事件追溯和执法需求,提出了以事件为核心的大气污染执法知识本体模型,建立了大气污染发现、现场检测、处罚决定、整改监督4个阶段的事件本体,确定了本体涉及的对象要素的核心属性及其相互关系[56];采用BERT和 CRF模型组合,实现了大气污染事件分类及其文本中事件对象要素等的自动化精准抽取[57],构建了大气污染执法事件知识图谱,开展了大气污染事件关联性、发展态势、执法量裁准确度分析等;针对铁路隧道智能化施工管理需求,提出了铁路隧道钻爆法施工安全质量进度知识图谱构建方法[58],根据铁路隧道施工建设过程中与安全质量进度关联的人机料法环5类关键要素的概念与语义关系,设计了模式层自上而下和数据层自下而上双向协同的构建方式,抽取了实体及关系并进行融合,构建了模式-数据关联的知识图谱,精细刻画了影响安全、质量和进度的关键要素属性、要素间语义关联关系以及互馈作用关系等,为铁路隧道施工安全质量进度管理提供了支撑;针对国土资源不同数据产品难以有效管理与快速应用的问题,利用图数据库对公开土地覆盖数据集进行语义层面的结构化存储,建立了可动态更新的中国国土资源知识图谱[59],提出了基于知识图谱的感兴趣图节点快速检索算法,充分利用多源土地覆盖数据产品间的信息,缩短了数据预处理时间,并发现了覆盖全国的县级行政单元的产品数据一致性误差。针对旅游管理与市场分析需求,基于旅游信息门户的用户生成内容(User Generated Contents, UGC),通过专家知识本体与预训练语言模型ERNIE的迁移学习,实现了旅游相关知识抽取,并集成多源信息构建了全方位的旅游知识图谱,支持游客行为模式和出游偏好分析[60],并基于知识图谱,利用旅游评论文本训练Word2Vec词嵌入模型,实现文本语义增强,捕捉旅游知识图谱中蕴含的关系语义,度量旅游景点的相似性[61];通过构建知识图谱,解决了当前推荐系统面临的推荐精度低和推荐结果缺乏可解释性问题[62-63]。

5 发展趋势与展望

时空知识图谱方兴未艾。针对时空知识图谱所涉及的时空信息抽取、空间计算、语义网对齐、知识形式化表达与表示学习等主题,业界已经开展了大量研究,取得了诸多研究成果,为时空知识图谱的深度应用奠定了基础。然而,时空知识服务所需的知识获取、推理计算与主动推荐过程,依然存在一些关键科学问题与技术瓶颈需要突破,包括:

(1)多模态时空知识获取

知识图谱中的形式化知识元组,当前主要基于各种形态的文本数据源处理得到。然而,除文本外,各种对地观测、传感器网络与社会感知手段获取的图像、视频、移动对象轨迹与传感网监测数据中同样蕴含丰富的时空知识。基于不同模态数据获取的时空知识在系统性、完整性上存在较大差异。需要探索基于多模态数据的时空知识获取与融合方法,弥补单一数据来源的不足,为时空知识图谱提供多源异构信息支持。

(2)复杂时空知识表达

知识图谱通常采用RDF模型进行知识点表达,强调对象间的语义关系。RDF模型本质上是一种“二元一阶谓词逻辑”的知识表示形式,虽然能够表示大部分简单事件或实体属性,然而在表示复杂时空知识时却束手无策。面对客观世界中普遍存在的各类复杂时空知识,RDF模型难以保证知识的准确性与完备性。如何突破RDF模型的缺陷,发展可充分反映多维度时空特征及关系,兼容不同时空对象、尺度和粒度的复杂时空知识自适应表示模型,及对应的数据库实现方法,需要进一步研究。 (3)面向时空知识图谱的知识推理

面向知识图谱的知识推理旨在基于已有知识图谱中的事实,推理出新的事实或识别错误的知识,一方面维护知识图谱的完整性与有效性,另一方面,利用知识推理过程的可追溯性,增强推理结果的可解释性。可以说,知识推理贯穿知识图谱从构建到应用的全过程。面向知识图谱维护的知识推理包括知识图谱补全和知识图谱去噪两个主要任务。知识图谱补全通过对已有事实的归纳演绎,基于逻辑、规则和上下文,填补存在缺失的知识三元组要素,或者对知识元组进行新的扩充,增加知识存量,包括连接预测、实体预测、关系预测、属性预测等任务。知识图谱去噪通过对已有知识元组进行一致性检验,或者根据新获取的知识,识别已有知识图谱中知识元组的误差甚至错误,对知识元组进行修订更新[64]。

面向通用知识图谱的知识推理已在垂直搜索、智能问答等应用领域发挥了重要作用。而时空知识推理目前还处于萌芽状态。时空知识推理是实现时空数据智能向时空知识智能跃迁的技术瓶颈,直接决定了时空知识图谱的应用广度与深度。如何构建时空知识高效计算与推理机制,并提升时空知识推理结果的可解释性,需要深度借鉴面向通用知识图谱的知识推理技术,结合时空知识表示学习、实体空间位置语义与空间关系表达,采用地理实体多尺度层次关系推理机制与关系传递概率图模型等,进行深入研究。

(4)行业时空相关知识抽取与工程应用

知识图谱的核心资源是高质量的知识。对于应用领域而言,行业的深层知识属于知识中最具含金量的内容,其表现形式都是非结构化、隐性的。目前仍然缺乏有效的行业知识抽取手段。实际应用中多依赖人工/半人工的方式进行,效率和准确性有待提升。

此外,时空知识在空间格局解析、问题诊断、演变模式识别、趋势预测等不同应用中的作用不尽相同。现有的时空知识服务主要实现了相关数据、文献及工具的整合,提供跨类型资源语义检索及简单的知识导航等。时空知识的行业应用,需要基于时空知识图谱自适应表达模型,在前述关键技术方法基础上,研发时空知识图谱管理系统和时空知识应用服务支撑平台,并与自然资源、生态环境、应急管理、城乡规划与建设等行业领域业务深度融合,发展适应不同应用场景的多层次时空知识服务工程化应用技术,支撑相关行业对时空知识服务的迫切需求。

目前各大互联网企业竞相推出基于大规模语料和机器学习大模型的问答系统,如OpenAI ChatGPT、Google Bard、百度文心一言等,成为全球关注热点。这些产品利用自然语言模型在大规模语料上训练巨大的神经网络模型,能够通过理解和学习人类语言来进行互动[65]。基于海量语料和机器学习大模型的知识提取与产生能力,让很多以往依赖人工完成的基础性、模式化工作变得无关紧要。虽然这些产品被诟病不具备实时搜索功能,无法学习新知识并更新知识储备,但是可以预见,这些问题将很快得到解决。我们认为,在科学探索方面,碳基生命的个性化特征也将不断被硅基生命的普适化特征所取代。除非这些个性化特征具有强烈的创新内涵,在当时的科技背景下,人工智能难以表达与复现。

然而,这些系统从大规模语料库中学习到的很多知识,据推测是存储在分布式表示的难以解释的黑盒模型中,并非知识图谱要求的形式化表达的显式知识元组。这与人类直接认识世界内在机理的朴素需求是相悖的。并且,训练一个大型语言模型费时费力,成本巨大,这种解决方案是否适合行业领域的应用需求,值得商榷。行业领域知识异构性极强,如何把行业领域知识融入到大模型中极具挑战。此外,这些系统并不构建显式的知识图谱,而是通过大规模文本语料的学习过程,建立隐式的知识图谱,然后根据这个隐式知识图谱回答问题。换句话说,它们并不是真正理解了人类的知识传承,进而也难以实现很多需要因果关系而不是相关关系的知识推理过程。因此,我们认为,在很长一段时间内,构建显式的时空知识图谱,并与深度学习技术有机融合,针对行业领域业务需求进行知识组织和计算推理,仍将是时空知识服务的必由之路。

成为VIP会员查看完整内容
68

相关内容

时态知识图谱的推理研究综述
专知会员服务
62+阅读 · 2023年6月10日
情感计算与理解研究发展概述
专知会员服务
34+阅读 · 2022年7月2日
医学知识图谱构建关键技术及研究进展
专知会员服务
41+阅读 · 2022年4月27日
知识驱动的推荐系统:现状与展望
专知会员服务
64+阅读 · 2021年11月22日
基于深度神经网络的高效视觉识别研究进展与新方向
专知会员服务
36+阅读 · 2021年8月31日
知识图谱在智能制造领域的研究现状及其应用前景综述
专知会员服务
152+阅读 · 2021年2月25日
专知会员服务
127+阅读 · 2021年2月17日
专知会员服务
102+阅读 · 2020年11月27日
专知会员服务
219+阅读 · 2020年8月1日
专知会员服务
128+阅读 · 2020年7月10日
航空制造知识图谱构建研究综述
专知
26+阅读 · 2022年4月26日
基于深度学习的数据融合方法研究综述
专知
27+阅读 · 2020年12月10日
基于图神经网络的知识图谱研究进展
AI科技评论
19+阅读 · 2020年8月31日
【长文综述】基于图神经网络的知识图谱研究进展
深度学习自然语言处理
14+阅读 · 2020年8月23日
事件知识图谱构建技术与应用综述
专知
22+阅读 · 2020年8月6日
深度学习模型可解释性的研究进展
专知
22+阅读 · 2020年8月1日
孟小峰:机器学习与数据库技术融合
计算机研究与发展
14+阅读 · 2018年9月6日
医学知识图谱构建技术与研究进展
人工智能学家
16+阅读 · 2017年11月11日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
133+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
327+阅读 · 2023年3月31日
Arxiv
56+阅读 · 2023年3月26日
Arxiv
115+阅读 · 2023年3月24日
VIP会员
相关VIP内容
时态知识图谱的推理研究综述
专知会员服务
62+阅读 · 2023年6月10日
情感计算与理解研究发展概述
专知会员服务
34+阅读 · 2022年7月2日
医学知识图谱构建关键技术及研究进展
专知会员服务
41+阅读 · 2022年4月27日
知识驱动的推荐系统:现状与展望
专知会员服务
64+阅读 · 2021年11月22日
基于深度神经网络的高效视觉识别研究进展与新方向
专知会员服务
36+阅读 · 2021年8月31日
知识图谱在智能制造领域的研究现状及其应用前景综述
专知会员服务
152+阅读 · 2021年2月25日
专知会员服务
127+阅读 · 2021年2月17日
专知会员服务
102+阅读 · 2020年11月27日
专知会员服务
219+阅读 · 2020年8月1日
专知会员服务
128+阅读 · 2020年7月10日
相关资讯
航空制造知识图谱构建研究综述
专知
26+阅读 · 2022年4月26日
基于深度学习的数据融合方法研究综述
专知
27+阅读 · 2020年12月10日
基于图神经网络的知识图谱研究进展
AI科技评论
19+阅读 · 2020年8月31日
【长文综述】基于图神经网络的知识图谱研究进展
深度学习自然语言处理
14+阅读 · 2020年8月23日
事件知识图谱构建技术与应用综述
专知
22+阅读 · 2020年8月6日
深度学习模型可解释性的研究进展
专知
22+阅读 · 2020年8月1日
孟小峰:机器学习与数据库技术融合
计算机研究与发展
14+阅读 · 2018年9月6日
医学知识图谱构建技术与研究进展
人工智能学家
16+阅读 · 2017年11月11日
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员