【论文阅读】The Semantic Web Revisited

The Semantic Web Revisited

原文地址:eprints.soton.ac.uk/262

文章发表于 2006 年,作者是 University of Southampton 的 Nigel Shadbolt 和 Wendy Hall 以及 MIT 的 Tim Berners-Lee.

前言

2006年作者发文时,万维网链接了 100 亿个页面,搜索引擎可以了解包含在链接中的主题,从而几乎即时地提供有用和相关的内容。在五十年前,建立全球的信息网络,大规模部署语义并尝试对所产生的组件进行推断似乎是非常激进的。五十年前的语义网,如同通用人工智能一样遥不可及。但是,作者相信语义网如今是可以实现的,它将借鉴 50 年来的 AI 研究中的一些关键见解、工具和技术。「作者相信语义网研究是有前景的,并且它和 AI 的研究是紧密的。」

从文档到数据和信息

《科学美国人》关于语义 Web 的文章最初出现在 2001 年。它描述了一种网络的发展,该网络主要由人类阅读的文档组成,其中包含供计算机操纵的数据和信息。语义网 是一种可操作的信息网,即通过语义理论从数据中得出的用于解释符号的信息。语义理论提供了“意义”的解释,其中术语的逻辑联系建立了系统之间的互操作性。这不是一个新的愿景。蒂姆·伯纳斯·李(Tim Berners-Lee)在 1994 年的第一届万维网会议上就明确表述了这一点。但是,这个简单的想法在很大程度上还没有实现。「语义网不是一个已完成的课题,而是一个值得长期研究的方向。」

数据和信息网络看起来与我们今天所体验的网络完全不同。 通常,它可以让我们根据特定的使用环境来收集正确的数据,例如,打开日历并查看适当地放置在时间线上的商务会议、旅行安排、照片和金融交易。《科学美国人》的这篇文章假设这很简单,但是在当今的 Web 上仍然很难实现。

该文介绍了许多情况,其中智能代理和僵尸程序代表其人类或公司所有者执行任务。 当然,购物机器人和拍卖机器人在网络上比比皆是,但是它们本质上是为特定任务而手工制造的。 它们几乎无法与异构数据和信息类型进行交互。 由于我们尚未进行大规模的基于代理的中介,因此一些评论员认为语义网未能交付。 我们认为,只有在标准建立良好的基础上,代理才能蓬勃发展,并且表示共享含义的 Web 标准在过去五年中稳步发展。 此外,我们看到在电子科学界使用本体预示了语义 Web 的最终成功——正如在 CERN 粒子物理社区中使用 HTTP 导致原始 Web 的革命性成功一样。「语义 Web 的智能还是比较低级的,语义 Web 的发展寄希望于一种良好的标准。」

日益增长的数据集成需要

同时,对共享语义以及从中获得的数据和信息网络的需求也在增加。例如,生命科学研究需要整合来自不同子领域中不同科学家群体的多种多样的数据集。基因组学,蛋白质组学,临床药物试验和流行病学方面的科学家,研究人员和监管机构都需要一种整合这些成分的方法。这在很大程度上是通过采用称为本体的通用概念来实现的。在过去的五年中,赞成使用本体的论点赢得了人们的欢迎-许多计划正在开发生物学的本体(例如,参见http://obo.sourceforge.net),医学,基因组学和相关领域。这些社区正在开发可以在 Web 上部署的语言标准。「本体 Ontology 这个词在本文中再次出现。维基百科指出,本体指一种形式化的、对于共享概念体系的明确而又详细的说明。本体的应用领域包括人工智能、语义网、软件工程等。」

许多其他学科正在采用生命科学中开始的东西。 环境科学正在寻求整合水文学,气候学,生态学和海洋学的数据(请参阅marinemetadata.org/exam)。 在科学的每一个地方,显然都需要了解跨越规模和分布范围的系统,这对数据和信息集成提出了迫切的要求。

各种电子政务举措都代表着类似的努力。 联合王国已制定了《公共部门综合词汇》。 最近成立的英国公共部门信息办公室(www.opsi.gov.uk)是对欧盟指令。 OPSI旨在利用大量政府数据为公民谋福利。 几个欧盟国家正在开发类似的程序来执行欧盟指令。 尽管在国防,商业和商务方面有这些以及其他重要的推动力,但显然语义网还没有达到我们期望的规模。 因此,让我们回顾一下我们取得的进展,并考虑其在全球范围内采用的各种障碍。

语义网的进展

与对 Web 语义的需求一致,包括 Internet 工程任务组和World Wide Web Consortium(W3C)之类的标准组织在内的用户社区在指定,开发和部署用于共享含义的语言方面进行了重要的努力。 这些语言为语义互操作性提供了基础。

在 1997 年,W3C 定义了第一个资源描述框架规范(RDF)。 RDF为通用资源标识符(URI)提供了一种简单但功能强大的基于三元组的表示语言。 到 1999 年,它成为 W3C 的建议,这是吸引人们对该规范并促进其广泛部署以增强 Web 功能和互操作性的关键一步。

最初的网络采用了超文本并使其在全球范围内运作。RDF 的愿景是为 Web 提供一种最低限度的知识表示。

通用资源标识符 URI

URI 标识资源,因此是语义 Web 企业的核心。使用全局命名约定(无论语法是任意的)都可以提供全局网络效应,从而推动Web的发展。 URI 具有全局范围,并且在上下文之间进行统一解释。将 URI 与资源相关联意味着任何人都可以链接到它,引用它或检索它的表示形式。

考虑到语义网的目标,我们要推理关系。URI为我们的对象和关系提供了基础。 它们是语义Web的基础,允许机器直接处理数据。 通过这种方式,语义网将重点从文档转移到了数据。 语义Web的许多动机来自关系数据库中锁定的价值。 要释放此值,必须将数据库对象作为一流对象导出到Web,因此必须将其映射到URI系统中。

语言的发展为编码意义提供了更大的机会,从而支持信息集成和互操作能力。RDF模式在2004年2月成为推荐标准。RDFS采用了基本的RDF规范并对其进行了扩展,以支持结构化词汇表的表达。它提供了一个最小的本体表示语言,研究社区已经广泛采用。

三元组存储

随着 RDF 和 RDFS 的普及,对能够存储 RDF 内容的存储库的需求也在增长。这些所谓的三元组存储的功能各不相同。一些专注于提供一个丰富的方法来推理三元组数据,而另一些专注于存储大量数据。有些作为当前Web浏览器的插件,有些作为可以操作一系列现有第三方数据库的系统。

随着存储本身的发展,出现了对可靠的、标准的数据访问他们所持有的RDF的需求。SPARQL 语言目前正处于 W3C 推荐标准的最后审查阶段,其设计目的就是满足这一要求。

RDF 翻译

其他重要的进展包括GRDDL(从方言中收集资源描述),它提供了一种方法,使用XSLT(可扩展样式表语言)表示的转换从XML和XHTML文档中提取RDF,并与原始内容相关联。通过生成足够的RDF以实现意外的重用,此功能有可能克服RDF引导问题。Web上的XML和XHTML数据量非常大,特别是从后端数据库生成的数据,这为RDF转换提供了很好的机会。

Web 本体语言

对于那些在对象和关系描述中需要更强表达能力的人,OWL (Web本体语言)规范集成了一些工作。W3C推荐标准提供了三个版本的OWL,具体取决于所需的表达能力。OWL的核心思想是支持对决策过程也适用的本体的有效表示。它检查本体,以查看它在逻辑上是否一致,或确定某个特定概念是否属于本体。 OWL使用RDF提供的链接来允许本体跨系统分布。本体可以变得分布式,因为OWL允许本体引用其他本体中的术语。通过这种方式,OWL是专门为Web和语义Web设计的。

OWL 的使用正在增加,但是仍然需要工具和软件开发环境来支持它的生产和应用。这些注释已经开始出现了,但是到目前为止,我们还没有什么方法可以在内容使用或创建时使用这些或其他语言常规地、轻松地生成语义Web注释。

规则与推断

但本体只是表现画面的一部分。规则和推理也需要支持。OWL 语言本身被设计为支持各种类型的推断(通常是归纳和分类),并且有一系列的自动推理器可用。因为很难指定一种形式来捕获特定领域的所有知识,所以在 Web 上还有其他的推断方法。规则交换格式的工作已经开始,这是一种支持和跨各种基于规则的格式进行互操作的尝试。RIF将处理过多的基于规则的形式主义:霍恩子句逻辑、高阶逻辑、生产系统等等。

此外,人工智能研究人员扩展了这些不同的逻辑,并对它们进行了修改,以获取因果、时间和概率知识。因果逻辑,如Glenn Shafer所提出的,是从人工智能的行动逻辑发展而来的,它的目的是捕捉常识性的一个重要方面,即在机制和物理系统下。时间逻辑用特定时间索引的命题来形式化推理规则;Huang Zhisheng和Heiner Stuckenschmidt提出了本体版本管理的时间逻辑方法。概率逻辑学是对单个事件或状态的概率连接进行处理的计算。也许其中最著名的是贝叶斯定理,你可以用它来根据之前关于概率如何分布的理论推导出事件的概率。贝叶斯推理在搜索引擎中很常见。在一些需要在不确定性下进行推理的领域,如生物信息学,Kenneth Baclawski和Tianhua Niu建议使用贝叶斯本体来扩展Web以包含这种推理。

数据暴露和病毒摄取

到目前为止,我们关注的是语言、语义、标准。对此我们不作任何道歉。没有精心开发和商定的标准,语义 Web 就不可能存在,就像现有的 Web 没有 HTTP、HTML 和 XML就不可能存在一样。但是,如果没有理解,语言和标准就没有意义,理解需要增加 RDF 中暴露的数据量。(我们之所以确定RDF,是因为经常遇到的“最少功耗”原则——语言表达能力越差,数据的可重用性就越好。)

摄取指的是达到这样一种境界,即你自己和他人的数据能够被意外地重用。我们已经提到了生命科学的发展。经验表明,具有迫切技术需求的孵化器社区是成功的必要前提。在最初的 Web 中,这个社区是需要共享大型文档集的高能物理学家。动员 10% 的小而集中的社区要比动员 10% 的普通大众容易得多——这些早期的采纳者是关键。

考虑过去五年的典型语义Web项目也很有意义。他们表现出一套独特的特点。通常,它们为应用领域带来新的发展——无论是乳腺疾病的信息管理还是计算机科学研究。它们要么导入遗留数据,要么获取并将其重新放置到单个的大型存储库中。然后,他们对存储库中保存的RDF图进行推理,并使用自定义开发的接口表示信息。

这些项目为许多技术和方法提供了重要的依据。它们展示了如何通过使用本体作为中介来促进归属和语义集成。它们充当了RDF存储和一系列重要语义Web中间件的开发上下文。然而,总的来说,它们缺乏真正的病毒摄取。而且,在大多数情况下,我们无法查找URI并返回数据。数据公开革命还没有发生。

URI 提供了我们的符号在 Web 中的基础。作为 URI 的三元组的 RDF 三元组应该与那些在本体中定义了含义的术语不相关。然而,URI 通常引用的对象没有这样定义。

考虑一个生命科学的例子:Uniprot是世界上最全面的一组基于蛋白质的数据库,但是我们不能提供Uniprot蛋白质的URI,然后简单地读取或确定它的属性。相反,服务器以 blob 的形式向我们传递压缩的数据包。此外,生命科学家使用的生命科学标识符命名方案标准不兼容 HTTP。需要有这样一个过程:将uri常规地提供给这些对象,并将它们的管理委托给关心一致且明确的引用方法的个人和社区。

本体发展与管理

这里的挑战是真实的。为语义Web提供语义的本体必须由承诺的实践社区开发、管理和认可。无论是气象学还是银行交易、蛋白质还是发动机部件,我们都需要能够使用的概念定义。

虽然有些外延比其他的更持久,但我们必须认识到它们不是一直固定不变的。即使是用来给医学疾病分类的术语也会随着新程序的出现而改变,人们对疾病的理解也会随之产生。我们需要把这种结构看成是有生命的结构。有些可能持续很长一段时间——例如,描述元素周期表元素的术语。另一些则更加不稳定:18世纪的燃素概念在现代化学本体中没有地位,但它曾被认为是解释燃烧和其他化学反应的基本概念。社区和实践将以复杂和社会微妙的方式改变规范、概念化和术语。我们不应该感到惊讶,也不应该试图抵制这些改变。基于这些约定构建的语义Web的问题是知道何时需要修改部分内容。

这给我们带来了一个经常被引用的关于语义网的问题——本体开发和维护的成本。在一些地区,无论成本有多高,都很容易收回。例如,在结构良好的领域(如科学应用程序)中,本体将是一个强大而必要的工具。在某些商业应用程序中,使用良好结构和协调的词汇表规范所获得的潜在利润和生产力收益将超过开发本体的沉没成本和维护的边际成本。

事实上,考虑到Web的分形特性,这些成本可能会随着本体用户基数的增加而降低。如果我们假设构建本体的成本分散在用户社区中,那么需要的本体工程师的数量将随着用户社区的大小而增加。建筑时间的数量随着工程师人数的平方而增加。对于一个基本模型来说,这些都是天真但合理的假设。其结果是,每个用户在为大型社区构建本体时所付出的努力会很快变得非常少。

并不是所有的本体都有相同的特性,一般来说,我们可以将深层的本体与浅层的本体区分开来。深入的思考往往是在科学和工程中遇到的,在这些领域中,人们付出了相当大的努力来建立和发展思维。对于蛋白质组学和医学等领域,本体是非常真实的数据。当我们使用本体将复杂的属性集描述为构成某种对象时,这一点就变得很明显了。

浅层的本体包含相对较少的不变的术语,这些术语组织了大量的数据——例如,在银行和金融上下文中使用的客户、帐号和透支等术语,或者定义地理空间信息的基本关系。有些人可能会说,我们花了太多时间来赞美深层本体的优点,而牺牲了那些提供大量可重用数据的浅层本体。浅层的本体需要努力,但是需要处理更简单的术语和关系集。

大众分类法:Web 级标签

深层本体的复杂性导致一些人完全放弃了本体,转而采用另一种方法。大众分类法是目前引起相当大兴趣的一项发展。它们代表了当个人管理他们自己的信息需求时有机出现的结构。当大量的人对特定的信息感兴趣并被鼓励去描述它或标记它时,大众分类法就产生了。用户可以将关键字分配给文档或其他信息源,而不是采用集中的分类形式。

利用标签的著名应用程序是Flickr和del.icio.us。这些应用程序由自下而上分散的社区驱动,有时被称为Web 2.0或社交软件。

在 Web 范围内进行标记当然是一个有趣的发展。它提供了一个潜在的元数据来源。出现的大众分类法是关键词搜索的变体。它们是一种有趣的信息检索的紧急尝试。但是大众分类法与本体有着非常不同的用途。本体试图更仔细地定义数据世界的各个部分,并允许以不同格式保存的数据之间的映射和交互。本体通过 URI 引用;标签使用单词。本体是通过一个仔细的、明确的过程来定义的,这个过程试图消除模糊性。标签的定义是一个松散和隐式的过程,其模糊性很可能仍然存在。应用于本体的推理过程是基于逻辑的,并使用连接之类的操作。标签上使用的推理过程本质上是统计的,并使用了诸如聚类之类的技术。

这并不意味着标签总是会取代肤浅的本体。当存在对本体的感知需求时,轻量级但强大的本体就会出现并被广泛使用。两个例子是 Friend- of-a-Friend 和相关的应用程序,如Flink。这与语义 Web 技术和利用 Web 的自组织的技术的双重和互补发展的要求是一致的。

有些人认为本体是自上而下的,有点专制的结构,与人们的实际实践、领域中各种潜在的任务或上下文的操作无关,或者只有微弱的联系。这种看法可能与开发一个单一的一致的本体的想法有关,例如,Cyc。这样一个范围广泛、无所不包的本体很可能会有有趣的应用程序,但它显然不能扩展,而且它的使用也不能强制执行。

如果语义网被认为需要对某个特定观点的广泛认同,那么可以理解的是,像大众分类法这样的新兴结构开始显得更有吸引力。但这不是语义 Web 需求。本体是对实际数据共享实践的一种合理化。我们可以而且确实相互作用,而且我们没有实现或试图实现全球一致性和覆盖面。本体是在感兴趣的社区之间对共享意义作出明确承诺的一种方法,但是任何人都可以使用这些本体来描述自己的数据。类似地,如果愿意,任何人都可以扩展或重用本体的元素。

未来展望

我们所期望的语义Web能够大量重用现有的本体和数据。它是一个链接的信息空间,其中的数据被丰富和添加。它让用户参与到偶然的重用和相关信息的发现中去,这是病毒式网络传播的标志。我们已经看到,人们和组织提供数据的需求越来越大,义务也越来越大。这是由协作科学的必要性、提供产品细节等商业激励措施以及监管要求推动的。我们相信,这可能会带来一场革命,例如,如何管理科学内容的整个生命周期。

下一波无处不在的数据将给我们带来大量的研究挑战。我们如何有效地查询大量分散的、不同规模的信息存储库?我们如何对齐和映射本体?我们如何构建一个语义Web浏览器来有效地可视化和导航巨大的已连接的RDF图?我们如何建立内容的信任和出处?

来源——即数据产生的时间、地点和条件——已经成为一系列应用程序中的一个关键要求。我们很可能需要社会网络分析、流行病学等不同领域的研究人员的帮助,以了解信息和概念是如何在网络上传播的,以及如何确定它们的来源和可信度。

我们不能忽视这样一个事实,即网络,以及我们许多最重要的数字环境,从根本上取决于对社会行为的某些普遍假设。网络依赖于人们提供有用的内容;它通常依赖于链接末端的内容。我们还要求人们遵守版权规则。Creative Commons 是一个基于 RDF 的版权政策的表示,以方便维护和最大化适当的重用。策略感知的研究更进一步,试图表达在语义 Web 环境中所期望的行为的公民规则。

导致 Web 成功的关键因素对语义 Web 企业的成功也很重要。正如我们所看到的,其中一些因素是社会性的;其他的则源于关于Web架构原则的基本设计决策。例如,URL概念体现了每个Web地址都是相等的,所有内容都是一个跳转。其他关键特性包括允许链接失败(404错误)。

很多成功与我们所说的“权力阶梯”有关。这是规范(URI、HTTP、RDF、本体等)和记录(URI模式、MIME Internet内容类型等)的序列,它们为本体之类的构造提供了从URI派生意义的方法。另一个例子是能够促进、开发和部署开放标准的标准组织的构建。

这些反思让我们思考我们如何理解当前的网络,以及我们预期的发展。这是一个很深奥的问题,我们相信科学史可以在这里教给我们一些东西。曾几何时,我们对世界的理解要么是纯粹的哲学性的、反思性的练习,要么是基于工艺的、根植于来之不易的经验。经验主义方法最终产生了自然哲学的分支,成为物理学、化学和生物学。直到最近,牛津大学的物理学研究还被称为实验哲学。最近,一些曾经被认为只适合分析性思维的领域,如认识论和逻辑学,在某种程度上已经在计算机和计算机基础设施中运作化了。知识表示和本体工程是关于尝试捕获共享概念化的各个方面。

当我们构建越来越复杂的计算工件和信息基础设施时,我们观察到大规模的行为源于小规模和局部的规律性。我们需要工程方法来确保我们的结构符合可靠的和可重复的设计要求。我们需要科学的分析来理解和预测结果。当我们建立新的互动机会时,我们同时参与了一个综合的和分析的项目。新的交互规则,如对等协议,产生了新的宏观行为——我们可以利用和分析的行为。这些微观规则可以出现在不同的抽象层次上——维基百科的规则简单得让人迷惑,但总体上是一致的。Web架构和资源的局部变化可能导致大规模的社会和技术影响。

我们期望我们在这里讨论的开发、方法、挑战和技术不仅能产生语义Web,而且能促进一门新的Web科学——一门寻求开发、部署和理解分布式信息系统的科学,即在全球范围内运行的人类和机器系统。人工智能将是其中一个贡献学科。人工智能已经为我们提供了功能和逻辑编程方法、理解分布式系统的方法、模式检测和数据挖掘工具、推理方法、本体工程和知识表示。所有这些都是追求Web科学议程和实现语义Web的基础。

编辑于 2019-10-01 16:38