知识图谱构建技术综述

摘要:知识图谱构建的基本介绍

1 知识图谱的定义与架构

1.1 定义

知识图谱.是结构化的语义知识库用于以符号形式描述物理世界中的概念、实体、事件及其相互关系,本质上,知识图谱是一种揭示实体之间关系的语义网络,可以对现实世界的事物及其相互关系进行形式化地描述。现在的知识图谱已被用来泛指各种大规模的知识库。其基本组成单位是实体-关系-实体三元组以及实体及其相关属性-值对实体间通过关系相互联结构成网状的知识结构。其中概念是指人们在认识世界过程中形成的对客观事物的概念化表示,如人、动物、组织机构等;实体是客观世界中的具体事物,如篮球运动员姚明、互联网公司腾讯等;事件是客观世界的活动,如地震、买卖行为等;关系描述概念、实体、事件之间客观存在的关联,如毕业院校描述了个人与其所在院校的关系,运动员和篮球运动员之间概念和子概念的关系等。

通过知识图谱可以实现Web从网页链接向概念链接转变,支持用户按主题而不是字符串检索,从而真正实现语义检索.基于知识图谱的搜索引擎能够以图形方式向用户反馈结构化的知识,用户不必浏览大量网页就可以准确定位和深度获取知识。

包括三层含义:

  1. 知识图谱本身是一个具有属性的实体通过关系链接而成的网状知识库.从图的角度来看知识图谱在本质上是一种概念网络,其中的节点表示物理世界的实体或概念,而实体间的各种语义关系则构成网络中的边.由此知识图谱是对物理世界的一种符号表达
  2. 知识图谱的研究价值在于它是构建在当前Web基础之上的一层覆盖网络,借助知识图谱能够在Web网页之上建立概念间的链接关系,从而以最小的代价将互联网中积累的信息组织起来,成为可以被利用的知识。
  3. 知识图谱的应用价值在于它能够改变现有的信息检索方式。一方面通过推理实现概念检索(相对于现有的字符串模糊匹配方式而言), 另一方面以图形化方式向用户展示经过分类整理的结构化知识,从而使人们从人工过滤网页寻找答案的模式中解脱出来。

三元组是知识图谱的一种通用表示方式,即 G = (E,R,S),其中 E={e1,e2, … ,e|E|} 是知识库中的实体集合,共包含|E|种不同实体;R ={r1,r2 … ,r|E|}是知识库中的关系集合,共包|R|种不同关系; S代表知识库中的三元组集合。三元组的基本形式主要包括实体1、关系、实体2和概念、属性、属性值等,实体是知识图谱中的最基本元素,不同的实体间存在不同的关系。概念主要指集合、类别、对象类型、事物的种类,例如人物、地理等;属性主要指对象可能具有的属性、特征、特性、特点以及参数,例如国籍、生日等;属性值主要指对象指定属性的值,例如中国等。每个实体(概念的外延)可用一个全局唯一确定的ID来标识,每个属性-属性值对(attribute-value pair,AV P )可用来刻画实体的内在特性,而关系可用来连接两
个实体,刻画它们之间的关联。

1.2 架构

知识图谱的架构包括知识图谱自身的逻辑结构以及构建知识图谱所采用的技术(体系)架构,后者是本文讨论的重点。

1.2.1 逻辑架构

首先介绍知识图谱的逻辑结构从逻辑上将知识图谱划分为2个层次数据层模式层

1.2.1.1 数据层

在知识图谱数据层,知识以事实(fact)为单位存储在图数据库.如果以“实体-关系-实体“或者“实体-属性-性值“三元组作为事实的基本表达方式,则存储在图数据库中的所有数据将构成庞大的实体关系网络形成知识的图谱。

1.2.1.2 模式层

模式层在数据层之上是知识图谱的核心.在模式层存储的是经过提炼的知识通常采用本体库(有一匹马叫赤兔,那么马这个概念才是本体;有一个美女叫貂蝉,那么美女这个概念才是本体;本体就是知识库本身的存在,和里面的数据没有关系)来管理知识图谱的模式层,借助本体库对公理、规则和约束条件的支持能力来规范实体、关系以及实体的类型和属性等对象之间的联系。本体库在知识图谱中的地位相当于知识库的模具拥有本体库的知识库(知识数据库,包含了知识的本体和知识。Freebase是一个知识库(结构化),维基百科也可以看成一个知识库(半结构化))冗余知识较少。

1.2.2 技术架构

架构图

知识图谱有自顶向下自底向上2种构建方式.所谓自顶向下构建是指借助百科类网站等结构化数据源,从高质量数据中提取本体和模式信息,加入到知识库中;所谓自底向上构建则是借助一定的技术手段从公开采集的数据中提取出资源模式,选择其中置信度较高的新模式人工审核之后加入到知识库中。

2 知识图谱的构建技术

采用自底向上的方式构建知识图谱的过程是一个迭代更新的过程每一轮更新包括3个步骤:

  1. 信息抽取 ,即从各种类型的数据源中提取出实体(概念)、 属性以及实体间的相互关系 ,在此基础上形成本体化的知识表达
  2. 知识融合 ,在获得新知识之后需要对其进行整合以消除矛盾和歧义 ,比如某些实体可能有多种表达,某个特定称谓也许对应于多个不同的实体等
  3. 知识加工 ,对于经过融合的新知识,需要经过质量评估之后(部分需要人工参与甄别)才能将合格的部分加入到知识库中以确保知识库的质量.新增数据之后,可以进行知识推理拓展现有知识得到新知识。

2.1 信息抽取

信息抽取是知识图谱构建的第1步,其中的关键问题是如何从异构数据源中自动抽取信息得到候选知识单元.信息抽取是一种自动化地从半结构化和无结构数据中抽取实体、关系以及实体属性等结构化信息的技术。涉及的关键技术包括实体抽取、关系抽取和属性抽取。

2.1.1 实体抽取

实体抽取,也称为命名实体识别(named entity recognition, NER) ,是指从文本数据集中自动识别出命名实体.实体抽取的质量(准确率和召回率)对后续的知识获取效率和质量影响极大,因此是信息抽取中最为基础和关键的部分。

2.1.2 关系抽取

文本语料经过实体抽取得到的是一系列离散的命名实体,为了得到语义信息还需要从相关语料中提取出实体之间的关联关系,通过关系将实体(概念)联系起来,才能够形成网状的知识结构。研究关系抽取技术的目的就是解决如何从文本语料中抽取实体间的关系这一基本问题。

2.1.3 属性抽取

属性抽取的目标是从不同信息源中采集特定实体的属性信息.例如针对某个公众人物,可以从网络公开信息中得到其昵称、生日、国籍、教育背景等信息。属性抽取技术能够从多种数据来源中汇集这些信息,实现对实体属性的完整勾画。

由于可以将实体的属性视为实体与属性值之间的一种名词性关系,因此也可以将属性抽取问题视为关系抽取问题。

2.2 知识融合

通过信息抽取,实现了从非结构化和半结构化数据中获取实体、关系以及实体属性信息的目标,然而这些结果中可能包含大量的冗余和错误信息,数据之间的关系也是扁平化的缺乏层次性和逻辑性,因此有必要对其进行清理和整合。知识融合包括2部分内容:实体链接知识合并。通过知识融合,可以消除概念的歧义,剔除冗余和错误概念,从而确保知识的质量

2.2.1 实体链接

实体链接(entity linking)是指对于从文本中抽取得到的实体对象,将其链接到知识库中对应的正确实体对象的操作。

实体链接的基本思想是首先根据给定的实体指称项,从知识库中选出一组候选实体对象然后通过相似度计算将指称项链接到正确的实体对象。

实体链接的一般流程是:

  1. 从文本中通过实体抽取得到实体指称项
  2. 进行实体消歧共指消解 ,判断知识库中的同名实体与之是否代表不同的含义,以及知识库中是否存在其他命名实体与之表示相同的含义
  3. 在确认知识库中对应的正确实体对象之后,将该实体指称项链接到知识库中对应实体

2.2.1.1 实体消歧

实体消歧(entity disambiguation)是专门用于解决同名实体产生歧义问题的技术.在实际语言环境中经常会遇到某个实体指称项对应于多个命名实体对象的问题。例如李娜这个名词(指称项)可以对应于作为歌手的李娜这个实体,也可以对应于作为网球运动员的李娜这个实体,通过实体消歧就可以根据当前的语境准确建立实体链接.实体消歧主要采用聚类法

聚类法是指以实体对象为聚类中心将所有指向同一目标实体对象的指称项聚集到以该对象为中心的类别下。聚类法消歧的关键问题是如何定义实体对象与指称项之间的相似度 ,常用方法有4种。

  1. 空间向量模型词袋模型。典型的方法是取当前语料中实体指称项周边的词构成特征向量,然后利用向量的余弦相似度进行比较,将该指称项聚类到与之最相近的实体指称项集合中。
  2. 语义模型 。该模型与空间向量模型类似,区别在于特征向量的构造方法不同,语义模型的特征向量不仅包含词袋向量而且包含一部分语义特征。
  3. 社会网络模型 。该模型的基本假设是物以类聚、人以群分,在社会化语境中,实体指称项的意义在很大程度上是由与其相关联的实体所决定的.建模时,首先利用实体间的关系将与之相关的指称项链接起来构成网络然,后利用社会网络分析技术计算该网络中节点之间的拓扑距离(网络中的节点即实体的指称项),以此来判定指称项之间的相似度。
  4. 百科知识模型.百科类网站通常会为每个实体(指称项)分配一个单独页面,其中包括指向其他实体页面的超链接,百科知识模型正是利用这种链接关系来计算实体指称项之间的相似度。

2.2.1.2 共指消解

共指消解(entity resolution) 技术主要用于解决多个指称项对应于同一实体对象的问题。例如在一篇新闻稿中“Barack Obama”, “president Obama”, “the president”等指称项可能指向的是同一实体对象,其中的许多代词如”he”,”him” 等也可能指向该实体对象.利用共指消解技术可以将这些指称项关联(合并)到正确的实体对象.由于该问题在信息检索和自然语言处理等领域具有特殊的重要性,吸引了大量的研究努力,因此学术界对该问题有多种不同的表述典型的包括:对象对齐(object alignment)、 实体匹配(entity matching)、以及实体同义(entity synonyms)

2.2.2 知识合并

在构建知识图谱时,可以从第三方知识库产品或已有结构化数据获取知识输入。

2.2.2.1 合并外部知识库

将外部知识库融合到本地知识库需要处理2个层面的问题.

  1. 数据层的融合,包括实体的指称、属性、关系以及所属类别等,主要的问题是如何避免实例以及关系的冲突问题,造成不必要的冗余
  2. 通过模式层的融合将新得到的本体融入已有的本体库中。

2.2.2.2 合并关系数据库

在知识图谱构建过程中一个重要的高质量知识来源是企业或者机构自己的关系数据库。

2.3 知识加工

通过信息抽取,可以从原始语料中提取出实体、关系与属性等知识要素.再经过知识融合,可以消除实体指称项与实体对象之间的歧义得到一系列基本的事实表达.然而,事实本身并不等于知识,要想最终获得结构化、网络化的知识体系,还需要经历知识加工的过程.知识加工主要包括3方面内容:本体构建、知识推理和质量评估。

2.3.1 本体构建

本体(ontology)是对概念进行建模的规范,是描述客观世界的抽象模型,以形式化方式对概念及其之间的联系给出明确定义.本体的最大特点在于它是共享的,本体中反映的知识是一种明确定义的共识.虽然在不同时代和领域学者们对本体曾经给出过不同的定义,但这些定义的内涵是一致的,即:本体是同一领域内的不同主体之间进行交流的语义基础.本体是树状结构,相邻层次的节点(概念)之间具有严格的“IsA” 关系,这种单纯的关系有助于知识推理,但却不利于表达概念的多样性.在知识图谱中,本体位于模式层,用于描述概念层次体系是知识库中知识的概念模板。

2.3.2 知识推理

知识推理是指从知识库中已有的实体关系数据出发,经过计算机推理建立实体间的新关联,从而拓展和丰富知识网络.知识推理是知识图谱构建的重要手段和关键环节,通过知识推理,能够从现有知识中发现新的知识.例如已知(乾隆,父亲,雍正)和(雍正,父亲,康熙)可以得到(乾隆,祖父,康熙)或(康熙,孙子,乾隆).知识推理的对象并不局限于实体间的关系也可以是实体的属性值、本体的概念层次关系等.例如已知某实体的生日属性,可以通过推理得到该实体的年龄属性.根据本体库中的概念继承关系,也可以进行概念推理,例如已知(老虎,科,猫科)和(猫科,目,食肉目)可以推出(老虎,目,食肉目)。

知识的推理方法可以分为2大类:基于逻辑的推理和基于图的推理

2.3.3 质量评估

质量评估也是知识库构建技术的重要组成部分.

  1. 受现有技术水平的限制,采用开放域信息抽取技术得到的知识元素有可能存在错误(如实体识别错误、关系抽取错误等)经过知识推理得到的知识的质量同样也是没有保障的,因此在将其加入知识库之前需要有一个质量评估的过程
  2. 随着开放关联数据项目的推进,各子项目所产生的知识库产品间的质量差异也在增大,数据间的冲突日益增多,如何对其质量进行评估,对于全局知识图谱的构建起着重要的作用.

引入质量评估的意义在于:可以对知识的可信度进行量化 ,通过舍弃置信度较低的知识,可以保障知识库的质量。

2.4 知识更新

人类所拥有的信息和知识量都是时间的单调递增函数,因此知识图谱的内容也需要与时俱进,其构建过程是一个不断迭代更新的过程。

从逻辑上看知识库的更新包括概念层的更新数据层的更新.概念层的更新是指新增数据后获得了新的概念,需要自动将新的概念添加到知识库的概念层中.数据层的更新主要是新增或更新实体、关系和属性值,对数据层进行更新需要考虑数据源的可靠性,数据的一致性(是否存在矛盾或冗余等问题)等多方面因素.当前流行的方法是选择百科类网站等可靠数据源,并选择在各数据源中出现频率高的事实和属性加入知识库.知识的更新也可以采用众包的模式(如 Freebase),而对于概念层的更新,则需要借助专业团队进行人工审核。

知识图谱的内容更新有2种方式数据驱动下的全面更新增量更新.所谓全面更新是指以更新后的全部数据为输入,从零开始构建知识图谱.这种方式比较简单,但资源消耗大,而且需要耗费大量人力资源进行系统维护;而增量更新,则是以当前新增数据为输入,向现有知识图谱中添加新增知识.这种方式资源消耗小,但目前仍需要大量人工干预(定义规则等,因此实施起来十分困难。

3 参考资料

知识图谱构建技术综述 刘峤 李杨 段宏 刘瑶 秦志光