工业级知识图谱:方法与实践
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.1 知识图谱概述

近年来,得益于大数据的发展和云服务算力的大幅提升,使得基于全网信息、结构化客观世界的海量知识成为可能;此外,大规模结构化的知识建设,能够大幅提高互联网获取信息的效率。具体到特定行业,数字化行业知识有助于实现业务决策自动化,同时能够使得业务决策做到全局优化。正是在技术进步和工业应用的双轮驱动下,知识图谱在工业界如火如荼地建设中。当下,从整个产业来看,知识图谱大致分为通用知识图谱和行业知识图谱两大类。建设知识图谱、使用知识图谱是一个系统化的工程,涉及自然语言处理、语义网、逻辑推理等学术前沿科研课题。更重要的是,无论是通用百科类知识,还是行业的深度知识,都是海量的知识体系。知识规模的庞大使得知识图谱的构建工作涉及图数据库、海量知识管理工具、大数据生产系统等大规模工程化系统的建设。最后,知识往往来源于大数据的挖掘、与现有知识库的融合和多角色专家的输入,因此,知识图谱的建设需要大量的人工参与,复杂度非常高。

1.1.1 通用知识图谱

最早的知识图谱工业级应用是搜索引擎。主流的搜索引擎均建设有超大规模的通用知识图谱,以支持交互式搜索。另外,诸如天猫精灵等智能音箱提供基于语音和自然语言的交互式问答,更加依赖知识图谱提供的精准答案。这些知识图谱通常包括现实世界的常识,用户能用此查询人物、地点、事物和组织的描述和联系。

通用知识图谱中实体、关系和属性的类型是在本体中定义的。包含约几十亿个主要实体,上百亿个三元组知识,包括诸如人物、地点、事物、组织和位置等类的实体,以及用户可能采取的行动(例如播放视频或购买歌曲)等。为了生成现实世界的知识,需要从多个来源提取数据,这些数据可能非常嘈杂且相互矛盾,必须将其整理为单个、一致且准确的知识体系。用户看到的最终数据其实是冰山一角——背后隐藏着大量复杂的工作。例如,仅维基百科上就有200个有关威尔·史密斯(Will Smiths)的实例。威尔·史密斯在搜索引擎的知识加工结果由41家网站上的10800个事实整合而成。通用知识图谱主要来源于现有知识库、结构化知识的融合。此外,具备时效性的知识往往来源于互联网半结构化的文本数据的挖掘,虽然这部分知识比知识融合的知识量小,但由于其时效性强,往往承载更多的搜索、智能问答流量。

通用百科图谱主要解决全网信息结构化的问题。知识图谱团队把全网信息中头部几千万的实体及其相应浅层的知识,以属性值、属性项三元组结构化的方式表示出来。虽然大部分知识来自现存实体库的融合,但大部分时效性很强的知识存在于新闻等文本中,所以在这个过程中采用信息抽取技术就非常关键。最终,知识图谱在搜索、问答和推荐的场景中可以基于结构化信息直接给出答案,相较于用关键词匹配召回、返回半结构化网页,可以极大地缩短网络用户获取资讯的路径。在这些应用场景中,往往把知识图谱里的百科知识直接透传给用户,涉及的推理或逻辑语言描述的规则类知识比较少。

1.1.2 行业知识图谱

以商品知识图谱为例,知识图谱中的实体也可以将不同的产品联系起来。如果一位用户搜索了关于利昂内尔·梅西(Lionel Messi)的纪念品,而知识图谱中表明梅西效力于巴塞罗那足球俱乐部,那么对于该俱乐部的相关商品,比如其他效力于同一家俱乐部的著名球员的纪念品,用户可能也会感兴趣。其他相关商品还包括一些基于足球的产品,例如签名衬衫、条带、靴子和足球。这种想法也可以从体育扩展到音乐、电影、文学、历史,以及更多的其他领域。

理解商品自身以及商品之间的关系也和理解实体之间的关系一样重要。能够区分一个商品是iPhone而另一个是iPhone手机壳显然是很重要的,但是不同的手机壳能够适用于某些型号的手机,而与其他型号的手机不适配,所以需要能够对零件以及配件的尺寸进行建模。理解商品以及它的一些相关产品之间的关系也很重要。比如,哪些商品是同一商品的不同款式?它们在尺寸、容量、颜色上有没有区别?还是说它们有大部分相同的特性,但可能是不同的品牌或颜色?系统还需要理解有些商品往往是捆绑销售的,比如捆绑包、套件,抑或是成套的衣服。

总之,行业知识图谱主要解决领域信息标准化的问题。以商品领域为例,商品信息天生就是以知识卡片的形式组织的,所以电商领域的商品信息从知识生产的源头就已经达到了百科知识图谱的水平。也正是因为这个原因,行业知识图谱往往要求三元组事实类的知识表达要标准化,从而可以约束众多的知识生产源头。此外,由于行业知识图谱往往涉及领域里深度的知识,单靠三元组的表示形式也是不够的,许多领域规则需要用逻辑语言描述,因而在行业知识图谱构建和应用的过程中,推理就显得非常关键。推理可以基于规则离线生产新的知识,也可以在线推理支持复杂查询。