工业级知识图谱:方法与实践
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.2 工业级知识图谱实战原则

1.2.1 实践中的典型问题

知识图谱通过三元组的方式刻画客观世界。在具体的工业场景中,由于知识规模非常庞大,往往不知道如何下手。以通用知识图谱为例,往往涉及娱乐、游戏、医疗等20多个领域的百科知识,应该先构建哪些实体?知识图谱系统复杂,下文会介绍知识图谱的技术架构,应该先建立哪些技术模块?

知识图谱系统往往容易与大数据平台混淆,陷入大规模图数据建设的误区。在行业数字化快速推进的今天,各行各业都产生了知识图谱的建设需求,也经常见到把传统的大数据链接起来叫作知识图谱,但缺乏知识构建系统、知识核心应用,导致知识图谱也往往只是简单的局部数据查询应用。

知识图谱依然存在二八原则,可以阶段性投入,通过现有知识库的融合,在建设千万个实体的通用知识图谱后,还有没有必要建设数十亿个长尾实体的知识库?长尾实体建设面临单位投入更大,但流量收益更低的问题,也关系极致的用户体验。如何解决投入产出比和用户体验的矛盾?

更重要的是,知识图谱建设从无到有,能够驱动搜索引擎知识卡片、语义推荐和智能问答等核心应用的实现,即使持续投入优化知识图谱,这三种应用的业务效果往往会收敛。知识图谱团队的长期发展和更多应用的实现往往在一定阶段后就会遇到瓶颈。同样地,行业知识图谱的核心应用是什么?我们也需要回答。

知识图谱在实现上同样面临巨大挑战,面临系统架构、数据架构、角色参与、算法领域迁移和算法精度等一系列问题。

这些问题是我们在实践中遇到的。本书也总结了工业级知识图谱实战原则,这些原则是基于我们的问题和场景总结出来的,读者可以作为一些参考,也不一定适用所有的知识图谱建设工作。

1.2.2 实战原则

大数据初创公司往往面临是否要在知识图谱技术上投入的问题,要解决这一问题,首先要清楚什么是知识图谱里的知识。如图1-1所示,数据库里任何一个字符都是数据,当把数据结构化并定义字段后,数据被语义化,就变成了信息。知识图谱的知识包括这些信息,同样包含经验总结的知识。总而言之,建设知识图谱的一个原则是进入知识图谱的知识相对客观、可公开。只有相对客观的信息才能多源地获取信息,才能用统一的标准校验多源信息的一致性。例如,一些不稳定的个性化业务规则不适合作为知识图谱的知识。只有相对公开的、非隐私的信息,才能大规模地引入多角色,人机协同构建知识图谱。因此,只有具备这两种信息特性的图数据,才会纳入知识图谱里,也才适用于典型的知识图谱系统和应用。

图1-1 知识图谱里的知识

确定了哪些数据可以进入知识图谱中,也就知道了如何与大数据平台分层。大数据平台把系统中采集的原始数据建仓并形成信息。知识图谱团队基于大数据平台的信息做知识挖掘与标准化,形成知识图谱层。

确定了知识图谱的定位和什么是知识图谱的知识后,接下来要确定建立哪些知识,也就是知识图谱如何建模,建模的过程重点确定领域、类目、属性和关系等本体定义。具体到哪些关键词,需要定义成本体,例如是否建设娱乐领域的知识,人物配偶究竟定义成属性,还是定义成关系。回答这些问题的原则是考虑专家输入、上层应用对知识需求的优先级、上层应用获取知识的便利程度、存储与查询效率的折中、知识管理的便利程度、知识在每个本体节点的丰富度以及不同本体对知识的表达能力。

考虑这些因素后,就知道本体如何定义了,但优先建设哪些知识,按什么步骤建设,如何形成图谱,仍然不太容易看清楚。与图像、语音、自然语言处理等以算法为主的AI领域相比,知识图谱不是单靠算法模型持续优化就能解决的,还需要知识运营的参与以及工程系统的搭建。最终的交付物并非是单纯的算法服务,而是一个很大的知识网络。例如搜索、推荐、对话等百科知识图谱的应用相对清晰,基于这些应用可以对知识体系有清晰的定义,无论谁去构建目标都差不多,交付物最终也不会偏差太多。但是行业知识图谱到底构建哪些知识是没有太清晰的定义的。首先要确定应用场景,总体来看,阿里巴巴的商品知识图谱正在为天猫、淘宝、Lazada、AliExpress、1688、飞猪、盒马、天猫精灵等20多个业务线提供商品相关的知识服务和推理决策支持。典型的应用形式有:

(1)通过图片、条码等极少的AI识别信息,识别出商品ID;利用知识服务,快速帮助商家把线下商品基础信息数字化;同时还能通过AI帮助商家更好地描述其商品卖点与亮点。

(2)通过知识图谱本体间的映射,帮助商家在不同的市场间做自动的信息转化,例如国内商家在天猫的商品,一键自动地在东南亚市场多个国家采用多个语言即时上线。

(3)通过推理帮助平台自动拦截有问题的商品。

(4)通过商品知识图谱帮助C2M,发现新需求,指导生产端生产商品。例如在新冠肺炎疫情中,我们很早就发现了印有“今天已经消毒”字样的指示牌需求,提示有生产能力的工厂,为突发的需求量提前预警。

下面再介绍一个构建电商深度知识及其应用的完整实例。我们注意到业务上一直有一个痛点就是如何让消费者产生跨类目的购买,同时消费者也有一个痛点就是在一些场景下不知道买哪些商品,例如孕妇待产包里应该买哪些东西?然而电商领域一直是基于生产端的视角来组织商品的,例如鞋类商品包括网球鞋、足球鞋、皮鞋等品类。基于现状,我们创造性地提出了建立一套基于消费者需求场景的知识图谱本体体系来组织商品。这样能解决业务痛点,也能把知识沉淀到知识图谱里。经过挖掘和推理,我们构建了几十万个事件与传统商品类目属性之间的关系,例如去游泳需要购买哪些品类的商品,具体到手表类目,需要商品属性有防水功能。我们利用逻辑语言描述这些深度知识。事件又和人群、时间、地点、方式等组合,就产生了几百万条消费者购物场景知识,例如城市白领春运坐火车回家过年买什么?这样就可以基于知识图谱,实现跨类目推荐商品,可以极大地缩短消费者消费的决策路径,给购物带来便利。

确定了应用场景,就可以确定优先建设哪些领域的知识图谱。这里面还有一个原则,知识图谱建设初期要深度优先,例如对于商品知识图谱,建设品牌领域的知识,优先结合业务把领域的知识做深,而不是根据本体定义一开始就在广度上全部投入各个领域的建设。因为知识图谱大部分应用需要一定的知识量,如果盲目拓宽广度,很难在短时间内收到应用端对知识图谱建设的反馈,容易走向歧途,还不容易掉头。

总的来看,实战原则关键点有四个。第一,最初确定了清晰的商品知识定义,允许进入知识图谱的知识遵循客观的(非一些业务逻辑和特定约束下的规则,而是具备普适性)、公开的(非隐私数据)、标准化的(可以协作生产)原则,同时又与商品组织、表达和发现相关,从而沉淀的知识能够在业务应用上复用,生产的过程能够在不同角色间公开协作。第二,业务场景定义清晰,在业务场景和业务目标的驱动下,相关人员有动力参与到知识的构建中来,知识建设的优先级也能非常清晰。第三,知识图谱技术就像盲人摸象,每个人看到的都不一样。在初期阶段,我们对知识图谱技术按推理、获取、融合和建模做了清晰的定义,从而使得工程人员、算法人员能够协作起来。第四,知识建设按领域先深后广,能够快速得到业务人员的验证,收到反馈,进而修正建设中的误区。

关于第三点,知识图谱技术栈在初期是没有清晰定义的,而最近越来越清晰了。对于商品知识图谱来讲,常规的知识图谱技术模块,例如在推理技术、知识获取和知识融合及知识建模等领域,我们都有前沿的探索,有经典的学术任务定义。这里简单列出涉及的学术任务,方便从业者查找文献。知识获取涉及命名实体识别、实体链指、槽填充任务;知识融合涉及本体对齐、实体对齐任务;知识推理涉及符号推理和深度推理;知识建模涉及关键词挖掘、上下位词识别任务;知识应用涉及基于知识图谱的问答技术等。此外,还有一些基础的算法,例如同义词挖掘等。

具体到我们的工作还有一些特性,例如商品知识需要行业专家实时在线参与到整个知识产生的链路里来,需要行业专家、数据专家、算法专家三位一体,互相协作。其中,如何与算法专家协作最具挑战性,所以如何利用推理技术解决深度学习的可解释性成了关键技术,有了可解释性,知识生产的过程就可以白盒化出来,行业专家才可以通过知识图谱工具参与到整个构建工作中来。此外,对于工业级大规模知识图谱构建和应用来讲,样本不均衡和新领域样本过少是成本最高的地方,除了投入大量的标注工作,还做了很多领域迁移、众包去噪的关键技术工作。

当然,有了这些实战原则,我们仍面临很多挑战。

第一,对于通用知识图谱来讲,结构化的知识相对来说已经比较稳定了,一般几千万个或一亿多个实体基本可以涵盖现有应用形式下对知识的需求。而当人类做出一个判断或给出一个回应时,往往除了三元组知识,还结合常识或更复杂的知识在进行推理。当下,业界知识图谱的应用局限,主要还是大规模推理部署的缺失造成的,背后是多元的知识来源和表示形式的缺失,例如百科知识图谱里常识和规则类知识的缺失。由于推理在通用知识图谱使用的局限性,也成为智能交互产品的技术瓶颈,制约着用户体验产生跨时代的升级。

第二,对于领域知识图谱来说,社会和行业的数字化正呈爆发式增长,越来越多的行业知识图谱会涌现。如何快速地从0到1构建一个具备深度知识的行业知识图谱,从技术角度依然不能快速复制,也没有一个从生产到应用的完整工具产品可以使用。这里面有技术问题,包括算法的迁移、工具的复杂度,也有人员投入成本不可控等问题。具体来讲,对于部分已经很好地数字化的领域,相较于互联网里大量的文本信息,行业文本信息较为稀疏,对图片、语音等多种形式的知识依赖变得更重,就需要解决多模态的技术问题,也需求解决知识图谱技术通用性的问题。当然,对于还没有数字化的领域,如何利用知识图谱技术帮助行业数字化,未来的发展空间也非常大。

下面具体介绍基于这些实战原则进行的知识图谱系统设计。