批发鞋毛俊杰三围知识图谱基础知识之⼆——知识图谱的构建⽅法中秋节目单演出节目单2020
上次介绍了知识图谱的⼀些基本概念,这次我们来谈谈知识图谱的构建⽅法。我们知道知识图谱的数据是通过三元组(主语,谓词,宾语)的⽅式进⾏组织,每⼀个三元组代表⼀条知识,这些三元组并不是杂乱⽆章的堆砌在知识图谱中,⽽是按照⼀定的逻辑组织起来的。
1 知识图谱的数据结构
从知识图谱数据组织的架构来看,可以把知识图谱的数据分为两个层次,⼀个是数据模型层,数据模型是按照本体论的思想,勾画出来的数据组织模式,数据模型可以展⽰数据的组织⽅式,数据之间的相互关系,创建动植物的数据模型,可以按照动植物的通⽤分类标准,使⽤七个主要级别:界、门、纲、⽬、科、属、种。可以将动植物的数据按照这个模型进⾏组织。数据模型可以看作是元数据,依据数据模型,数据才能得到有效的组织。数据模型除了确定对象之间的分类,关系,还要明确对象的属性,针对不同的知识图谱,需要收集的数据的内容也不相同,内容范围由对象的属性确定。数据模型的分类,关系反映了数据之间的关系特征,数据模型的属性反映了数据的内在特征。另⼀个就是具体数据层,具体数据是⼀条条的知识,它是依据数据模型组织起来的。我们可以把数据模型看作是⾻架,把具体数据看作是肌⾁,两部分共同组成了⼀个健壮的整体,就是我们的知识图谱。不同类型的知识图谱,组织数据的⽅式也有所不同,涉及到具体数据,具体数据的内容也有差别。⽐如对于⼀个⼈物来说,如果是历
史知识图谱,可能⼈物数据的内容主要侧重于⼈物的⽣平,主要事迹,⼈物关系等等,如果是⽂学知识图谱,⼈物数据的内容则会主要侧重⼈物的主要作品,师承关系,作品流派等等。将知识图谱的数据分成了两个层次,在构建知识图谱的时候,是先确定数据模型再收集具体数据,还是先收集具体数据再确定数据模型,这就形成了两种构建知识图谱的⽅式。
2 ⾃顶向下的构建⽅式
感人的电影⾃顶向下的构建⽅式,是指先确定知识图谱的数据模型,再根据模型去填充具体数据,最终形成知识图谱。数据模型的设计,是知识图谱的顶层设计,根据知识图谱的特点确定数据模型,就相当于确定了知识图谱收集数据的范围,以及数据的组织⽅式。这种构建⽅式,⼀般适⽤于⾏业知识图谱的构建,对于⼀个⾏业来说,数据内容,数据组织⽅式相对来说⽐较容易确定。⽐如对于法律领域的知识图谱,可能会以法律分类,法律条⽂,法律案例等等的⽅式组织。再⽐如建⽴⼀个三国时期⼈物的知识图谱,可能会以某个历史时期,魏蜀吴三个国家将⼈物进⾏分类,统计⼈物的师承,上下属,朋友,敌对等等关系,依据这些关系设计数据模型,然后再收集具体⼈物数据,形成⼈物的知识图谱。总起来说,⾃顶向下的构建⽅式,适⽤于那些知识内容⽐较明确,关系⽐较清晰的领域构建知识图谱。
3 ⾃下向上的构建⽅式
⾃下向上的构建⽅式,是指先按照三元组的⽅式收集具体数据,然后根据数据内容来提炼数据模型。采⽤这种⽅式构建知识图谱,是因为在开始构建知识图谱的时候,还不清楚收集数据的范围,也不清楚数据怎么使⽤,就是先把所有的数据收集起来,形成⼀个庞⼤的数据集,然后再根据数据内容,总结数据的特点,将数据进⾏整理、分析、归纳、总结,形成⼀个框架,也就是数据模型。⼀般公共领域的知识图谱采⽤这种⽅式,因为公共领域的知识图谱,涉及到海量数据,并且包括⽅⽅⾯⾯的知识,做出来的效果是⼤⽽全,这在构建初期,很难想清楚数据的整体架构,只能是根据数据的内容总结提炼特征,形成数据框架模型。⽐如google,百度的知识图谱,属于典型的公共领域知识图谱,现实中,使⽤他们的搜索⼯具进⾏内容搜索时,⽤户可能输⼊的内容千差万别,各个领域的问题都可能问到,也就使得他们的后台知识图谱内容也要覆盖所有知识,在构建他们这种公共领域的知识图谱过程中,随着数据的不断积累,才会对数据知识进⾏分类,慢慢呈现出知识架构。
考教师资格证的条件4 结语
给老师的一封信 教师节
当然,两种构建⽅式也不是⼀成不变的,在构建初期两种⽅式区别很明显,在知识图谱构建后期,两种⽅式可能会结合使⽤。对于⾃顶向下的构建⽅式,随着数据量的不断积累,可能会发现原来的数据模型并不完善,有很多数据可能没有包含在数据模型的体系中,这时候就需要修订数据模型,根据数据的特点,完善数据模型。同样,在⾃下向上的构建⽅式中,慢慢形成的数据模型,对于后期的数据收集,也有⼀定的指导作⽤,按照形成的数据模型,可以快速准确地收集相关数据。总之,数据和数
据模型之间,是⼀个相辅相成的关系,⼆者在构建知识图谱的过程中缺⼀不可。