一种改进的基于领域本体的概念相关度计算方法技术领域
本发明涉及语义网络技术领域,具体涉及一种改进的基于领域本体的概念相关度
计算方法。
背景技术
目前,针对词语相关度计算的研究很多,计算方法和算法也比较丰富,或是基于词
语共现几率计算相关度,或是根据词语语义词典的相似度来得到相关度,或是基于维基百
科层次结构计算相关度。这其中不乏比较经典和优秀的算法,但也存在着一些问题,例如,
这些方法或是不能全面考虑词语语义,或是未语义概念间的关联关系的特性分析相关度。
领域本体相对于计算机处理文本,出现地较晚。随着知识量的指数级增长,很难有哪部语义
词典能够完整地覆盖所有范围。本体作为表示某专业领域的知识数据库,其构成结构非常
清晰,类似于一棵树,更复杂的领域本体会是图形结构。尽管会出现图形结构,但是领域本
体中存在着非常明显的层次结构。概念间的相关度不等同于概念相似度,考虑了基本属性
关系、路径距离与路径数量、密度与深度等影响因子,也考虑本体中存在的特殊关联关系,
即相关度不仅受到相似度的影响,还与本体概念间的关联程度有关。如工业”与“信息化”在
信息化没有现在如此普及时,工业领域中还少见信息化这个概念,但是随着信息化进程的
加快,以信息化促进工业化成为时代口号,为大多数所接受。为了满足上述需求,本发明提
供了一种改进的基于领域本体的概念相关度计算方法。
发明内容
针对于即考虑了本体间的基本属性关系、路径距离与路径数量、密度与深度等影
响因子,又考虑本体中存在的特殊关联关系来计算本体概念相关度问题,本发明提供了一
种改进的基于领域本体的概念相关度计算方法。
为了解决上述问题,本发明是通过以下技术方案实现的:
步骤1:利用七步法或循环获取法构建专业领域本体数据库。
步骤2:考虑了本体间的基本属性关系、路径距离与路径数量、密度与深度等影响
因子计算两本体概念(g1,g2)间的相关度。
步骤3:考虑本体中存在的特殊关联关系,计算本体概念(g1,g2)间的相关度RE关联
(g1,g2)。
步骤4:综合上述步骤2、步骤3,得到本体概念(g1,g2)间的最终相关度RE最终(g1,g2)
本发明的有益效果是:
1、为语义扩展提供良好的理论基础。
2、与经典相关度计算公式对比。此方法取得了比不考虑关联性的相似度计算方法
取得了更好的效果。
3、为实现语义扩展能够提高信息检索的查全率和查准率提供良好的理论基础。
附图说明
图1为一种改进的基于领域本体的概念相关度计算方法结构流程图。
图2为本体概念领域模块语义树形图。
具体实施方式
为了解决即考虑了本体间的基本属性关系、路径距离与路径数量、密度与深度等
影响因子,又考虑本体中存在的特殊关联关系来计算本体概念相关度问题,结合图1-图2对
本发明进行了详细说明,其具体实施步骤如下:
步骤1:利用七步法或循环获取法构建专业领域本体数据库。
步骤2:考虑了本体间的基本属性关系、路径距离与路径数量、密度与深度等影响
因子计算两本体概念(g1,g2)间的相关度,其具体计算过程如下:
步骤2.1)构造基于基本属性关系对两本体概念(g1,g2)相似度的影响函数RE属性
(g1,g2)
两本体概念(g1,g2)相似度与属性相似度成正比,与属性权重也成正比。
路径为g1→J1→…→Jn→g2
假设g1、J1、…、Jn、g2的属性个数各为
每个属性对相应概念的影响权重是不同的,按照权重系数分别对概念属性进行排
序,对每个概念属性取前i个属性权重值。
这里
即得下列属性权重矩阵(n+2)×i:
从专业领域本体树中,可以很清楚的知道g1、J1、…、Jn概念中的共有属性,记为
(S1′,S2′,…,Sj′),这里j为共有属性的个数,j≤i,且
为概念g1、J1、…、Jn、g2中属性相同,则取出其对应权重值
所以构建的影响函数为:
步骤2.2)构造基于路径距离、与路径数量对两本体概念(g1,g2)相似度的影响函数
RE路径(g1,g2)
两本体概念(g1,g2)相似度与其路径长度成反比,找到两本体概念(g1,g2)间最长
路径,其中经过的概念节点有n个,即(J1→…→Jn)。
即经过路径的长度为L(g1,g2)=n+2
两本体概念(g1,g2)相似度与路径数量成反比,即当路径数量越多,两本体概念
(g1,g2)相似度越大,这里根据专业领域本体树可知路径数量为N,如图2。
即
上式r为路径长度与路径个数的权重比值,这个可以根据实验迭代出来。
步骤2.3)构造密度与深度对两本体概念(g1,g2)相似度的影响函数RE2(g1,g2),需
先构造深度对两本体概念语义相似度的影响函数RE深度(g1,g2)以及密度对两本体概念语义
相似度的影响函数RE密度(g1,g2),其具体求解过程如下:
步骤2.3.1)先构造深度对两本体概念语义相似度的影响函数RE深度(g1,g2)
概念节点的深度是指概念在所处的本体树中的层次深度。在本体树中,每个概念
节点都是对上一层节点的一次细化。因此概念节点处于本体树中层次越深,则表示的内容
越具体,概念间的相似度越大。反之概念间的相似度越小。
这里深度值从根节点开始,根节点的深度值为1,从概念(g1,g2)与共同父节点构成
的树子集中分别找到两最短路径的共同父节点,即
则
分别为概念(g1,g2)的共同父节点在本体树中的最短深度。
从而构造下列影响因子:
两本体概念(g1,g2)在本体树中的深度为:
即两本体概念(g1,g2)在本体树中得平均深度为:
从而构造下列影响因子:
上式dep(tree)为本体树的深度。
综上,有下式:
步骤2.3.2)构造密度对两本体概念语义相似度的影响函数RE密度(g1,g2)
概率节点密度越大,则其直接子节点数目越多,节点细化的越具体,各直接子节点
之间的相似度越大。
从概念(g1,g2)的直接子节点中找到共同直接子节点个数,如上为N。
从概念(g1,g2)中找到直接子节点数最多的,记为:
上式i、j分别为以概念g1、g2为父节点所对应得子分枝个数。分别为概念
g1,g2对应的第i、j个子分枝中直接子节点的个数。
则
步骤2.3.3)由上述步骤RE深度(g1,g2)、RE密度(g1,g2)可得:
步骤3:考虑本体中存在的特殊关联关系,计算本体概念(g1,g2)间的相关度RE关联
(g1,g2),其具体计算过程如下:
在构建专业领域本体模块过程中,有些本体之间存在特殊关联关系,例如工业与
信息化,在信息时代还没普及的时候,这两则之间关联度接近为0,而现今,关联度很高。
所以专业领域本体模块需要扩展连接存在特殊关联关系的本体概念,并由相关领
域专家对有向边赋予一定的权重。
根据上述理论,可以计算特殊关联关系对本体概念(g1,g2)间的相关度影响函数,
即:
上式N′为本体概念(g1,g2)间的路径个数,N′>0与本体概念(g1,g2)间的相关度成
正比。
上式MAX(L1,L2,…,LN′)为路径数N′中路径长度最大的值。
分别为路径长度最长的对应有向边权重值,在构建专
业领域数据库过程中由领域专家迭代统计给出。
步骤4:综合上述步骤2、步骤3,得到本体概念(g1,g2)间的最终相关度RE最终(g1,
g2),其具体计算过程如下:
其中α、β、γ分别为本体间的基本属性关系、路径距离与路径数量、密度与深度的
影响系数,可以根据实验迭代得出最优的影响系数,且α+β+γ=1,如果α>γ>β,则α对本
体概念(g1,g2)间的最终相关度影响最大,γ次之,β对本体概念(g1,g2)间的最终相关度影
响最小。
如果不存在特殊关联关系,则N′=0,反之,N′>0。