书签 分享 收藏 举报 版权申诉 / 11

一种改进的基于领域本体的概念相关度计算方法.pdf

  • 上传人:b***
  • 文档编号:6036864
  • 上传时间:2019-04-04
  • 格式:PDF
  • 页数:11
  • 大小:736.16KB
  • 摘要
    申请专利号:

    CN201610833721.X

    申请日:

    2016.09.20

    公开号:

    CN106611040A

    公开日:

    2017.05.03

    当前法律状态:

    实审

    有效性:

    审中

    法律详情:

    实质审查的生效IPC(主分类):G06F 17/30申请日:20160920|||公开

    IPC分类号:

    G06F17/30; G06F17/27

    主分类号:

    G06F17/30

    申请人:

    四川用联信息技术有限公司

    发明人:

    金平艳

    地址:

    610054 四川省成都市成华区电子信息产业大厦1101室

    优先权:

    2016.08.24 CN 201610716193X

    专利代理机构:

    代理人:

    PDF完整版下载: PDF下载
    内容摘要

    一种改进的基于领域本体的概念相关度计算方法,利用七步法或循环获取法构建专业领域本体数据库,根据本体间的基本属性关系、路径距离与路径数量、密度与深度等影响因子计算两本体概念间的相关度,考虑本体中存在的特殊关联关系计算本体概念间的相关度,结合以上所求得的相关度得到最终的相关度。本发明相较经典相关度计算公式,效果更好;为语义扩展提供了良好的理论基础;为提高信息检索的查全率和查准率提供了良好的理论基础。

    权利要求书

    1.一种改进的基于领域本体的概念相关度计算方法,本发明涉及语义网络技术领域,
    具体涉及一种改进的基于领域本体的概念相关度计算方法,其特征是,包括如下步骤:
    步骤1:利用七步法或循环获取法构建专业领域本体数据库
    步骤2:考虑了本体间的基本属性关系、路径距离与路径数量、密度与深度等影响因子
    计算两本体概念间的相关度
    步骤3:考虑本体中存在的特殊关联关系,计算本体概念间的相关度
    步骤4:综合上述步骤2、步骤3,得到本体概念间的最终相关度。
    2.根据权利要求1中所述的一种改进的基于领域本体的概念相关度计算方法,其特征
    是,以上所述步骤2中的具体计算过程如下:
    步骤2:考虑了本体间的基本属性关系、路径距离与路径数量、密度与深度等影响因子
    计算两本体概念间的相关度,其具体计算过程如下:
    步骤2.1)构造基于基本属性关系对两本体概念相似度的影响函数
    两本体概念相似度与属性相似度成正比,与属性权重也成正比
    路径为
    假设的属性个数各为
    每个属性对相应概念的影响权重是不同的,按照权重系数分别对概念属性进行排序,
    对每个概念属性取前i个属性权重值
    这里
    即得下列属性权重矩阵

    从专业领域本体树中,可以很清楚的知道概念中的共有属性,记为
    这里j为共有属性的个数,且

    为概念中属性相同,则取出其对应
    权重值
    所以构建的影响函数为:
    步骤2.2)构造基于路径距离、与路径数量对两本体概念相似度的影响函数

    两本体概念相似度与其路径长度成反比,找到两本体概念间最长路
    径,其中经过的概念节点有n个,即
    即经过路径的长度为
    两本体概念相似度与路径数量成反比,即当路径数量越多,两本体概念
    相似度越大,这里根据专业领域本体树可知路径数量为N,如下图

    上式为路径长度与路径个数的权重比值,这个可以根据实验迭代出来
    步骤2.3)构造密度与深度对两本体概念相似度的影响函数需
    先构造深度对两本体概念语义相似度的影响函数以及密度对两本体概念
    语义相似度的影响函数其具体求解过程如下:
    步骤2.3.1)先构造深度对两本体概念语义相似度的影响函数
    概念节点的深度是指概念在所处的本体树中的层次深度,在本体树中,每个概念节点
    都是对上一层节点的一次细化,因此概念节点处于本体树中层次越深,则表示的内容越具
    体,概念间的相似度越大,反之概念间的相似度越小
    这里深度值从根节点开始,根节点的深度值为1,从概念与共同父节点构成的
    树子集中分别找到两最短路径的共同父节点,即

    分别为概念的共同父节点在本体树中的最短深度
    从而构造下列影响因子:

    两本体概念在本体树中的深度为:

    即两本体概念在本体树中得平均深度为:

    从而构造下列影响因子:

    上式为本体树的深度
    综上,有下式:

    步骤2.3.2)构造密度对两本体概念语义相似度的影响函数
    概率节点密度越大,则其直接子节点数目越多,节点细化的越具体,各直接子节点之间
    的相似度越大
    从概念的直接子节点中找到共同直接子节点个数,如上为N
    从概念中找到直接子节点数最多的,记为:

    上式i、j分别为以概念为父节点所对应得子分枝个数,分别为概念
    对应的第i、j个子分枝中直接子节点的个数
    则:

    步骤2.3.3)由上述步骤可得:

    3.根据权利要求1中所述的一种改进的基于领域本体的概念相关度计算方法,其特征
    是,以上所述步骤3中的具体计算过程如下:
    步骤3:考虑本体中存在的特殊关联关系,计算本体概念间的相关度
    其具体计算过程如下:
    在构建专业领域本体模块过程中,有些本体之间存在特殊关联关系,例如工业与信息
    化,在信息时代还没普及的时候,这两则之间关联度接近为0,而现今,关联度很高
    所以专业领域本体模块需要扩展连接存在特殊关联关系的本体概念,并由相关领域专
    家对有向边赋予一定的权重
    根据上述理论,可以计算特殊关联关系对本体概念间的相关度影响函数,即:

    上式为本体概念间的路径个数,与本体概念间的相关度
    成正比
    上式为路径数中路径长度最大的值

    分别为路径长度最长的对应有向边权重值,在构建
    专业领域数据库过程中由领域专家迭代统计给出。
    4.根据权利要求1中所述的一种改进的基于领域本体的概念相关度计算方法,其特征
    是,以上所述步骤4中的具体计算过程如下:
    步骤4:综合上述步骤2、步骤3,得到本体概念间的最终相关度
    其具体计算过程如下:

    其中分别为本体间的基本属性关系、路径距离与路径数量、密度与深度的影
    响系数,可以根据实验迭代得出最优的影响系数,且如果
    则对本体概念间的最终相关度影响最大,次之,对本体概念间的最
    终相关度影响最小
    如果不存在特殊关联关系,则反之,。

    说明书

    一种改进的基于领域本体的概念相关度计算方法

    技术领域

    本发明涉及语义网络技术领域,具体涉及一种改进的基于领域本体的概念相关度
    计算方法。

    背景技术

    目前,针对词语相关度计算的研究很多,计算方法和算法也比较丰富,或是基于词
    语共现几率计算相关度,或是根据词语语义词典的相似度来得到相关度,或是基于维基百
    科层次结构计算相关度。这其中不乏比较经典和优秀的算法,但也存在着一些问题,例如,
    这些方法或是不能全面考虑词语语义,或是未语义概念间的关联关系的特性分析相关度。
    领域本体相对于计算机处理文本,出现地较晚。随着知识量的指数级增长,很难有哪部语义
    词典能够完整地覆盖所有范围。本体作为表示某专业领域的知识数据库,其构成结构非常
    清晰,类似于一棵树,更复杂的领域本体会是图形结构。尽管会出现图形结构,但是领域本
    体中存在着非常明显的层次结构。概念间的相关度不等同于概念相似度,考虑了基本属性
    关系、路径距离与路径数量、密度与深度等影响因子,也考虑本体中存在的特殊关联关系,
    即相关度不仅受到相似度的影响,还与本体概念间的关联程度有关。如工业”与“信息化”在
    信息化没有现在如此普及时,工业领域中还少见信息化这个概念,但是随着信息化进程的
    加快,以信息化促进工业化成为时代口号,为大多数所接受。为了满足上述需求,本发明提
    供了一种改进的基于领域本体的概念相关度计算方法。

    发明内容

    针对于即考虑了本体间的基本属性关系、路径距离与路径数量、密度与深度等影
    响因子,又考虑本体中存在的特殊关联关系来计算本体概念相关度问题,本发明提供了一
    种改进的基于领域本体的概念相关度计算方法。

    为了解决上述问题,本发明是通过以下技术方案实现的:

    步骤1:利用七步法或循环获取法构建专业领域本体数据库。

    步骤2:考虑了本体间的基本属性关系、路径距离与路径数量、密度与深度等影响
    因子计算两本体概念(g1,g2)间的相关度。

    步骤3:考虑本体中存在的特殊关联关系,计算本体概念(g1,g2)间的相关度RE关联
    (g1,g2)。

    步骤4:综合上述步骤2、步骤3,得到本体概念(g1,g2)间的最终相关度RE最终(g1,g2)

    本发明的有益效果是:

    1、为语义扩展提供良好的理论基础。

    2、与经典相关度计算公式对比。此方法取得了比不考虑关联性的相似度计算方法
    取得了更好的效果。

    3、为实现语义扩展能够提高信息检索的查全率和查准率提供良好的理论基础。

    附图说明

    图1为一种改进的基于领域本体的概念相关度计算方法结构流程图。

    图2为本体概念领域模块语义树形图。

    具体实施方式

    为了解决即考虑了本体间的基本属性关系、路径距离与路径数量、密度与深度等
    影响因子,又考虑本体中存在的特殊关联关系来计算本体概念相关度问题,结合图1-图2对
    本发明进行了详细说明,其具体实施步骤如下:

    步骤1:利用七步法或循环获取法构建专业领域本体数据库。

    步骤2:考虑了本体间的基本属性关系、路径距离与路径数量、密度与深度等影响
    因子计算两本体概念(g1,g2)间的相关度,其具体计算过程如下:

    步骤2.1)构造基于基本属性关系对两本体概念(g1,g2)相似度的影响函数RE属性
    (g1,g2)

    两本体概念(g1,g2)相似度与属性相似度成正比,与属性权重也成正比。

    路径为g1→J1→…→Jn→g2

    假设g1、J1、…、Jn、g2的属性个数各为

    每个属性对相应概念的影响权重是不同的,按照权重系数分别对概念属性进行排
    序,对每个概念属性取前i个属性权重值。

    这里

    即得下列属性权重矩阵(n+2)×i:


    从专业领域本体树中,可以很清楚的知道g1、J1、…、Jn概念中的共有属性,记为
    (S1′,S2′,…,Sj′),这里j为共有属性的个数,j≤i,且


    为概念g1、J1、…、Jn、g2中属性相同,则取出其对应权重值

    所以构建的影响函数为:

    步骤2.2)构造基于路径距离、与路径数量对两本体概念(g1,g2)相似度的影响函数
    RE路径(g1,g2)

    两本体概念(g1,g2)相似度与其路径长度成反比,找到两本体概念(g1,g2)间最长
    路径,其中经过的概念节点有n个,即(J1→…→Jn)。

    即经过路径的长度为L(g1,g2)=n+2

    两本体概念(g1,g2)相似度与路径数量成反比,即当路径数量越多,两本体概念
    (g1,g2)相似度越大,这里根据专业领域本体树可知路径数量为N,如图2。


    上式r为路径长度与路径个数的权重比值,这个可以根据实验迭代出来。

    步骤2.3)构造密度与深度对两本体概念(g1,g2)相似度的影响函数RE2(g1,g2),需
    先构造深度对两本体概念语义相似度的影响函数RE深度(g1,g2)以及密度对两本体概念语义
    相似度的影响函数RE密度(g1,g2),其具体求解过程如下:

    步骤2.3.1)先构造深度对两本体概念语义相似度的影响函数RE深度(g1,g2)

    概念节点的深度是指概念在所处的本体树中的层次深度。在本体树中,每个概念
    节点都是对上一层节点的一次细化。因此概念节点处于本体树中层次越深,则表示的内容
    越具体,概念间的相似度越大。反之概念间的相似度越小。

    这里深度值从根节点开始,根节点的深度值为1,从概念(g1,g2)与共同父节点构成
    的树子集中分别找到两最短路径的共同父节点,即


    分别为概念(g1,g2)的共同父节点在本体树中的最短深度。

    从而构造下列影响因子:


    两本体概念(g1,g2)在本体树中的深度为:



    即两本体概念(g1,g2)在本体树中得平均深度为:


    从而构造下列影响因子:


    上式dep(tree)为本体树的深度。

    综上,有下式:


    步骤2.3.2)构造密度对两本体概念语义相似度的影响函数RE密度(g1,g2)

    概率节点密度越大,则其直接子节点数目越多,节点细化的越具体,各直接子节点
    之间的相似度越大。

    从概念(g1,g2)的直接子节点中找到共同直接子节点个数,如上为N。

    从概念(g1,g2)中找到直接子节点数最多的,记为:


    上式i、j分别为以概念g1、g2为父节点所对应得子分枝个数。分别为概念
    g1,g2对应的第i、j个子分枝中直接子节点的个数。


    步骤2.3.3)由上述步骤RE深度(g1,g2)、RE密度(g1,g2)可得:


    步骤3:考虑本体中存在的特殊关联关系,计算本体概念(g1,g2)间的相关度RE关联
    (g1,g2),其具体计算过程如下:

    在构建专业领域本体模块过程中,有些本体之间存在特殊关联关系,例如工业与
    信息化,在信息时代还没普及的时候,这两则之间关联度接近为0,而现今,关联度很高。

    所以专业领域本体模块需要扩展连接存在特殊关联关系的本体概念,并由相关领
    域专家对有向边赋予一定的权重。

    根据上述理论,可以计算特殊关联关系对本体概念(g1,g2)间的相关度影响函数,
    即:


    上式N′为本体概念(g1,g2)间的路径个数,N′>0与本体概念(g1,g2)间的相关度成
    正比。

    上式MAX(L1,L2,…,LN′)为路径数N′中路径长度最大的值。


    分别为路径长度最长的对应有向边权重值,在构建专
    业领域数据库过程中由领域专家迭代统计给出。

    步骤4:综合上述步骤2、步骤3,得到本体概念(g1,g2)间的最终相关度RE最终(g1,
    g2),其具体计算过程如下:


    其中α、β、γ分别为本体间的基本属性关系、路径距离与路径数量、密度与深度的
    影响系数,可以根据实验迭代得出最优的影响系数,且α+β+γ=1,如果α>γ>β,则α对本
    体概念(g1,g2)间的最终相关度影响最大,γ次之,β对本体概念(g1,g2)间的最终相关度影
    响最小。

    如果不存在特殊关联关系,则N′=0,反之,N′>0。

    关 键  词:
    一种 改进 基于 领域 本体 概念 相关 计算方法
      专利查询网所有文档均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    0条评论

    还可以输入200字符

    暂无评论,赶快抢占沙发吧。

    关于本文
    本文标题:一种改进的基于领域本体的概念相关度计算方法.pdf
    链接地址:https://www.zhuanlichaxun.net/p-6036864.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
    经营许可证编号:粤ICP备2021068784号-1