基于语义相关的XML文档关键字检索排序方法.pdf

上传人：Y948****062 文档编号：972290 上传时间：2018-03-22 格式：PDF 页数：9 大小：448.36KB

收藏版权申诉举报下载

第1页 / 共9页

第2页 / 共9页

第3页 / 共9页

下载文档到电脑，查找使用更方便

30 金币

下载文档

文档描述：

《基于语义相关的XML文档关键字检索排序方法.pdf》由会员分享，可在线阅读，更多相关《基于语义相关的XML文档关键字检索排序方法.pdf（9页完成版）》请在专利查询网上搜索。

1、10申请公布号CN102081660A43申请公布日20110601CN102081660ACN102081660A21申请号201110007177022申请日20110113G06F17/3020060171申请人西北工业大学地址710072陕西省西安市友谊西路127号72发明人陈群王鹏娄颖崔海文李霞张立军李战怀74专利代理机构西北工业大学专利中心61204代理人顾潮琪54发明名称基于语义相关的XML文档关键字检索排序方法57摘要本发明公开了一种基于语义相关的XML文档关键字检索排序方法，依次解析XML文档，计算主题节点与属性节点的语义相关度、属性节点与关键字的语义相关度，优化检索时间，对。

2、所输入的查询关键字进行单词归根处理，在倒排索引中取出关键字对应的主题节点信息以及相关度信息，对距离关键字最近的主题进行检索，对检索结果进行相关度从高到低排序，对距离关键字次近的主题进行检索，根据结果的DEWEY码返回信息片段给用户。本发明针对XML数据独有的结构语义特点，提出了SRANK相关度检索模型及方法，可以提高检索结果的准确率。51INTCL19中华人民共和国国家知识产权局12发明专利申请权利要求书1页说明书5页附图2页CN102081665A1/1页21一种基于语义相关的XML文档关键字检索排序方法，其特征在于包括下述步骤1采用有序标签树模型作为XML文档模型，采用深度优先法遍历树模型。

3、，解析XML文档，采用PORTERSTEMMING算法对全部单词进行归根处理，确定所有主题节点，使用DEWEY编码的方式对主题进行编码；所述的主题节点是以其为根的树中包含以另外一个节点为根的子树的节点；2计算主题节点与属性节点的语义相关度、属性节点与关键字的语义相关度，所述的属性节点是以其为根的子树只包含文本内容的节点，计算方法如下主题节点与属性节点的语意相关度用他们之间的距离的倒数来表示，属性节点与关键字的语义相关度其中PERCK，ER表示在以ER为根节点的XML树中以LA为标签的属性中包含关键字K的比例，FREQLA表示以ER为标签的所有XML子树中包含以LA为标签的属性的个数，FREQK。

4、，LA表示以ER为标签的所有XML子树中包含以LA为标签的属性的个数，并且该属性包含关键字K；3将关键字对应的最低主题节点位置信息和步骤2所计算出的主题节点与属性节点以及属性节点与关键字的语意相关度封装在一起保存在倒排索引中，并对位置信息中的DEWEY码建立B树索引，通过该索引结构优化检索时间；4用户输入查询关键字，对所输入的查询关键字采用PORTERSTEMMING算法进行单词归根处理；5在倒排索引中取出关键字对应的主题节点信息以及相关度信息，关键字的倒排索引中保存包含这个关键字的一系列主题位置，以及关键字与属性节点、属性节点与主题节点的语意相关度，倒排表按照包含这个节点的最低主题节点的DE。

5、WEY码LED排序，如果一个节点是属性节点，那么它的LED为其父节点的DEWEY码；6对距离关键字最近的主题进行检索，如果一个LED包含了所有的关键字，那么这个LED将被作为一个结果计算其相关度，计算方法如下K表示返回属性关键字，SCK，LA表示查询条件，K表示条件值关键字，LA表示条件属性关键字；如果一个LED没有包含所有的关键字，那么将该LED的父节点加入到查询队列中；7对检索结果进行相关度从高到低排序，当检索完所有结果或者达到用户要求的K个结果时算法结束，并输出结果；8对距离关键字次近的主题进行检索，重复步骤6和步骤7；9根据结果的DEWEY码返回信息片段给用户。权利要求书CN10208。

6、1660ACN102081665A1/5页3基于语义相关的XML文档关键字检索排序方法技术领域0001本发明属于可扩充标记语言XML关键字检索技术领域，具体涉及一种XML文档关键字检索排序方法。背景技术0002作为一种互联网上和企业应用中信息描述和信息交换的国际标准，XMLEXTENSIBLEMARKUPLANGUAGE具有语义标示、易扩展、开放性和互操作性等诸多优点。随着XML技术的推广和XML数据的不断增大，针对XML文档的信息检索技术已经成为信息检索和数据库等相关领域的研究热点。0003传统的信息检索技术主要是针对文本文档和HTML文档。XML文档区别于文本和HTML文档的重要特征是其包。

7、含了丰富的语义和结构信息，这些信息有助于判断XML文档与用户信息需求之间的相关性。另一方面，与文本和HTML检索不同，XML信息检索要求返回的是以XML文档中某个元素ELEMENT为根结点的片段，不必返回整个文档，提高了检索效率。与XML文档查询语言比如XQUERY，XPATH，XQL等相比，基于关键字的XML信息检索技术的主要优势就是用户不需要学习复杂的查询语言，也不需要对XML文档的结构有深入的了解，用户仅仅需要输入相应的关键字即可。因此，基于关键字的XML信息检索技术在现阶段有着更多的需求和更好的应用前景。0004目前，基于XML关键字检索的方法大都是基于LCALOWESTCOMMONA。

8、NCESTOR的思想如VHRISTIDIS，NKOUDAS，YPAPAKONSTANTINOU，ANDDSRIVASTAVAKEYWORDPROXIMITYSEARCHINXMLTREESINIEEETRANSKNOWLDATAENG2006，184；PAGES525539，首先定位LCA结点包含所有关键字，然后再返回以该LCA结点为根结点的片段。文献“LGUO，FSHAO，CBOTEV，ANDJSHANMUGASUNDARAMXRANKRANKEDKEYWORDSEARCHOVERXMLDOCUMENTSINSIGMOD，2003；PAGES1627”中XRANK提出的ELCAEXCLUSI。

9、VELCA就是借助LCA的思想来解决关键字完全匹配问题。文献“YXUANDYPAPAKONSTANTINOUEFFICIENTKEYWORDSEARCHFORSMALLESTLCASINXMLDATABASESINSIGMOD，2005，PAGES527538”提出了SLCASMALLESTLOWESTCOMMONANCESTOR，即最小最低公共祖先的概念，以SLCA为根节点的子树被定义为包含所有关键字，并且任意一棵它的子树都不包含所有关键字的子树。文献“GUOLIANGLI，JIANHUAFENG，JIANYONGWANGANDLIZHUZHOUEFFECTIVEKEYWORDSEARCHF。

10、ORVALUABLELCASOVERXMLDOCUMENTINCIKMPAGES3041，2007”提出了VLCAVALUABLELOWESTCOMMONANCESTOR的概念，如果构成LCA的关键字结点是同构的，那么此LCA就是一个VLCA。文献“YXUANDYPAPAKONSTANTINOUEFFICIENTLCABASEDKEYWORDSEARCHINXMLDATAINEDBT，2008”结合XRANK和SLCA给出了一种可以更有效地计算ELCA的算法ISINDEXEDSTACK。虽然上述方法在LCA思想基础上提出了各自判断查询结果的相关性的方法，但仍未能准确的反映出XML的结构语义对查。

11、询结果相关度的影响，效果并不理想。0005例如图1中显示了XML文档的树形结构，记录了一个会议的名字、主席以及收录的说明书CN102081660ACN102081665A2/5页4论文等信息。每个节点用其标签标示，标签上面的数字是它的DEWEY编码。如果用户输入查询QCHEN，XML则按照SLCA的思想，结果包含以节点00为根和以011为根和的子树，而没有以节点01为根的子树。发明内容0006为了克服现有技术未能准确的反映出XML的结构语义对查询结果相关度的影响的不足，本发明提供一种基于语义相关的XML文档关键字检索排序方法，较好的解决了检索目标与用户信息需求的一致性问题，并确保了查询结果的信。

12、息完整性。0007本发明解决其技术问题所采用的技术方案包含以下步骤00081本方法采用有序标签树模型作为XML文档模型。对树模型遍历拥有多种形式，本方法采用深度优先法遍历树模型，解析XML文档。采用PORTERSTEMMING算法对全部单词进行归根处理。确定所有主题节点，使用DEWEY编码的方式对主题进行编码。所述的主题节点是以其为根的树中包含以另外一个节点为根的子树的节点。00092计算主题节点与属性节点的语义相关度、属性节点与关键字的语义相关度。0010所述的属性节点是以其为根的子树只包含文本内容的节点。计算方法如下0011主题节点与属性节点的语意相关度用他们之间的距离的倒数来表示，属性节。

13、点与关键字的语义相关度其中PERCK，ER表示在以ER为根节点的XML树中以LA为标签的属性中包含关键字K的比例，FREQLA表示以ER为标签的所有XML子树中包含以LA为标签的属性的个数，FREQK，LA表示以ER为标签的所有XML子树中包含以LA为标签的属性的个数，并且该属性包含关键字K。00123将关键字对应的最低主题节点该节点为主题节点，并且在该节点与关键字之间不存在另外的主题节点位置信息和步骤2所计算出的主题节点与属性节点以及属性节点与关键字的语意相关度封装在一起保存在倒排索引中，并对位置信息中的DEWEY码建立B树索引，通过该索引结构优化检索时间。00134用户输入查询关键字。对所。

14、输入的查询关键字采用PORTERSTEMMING算法进行单词归根处理。00145在倒排索引中取出关键字对应的主题节点信息以及相关度信息。关键字的倒排索引中保存包含这个关键字的一系列主题位置，以及关键字与属性节点、属性节点与主题节点的语意相关度。倒排表按照包含这个节点的最低主题节点的DEWEY码排序DEWEYCODESOFTHELOWESTELEMENTNODE，LED。如果一个节点是属性节点，那么它的LED为其父节点的DEWEY码。00156对距离关键字最近的主题进行检索，如果一个LED包含了所有的关键字，那么这个LED将被作为一个结果计算其相关度。计算方法如下K表示返回属性关键字，SCK，L。

15、A表示查询条件，K表示条件值关键字，LA表示条件属性关键字。如果一个LED没有包含所有的关键字，那么将该LED的父节点加入到查询队列中。说明书CN102081660ACN102081665A3/5页500167对检索结果进行相关度从高到低排序，当检索完所有结果即索引为空或者达到用户要求的K个结果时算法结束，并输出结果。00178对距离关键字次近的主题进行检索，重复步骤6和步骤7。00189根据结果的DEWEY码返回信息片段给用户。0019本发明的有益效果是本发明在深入分析用户信息需求和XML结构语义的基础上，同时结合传统检索中TFIDF相关度计算模型，针对XML数据独有的结构语义特点，提出了S。

16、RANK相关度检索模型及方法。如果将这种方法应用于XML文档关键字检索领域，可以提高检索结果的准确率。0020下面结合附图和实施例对本发明进一步说明。附图说明0021图1为一个XML树形表示，原始DEWEY编码。0022图2为一个XML树形表示，主题DEWEY编码。0023图3为本发明工作流程图。具体实施方式0024与本发明有关的一些概念和定义0025定义1主题节点对于节点N，如果以N为根的树TN中包含另外一个以M节点为根的子树TM，则N为主题节点。0026定义2属性节点对于节点N，如果以N为根的子树只包含文本值的内容，则N为属性节点。0027定义3条件属性关键字条件属性关键字是一类属性节点的。

17、名字，它表明了用户的查询条件。例如，查询QARTICLE、TITLE、XML，表明用户想查找TITLE中包含XML关键字的ARTICLE信息，其中TITLE是条件属性关键字。0028定义4返回属性关键字表明用户查询返回的关键字。例如，查询QARTICLE、XML、AUTHOR，表明用户想查找关于XML的ARTICLE的AUHOR信息，其中AUTHOR是条件属性关键字。0029定义5条件值关键字查询条件的文本值关键字。例如，查询QARTICLE、TITLE、XML其中XML为条件值关键字。0030与本发明有关的一些性质0031性质1如果关键字出现的属性与主题的距离越近，那么这个属性与主题的相关度。

18、越高。0032性质2对于一个主题，关键字K出现在不同类的属性中，如果关键字出现在某类属性下的比例越高，则关键字与该属性相关度越高。0033性质3对于不同的检索结果，查询中的关键字出现的次数越多，则与用户的相关性越高。0034本发明提出了基于语义相关的XML文档关键字检索排序方法，较好的解决了检索目标与用户信息需求的一致性问题。已有一些研究利用XML数据的结构判断查询结果是否相关，所采用的判断方法比较简单，效果并不理想。我们主要从两个层次深入的研究了这个说明书CN102081660ACN102081665A4/5页6问题。第一个层次考虑用户的查询目标与查询结果的主题一致性问题，所关注的是用户的查。

19、询目标主题。XML数据中的信息片段代表特定主题，而信息片段根节点的标签是对这种主题的描述。当用户的查询目标与查询结果实体一致时，用户的查询目标与返回信息片段根节点描述的实体是相同的。一方面，我们考虑关键字与主题的相关度来推断用户的查询主题，通过对查询对象的数据统计分析，计算出关键字与各个主题的关联程度，关联程度作为影响推断用户查询主题的因素之一；另一方面，我们利用关键字所代表的实体与返回结果根节点之间的距离来进行判断，当距离越近时，我们认为查询目标实体与查询结果实体更一致。0035本发明还解决了传统与关键字LCA为根节点的子树作为返回结果的信息部完整性问题。以关键字LCA为根节点的子树作为返回。

20、结果是当前XML数据关键字检索的主要思想，这种方法可以获取包含所有输入关键字的最小信息片段，但在一些情况下，关键字LCA为根的子树所包含的信息是不完整的。例如当用户信息需求为一篇有关针对XML数据查询的文章时，所输入的关键字为“XML，查询”。如果一篇文章的题目同时包含这两个关键字的时候，这篇文章极可能与用户需求一致，而根据关键字LCA的思想，将返回“XML，查询”的LCA文章的题目为根的信息片段，用户的信息需求是一篇文章，文章题目作为返回结果的信息是不完整的。针对这个缺陷，我们提出了主题的概念，从关键字查询的特点和XML数据的结构分析，提出XML文档中的信息片段满足一定的结构才是主题，而主题。

21、能够确保所包含信息的完整性，查询结果都是以主题为单位，这样就确保了查询结果的信息完整性。0036为了利用包含在文档中的丰富的语义信息来计算关键字与各个主题的关联程度，进而计算返回结果与用户查询目标的相关度，本方法经过以下几个步骤00371采用有序标签树模型作为XML文档模型，采用深度优先法遍历树模型，解析XML文档。采用PORTERSTEMMING算法对全部单词进行归根处理。根据定义1确定所有主题节点，使用DEWEY编码的方式对主题进行编码，如图2所示。00382计算主题节点与属性节点定义2的语义相关度、属性节点与关键字的语义相关度。计算方法如下在图1中，NAME、CHAIR、TITLE和AU。

22、HOR节点都是属性节点，根据定义，他们只包含文本信息；PAPER、CONFERENCE和BIB都是主题节点，以为以这些节点为根的子树里面包含了更小的子树。属性节点与其所在主题节点的相关度用他们之间的距离的倒数来表示，例如关键字PAPER与PAPER节点001的相关度为而TITLE关键字与PAPER节点001的相关度为属性与关键字的语义相关度，其中PERCK，ER表示在以ER为根节点的XML树中，以LA为标签的属性中，包含关键字K的比例。FREQLA表示以ER为标签的所有XML子树中包含以LA为标签的属性的个数。FREQK，LA表示以ER为标签的所有XML子树中包含以LA为标签的属性的个数，并且。

23、该属性包含关键字K。00393将关键字对应的最低主题节点该节点为主题节点，并且在该节点与关键字之间不存在另外的主题节点位置信息和步骤2所计算出的主题节点与属性节点以及属性节点与关键字的语意相关度封装在一起保存在倒排索引中，并对位置信息中的DEWEY码建立B树索引，通过该索引结构优化检索时间。说明书CN102081660ACN102081665A5/5页700404用户输入查询关键字。对所输入的查询关键字采用PORTERSTEMMING算法进行单词归根处理。00415在倒排索引中取出关键字对应的主题节点信息以及相关度信息。关键字的倒排索引中保存包含这个关键字的一系列主题位置，以及关键字与属性节点。

24、、属性节点与主题节点的语意相关度。倒排表按照包含这个节点的最低主题节点的DEWEY码排序DEWEYCODESOFTHELOWESTELEMENTNODE，LED。如果一个节点是属性节点，那么它的LED为其父节点的DEWEY码。00426对距离关键字最近的主题进行检索，如果一个LED包含了所有的关键字，那么这个LED将被作为一个结果计算其相关度。计算方法如下K表示返回属性关键字定义4，SCK，LA表示查询条件，K表示条件值关键字定义5，LA表示条件属性关键字定义3。如果一个LED没有包含所有的关键字，那么将该LED的父节点加入到查询队列中。00437对检索结果进行相关度从高到低排序，当检索完所有结果即索引为空或者达到用户要求的K个结果时算法结束，并输出结果。00448对距离关键字次近的主题进行检索，重复步骤6和步骤7。00459根据结果的DEWEY码返回信息片段给用户。说明书CN102081660ACN102081665A1/2页8图1图2说明书附图CN102081660ACN102081665A2/2页9图3说明书附图CN102081660A。

展开阅读全文

内容关键字: 基于语义相关 XML 文档关键字检索排序方法