文本编码检索的方法、装置及介质.pdf

上传人:齐** 文档编号:10055652 上传时间:2021-06-02 格式:PDF 页数:12 大小:530.70KB
收藏 版权申诉 举报 下载
文本编码检索的方法、装置及介质.pdf_第1页
第1页 / 共12页
文本编码检索的方法、装置及介质.pdf_第2页
第2页 / 共12页
文本编码检索的方法、装置及介质.pdf_第3页
第3页 / 共12页
文档描述:

《文本编码检索的方法、装置及介质.pdf》由会员分享,可在线阅读,更多相关《文本编码检索的方法、装置及介质.pdf(12页完成版)》请在专利查询网上搜索。

1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202010821095.9 (22)申请日 2020.08.14 (71)申请人 易联众信息技术股份有限公司 地址 361008 福建省厦门市软件园二期观 日路18号502室 (72)发明人 吴昊游海涛王琳杨丰佳 梁兴通 (74)专利代理机构 厦门加减专利代理事务所 (普通合伙) 35234 代理人 李强 (51)Int.Cl. G06F 16/31(2019.01) G06F 16/33(2019.01) G06F 40/247(2020.01) G06F 40/289(20。

2、20.01) (54)发明名称 一种文本编码检索的方法、 装置及介质 (57)摘要 本发明提供一种文本编码检索的方法、 装置 及介质, 本发明方法包括: 将待检索文本进行倒 排索引输出第一结果; 同时将检索文本进行Bert 神经网络句编码模型筛选输出第二结果; 将所述 第一结果和所述第二结果前后排序组合取前K个 以生成TopK最相关的检索结果。 利用倒排索引和 Bert神经网络句编码模型, 解决了文本检索过程 中检索不到位, 检索结果不准确的问题, 使检索 的结果更加准确, 更像需要得到的结果。 权利要求书2页 说明书7页 附图2页 CN 111930880 A 2020.11.13 CN 1。

3、11930880 A 1.一种文本编码检索的方法, 其特征在于: S100: 将待检索文本进行倒排索引输出第一结果; S200: 同时将检索文本进行Bert神经网络句编码模型筛选输出第二结果; S300: 将所述第一结果和所述第二结果前后排序组合取前K个以生成TopK最相关的检 索结果。 2.根据权利要求1所述的文本编码检索的方法, 其特征在于: 若Bert神经网络句编码模型筛选出的排序结果和倒排索引有重复时, 则删去Bert神经 网络句编码模型结果中重复的部分; 若倒排索引候选文档名的排序相同时, 则查找其在Bert神经网络句编码模型中的排序 结果作为参考。 3.根据权利要求1所述的文本编码。

4、检索的方法, 其特征在于, 所述倒排索引的步骤如 下: S101: 对数据库中的文档名进行Jieba分词, 根据所述文档名Jieba分词进行对全数据 库文档的搜索得到倒排索引列表和TF-IDF值; S102: 用户进行输入搜索文本时, 对搜索文本进行Jieba分词, 根据所述搜索文本Jieba 分词得到TF-IDF值, 根据所述搜索文本分词的TF-IDF值对搜索文本的所有词向量进行加权 平均得到搜索文本向量; S103: 根据所述搜索文本Jieba分词, 对词汇扩展处理得到候选名称, 由所述候选名称 根据所述倒排索引列表得到候选文档名, 去重汇整后得到N个对应的候选文档名; S104: 所述N。

5、个候选文档名根据数据库里已经得到的所述文档名分词的TF-IDF值对文 档名所有词向量进行加权平均得到N个候选文档向量; S105: 根据所述搜索文本向量和所述N个候选文档向量依次进行判断余弦相似度, 根据 余弦相似度由大到小排序得到最终结果。 4.根据权利要求3所述的文本编码检索的方法, 其特征在于: 所述S103中的扩展处理包 括: 设有智能学习模型, 所述学习模型可以主动对新词汇进行学习汇总, 对不同语义的词汇 学习和区分。 5.根据权利要求4所述的文本编码检索的方法, 其特征在于: 所述的智能学习模型包 括: 语法分析树, 同义词扩展, 同义词库; 由各词汇的词向量计算之间的相似度, 大。

6、于阈值的 判定两者为同义词, 并存入同义词库里。 6.根据权利要求5所述的文本编码检索的方法, 其特征在于: 所述的同义词扩展包括: 定制化用户选择词性的词组扩展或不扩展, 定制化词性改变扩展或不扩展, 使用同义词库 扩充文档名Jieba分词的结果, 将每个单词以及其同义词皆作为进入倒排索引的备选。 7.根据权利要求6所述的文本编码检索的方法, 其特征在于: 所述扩展同义词, 将搜索 文本下的词的所有同义词和Jieba分词的结果一起输入倒排索引; 将搜索文本中的符合用 户要求词性的词组挖掘出来, 并设置其不作为倒排索引的输入, 在搜索文本判断各词组的 词性后和它的同义词比对词性, 词性相同则拓。

7、展其同义词, 若不同则舍弃该同义词。 8.根据权利要求1所述的文本编码检索的方法, 其特征在于, 所述Bert神经网络句编码 模型筛选的步骤如下: S201: 将数据库中所有文档名输入Bert神经网络句编码模型得到文档数目个文档名句 权利要求书 1/2 页 2 CN 111930880 A 2 向量; S202: 用户输入搜索文本, 将其输入Bert神经网络句编码模型得到搜索文本句向量; S203: 根据所述搜索文本句向量和所述文档名句向量依次进行判断余弦相似度, 根据 余弦相似度由大到小排序得到最终结果。 9.一种文本编码检索的装置, 其特征在于, 所述装置包括: 倒排索引模块, 用于将待检。

8、索文本进行倒排索引输出第一结果; Bert模型模块, 用于将检索文本进行Bert模型神经网络句编码筛选输出的第二结果; 组合模块, 用于将所述第一结果和所述第二结果前后排序组合取前K个以生成TopK最 相关的检索结果。 10.一种计算机可读存储介质, 其特征在于: 所述计算机可读存储介质存储有计算机指 令, 所述计算机被处理器执行时实现如权利要求1-8任一项所述的文本编码检索的方法。 权利要求书 2/2 页 3 CN 111930880 A 3 一种文本编码检索的方法、 装置及介质 技术领域 0001 本发明涉及自然语言处理领域, 特别涉及一种文本编码检索的方法、 装置及介质。 背景技术 00。

9、02 传统的倒排索引结果进行topk排序时, 大部分会基于卡方值,Pretrain word- embedding和普通的TF-IDF词编码进行加或减或平均进行句编码。 0003 卡方值是非参数检验中的一个统计量, 主要用于非参数统计分析中。 它的作用是 检验数据的相关性。 如果卡方值的显著性小于0.05, 说明两个变量是显著相关的。 Word Embedding的概念, 如果将word看作文本的最小单元, 可以将Word Embedding理解为一种映 射, 其过程是: 将文本空间中的某个word, 通过一定的方法, 映射或者说嵌入(embedding)到 另一个数值向量空间。 TF-IDF。

10、(term frequencyinverse document frequency)是一种用 于信息检索与数据挖掘的常用加权技术。 TF是词频(Term Frequency), IDF是逆文本频率指 数(Inverse Document Frequency)。 TF-IDF是一种统计方法, 用以评估一字词对于一个文 件集或一个语料库中的其中一份文件的重要程度。 字词的重要性随着它在文件中出现的次 数成正比增加, 但同时会随着它在语料库中出现的频率成反比下降。 TF-IDF加权的各种形 式常被搜索引擎应用, 作为文件与用户查询之间相关程度的度量或评级。 0004 这些方法要么包含的文字信息不足,。

11、 要么不契合当前场景, 造成检索不到位, 检索 结果不准确的问题。 发明内容 0005 为解决现有技术文本检索过程中检索不到位, 检索结果不准确的问题, 本发明提 供的一种文本编码检索的方法、 装置及介质, 可以解决文本检索过程中检索不到位, 检索结 果不准确的问题, 使检索的结果更加准确, 更像需要得到的结果。 0006 第一方面, 本申请提供了一种文本编码检索的方法; 0007 S100: 将待检索文本进行倒排索引输出第一结果; 0008 S200: 同时将检索文本进行Bert神经网络句编码模型筛选输出第二结果; 0009 S300: 将所述第一结果和所述第二结果前后排序组合取前K个以生成。

12、TopK最相关 的检索结果。 0010 进一步地, 若Bert神经网络句编码模型筛选出的排序结果和倒排索引有重复时, 则删去Bert神经网络句编码模型结果中重复的部分; 0011 若倒排索引候选文档名的排序相同时, 则查找其在Bert神经网络句编码模型中的 排序结果作为参考。 0012 进一步地, 所述倒排索引的步骤如下: 0013 S101: 对数据库中的文档名进行Jieba分词, 根据所述文档名Jieba分词进行对全 数据库文档的搜索得到倒排索引列表和TF-IDF值; 0014 S102: 用户进行输入搜索文本时, 对搜索文本进行Jieba分词, 根据所述搜索文本 说明书 1/7 页 4 。

13、CN 111930880 A 4 Jieba分词得到TF-IDF值, 根据所述搜索文本分词的TF-IDF值对搜索文本的所有词向量进 行加权平均得到搜索文本向量; 0015 S103: 根据所述搜索文本Jieba分词, 对词汇扩展处理得到候选名称, 由所述候选 名称根据所述倒排索引列表得到候选文档名, 去重汇整后得到N个对应的候选文档名; 0016 S104: 所述N个候选文档名根据数据库里已经得到的所述文档名分词的TF-IDF值 对文档名所有词向量进行加权平均得到N个候选文档向量; 0017 S105: 根据所述搜索文本向量和所述N个候选文档向量依次进行判断余弦相似度, 根据余弦相似度由大到小。

14、排序得到最终结果。 0018 进一步地, 所述S103中的扩展处理包括: 设有智能学习模型, 所述学习模型可以主 动对新词汇进行学习汇总, 对不同语义的词汇学习和区分。 0019 进一步地, 所述的智能学习模型包括: 语法分析树, 同义词扩展, 同义词库; 由各词 汇的词向量计算之间的相似度, 大于阈值的判定两者为同义词, 并存入同义词库里。 0020 进一步地, 所述的同义词扩展包括: 定制化用户选择词性的词组扩展或不扩展, 定 制化词性改变扩展或不扩展, 使用同义词库扩充文档名Jieba分词的结果, 将每个单词以及 其同义词皆作为进入倒排索引的备选。 0021 进一步地, 所述扩展同义词,。

15、 将搜索文本下的词的所有同义词和Jieba分词的结果 一起输入倒排索引; 将搜索文本中的符合用户要求词性的词组挖掘出来, 并设置其不作为 倒排索引的输入, 在搜索文本判断各词组的词性后和它的同义词比对词性, 词性相同则拓 展其同义词, 若不同则舍弃该同义词。 0022 进一步地, 所述Bert神经网络句编码模型筛选的步骤如下: 0023 S201: 将数据库中所有文档名输入Bert神经网络句编码模型得到文档数目个文档 名句向量; 0024 S202: 用户输入搜索文本, 将其输入Bert神经网络句编码模型得到搜索文本句向 量; 0025 S203: 根据所述搜索文本句向量和所述文档名句向量依次。

16、进行判断余弦相似度, 根据余弦相似度由大到小排序得到最终结果。 0026 第二方面, 本申请提供了一种文本编码检索的装置, 所述装置包括: 0027 倒排索引模块, 用于将待检索文本进行倒排索引输出第一结果; 0028 Bert模型模块, 用于将检索文本进行Bert模型神经网络句编码筛选输出的第二结 果; 0029 组合模块, 用于将所述第一结果和所述第二结果前后排序组合取前K个以生成 TopK最相关的检索结果。 0030 第三方面, 本申请提供了一种计算机可读存储介质, 所述计算机可读存储介质存 储有计算机指令, 所述计算机被处理器执行时实现如上述任一项所述的文本编码检索的方 法。 0031。

17、 与现有技术相比, 本发明提供的一种文本编码检索的方法、 装置及介质, 利用倒排 索引和Bert神经网络句编码模型, 得到第一结果和第二结果再进行前后排序组合, 得到 TopK最相关的检索结果, 实现了文本的准确检索, 解决文本检索过程中检索不到位, 检索结 果不准确的问题; 利用倒排索引, 快速准确的检索到所需的内容, 利用同义词扩展, 检索到 说明书 2/7 页 5 CN 111930880 A 5 更多所需要的内容; 有Bert神经网络句编码机制作为倒排索引的辅助, 用Bert神经网络预 训练的方法进行句编码可以学习到上下文更全面的特征, 是与加权平均编码不同角度的编 码方式, 得以找出。

18、更多元的符合条件的搜索结果, 当倒排索引结果过少时, 能扩充候选结 果, 有BERT句编码机制, 故排序较后的会让人有推荐算法的感觉。 附图说明 0032 为了更清楚地说明本发明实施例或现有技术中的技术方案, 下面将对实施例或现 有技术描述中所需要使用的附图作一简单地介绍, 显而易见地, 下面描述中的附图是本发 明的一些实施例, 对于本领域普通技术人员来讲, 在不付出创造性劳动性的前提下, 还可以 根据这些附图获得其他的附图。 0033 图1为本发明提供的一种文本编码检索的方法的实施例的流程示意图; 0034 图2为本发明提供的一种文本编码检索的方法的实施例的流程示意图; 0035 图3为本发。

19、明提供的一种文本编码检索的方法的实施例的流程示意图; 0036 图4为本发明提供的一种文本编码检索的装置的实施例的架构示意图。 具体实施方式 0037 为使本发明实施例的目的、 技术方案和优点更加清楚, 下面将结合本发明实施例 中的附图, 对本发明实施例中的技术方案进行清楚、 完整地描述, 显然, 所描述的实施例是 本发明一部分实施例, 而不是全部的实施例。 基于本发明中的实施例, 本领域普通技术人员 在没有作出创造性劳动前提下所获得的所有其他实施例, 都属于本发明保护的范围。 0038 此外, 下面所描述的本发明不同实施方式中所设计的技术特征只要彼此之间未构 成冲突就可以相互结合。 0039。

20、 实施例一 0040 本发明提供一种文本编码检索的方法, 如图1-3所示; 0041 S100: 将待检索文本进行倒排索引输出第一结果; 0042 S200: 同时将检索文本进行Bert神经网络句编码模型筛选输出第二结果; 0043 S300: 将所述第一结果和所述第二结果前后排序组合取前K个以生成TopK最相关 的检索结果。 0044 具体实施时, 若Bert神经网络句编码模型筛选出的排序结果和倒排索引有重复 时, 则删去Bert神经网络句编码模型结果中重复的部分; 0045 若倒排索引候选文档名的排序相同时, 则查找其在Bert神经网络句编码模型中的 排序结果作为参考。 0046 具体实施。

21、时, 所述倒排索引的步骤如下: 0047 S101: 对数据库中的文档名进行Jieba分词, 根据所述文档名Jieba分词进行对全 数据库文档的搜索得到倒排索引列表和TF-IDF值; 0048 具体地, 倒排索引列表例子如表1所示; 0049 将库中所有的文档名分词后, 统计每个词分别出现在哪些文档中, 故当用户搜索 一串关键字时, 可根据文本中出现的词筛选出数据中的出现该词的备选文档名; 0050 表1 说明书 3/7 页 6 CN 111930880 A 6 0051 文档编号文档单词ID单词倒排索引列表 1中国古代的精美散文1中国1 2古代精美散文作者2古代1,2 3如何写出精美散文3精。

22、美1,2,3 4散文1,2,3 5作者2 6如何3 7写出3 8的1 0052 具体地, TF-IDF值的计算方法如下; 0053 0054 0055 TF-IDF词频逆文档频率 0056 具体地, 例如客户搜索 “牛肋排” , 若top1为自己本身, 后面的排序大部分客户更希 望先出现的是牛肋骨、 牛肋条, 而不是羊排、 猪排;“紫菜蛋花汤” 更重要的词是 “紫菜” 或 “蛋 花” 而不是 “汤” , 出现这种情况的主要原因在于,“汤” 和 “排” 两个词在当前场景下为出现频 率很高的词, 而 “牛肋”“紫菜”“蛋花” 相对来说频率没有那么高, 故客户搜索这些短文本的 时候会把中心集中在这些。

23、低频词上。 TF-IDF中的IDF(逆文档频率)就是专门解决如上这种 情况。 0057 TF为短文本的词频, 毋庸置疑当短文本中一个词出现次数越多该词越重要, 一个 比较极端的例子 “辣子鸡全鸡佐鸡油鸡小肠” 中 “鸡” 占有举足轻重的分量。 0058 逆文档频率中如果一个词越常见, 那么分母就越大, 逆文档频率就越小越接近0。 当所有文档都不包含关键词的情况下, IDF值无限接近于0, 让tf-idf值也为0, 导致最终的 词向量加权整个变为0, 但这并不表示该关键词不重要, 在本场景下往往是因为数据库不全 使得关键词为生词。 0059 S102: 用户进行输入搜索文本时, 对搜索文本进行J。

24、ieba分词, 根据所述搜索文本 Jieba分词得到TF-IDF值, 根据所述搜索文本分词的TF-IDF值对搜索文本的所有词向量进 行加权平均得到搜索文本向量; 0060 S103: 根据所述搜索文本Jieba分词, 对词汇扩展处理得到候选名称, 由所述候选 名称根据所述倒排索引列表得到候选文档名, 去重汇整后得到N个对应的候选文档名; 0061 S104: 所述N个候选文档名根据数据库里已经得到的所述文档名分词的TF-IDF值 对文档名所有词向量进行加权平均得到N个候选文档向量; 0062 S105: 根据所述搜索文本向量和所述N个候选文档向量依次进行判断余弦相似度, 根据余弦相似度由大到小。

25、排序得到最终结果。 0063 具体地, 余弦相似度的计算方法如下; 说明书 4/7 页 7 CN 111930880 A 7 0064 0065 向量的余弦值物理意义为向量的相似度, 余弦值越大, 两段文本越相似。 0066 具体地, 所述S103中的扩展处理包括: 设有智能学习模型, 所述学习模型可以主动 对新词汇进行学习汇总, 对不同语义的词汇学习和区分。 0067 具体地, 所述的智能学习模型包括: 语法分析树, 同义词扩展, 同义词库; 由各词汇 的词向量计算之间的相似度, 大于阈值的判定两者为同义词, 并存入同义词库里。 0068 智能学习模型的数据可以来源于维基百科、 百度百科等大。

26、规模语料, 具备自主学 习能力和定期更新能力, 根据不同的情况在不同的周期更新一次词库防止生词的出现和单 词有新意思的情况。 (可以规定半年时间, 如果词汇变化的快也可以是一个月或者更短的时 间, 也可以时时从各大语料数据库中获取更新数据) 0069 更新后在词库中加入新的词以及对应的100维向量, 学习新的词原本意思; 将新词 汇加入到智能学习模型中, 学习新词汇可以是时时进行的。 0070 为了减轻服务器压力, 在服务器空闲的时间, 各词汇间进行对比寻找是否为同义 词, 以下为寻找同义词的过程: 0071 对所有词进行词性判断, 在相同的词性下, 每个词与其他词性相同的所有词进行 相似度计。

27、算, 经多次控制变量实验测得当两词向量相似度大于阈值(阈值可为0.84)情况 下, 可判定两者为同义词, 即可将其两两导入图数据库, 使得它们可以都检索到对方, 由此 得到了同义词库。 在相同词性下寻找同义词可以做到词性改变不扩展, 同时提高了寻找的 效率。 0072 同样为了保留词性改变也能进行寻找同义词, 更新后的数据利用将每个词都和除 它本身以外的所有词进行相似度计算, 经多次控制变量实验(利用每个词和所有词进行控 制变量的测试)测得当两词向量相似度大于阈值(阈值可为0.84)情况下, 可判定两者为同 义词, 即可将其两两导入图数据库, 使得它们可以都检索到对方, 由此得到了词性改变同义。

28、 词库。 0073 例如原本词库里没有 “功夫” 一词, 刚刚从维基百科里出现, 服务器就时时的更新 最新的数据, 维基百科的首行一般会做个简单的解释,“功夫” 一般指身怀武术技能, 因为我 们学习模型并没有功夫的向量, 若要全部重新使用CBOW模型获得更新的word embedding太 耗时间, 故使用 “功夫” 后面全部的文字(一般指身怀武术技能)。 将其使用BERT句编码得到 其本身的向量。 由于服务器较忙, 选择在空闲时间, 对 “功夫” 与其他的词对比寻找同义词, 当两词向量相似度大于阈值(阈值可为0.84)情况下, 可判定两者为同义词, 如寻找到 “武 术” 则记录在同义词库里。。

29、 可以是不同词性的词为同义词。 0074 具体地, 同义词扩展包括: 定制化用户选择词性的词组扩展或不扩展, 定制化词性 改变扩展或不扩展, 使用同义词库扩充文档名Jieba分词的结果, 将每个单词以及其同义词 (例外情况除外)皆做为进入倒排索引的备选。 0075 例外情况包括: 定制化的选择各词性是否扩展(本场景以动词不扩展, 词性不同不 扩展为例)。 使用语法分析树模型, 将搜索句输入模型, 模型会自动进行分词, 判断包含的所 有词词性, 若出现为动词的单词, 该词不进行同义词扩展。 判断原词和其对应扩展的同义 说明书 5/7 页 8 CN 111930880 A 8 词, 若出现词性不同。

30、的情况下, 不进行扩展。 0076 具体地, 所述扩展同义词, 将搜索文本下的词的所有同义词和Jieba分词的结果一 起输入倒排索引; 将搜索文本中的符合用户要求词性的词组挖掘出来, 并设置其不作为倒 排索引的输入, 在搜索文本判断各词组的词性后和它的同义词比对词性, 词性相同则拓展 其同义词, 若不同则舍弃该同义词。 0077 具体地, 当数据库中没有西红柿只有番茄的情况下, 西红柿的加权词向量会因此 变为0, 若扩充了倒排索引的输入, 西红柿炒鲜鸡蛋就有了能找到番茄这一词的能力。 0078 该模型为维基百科或人民日报等全域巨量数据训练的知识图谱, 故 “炒” 的同义词 会找到 “做” ,“。

31、煎” 找到 “炸” ,“炖” 会找到 “煮” 对与全域知识来说这是合理的, 可对于情境 下 “炒” 和 “做”“煎” 和 “炸”“炖” 和 “煮” 是有本质区别的, 且这些词在数据库中都为高频词, 若一同输入倒排索引会生成过多无关备选索引。 所以引入语法分析树, 将搜索文本中的动 词挖掘出来, 并设置其不作为倒排索引的输入。 该方法有效控制了因本特殊场景而造成的 动词同义词不准确的问题。 0079 此外有一些词的本身就具有多种意思, 其拓展的同义词库更是严重不符合当前语 境,例如 “牛” 的同义词为 “厉害” ;“us” 会拓展 “我们” 和 “美国” 。 这种情况依然引入语法分析 树,在搜索。

32、文本判断各词组的词性后和它的同义词比对词性, 词性相同则拓展其同义词, 若 不同则舍弃该同义词。 0080 具体实施时, 所述Bert神经网络句编码模型筛选的步骤如下: 0081 S201: 将数据库中所有文档名输入Bert神经网络句编码模型得到文档数目个文档 名句向量; 0082 S202: 用户输入搜索文本, 将其输入Bert神经网络句编码模型得到搜索文本句向 量; 0083 S203: 根据所述搜索文本句向量和所述文档名句向量依次进行判断余弦相似度, 根据余弦相似度由大到小排序得到最终结果。 0084 本发明提供的一种文本编码检索的方法, 利用倒排索引和Bert神经网络句编码模 型, 得。

33、到第一结果和第二结果再进行前后排序组合, 得到TopK最相关的检索结果, 实现了文 本的准确检索, 解决文本检索过程中检索不到位, 检索结果不准确的问题; 利用倒排索引, 快速准确的检索到所需的内容, 利用同义词扩展, 检索到更多所需要的内容; 有Bert神经网 络句编码机制作为倒排索引的辅助, 用Bert神经网络预训练的方法进行句编码可以学习到 上下文更全面的特征, 是与加权平均编码不同角度的编码方式, 得以找出更多元的符合条 件的搜索结果, 当倒排索引结果过少时, 能扩充候选结果, 有BERT句编码机制, 故排序较后 的会让人有推荐算法的感觉。 0085 实施例二 0086 本发明还提供一。

34、种文本编码检索的装置, 如图4所示, 所述装置包括: 0087 倒排索引模块, 用于将待检索文本进行倒排索引输出第一结果; 0088 Bert模型模块, 用于将检索文本进行Bert模型神经网络句编码筛选输出的第二结 果; 0089 组合模块, 用于将所述第一结果和所述第二结果前后排序组合取前K个以生成 TopK最相关的检索结果。 说明书 6/7 页 9 CN 111930880 A 9 0090 实施例三 0091 本发明还提供一种计算机可读存储介质, 所述计算机可读存储介质存储有计算机 指令, 该计算机指令被处理器执行时可实现上述任一项所述的文本编码检索的方法。 0092 具体实施时, 计算。

35、机可读存储介质为磁碟、 光盘、 只读存储记忆体(Read- OnlyMemory, ROM)、 随机存储记忆体(Random Access Memory, RAM)、 快闪存储器(Flash Memory)、 硬盘(Hard Disk Drive, 缩写: HDD)或固态硬盘(Solid-State Drive, SSD)等; 计 算机可读存储介质还可以包括上述种类的存储器的组合。 0093 与现有技术相比, 本发明提供的一种文本编码检索的方法、 装置及介质, 利用倒排 索引和Bert神经网络句编码模型, 得到第一结果和第二结果再进行前后排序组合, 得到 TopK最相关的检索结果, 实现了文本。

36、的准确检索, 解决文本检索过程中检索不到位, 检索结 果不准确的问题; 利用倒排索引, 快速准确的检索到所需的内容, 利用同义词扩展, 检索到 更多所需要的内容; 有Bert神经网络句编码机制作为倒排索引的辅助, 用Bert神经网络预 训练的方法进行句编码可以学习到上下文更全面的特征, 是与加权平均编码不同角度的编 码方式, 得以找出更多元的符合条件的搜索结果, 当倒排索引结果过少时, 能扩充候选结 果, 有BERT句编码机制, 故排序较后的会让人有推荐算法的感觉。 0094 最后应说明的是: 以上各实施例仅用以说明本发明的技术方案, 而非对其限制; 尽 管参照前述各实施例对本发明进行了详细的说明, 本领域的普通技术人员应当理解: 其依 然可以对前述各实施例所记载的技术方案进行修改, 或者对其中部分或者全部技术特征进 行等同替换; 而这些修改或者替换, 并不使相应技术方案的本质脱离本发明各实施例技术 方案的范围。 说明书 7/7 页 10 CN 111930880 A 10 图1 图2 说明书附图 1/2 页 11 CN 111930880 A 11 图3 图4 说明书附图 2/2 页 12 CN 111930880 A 12 。

展开阅读全文
内容关键字: 文本 编码 检索 方法 装置 介质
关于本文
本文标题:文本编码检索的方法、装置及介质.pdf
链接地址:https://www.zhuanlichaxun.net/pdf/10055652.html
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1