在线文本标签的实时添加方法、装置及相关设备.pdf

上传人:利贞 文档编号:10887480 上传时间:2021-08-26 格式:PDF 页数:16 大小:587.26KB
收藏 版权申诉 举报 下载
在线文本标签的实时添加方法、装置及相关设备.pdf_第1页
第1页 / 共16页
在线文本标签的实时添加方法、装置及相关设备.pdf_第2页
第2页 / 共16页
在线文本标签的实时添加方法、装置及相关设备.pdf_第3页
第3页 / 共16页
文档描述:

《在线文本标签的实时添加方法、装置及相关设备.pdf》由会员分享,可在线阅读,更多相关《在线文本标签的实时添加方法、装置及相关设备.pdf(16页完成版)》请在专利查询网上搜索。

1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 201910871158.9 (22)申请日 2019.09.16 (71)申请人 中国平安人寿保险股份有限公司 地址 518000 广东省深圳市福田区益田路 5033号平安金融中心14、 15、 16、 37、 41、 44、 45、 46层 (72)发明人 唐亚 (74)专利代理机构 深圳市世联合知识产权代理 有限公司 44385 代理人 汪琳琳 (51)Int.Cl. G06F 40/117(2020.01) G06F 40/284(2020.01) (54)发明名称 在线。

2、文本标签的实时添加方法、 装置及相关 设备 (57)摘要 本发明属于人工智能领域, 涉及一种在线文 本标签的实时添加方法、 装置及计算机设备、 存 储介质, 所述方法包括: 实时获取文本数据, 对所 述文本数据进行分词处理得到一组分词; 根据预 设的词向量生成模型获取每个分词的词向量; 将 所述每个分词的词向量与预设关键词库中的关 键词的词向量进行相似性计算, 匹配得到相似性 满足预设阈值的关键词和分词; 根据匹配得到的 关键词和预设的主题映射信息获取与所述匹配 得到的关键词相对应的主题; 输出匹配得到的分 词和获取的主题至用户端界面。 本发明提供的方 案使得分词能够以语义近邻的方式匹配主题,。

3、 可 优化关键词与主题映射匹配的模式, 提高文本标 签覆盖率, 减少工作量, 以及实现关键词库的扩 充。 权利要求书2页 说明书10页 附图3页 CN 110795911 A 2020.02.14 CN 110795911 A 1.一种在线文本标签的实时添加方法, 其特征在于, 包括: 实时获取用户端输入的文本数据, 对所述文本数据进行分词处理, 得到一组分词; 根据预设的词向量生成模型获取每个分词的词向量; 将所述每个分词的词向量与预设关键词库中的关键词的词向量进行相似性计算, 匹配 得到相似性满足预设阈值的关键词和分词; 根据匹配得到的关键词和预设的主题映射信息获取与所述匹配得到的关键词相。

4、对应 的主题; 输出匹配得到的分词和获取的主题至用户端界面。 2.根据权利要求1所述的在线文本标签的实时添加方法, 其特征在于, 所述方法还包 括: 根据所述每个分词的词向量计算所述文本数据的句向量, 将所述文本数据的句向量与 历史文本数据库中的历史文本数据的句向量进行相似性计算, 若匹配得到相似性满足预设 阈值的历史文本数据, 则获取匹配得到的历史文本数据所对应的主题, 并将其作为所述文 本数据的主题输出至用户端界面。 3.根据权利要求2所述的在线文本标签的实时添加方法, 其特征在于, 所述根据所述每 个分词的词向量计算所述文本数据的句向量包括: 将所述文本数据的所有分词的词向量进行加和平均。

5、, 得到所述文本数据的句向量。 4.根据权利要求2所述的在线文本标签的实时添加方法, 其特征在于, 所述根据所述每 个分词的词向量计算所述文本数据的句向量包括: 对所述文本数据中的所有分词进行权重分配, 根据各分词的权重和词向量进行加权平 均, 得到所述文本数据的句向量。 5.根据权利要求1至4任一项所述的在线文本标签的实时添加方法, 其特征在于, 在所 述实时获取用户端输入的文本数据之前, 所述方法包括训练所述预设的词向量生成模型, 其中所述预设的词向量生成模型的训练包括: 访问文本数据库, 获取所述文本数据库中的所有文本数据; 对所有文本数据进行分词处理; 根据分词处理得到分词对初始的词向。

6、量生成模型进行训练, 训练结束后得到所述预设 的词向量生成模型。 6.根据权利要求5所述的在线文本标签的实时添加方法, 其特征在于, 所述对所有文本 数据进行分词处理包括: 对所有文本数据进行初始分词; 对初始分词得到的结果进行分词预处理, 并将分词预处理之后得到的分词映射到至少 一个主题, 以得到所述预设的主题映射信息; 其中分词预处理之后得到的分词用于输入所 述初始的词向量生成模型进行训练。 7.根据权利要求6所述的在线文本标签的实时添加方法, 其特征在于, 所述方法还包 括: 将分词预处理之后得到的分词和映射得到的主题形成文本标签集合, 按照预设的过滤 配置信息对所述文本标签集合进行过滤。

7、, 得到用于在界面显示的关键词和主题, 并将得到 的关键词存储以形成所述预设关键词库。 权利要求书 1/2 页 2 CN 110795911 A 2 8.一种在线文本标签的实时添加装置, 其特征在于, 包括: 分词处理模块, 用于实时获取用户端输入的文本数据, 对所述文本数据进行分词处理, 得到一组分词; 词向量获取模块, 用于根据预设的词向量生成模型获取每个分词的词向量; 匹配模块, 用于将所述每个分词的词向量与预设关键词库中的关键词的词向量进行相 似性计算, 匹配得到相似性满足预设阈值的关键词和分词; 主题获取模块, 用于根据匹配得到的关键词和预设的主题映射信息获取与所述匹配得 到的关键词。

8、相对应的主题; 输出模块, 用于输出匹配得到的分词和获取的主题至用户端界面。 9.一种计算机设备, 其特征在于, 包括: 至少一个处理器; 以及, 与所述至少一个处理器通信连接的存储器; 其中, 所述存储器存储有可被所述至少一个处理器执行的计算机可读指令, 所述计算机可读 指令被所述至少一个处理器执行时, 使得所述至少一个处理器执行如权利要求1至7中任一 项所述的在线文本标签的实时添加方法的步骤。 10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质上存储有计算机 可读指令, 所述计算机可读指令被至少一个处理器执行时实现如权利要求1至7中任一项权 利要求所述的在线文本标签的实时。

9、添加方法的步骤。 权利要求书 2/2 页 3 CN 110795911 A 3 在线文本标签的实时添加方法、 装置及相关设备 技术领域 0001 本发明实施例属于人工智能技术领域, 尤其涉及一种在线文本标签的实时添加方 法、 装置及计算机设备、 存储介质。 背景技术 0002 用户在网络上发布提问、 话题、 评论、 资讯或者其他在线文本时, 往往需要在发布 后显示与提问、 话题、 评论、 资讯等相关联的关键词和主题, 即为在线文本添加文本标签, 现 有的在线文本添加标签的方式包括用户自定义添加或者后台系统从提问、 话题、 评论、 资讯 中提取关键词和通过关键词匹配主题进行添加, 后台系统在获取。

10、主题的过程主要通过使用 预先设定的关键词与主题映射规则来匹配实现, 现有的这种实现方式至少存在如下问题: 0003 1、 关键词与主题映射规则的规则匹配覆盖率不高; 0004 2、 无法自动扩展关键词词典, 也无法自动扩展关键词与主题映射规则; 0005 3、 需要定期更新迭代关键词与主题及其映射规则, 人工工作量大。 发明内容 0006 本发明实施例提供一种在线文本标签的实时添加方法、 装置及计算机设备、 存储 介质, 以解决现有技术中对在线文本添加文本标签时关键词与主题映射规则的规则匹配覆 盖率不高、 无法自动扩展关键词词典、 无法自动扩展关键词与主题映射规则, 以及需要定期 更新迭代关键。

11、词与主题及其映射规则, 人工工作量大的问题。 0007 第一方面, 本发明实施例提供一种在线文本标签的实时添加方法, 包括: 0008 实时获取用户端输入的文本数据, 对所述文本数据进行分词处理, 得到一组分词; 0009 根据预设的词向量生成模型获取每个分词的词向量; 0010 将所述每个分词的词向量与预设关键词库中的关键词的词向量进行相似性计算, 匹配得到相似性满足预设阈值的关键词和分词; 0011 根据匹配得到的关键词和预设的主题映射信息获取与所述匹配得到的关键词相 对应的主题; 0012 输出匹配得到的分词和获取的主题至用户端界面。 0013 作为本发明可实施的方式, 所述方法还包括:。

12、 0014 根据所述每个分词的词向量计算所述文本数据的句向量, 将所述文本数据的句向 量与历史文本数据库中的历史文本数据的句向量进行相似性计算, 若匹配得到相似性满足 预设阈值的历史文本数据, 则获取匹配得到的历史文本数据所对应的主题, 并将其作为所 述文本数据的主题输出至用户端界面。 0015 作为本发明可实施的方式, 所述根据所述每个分词的词向量计算所述文本数据的 句向量包括: 0016 将所述文本数据的所有分词的词向量进行加和平均, 得到所述文本数据的句向 量。 说明书 1/10 页 4 CN 110795911 A 4 0017 作为本发明可实施的方式, 所述根据所述每个分词的词向量计。

13、算所述文本数据的 句向量包括: 0018 对所述文本数据中的所有分词进行权重分配, 根据各分词的权重和词向量进行加 权平均, 得到所述文本数据的句向量。 0019 作为本发明可实施的方式, 在所述实时获取用户端输入的文本数据之前, 所述方 法包括训练所述预设的词向量生成模型, 其中所述预设的词向量生成模型的训练包括: 0020 访问文本数据库, 获取所述文本数据库中的所有文本数据; 0021 对所有文本数据进行分词处理; 0022 根据分词处理得到分词对初始的词向量生成模型进行训练, 训练结束后得到所述 预设的词向量生成模型。 0023 作为本发明可实施的方式, 所述对所有文本数据进行分词处理。

14、包括: 0024 对所有文本数据进行初始分词; 0025 对初始分词得到的结果进行分词预处理, 并将分词预处理之后得到的分词映射到 至少一个主题, 以得到所述预设的主题映射信息; 其中分词预处理之后得到的分词用于输 入所述初始的词向量生成模型进行训练。 0026 作为本发明可实施的方式, 所述方法还包括: 0027 将分词预处理之后得到的分词和映射得到的主题形成文本标签集合, 按照预设的 过滤配置信息对所述文本标签集合进行过滤, 得到用于在界面显示的关键词和主题, 并将 得到的关键词存储以形成所述预设关键词库。 0028 第二方面, 本发明实施例提供一种在线文本标签的实时添加装置, 包括: 0。

15、029 分词处理模块, 用于实时获取用户端输入的文本数据, 对所述文本数据进行分词 处理, 得到一组分词; 0030 词向量获取模块, 用于根据预设的词向量生成模型获取每个分词的词向量; 0031 匹配模块, 用于将所述每个分词的词向量与预设关键词库中的关键词的词向量进 行相似性计算, 匹配得到相似性满足预设阈值的关键词和分词; 0032 主题获取模块, 用于根据匹配得到的关键词和预设的主题映射信息获取与所述匹 配得到的关键词相对应的主题; 0033 输出模块, 用于输出匹配得到的分词和获取的主题至用户端界面。 0034 第三方面, 本发明实施例提供一种计算机设备, 包括: 0035 至少一个。

16、处理器; 以及, 0036 与所述至少一个处理器通信连接的存储器; 其中, 0037 所述存储器存储有可被所述至少一个处理器执行的计算机可读指令, 所述计算机 可读指令被所述至少一个处理器执行时, 使得所述至少一个处理器执行上述的在线文本标 签的实时添加方法的步骤。 0038 第四方面, 本发明实施例提供一种计算机可读存储介质, 所述计算机可读存储介 质上存储有计算机可读指令, 所述计算机可读指令被至少一个处理器执行时实现如上所述 的在线文本标签的实时添加方法的步骤。 0039 根据本发明实施例提供的在线文本标签的实时添加方法、 装置及计算机设备、 存 储介质, 通过实时对文本数据进行分词和计。

17、算词向量, 以高纬词向量来表征每个分词结果, 说明书 2/10 页 5 CN 110795911 A 5 再通过词向量的相似性计算, 可以从预设关键词库中匹配到与分词的词向量相近或者相同 的关键词, 并以该关键词对应的主题作为分词的主题, 并输出显示主题及相关的分词, 实现 自动添加文本标签, 通过这种方式, 能够识别关键词的近义词或者变形词, 使得分词能够以 语义近邻的方式匹配到对应的主题, 从而生成新的主题映射信息, 这优化了现有的关键词 与主题映射匹配的模式, 提高了文本标签覆盖率, 有利于提升用户体验, 提高用户留存率与 活跃度, 同时可实现关键词与主题映射匹配的动态更新, 减少人工手。

18、动更新带来的工作量, 此外在现有关键词库的基础上, 也以语义近邻的方式实现了关键词库的扩充。 附图说明 0040 为了更清楚地说明本发明的方案, 下面将对实施例描述中所需要使用的附图作一 个简单介绍, 显而易见地, 下面描述中的附图是本发明的一些实施例, 对于本领域普通技术 人员来讲, 在不付出创造性劳动的前提下, 还可以根据这些附图获得其他的附图。 0041 图1为本发明实施例提供的在线文本标签的实时添加方法的流程图; 0042 图2为本发明实施例提供的词向量生成模型的训练的流程图; 0043 图3为本发明实施例提供的在线文本标签的实时添加装置的示意图; 0044 图4为本发明实施例提供的在。

19、线文本标签的实时添加装置的另一示意图; 0045 图5为本发明实施例提供的在线文本标签的实时添加装置的又一示意图; 0046 图6为本发明实施例提供的计算机设备的结构框图。 具体实施方式 0047 为了使本技术领域的人员更好地理解本发明方案, 下面将结合本发明实施例中的 附图, 对本发明实施例中的技术方案进行清楚、 完整地描述。 除非另有定义, 本文所使用的 所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。 0048 在说明书中的各个位置出现的 “实施例” 该短语并不一定均是指相同的实施例, 也 不是与其它实施例互斥的独立的或备选的实施例。 本领域技术人员显式地和隐式地。

20、理解的 是, 本文所描述的实施例可以与其它实施例相结合。 0049 本发明实施例提供一种在线文本标签的实时添加方法, 用于在用户发布提问、 话 题、 评论、 资讯或者其他在线文本时, 在用户完成在线文本输入后实时输出标签供用户添加 或者在用户发布后自动标识。 如图1所示, 所述在线文本标签的实时添加方法包括: 0050 S1、 实时获取用户端输入的文本数据, 对所述文本数据进行分词处理, 得到一组分 词; 0051 S2、 根据预设的词向量生成模型获取每个分词的词向量; 0052 S3、 将所述每个分词的词向量与预设关键词库中的关键词的词向量进行相似性计 算, 匹配得到相似性满足预设阈值的关键。

21、词和分词; 0053 S4、 根据匹配得到的关键词和预设的主题映射信息获取与所述匹配得到的关键词 相对应的主题; 0054 S5、 输出匹配得到的分词和获取的主题至用户端界面。 0055 具体的, 步骤S1中采用分词算法对实时获取的文本数据进行分词操作, 针对不同 的语言可选择不同类型的分词算法, 比如中文分词可采用机械分词或者最短路径分词等算 说明书 3/10 页 6 CN 110795911 A 6 法, 本方案中不作限定。 0056 步骤S2中所述预设的词向量生成模型具体可为word2vec模型, 其中word2vec模型 是由Google公司提供的开源模型, 训练方法与使用方法可以按w。

22、ord2vec的常用方法进行, 其中提供的供训练的文本数据越多, 训练后得到的模型越准确。 0057 步骤S3中的预设关键词库中也可以包含主题词, 而词向量的相似性计算用于判断 各分词与预设关键词库中的某个或某些词语的语义是否相同或相近, 因此本步骤中进行相 似性计算可理解为进行语义相似性计算, 即语义是否相同或相近通过两个词向量的相似性 达到预设阈值来衡量, 在一些实施例中, 可通过计算分词的词向量与预设关键词库中的关 键词的词向量之间的欧氏距离或者夹角余弦等方式来实现, 具体不作限定。 在本实施例中, 与预设关键词库中的关键词的词向量相似性达到预设阈值的分词可分为两类, 一类是与预 设关键。

23、词库中某一个关键词的词向量完全相同, 另一类是与预设关键词库中某一个或某些 关键词的词向量的相似度达到某个预设阈值, 当通过欧式距离衡量相似度时, 若欧式距离 小于预设阈值时则认为匹配, 否则不匹配, 而通过夹角余弦衡量相似度时, 若夹角余弦大于 预设阈值时则认为匹配, 否则不匹配。 0058 步骤S4中主题映射信息包含有预设关键词库中的关键词与其对应的主题的映射 关系, 根据匹配得到的关键词和预设的主题映射信息所获取的主题即可作为所述文本数据 的主题。 对于匹配得到的分词而言, 若要获取该分词所属的主题, 需要获取其对应的主题映 射信息, 对于与预设关键词库中某一个关键词的词向量完全相同的分。

24、词, 说明该分词直接 存在对应的主题映射信息, 可以直接通过预设的主题映射信息来获取相应的主题; 而对于 与预设关键词库中某一个或某些关键词的词向量近似且满足相似度要求(即相似度满足预 设阈值)的分词, 由于没有存在对应的主题映射信息, 此时将套用相近似的关键词所对应的 主题映射信息来获取相应的主题, 此时匹配得到的分词也与某一个或多个主题形成了映射 关系, 这样使得关键词的近义词或关键词的变形词得到了匹配, 匹配得到的分词可作为新 的关键词被加入预设关键词库, 扩充了关键词库, 同时也对应实现了主题映射信息的自动 扩充, 减少了人工操作更新所带来的工作量。 0059 步骤S5中输出的匹配得到。

25、的分词即可作为要显示给用户的关键词, 属于本发明实 施例中所述的文本标签的一种。 0060 在本发明实施例中, 在输出匹配得到的分词和获取的主题至用户端界面之前, 除 通过根据匹配得到的关键词和预设的主题映射信息获取与所述匹配得到的关键词相对应 的主题之外, 还可进一步地结合其他方式获取文本数据所对应的主题, 在一种可实现的方 式中, 所述在线文本标签的实时添加方法还包括: 根据所述每个分词的词向量计算所述文 本数据的句向量, 将所述文本数据的句向量与历史文本数据库中的历史文本数据的句向量 进行相似性计算, 若匹配得到相似性满足预设阈值的历史文本数据, 则获取匹配得到的历 史文本数据所对应的主。

26、题, 并将其作为所述文本数据的主题输出至用户端界面。 0061 具体的, 历史文本数据所对应的主题是已预先确定的。 在本实施例中, 句向量的相 似性匹配以相似性小于预设阈值来衡量, 类似于词向量的相似性计算, 其可通过计算实时 获取的所述文本数据的句向量与已经确定主题的历史文本数据的句向量之间的欧氏距离 或者夹角余弦等方式来实现近似匹配, 具体的, 若欧式距离或者夹角余弦小于预设阈值, 则 说明匹配, 此时将待打标签的文本数据映射到匹配的历史文本数据所属的主题, 比如历史 说明书 4/10 页 7 CN 110795911 A 7 文本数据的主题为 “体育” , 若代打标签的文本数据的句向量与。

27、该历史文本数据的句向量相 似性小于预设阈值, 则确定的主题 “体育” 将作为待打标签的文本数据的一个主题。 0062 在本实施例中, 对于所述文本数据的句向量的计算可通过多种方式实现。 在一种 可能的方式中, 所述根据所述每个分词的词向量计算所述文本数据的句向量包括:将所述 文本数据的所有分词的词向量进行加和平均, 得到所述文本数据的句向量。 这种方式对于 各分词的重要程度差别不大的情形较为适用。 0063 在另一种可能的方式中, 所述根据所述每个分词的词向量计算所述文本数据的句 向量包括:对所述文本数据中的所有分词进行权重分配, 根据各分词的权重和词向量进行 加权平均, 得到所述文本数据的句。

28、向量。 对于文本数据中的各分词的重要程度存在差别, 且 差别程度较大的情形, 可以对各分词设置权重, 使得加权得到句向量可以更加精确地表征 文本数据的内容。 0064 在本发明实施例中, 在步骤S1所述的实时获取用户端输入的文本数据之前, 所述 在线文本标签的实时添加方法包括训练所述预设的词向量生成模型, 其中, 如图2所示, 所 述预设的词向量生成模型的训练包括: 0065 S01、 访问文本数据库, 获取所述文本数据库中的所有文本数据; 0066 S02、 对所有文本数据进行分词处理; 0067 S03、 根据分词处理得到分词对初始的词向量生成模型进行训练, 训练结束后得到 所述预设的词向。

29、量生成模型。 0068 通过步骤S03得到训练后的词向量生成模型可以获得文本数据库(专门用于存储 文本数据, 包括实时获取的文本数据和历史文本数据)中各文本数据中的分词的词向量, 这 些词向量将被存储。 其中, 当所述词向量生成模型为word2vec模型时, 对word2vec模型进行 训练后, 将得到基准的词向量, 步骤S1中得到的分词结果经过word2vec模型后将得到待匹 配的词向量。 0069 进一步地, 所述在线文本标签的实时添加方法还可包括: 根据文本数据库中各文 本数据中的分词的词向量来获取各文本数据的句向量并存储。 0070 在本实施例中, 步骤S02中所述对所有文本数据进行分。

30、词处理包括: 对所有文本数 据进行初始分词, 对初始分词得到的结果进行分词预处理, 并将分词预处理之后得到的分 词映射到至少一个主题, 以得到所述预设的主题映射信息; 其中分词预处理之后得到的分 词用于输入所述初始的词向量生成模型进行训练。 0071 具体的, 分词具体采用分词算法对文本数据进行分词操作来实现, 针对不同的语 言可选择不同类型的分词算法, 比如中文分词可采用机械分词或者最短路径分词等算法, 本方案中不作限定。 分词后的预处理包括去除停用词, 名词性短语识别, TF-IDF处理, TextRank关键词提取、 命名实体识别、 句法依存关系识别、 文本主题分类等处理方式的一种 或多。

31、种, 分词后的预处理的目的在于去除无关词语, 得到能够体现文本数据意义的分词。 0072 其中, 进行主题映射即为将分词的预处理之后得到的关键词映射到至少一个主 题, 可用于形成多层级的文本标签集合。 故在一些实施例中, 所述在线文本标签的实时添加 方法还可包括: 将分词预处理之后得到的分词和映射得到的主题形成文本标签集合, 按照 预设的过滤配置信息对所述文本标签集合进行过滤, 得到用于在界面显示的关键词和主 题, 并将得到的关键词存储以形成所述预设关键词库。 其中, 文本标签集合包含分词的预处 说明书 5/10 页 8 CN 110795911 A 8 理之后得到的词语和映射得到的主题。 0。

32、073 在本发明实施例中, 步骤S1中实时获取的文本数据可被添加至上述的历史文本数 据库中, 在一些实施例中, 当历史文本数据库中新增的文本数据量达到预设阈值时, 将根据 最新的历史文本数据库中的数据对上述的词向量生成模型进行重训练, 优化所述词向量生 成模型。 0074 根据本发明实施例提供的在线文本标签的实时添加方法, 通过实时对文本数据进 行分词和计算词向量, 以高纬词向量来表征每个分词结果, 再通过词向量的相似性计算, 可 以从预设词库关键词库中匹配到与分词的词向量相近或者相同的词语关键词, 并以该词语 关键词对应的主题作为分词的主题, 并输出显示主题及相关的分词, 实现自动添加文本标。

33、 签, 通过这种方式, 能够识别关键词的近义词或者变形词, 使得分词能够以语义近邻的方式 匹配到对应的主题, 从而生成新的主题映射信息, 这优化了现有的文本数据中的关键词与 主题映射匹配的模式, 提高了文本标签覆盖率, 有利于提升用户体验, 提高用户留存率与活 跃度, 同时可实现关键词与主题映射匹配的动态更新, 减少人工手动更新带来的工作量, 此 外在现有词库关键词库的基础上, 也以语义近邻的方式实现了词库关键词库的扩充。 0075 本发明实施例提供一种在线文本标签的实时添加装置, 可执行上述实施例提供的 在线文本标签的实时添加方法。 如图3所示, 所述在线文本标签的实时添加装置包括分词处 理。

34、模块10、 词向量获取模块20、 匹配模块30、 主题获取模块40和输出模块50; 其中, 所述分词 处理模块10用于实时获取用户端输入的文本数据, 对所述文本数据进行分词处理, 得到一 组分词; 所述词向量获取模块20用于根据预设的词向量生成模型获取每个分词的词向量; 所述匹配模块30用于将所述每个分词的词向量与预设关键词库中的关键词的词向量进行 相似性计算, 匹配得到相似性满足预设阈值的关键词和分词; 所述主题获取模块40用于根 据匹配得到的关键词和预设的主题映射信息获取与所述匹配得到的关键词相对应的主题; 所述输出模块50用于输出匹配得到的分词和获取的主题至用户端界面。 0076 具体的。

35、, 所述分词处理模块10采用分词算法对实时获取的文本数据进行分词操 作, 针对不同的语言可采用不同类型的分词算法, 比如中文分词可采用机械分词或者最短 路径分词等算法, 本方案中不作限定。 0077 所述词向量获取模块20所采用的预设的词向量生成模型具体可为word2vec模型, 其中word2vec模型是由Google公司提供的开源模型, 训练方法与使用方法可以按word2vec 的常用方法进行, 其中提供的供训练的文本数据越多, 训练后得到的模型越准确。 0078 所述匹配模块30所访问的预设关键词库中也可以包含主题词, 所述匹配模块30进 行词向量的相似性计算具体用于判断各分词与预设关键。

36、词库中的某个或某些词语的语义 是否相同或相近, 所述匹配模块30进行词向量的相似性计算可理解为进行语义相似性计 算, 即语义是否相同或相近通过两个词向量的相似性达到预设阈值来衡量, 在一些实施例 中, 所述匹配模块30可通过计算分词的词向量与预设关键词库中的关键词的词向量之间的 欧氏距离或者夹角余弦等方式来实现相似性计算, 具体不作限定。 在本实施例中, 与预设关 键词库中的关键词的词向量相似性达到预设阈值的分词可分为两类, 一类是与预设关键词 库中某一个关键词的词向量完全相同, 另一类是与预设关键词库中某一个或某些关键词的 词向量的相似度达到某个预设阈值, 当通过欧式距离衡量相似度时, 若欧。

37、式距离小于预设 阈值时则认为匹配, 否则不匹配, 而通过夹角余弦衡量相似度时, 若夹角余弦大于预设阈值 说明书 6/10 页 9 CN 110795911 A 9 时则认为匹配, 否则不匹配。 0079 所述主题获取模块40获取的主题映射信息包含有预设关键词库中的关键词与其 对应的主题的映射关系, 根据匹配得到的关键词和预设的主题映射信息所获取的主题即可 作为所述文本数据的主题。 对于匹配得到的分词而言, 若所述主题获取模块40要获取该分 词所属的主题, 需要获取其对应的主题映射信息, 对于与预设关键词库中某一个关键词的 词向量完全相同的分词, 说明该分词直接存在对应的主题映射信息, 所述主题。

38、获取模块40 可以直接通过预设的主题映射信息来获取相应的主题; 而对于与预设关键词库中某一个或 某些关键词的词向量近似且满足相似度要求(即相似度满足预设阈值)的分词, 由于没有存 在对应的主题映射信息, 此时所述主题获取模块40将套用相近似的关键词所对应的主题映 射信息来获取相应的主题, 此时匹配得到的分词也与某一个或多个主题形成了映射关系, 这样使得关键词的近义词或关键词的变形词得到了匹配, 匹配得到的分词可作为新的关键 词被加入预设关键词库, 扩充了关键词库, 同时也对应实现了主题映射信息的自动扩充, 减 少了人工操作更新所带来的工作量。 0080 所述输出模块50输出的匹配得到的分词即可。

39、作为要显示给用户的关键词, 属于本 发明实施例中所述的文本标签的一种。 0081 在本发明实施例中, 在所述输出模块50输出匹配得到的分词和获取的主题至用户 端界面之前, 除通过根据匹配得到的关键词和预设的主题映射信息获取与所述匹配得到的 关键词相对应的主题之外, 还可进一步地结合其他方式获取文本数据所对应的主题, 在一 种可实现的方式中, 如图4所示, 所述在线文本标签的实时添加装置还包括句向量获取模块 60, 所述句向量获取模块60用于根据所述每个分词的词向量计算所述文本数据的句向量, 所述匹配模块30还用于将所述文本数据的句向量与历史文本数据库中的历史文本数据的 句向量进行相似性计算, 。

40、以匹配得到相似性满足预设阈值的历史文本数据, 所述主题获取 模块40还用于获取匹配得到的历史文本数据所对应的主题, 所述输出模块50还用于将匹配 得到的历史文本数据所对应的主题作为所述文本数据的主题输出至用户端界面。 0082 具体的, 历史文本数据所对应的主题是已预先确定的。 在本实施例中, 句向量的相 似性匹配以相似性小于预设阈值来衡量, 类似于词向量的相似性计算, 其可通过计算实时 获取的所述文本数据的句向量与已经确定主题的历史文本数据的句向量之间的欧氏距离 或者夹角余弦等方式来实现近似匹配, 具体的, 若欧式距离或者夹角余弦小于预设阈值, 则 说明匹配, 此时将待打标签的文本数据映射到。

41、匹配的历史文本数据所属的主题, 比如历史 文本数据的主题为 “体育” , 若代打标签的文本数据的句向量与该历史文本数据的句向量相 似性小于预设阈值, 则确定的主题 “体育” 将作为待打标签的文本数据的一个主题。 0083 在本实施例中, 所述句向量获取模块60对于所述文本数据的句向量的计算可通过 多种方式实现。 在一种可能的方式中, 所述句向量获取模块60根据所述每个分词的词向量 计算所述文本数据的句向量时具体用于: 将所述文本数据的所有分词的词向量进行加和平 均, 得到所述文本数据的句向量。 这种方式对于各分词的重要程度差别不大的情形较为适 用。 0084 在另一种可能的方式中, 所述句向量。

42、获取模块60根据所述每个分词的词向量计算 所述文本数据的句向量时具体用于: 对所述文本数据中的所有分词进行权重分配, 根据各 分词的权重和词向量进行加权平均, 得到所述文本数据的句向量。 对于文本数据中的各分 说明书 7/10 页 10 CN 110795911 A 10 词的重要程度存在差别, 且差别程度较大的情形, 可以对各分词设置权重, 使得加权得到句 向量可以更加精确地表征文本数据的内容。 0085 在本发明实施例中, 如图5所示, 所述在线文本标签的实时添加装置还包括模型训 练模块70, 用于在所述分词处理模块10实时获取用户端输入的文本数据之前训练所述预设 的词向量生成模型, 其中。

43、所述模型训练模块70训练所述预设的词向量生成模型的训练时具 体用于: 通过所述分词处理模块10访问文本数据库, 获取所述文本数据库中的所有文本数 据, 对所有文本数据进行分词处理; 然后根据分词处理得到分词对初始的词向量生成模型 进行训练, 训练结束后得到所述预设的词向量生成模型, 以供所述词向量获取模块20调用。 训练后得到的词向量生成模型可以获得文本数据库(专门用于存储文本数据, 包括实时获 取的文本数据和历史文本数据)中各文本数据中的分词的词向量, 这些词向量将被存储, 进 一步地, 通过这些存储的词向量还可获取各文本数据的句向量并存储。 其中, 当所述词向量 生成模型为word2vec。

44、模型时, 对word2vec模型进行训练后, 将得到基准的词向量, 所述分词 处理模块10得到的分词结果经过word2vec模型后将得到待匹配的词向量。 0086 在本实施例中, 所述分词处理模块10在对所有文本数据进行分词处理时具体用 于: 对所有文本数据进行初始分词, 对初始分词得到的结果进行分词预处理, 并将分词预处 理之后得到的分词映射到至少一个主题, 以得到所述预设的主题映射信息; 其中分词预处 理之后得到的分词用于输入所述初始的词向量生成模型进行训练。 具体的, 所述分词处理 模块10进行分词时具体采用分词算法对文本数据进行分词操作来实现, 针对不同的语言可 选择不同类型的分词算法。

45、, 比如中文分词可采用机械分词或者最短路径分词等算法, 本方 案中不作限定。 分词后的预处理包括去除停用词, 名词性短语识别, TF-IDF处理, TextRank 关键词提取、 命名实体识别、 句法依存关系识别、 文本主题分类等处理方式的一种或多种, 分词后的预处理的目的在于去除无关词语, 得到能够体现文本数据意义的分词。 0087 其中, 进行主题映射即为将分词的预处理之后得到的关键词映射到至少一个主 题, 可用于形成多层级的文本标签集合。 故在一些实施例中, 所述分词处理模块10还用于将 分词预处理之后得到的分词和映射得到的主题形成文本标签集合, 按照预设的过滤配置信 息对所述文本标签集。

46、合进行过滤, 得到用于在界面显示的关键词和主题, 并将得到的关键 词存储至所述预设关键词库。 其中, 文本标签集合包含分词的预处理之后得到的词语和映 射得到的主题。 0088 在本发明实施例中, 所述分词处理模块10实时获取的文本数据可被添加至上述的 历史文本数据库中, 在一些实施例中, 当历史文本数据库中新增的文本数据量达到预设阈 值时, 所述模型训练模块70将根据最新的历史文本数据库中的数据对上述的词向量生成模 型进行重训练, 优化所述词向量生成模型。 0089 根据本发明实施例提供的在线文本标签的实时添加装置, 通过实时对文本数据进 行分词和计算词向量, 以高纬词向量来表征每个分词结果,。

47、 再通过词向量的相似性计算, 可 以从预设词库关键词库中匹配到与分词的词向量相近或者相同的词语关键词, 并以该词语 关键词对应的主题作为分词的主题, 并输出显示主题及相关的分词, 实现自动添加文本标 签, 通过这种方式, 能够识别关键词的近义词或者变形词, 使得分词能够以语义近邻的方式 匹配到对应的主题, 从而生成新的主题映射信息, 这优化了现有的文本数据中的关键词与 主题映射匹配的模式, 提高了文本标签覆盖率, 有利于提升用户体验, 提高用户留存率与活 说明书 8/10 页 11 CN 110795911 A 11 跃度, 同时可实现关键词与主题映射匹配的动态更新, 减少人工手动更新带来的工。

48、作量, 此 外在现有词库关键词库的基础上, 也以语义近邻的方式实现了词库关键词库的扩充。 0090 本发明实施例还提供一种计算机设备, 如图6所示, 所述计算机设备包括至少一个 处理器61, 以及与所述至少一个处理器61通信连接的存储器62, 图6中示出一个处理器61, 所述存储器62存储有可被所述至少一个处理器61执行的计算机可读指令, 所述计算机可读 指令被所述至少一个处理器61执行, 以使所述至少一个处理器61能够执行如上所述的在线 文本标签的实时添加方法的步骤。 0091 具体的, 本发明实施例中的存储器62为非易失性计算机可读存储介质, 可用于存 储计算机可读指令、 非易失性软件程序。

49、、 非易失性计算机可执行程序以及模块, 如本申请上 述实施例中的在线文本标签的实时添加方法对应的程序指令/模块; 所述处理器61通过运 行存储在存储器62中的非易失性软件程序、 计算机可读指令以及模块, 从而执行各种功能 应用以及进行数据处理, 即实现上述方法实施例中所述的在线文本标签的实时添加方法。 0092 在一些实施例中, 所述存储器62可以包括程序存储区和数据存储区, 其中, 程序存 储区可存储操作系统、 至少一个功能所需要的应用程序; 数据存储区可存储在线文本标签 的实时添加方法的处理过程中所创建的数据等。 此外, 存储器62可以包括高速随机存取存 储器, 还可以包括非易失性存储器,。

50、 例如至少一个磁盘存储器件、 闪存器件、 或其他非易失 性固态存储器件; 0093 在一些实施例中, 存储器62可选包括相对于处理器61远程设置的远程存储器, 这 些远程存储器可以通过网络连接至执行域名过滤处理的计算机设备, 前述网络的实例包括 但不限于互联网、 企业内部网、 局域网、 移动通信网及其组合。 0094 在本发明实施例中, 执行在线文本标签的实时添加方法的计算机设备还可以包括 输入装置63和输出装置64; 其中, 输入装置63可获取用户在计算机设备上的操作信息, 输出 装置64可包括显示屏等显示设备。 在本发明实施例中, 所述处理器61、 存储器62、 输入装置 63和输出装置6。

展开阅读全文
内容关键字: 在线 文本 标签 实时 添加 方法 装置 相关 设备
关于本文
本文标题:在线文本标签的实时添加方法、装置及相关设备.pdf
链接地址:https://www.zhuanlichaxun.net/pdf/10887480.html
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1