信息识别方法、信息识别装置和电子设备.pdf
《信息识别方法、信息识别装置和电子设备.pdf》由会员分享,可在线阅读,更多相关《信息识别方法、信息识别装置和电子设备.pdf(24页完成版)》请在专利查询网上搜索。
1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202010200833.8 (22)申请日 2020.03.20 (71)申请人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦2层 (72)发明人 潘禄陈玉光李法远韩翠云 刘远圳黄佳艳 (74)专利代理机构 北京银龙知识产权代理有限 公司 11243 代理人 黄灿胡永芳 (51)Int.Cl. G06F 16/9532(2019.01) G06F 40/295(2020.01) G06F 40/211(2020.01) (54)发明名称 信。
2、息识别方法、 信息识别装置和电子设备 (57)摘要 本申请公开了信息识别方法、 信息识别装置 和电子设备, 涉及知识图谱领域。 具体实现方案 为: 获取待识别信息; 对所述待识别信息进行分 词处理, 以获得所述待识别信息的向量信息; 将 所述待识别信息的向量信息输入至识别模型, 以 通过所述识别模型对所述待识别信息的类型进 行识别, 获得所述待识别信息的识别结果。 通过 识别模型对待识别信息的类型进行识别, 可获得 待识别信息的识别结果, 提高对待识别信息的识 别准确率。 在搜索领域, 对信息识别准确率的提 高, 还能减少蹭热点信息对搜索结果的干扰, 提 高搜索准确率。 权利要求书4页 说明书。
3、15页 附图4页 CN 111382340 A 2020.07.07 CN 111382340 A 1.一种信息识别方法, 其特征在于, 包括: 获取待识别信息; 对所述待识别信息进行分词处理, 以获得所述待识别信息的向量信息; 将所述待识别信息的向量信息输入至识别模型, 以通过所述识别模型对所述待识别信 息的类型进行识别, 获得所述待识别信息的识别结果。 2.根据权利要求1所述的信息识别方法, 其特征在于, 所述对所述待识别信息进行分词 处理, 以获得所述待识别信息的向量信息, 包括: 对所述待识别信息进行分词处理, 获得至少一个目标词; 获取所述至少一个目标词中每一个目标词的向量信息; 根。
4、据所述每一个目标词的向量信息, 确定所述待识别信息的向量信息。 3.根据权利要求2所述的信息识别方法, 其特征在于, 所述向量信息包括位置向量; 所述获取所述至少一个目标词中每一个目标词的向量信息, 包括: 若所述待识别信息包括的实体个数大于或等于M, 且所述待识别信息包括的动词个数 大于或等于N, 则获取所述待识别信息中的M个实体和N个动词, 所述M和所述N均为正整数; 对于所述至少一个目标词中的每一个目标词, 分别计算所述目标词到所述M个实体的M 个第一相对位置, 以及所述目标词到所述N个动词的N个第二相对位置; 分别将所述M个第一相对位置、 所述N个第二相对位置映射到预设维度的正态分布向。
5、量 上, 获得M个第一位置向量和N个第二位置向量; 将所述M个第一位置向量按照所述M个实体在所述待识别信息中的先后顺序进行拼接, 获得第一拼接向量; 将所述N个第二位置向量按照所述N个动词在所述待识别信息中的先后顺序进行拼接, 获得第二拼接向量; 将所述第一拼接向量和所述第二拼接向量进行拼接, 并将拼接结果作为所述目标词的 位置向量。 4.根据权利要求3所述的信息识别方法, 其特征在于, 所述若所述待识别信息包括的实 体个数大于或等于M, 且所述待识别信息包括的动词个数大于或等于N, 则获取所述待识别 信息中的M个实体和N个动词, 包括: 若所述待识别信息包括的实体个数大于所述M且所述待识别信。
6、息包括的动词个数大于 或等于所述N, 或者, 若所述待识别信息包括的动词个数大于所述N且所述待识别信息包括 的实体个数大于或等于所述M, 则对所述待识别信息进行句法依存分析, 获得多个依存对; 选择所述多个依存对中包括在同一个依存对中的实体和动词, 获得m个实体和n个动 词, m和n为正整数; 若所述m小于所述M, 则从所述待识别信息的所述m个实体之外的实体中, 选择i个实体, 以获得i个实体, 其中, i为M与m的差值; 若所述n小于所述N, 则从所述待识别信息的所述n个动词之外的动词中, 选择j个动词, 以获得j个动词, 其中, j为N与n的差值。 5.根据权利要求2所述的信息识别方法, 。
7、其特征在于, 所述向量信息包括位置向量; 所述获取所述至少一个目标词中每一个目标词的向量信息, 包括: 对于所述至少一个目标词中的每一个目标词, 若所述待识别信息包括的实体个数U小 权利要求书 1/4 页 2 CN 111382340 A 2 于M, 则获得所述目标词到所述U个实体的U个第一相对位置, 其中, 所述U和所述M均为正整 数; 将所述U个第一相对位置采用0向量初始化, 以获得M个第一相对位置; 若所述待识别信息包括的动词个数V小于N, 则获取所述目标词到所述V个动词的V个第 二相对位置, 其中, 所述V和所述N均为正整数; 将所述V个第二相对位置采用0向量初始化, 以获得N个第二相。
8、对位置; 分别将所述M个第一相对位置、 所述N个第二相对位置映射到预设维度的正态分布向量 上, 获得M个第一位置向量和N个第二位置向量; 将所述M个第一位置向量按照所述M个实体在所述待识别信息中的先后顺序进行拼接, 获得第一拼接向量; 将所述N个第二位置向量按照所述N个动词在所述待识别信息中的先后顺序进行拼接, 获得第二拼接向量; 将所述第一拼接向量和所述第二拼接向量进行拼接, 并将拼接结果作为所述目标词的 位置向量。 6.根据权利要求1所述的信息识别方法, 其特征在于, 所述识别结果包括: 蹭热点类型 或者非蹭热点类型。 7.一种信息识别装置, 其特征在于, 包括: 第一获取模块, 用于获取。
9、待识别信息; 第二获取模块, 用于对所述待识别信息进行分词处理, 以获得所述待识别信息的向量 信息; 第三获取模块, 用于将所述待识别信息的向量信息输入至识别模型, 以通过所述识别 模型对所述待识别信息的类型进行识别, 获得所述待识别信息的识别结果。 8.根据权利要求7所述的信息识别装置, 其特征在于, 所述第二获取模块, 包括: 第一获取子模块, 用于对所述待识别信息进行分词处理, 获得至少一个目标词; 第二获取子模块, 用于获取所述至少一个目标词中每一个目标词的向量信息; 确定子模块, 用于根据所述每一个目标词的向量信息, 确定所述待识别信息的向量信 息。 9.根据权利要求8所述的信息识别。
10、装置, 其特征在于, 所述向量信息包括位置向量; 所述第二获取子模块, 包括: 第一获取单元, 用于若所述待识别信息包括的实体个数大于或等于M, 且所述待识别信 息包括的动词个数大于或等于N, 则获取所述待识别信息中的M个实体和N个动词, 所述M和 所述N均为正整数; 第一计算单元, 用于对于所述至少一个目标词中的每一个目标词, 分别计算所述目标 词到所述M个实体的M个第一相对位置, 以及所述目标词到所述N个动词的N个第二相对位 置; 第二获取单元, 用于分别将所述M个第一相对位置、 所述N个第二相对位置映射到预设 维度的正态分布向量上, 获得M个第一位置向量和N个第二位置向量; 第三获取单元。
11、, 用于将所述M个第一位置向量按照所述M个实体在所述待识别信息中的 权利要求书 2/4 页 3 CN 111382340 A 3 先后顺序进行拼接, 获得第一拼接向量; 第四获取单元, 用于将所述N个第二位置向量按照所述N个动词在所述待识别信息中的 先后顺序进行拼接, 获得第二拼接向量; 第一拼接单元, 用于将所述第一拼接向量和所述第二拼接向量进行拼接, 并将拼接结 果作为所述目标词的位置向量。 10.根据权利要求9所述的信息识别装置, 其特征在于, 所述第一获取单元, 用于: 若所述待识别信息包括的实体个数大于所述M且所述待识别信息包括的动词个数大于 或等于所述N, 或者, 若所述待识别信息。
12、包括的动词个数大于所述N且所述待识别信息包括 的实体个数大于或等于所述M, 则对所述待识别信息进行句法依存分析, 获得多个依存对; 选择所述多个依存对中包括在同一个依存对中的实体和动词, 获得m个实体和n个动 词, m和n为正整数; 若所述m小于所述M, 则从所述待识别信息的所述m个实体之外的实体中, 选择i个实体, 以获得i个实体, 其中, i为M与m的差值; 若所述n小于所述N, 则从所述待识别信息的所述n个动词之外的动词中, 选择j个动词, 以获得j个动词, 其中, j为N与n的差值。 11.根据权利要求8所述的信息识别装置, 其特征在于, 所述向量信息包括位置向量; 所述第二获取子模块。
13、, 包括: 第五获取单元, 用于对于所述至少一个目标词中的每一个目标词, 若所述待识别信息 包括的实体个数U小于M, 则获得所述目标词到所述U个实体的U个第一相对位置, 其中, 所述 U和所述M均为正整数; 第六获取单元, 用于将所述U个第一相对位置采用0向量初始化, 以获得M个第一相对位 置; 第七获取单元, 用于若所述待识别信息包括的动词个数V小于N, 则获取所述目标词到 所述V个动词的V个第二相对位置, 其中, 所述V和所述N均为正整数; 第八获取单元, 用于将所述V个第二相对位置采用0向量初始化, 以获得N个第二相对位 置; 第九获取单元, 用于分别将所述M个第一相对位置、 所述N个第。
14、二相对位置映射到预设 维度的正态分布向量上, 获得M个第一位置向量和N个第二位置向量; 第十获取单元, 用于将所述M个第一位置向量按照所述M个实体在所述待识别信息中的 先后顺序进行拼接, 获得第一拼接向量; 第十一获取单元, 用于将所述N个第二位置向量按照所述N个动词在所述待识别信息中 的先后顺序进行拼接, 获得第二拼接向量; 第二拼接单元, 用于将所述第一拼接向量和所述第二拼接向量进行拼接, 并将拼接结 果作为所述目标词的位置向量。 12.根据权利要求7所述的信息识别装置, 其特征在于, 所述识别结果包括: 蹭热点类型 或者非蹭热点类型。 13.一种电子设备, 其特征在于, 包括: 至少一个。
15、处理器; 以及 与所述至少一个处理器通信连接的存储器; 其中, 权利要求书 3/4 页 4 CN 111382340 A 4 所述存储器存储有可被所述至少一个处理器执行的指令, 所述指令被所述至少一个处 理器执行, 以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。 14.一种存储有计算机指令的非瞬时计算机可读存储介质, 其特征在于, 所述计算机指 令用于使所述计算机执行权利要求1-6中任一项所述的方法。 权利要求书 4/4 页 5 CN 111382340 A 5 信息识别方法、 信息识别装置和电子设备 技术领域 0001 本申请涉及计算机技术领域中的数据处理技术, 尤其涉及一。
16、种信息识别方法、 信 息识别装置和电子设备。 背景技术 0002 随着互联网的快速普及, 网络信息呈爆炸式增长, 从大量信息中筛选出感兴趣的 信息需要花费较长时间。 0003 相关技术中, 用户在通过网络浏览器进行信息查询时, 在浏览器中输入查询信息, 然后浏览器的搜索引擎根据查询信息进行信息搜索, 并将搜索结果返回给浏览器显示。 0004 在搜索引擎中, 存在一类信息, 该信息与用户的查询信息相匹配, 但是信息包括的 核心内容与查询信息关联度不高, 这类信息并不是用户所需要的信息。 也就是说, 现有技术 中, 由于对信息的识别准确率低, 导致搜索结果准确率低。 发明内容 0005 本申请实施。
17、例提供一种信息识别方法、 信息识别装置和电子设备, 以解决现有技 术中由于对信息的识别准确率低, 导致搜索结果准确率低的问题。 0006 为解决上述技术问题, 本申请是这样实现的: 0007 本申请第一方面提供一种信息识别方法, 包括: 0008 获取待识别信息; 0009 对所述待识别信息进行分词处理, 以获得所述待识别信息的向量信息; 0010 将所述待识别信息的向量信息输入至识别模型, 以通过所述识别模型对所述待识 别信息的类型进行识别, 获得所述待识别信息的识别结果。 0011 进一步的, 所述对所述待识别信息进行分词处理, 以获得所述待识别信息的向量 信息, 包括: 0012 对所述。
18、待识别信息进行分词处理, 获得至少一个目标词; 0013 获取所述至少一个目标词中每一个目标词的向量信息; 0014 根据所述每一个目标词的向量信息, 确定所述待识别信息的向量信息。 0015 进一步的, 所述向量信息包括位置向量; 0016 所述获取所述至少一个目标词中每一个目标词的向量信息, 包括: 0017 若所述待识别信息包括的实体个数大于或等于M, 且所述待识别信息包括的动词 个数大于或等于N, 则获取所述待识别信息中的M个实体和N个动词, 所述M和所述N均为正整 数; 0018 对于所述至少一个目标词中的每一个目标词, 分别计算所述目标词到所述M个实 体的M个第一相对位置, 以及所。
19、述目标词到所述N个动词的N个第二相对位置; 0019 分别将所述M个第一相对位置、 所述N个第二相对位置映射到预设维度的正态分布 向量上, 获得M个第一位置向量和N个第二位置向量; 说明书 1/15 页 6 CN 111382340 A 6 0020 将所述M个第一位置向量按照所述M个实体在所述待识别信息中的先后顺序进行 拼接, 获得第一拼接向量; 0021 将所述N个第二位置向量按照所述N个动词在所述待识别信息中的先后顺序进行 拼接, 获得第二拼接向量; 0022 将所述第一拼接向量和所述第二拼接向量进行拼接, 并将拼接结果作为所述目标 词的位置向量。 0023 进一步的, 所述若所述待识别。
20、信息包括的实体个数大于或等于M, 且所述待识别信 息包括的动词个数大于或等于N, 则获取所述待识别信息中的M个实体和N个动词, 包括: 0024 若所述待识别信息包括的实体个数大于所述M且所述待识别信息包括的动词个数 大于或等于所述N, 或者, 若所述待识别信息包括的动词个数大于所述N且所述待识别信息 包括的实体个数大于或等于所述M, 则对所述待识别信息进行句法依存分析, 获得多个依存 对; 0025 选择所述多个依存对中包括在同一个依存对中的实体和动词, 获得m个实体和n个 动词, m和n为正整数; 0026 若所述m小于所述M, 则从所述待识别信息的所述m个实体之外的实体中, 选择i个 实。
21、体, 以获得i个实体, 其中, i为M与m的差值; 0027 若所述n小于所述N, 则从所述待识别信息的所述n个动词之外的动词中, 选择j个 动词, 以获得j个动词, 其中, j为N与n的差值。 0028 进一步的, 所述向量信息包括位置向量; 0029 所述获取所述至少一个目标词中每一个目标词的向量信息, 包括: 0030 对于所述至少一个目标词中的每一个目标词, 若所述待识别信息包括的实体个数 U小于M, 则获得所述目标词到所述U个实体的U个第一相对位置, 其中, 所述U和所述M均为正 整数; 0031 将所述U个第一相对位置采用0向量初始化, 以获得M个第一相对位置; 0032 若所述待。
22、识别信息包括的动词个数V小于N, 则获取所述目标词到所述V个动词的V 个第二相对位置, 其中, 所述V和所述N均为正整数; 0033 将所述V个第二相对位置采用0向量初始化, 以获得N个第二相对位置; 0034 分别将所述M个第一相对位置、 所述N个第二相对位置映射到所述正态分布向量 上, 获得M个第一位置向量和N个第二位置向量; 0035 将所述M个第一位置向量按照所述M个实体在所述待识别信息中的先后顺序进行 拼接, 获得第一拼接向量; 0036 将所述N个第二位置向量按照所述N个动词在所述待识别信息中的先后顺序进行 拼接, 获得第二拼接向量; 0037 将所述第一拼接向量和所述第二拼接向量。
23、进行拼接, 并将拼接结果作为所述目标 词的位置向量。 0038 进一步的, 所述识别结果包括: 蹭热点类型或者非蹭热点类型。 0039 本申请第二方面提供一种信息识别装置, 包括: 0040 第一获取模块, 用于获取待识别信息; 0041 第二获取模块, 用于对所述待识别信息进行分词处理, 以获得所述待识别信息的 说明书 2/15 页 7 CN 111382340 A 7 向量信息; 0042 第三获取模块, 用于将所述待识别信息的向量信息输入至识别模型, 以通过所述 识别模型对所述待识别信息的类型进行识别, 获得所述待识别信息的识别结果。 0043 进一步的, 所述第二获取模块, 包括: 0。
24、044 第一获取子模块, 用于对所述待识别信息进行分词处理, 获得至少一个目标词; 0045 第二获取子模块, 用于获取所述至少一个目标词中每一个目标词的向量信息; 0046 确定子模块, 用于根据所述每一个目标词的向量信息, 确定所述待识别信息的向 量信息。 0047 进一步的, 所述向量信息包括位置向量; 0048 所述第二获取子模块, 包括: 0049 第一获取单元, 用于若所述待识别信息包括的实体个数大于或等于M, 且所述待识 别信息包括的动词个数大于或等于N, 则获取所述待识别信息中的M个实体和N个动词, 所述 M和所述N均为正整数; 0050 第一计算单元, 用于对于所述至少一个目。
25、标词中的每一个目标词, 分别计算所述 目标词到所述M个实体的M个第一相对位置, 以及所述目标词到所述N个动词的N个第二相对 位置; 0051 第二获取单元, 用于分别将所述M个第一相对位置、 所述N个第二相对位置映射到 预设维度的正态分布向量上, 获得M个第一位置向量和N个第二位置向量; 0052 第三获取单元, 用于将所述M个第一位置向量按照所述M个实体在所述待识别信息 中的先后顺序进行拼接, 获得第一拼接向量; 0053 第四获取单元, 用于将所述N个第二位置向量按照所述N个动词在所述待识别信息 中的先后顺序进行拼接, 获得第二拼接向量; 0054 第一拼接单元, 用于将所述第一拼接向量和。
26、所述第二拼接向量进行拼接, 并将拼 接结果作为所述目标词的位置向量。 0055 进一步的, 所述第一获取单元, 用于: 0056 若所述待识别信息包括的实体个数大于所述M且所述待识别信息包括的动词个数 大于或等于所述N, 或者, 若所述待识别信息包括的动词个数大于所述N且所述待识别信息 包括的实体个数大于或等于所述M, 则对所述待识别信息进行句法依存分析, 获得多个依存 对; 0057 选择所述多个依存对中包括在同一个依存对中的实体和动词, 获得m个实体和n个 动词, m和n为正整数; 0058 若所述m小于所述M, 则从所述待识别信息的所述m个实体之外的实体中, 选择i个 实体, 以获得i个。
27、实体, 其中, i为M与m的差值; 0059 若所述n小于所述N, 则从所述待识别信息的所述n个动词之外的动词中, 选择j个 动词, 以获得j个动词, 其中, j为N与n的差值。 0060 进一步的, 所述向量信息包括位置向量; 0061 所述获第二获取子模块, 包括: 0062 第五获取单元, 用于对于所述至少一个目标词中的每一个目标词, 若所述待识别 信息包括的实体个数U小于M, 则获得所述目标词到所述U个实体的U个第一相对位置, 其中, 说明书 3/15 页 8 CN 111382340 A 8 所述U和所述M均为正整数; 0063 第六获取单元, 用于将所述U个第一相对位置采用0向量初。
28、始化, 以获得M个第一相 对位置; 0064 第七获取单元, 用于若所述待识别信息包括的动词个数V小于N, 则获取所述目标 词到所述V个动词的V个第二相对位置, 其中, 所述V和所述N均为正整数; 0065 第八获取单元, 用于将所述V个第二相对位置采用0向量初始化, 以获得N个第二相 对位置; 0066 第九获取单元, 用于分别将所述M个第一相对位置、 所述N个第二相对位置映射到 所述正态分布向量上, 获得M个第一位置向量和N个第二位置向量; 0067 第十获取单元, 用于将所述M个第一位置向量按照所述M个实体在所述待识别信息 中的先后顺序进行拼接, 获得第一拼接向量; 0068 第十一获取。
29、单元, 用于将所述N个第二位置向量按照所述N个动词在所述待识别信 息中的先后顺序进行拼接, 获得第二拼接向量; 0069 第二拼接单元, 用于将所述第一拼接向量和所述第二拼接向量进行拼接, 并将拼 接结果作为所述目标词的位置向量。 0070 进一步的, 所述识别结果包括: 蹭热点类型或者非蹭热点类型。 0071 本申请第三方面提供一种电子设备, 其特征在于, 包括: 0072 至少一个处理器; 以及 0073 与所述至少一个处理器通信连接的存储器; 0074 其中, 所述存储器存储有可被所述至少一个处理器执行的指令, 所述指令被所述 至少一个处理器执行, 以使所述至少一个处理器能够执行第一方面。
30、所述的方法。 0075 本申请第四方面提供一种存储有计算机指令的非瞬时计算机可读存储介质, 所述 计算机指令用于使所述计算机执行第一方面所述的方法。 0076 上述申请中的一个实施例具有如下优点或有益效果: 0077 获取待识别信息; 对所述待识别信息进行分词处理, 以获得所述待识别信息的向 量信息; 将所述待识别信息的向量信息输入至识别模型, 以通过所述识别模型对所述待识 别信息的类型进行识别, 获得所述待识别信息的识别结果。 通过识别模型对待识别信息的 类型进行识别, 可获得待识别信息的识别结果, 提高对待识别信息的识别准确率。 在搜索领 域, 对信息识别准确率的提高, 还能减少蹭热点信息。
31、对搜索结果的干扰, 提高搜索准确率。 0078 获取待识别信息; 对所述待识别信息进行分词处理, 获得至少一个目标词; 获取所 述至少一个目标词中每一个目标词的向量信息; 根据所述每一个目标词的向量信息, 确定 所述待识别信息的向量信息; 将所述待识别信息的向量信息输入至识别模型, 以通过所述 识别模型对所述待识别信息的类型进行识别, 获得所述待识别信息的识别结果。 通过识别 模型对待识别信息的类型进行识别, 可获得待识别信息的识别结果, 提高对待识别信息的 识别准确率。 在搜索领域, 对信息识别准确率的提高, 还能减少蹭热点信息对搜索结果的干 扰, 提高搜索准确率。 0079 通过获取所述至。
32、少一个目标词中每一个目标词的位置向量, 可将目标词分别与待 识别信息的实体和动词之间的相对位置通过位置向量表示, 利用目标词分别与实体和动词 之间的关系, 来对待识别信息的类型进行识别, 可提高识别的准确率。 说明书 4/15 页 9 CN 111382340 A 9 0080 在所述待识别信息包括的实体个数大于所述M且所述待识别信息包括的动词个数 大于或等于所述N, 或者, 若所述待识别信息包括的动词个数大于所述N且所述待识别信息 包括的实体个数大于或等于所述M, 则对所述待识别信息进行句法依存分析, 获得多个依存 对, 并优先选择所述多个依存对中包括在同一个依存对中的实体和动词, 以提高对。
33、待识别 信息的进行识别的准确率。 0081 在待识别信息包括的实体个数或者动词个数小于预设值时, 采用0向量对U个第一 相对位置或者V个第二相对位置进行初始化, 以最终获得M个第一相对位置和所述N个第二 相对位置, 以提高识别模型对待识别信息进行类型识别的准确性。 0082 识别结果包括: 蹭热点类型或者非蹭热点类型。 这样, 根据识别模型可获知待识别 信息是否为蹭热点类型, 在信息筛选领域, 可将判定为蹭热点类型的信息筛除掉, 减少信息 干扰。 还可将本申请的信息识别方法应用在搜索领域, 对搜索结果中的信息通过识别模型 进行判断, 将判定为蹭热点类型的信息筛除掉, 提高搜索准确率。 0083。
34、 上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。 附图说明 0084 附图用于更好地理解本方案, 不构成对本申请的限定。 其中: 0085 图1是本申请实施例提供的信息识别方法的流程图之一; 0086 图2是本申请实施例提供的信息识别方法的流程图之二; 0087 图3是本申请实施例提供的识别模型的结构示意图; 0088 图4是本申请实施例提供的信息识别装置的结构图; 0089 图5是用来实现本申请实施例的信息识别方法的电子设备的框图。 具体实施方式 0090 以下结合附图对本申请的示范性实施例做出说明, 其中包括本申请实施例的各种 细节以助于理解, 应当将它们认为仅仅是示范性的。
35、。 因此, 本领域普通技术人员应当认识 到, 可以对这里描述的实施例做出各种改变和修改, 而不会背离本申请的范围和精神。 同 样, 为了清楚和简明, 以下的描述中省略了对公知功能和结构的描述。 0091 参见图1, 图1是本申请实施例提供的信息识别方法的流程图之一, 如图1所示, 本 实施例提供一种信息识别方法, 应用于电子设备, 包括以下步骤: 0092 步骤101、 获取待识别信息。 0093 待识别信息可为用户输入的信息, 也可为搜索引擎根据用户输入的查询信息进行 查询后获得的搜索结果信息。 待识别信息可为文本信息, 例如, 一段文字。 0094 步骤102、 对所述待识别信息进行分词处。
36、理, 以获得所述待识别信息的向量信息。 0095 对待识别信息进行分词处理, 可获得一个或多个词, 分词处理后获得的每个词都 可为目标词。 例如, 若待识别信息为 “小明来到唐人街” , 分词处理获得三个词:“小明” 、“来 到” 、“唐人街” , 这三个词即为三个目标词。 0096 分词处理后获得至少一个目标词, 然后分别求取每一个目标词的向量信息, 并进 一步的根据各目标词的向量信息, 获得待识别信息的向量信息。 目标词的位置向量根据目 标词与待识别信息中的实体和动词确定。 待识别信息中表示人物、 组织、 地点或者机构等的 说明书 5/15 页 10 CN 111382340 A 10 词。
37、可视为实体。 0097 向量信息还可以包括词向量和词性向量, 进一步的, 向量信息还可以包括名词向 量和指代词向量。 0098 位置向量是当前词汇(即目标词)与潜在事件主体(包括潜在实体和潜在事件触发 词, 即待识别信息中的实体和动词)相对位置的向量表示。 0099 步骤103、 将所述待识别信息的向量信息输入至识别模型, 以通过所述识别模型对 所述待识别信息的类型进行识别, 获得所述待识别信息的识别结果。 0100 将所述待识别信息的向量信息输入至识别模型, 获得识别结果。 识别结果可理解 为待识别信息中的关键字与待识别信息的核心内容之间的匹配度。 待识别信息的核心内容 也可理解为待识别信息。
38、的语义。 0101 识别模型的训练样本可为根据训练语料获得的向量信息, 利用根据训练语料获得 的向量信息对神经网络模型进行训练, 获得识别模型。 根据训练语料获得向量信息的方式, 与本申请中根据待识别信息获得向量信息的方式一致, 在此不做赘述。 0102 本实施例中, 获取待识别信息; 对所述待识别信息进行分词处理, 以获得所述待识 别信息的向量信息; 将所述待识别信息的向量信息输入至识别模型, 以通过所述识别模型 对所述待识别信息的类型进行识别, 获得所述待识别信息的识别结果。 通过识别模型对待 识别信息的类型进行识别, 可获得待识别信息的识别结果, 提高对待识别信息的识别准确 率。 在搜索。
39、领域, 对信息识别准确率的提高, 还能减少蹭热点信息对搜索结果的干扰, 提高 搜索准确率。 0103 参见图2, 图2是本申请实施例提供的信息识别方法的流程图之二, 如图2所示, 本 实施例提供一种信息识别方法, 应用于电子设备, 包括以下步骤: 0104 步骤201、 获取待识别信息。 0105 待识别信息可为用户输入的信息, 也可为搜索引擎根据用户输入的查询信息进行 查询后获得的搜索结果信息。 待识别信息可为文本信息, 例如, 一段文字。 0106 步骤202、 对所述待识别信息进行分词处理, 获得至少一个目标词。 0107 目标词可为一个或多个。 对待识别信息进行分词处理, 可获得一个或。
40、多个词, 分词 处理后获得的每个词都为目标词。 例如, 若待识别信息为 “小明来到唐人街” , 分词处理获得 三个词:“小明” 、“来到” 、“唐人街” , 这三个词即为三个目标词。 0108 步骤203、 获取所述至少一个目标词中每一个目标词的向量信息, 所述向量信息包 括位置向量。 0109 对每个目标词均获取向量信息, 一个目标词获取一个向量信息。 目标词的位置向 量根据目标词与待识别信息中的实体和动词确定。 待识别信息中表示人物、 组织、 地点或者 机构等的词可视为实体。 0110 向量信息还可以包括词向量和词性向量。 词向量的获取过程包括: 将目标词输入 至无监督模型中, 获得目标词。
41、的词向量, 无监督模型的训练样本可包括新闻标题和正文。 词 性向量(POS Embedding)是指将目标词的词性映射为一个多维向量, 相同的词性使用相同 的向量初始化, 在识别模型训练中, 词性向量会根据训练语料和目标不同进行值的优化。 0111 进一步的, 向量信息还可以包括名词向量和指代词向量。 通过语言工具提取出名 词, 名词可以为实体名词, 如人物、 机构、 地方; 指代词通过规则获取, 如他、 她、 它等, 转为向 说明书 6/15 页 11 CN 111382340 A 11 量后作为输入特征(即向量信息)的一部分。 0112 步骤204、 根据所述每一个目标词的向量信息, 确定。
42、所述待识别信息的向量信息。 0113 将每一个目标词的向量信息进行拼接, 可获得待识别信息的向量信息。 例如, 待识 别信息包括2个目标词, 这2个目标词的向量信息分别为A和B, 将A和B进行字符拼接, 可获得 待识别信息的向量信息, 此处采用符号A和B表示两个向量, 并不限定A和B为向量的表达式。 0114 步骤205、 将所述待识别信息的向量信息输入至识别模型, 以通过所述识别模型对 所述待识别信息的类型进行识别, 获得所述待识别信息的识别结果。 0115 识别结果包括: 蹭热点类型或者非蹭热点类型。 这样, 根据识别模型可获知待识别 信息是否为蹭热点类型, 在信息筛选领域, 可将判定为蹭。
43、热点类型的信息筛除掉, 减少信息 干扰。 还可将本申请的信息识别方法应用在搜索领域, 对搜索结果中的信息通过识别模型 进行判断, 将判定为蹭热点类型的信息筛除掉, 提高搜索准确率。 0116 蹭热点类型是指信息中存在一个用户可能搜索的关键字(query), 但是这个关键 字不是该信息所讲的核心内容, 这种信息的类型即为蹭热点类型。 例如, 对于文本 “张三为 著名影星李四的专用替身, 肤白貌美, 毕业于国内顶尖的影视大学, 表演经验丰富” , 该文本 描述的核心内容是关于张三的信息, 若使用关键字 “李四” 进行搜索, 搜索到该文本, 则该文 本属于蹭热点类型, 因为它的核心内容并不是关于李四。
44、的内容。 0117 又例如, 对于文本 “张三为著名影星, 肤白貌美, 毕业于国内顶尖的影视大学, 表演 经验丰富” , 该文本描述的核心内容是关于张三的信息, 若使用关键字 “张三” 进行搜索, 搜 索到该文本, 则该文本属于非蹭热点类型, 因为它的核心内容就是关于张三的内容。 0118 识别模型的训练样本可为根据训练语料获得的向量信息, 利用根据训练语料获得 的向量信息对神经网络模型进行训练, 获得识别模型。 0119 本实施例中, 通过获取待识别信息; 对所述待识别信息进行分词处理, 获得至少一 个目标词; 获取所述至少一个目标词中每一个目标词的向量信息; 根据所述每一个目标词 的向量信。
45、息, 确定所述待识别信息的向量信息; 将所述待识别信息的向量信息输入至识别 模型, 以通过所述识别模型对所述待识别信息的类型进行识别, 获得所述待识别信息的识 别结果。 通过识别模型对待识别信息的类型进行识别, 可获得待识别信息的识别结果, 提高 对待识别信息的识别准确率。 在搜索领域, 对信息识别准确率的提高, 还能减少蹭热点信息 对搜索结果的干扰, 提高搜索准确率。 0120 在本申请一个实施例中, 步骤203、 获取所述至少一个目标词中每一个目标词的向 量信息, 包括: 0121 若所述待识别信息包括的实体个数大于或等于M, 且所述待识别信息包括的动词 个数大于或等于N, 则获取所述待识。
46、别信息中的M个实体和N个动词, 所述M和所述N均为正整 数; 0122 对于所述至少一个目标词中的每一个目标词, 分别计算所述目标词到所述M个实 体的M个第一相对位置, 以及所述目标词到所述N个动词的N个第二相对位置; 0123 分别将所述M个第一相对位置、 所述N个第二相对位置映射到预设维度的正态分布 向量上, 获得M个第一位置向量和N个第二位置向量; 0124 将所述M个第一位置向量按照所述M个实体在所述待识别信息中的先后顺序进行 拼接, 获得第一拼接向量; 说明书 7/15 页 12 CN 111382340 A 12 0125 将所述N个第二位置向量按照所述N个动词在所述待识别信息中的。
47、先后顺序进行 拼接, 获得第二拼接向量; 0126 将所述第一拼接向量和所述第二拼接向量进行拼接, 并将拼接结果作为所述目标 词的位置向量。 0127 本实施例中, M和N为预设值, 可预先设置, 例如将M设置为2, N设置为1。 优选的M为 3, N为2。 若待识别信息包括的实体个数大于或等于M, 且所述待识别信息包括的动词个数大 于或等于N, 也就是说, 待识别信息包括的实体个数和动词个数都不小于各自的预设值, 那 么可从待识别信息中获取到M个实体和N个动词。 0128 对于所述至少一个目标词中的每一个目标词, 分别计算所述目标词到所述M个实 体的M个第一相对位置, 以及所述目标词到所述N。
48、个动词的N个第二相对位置。 例如, 若至少 一个目标词包括第一目标词和第二目标词, 实体包括第一实体和第二实体, 动词包括第一 动词, 则计算第一目标词与第一实体之间的第一相对位置, 以及第一目标词与第二实体之 间的第二相对位置, 获得2个第一相对位置; 计算第一目标词与第一动词之间的第二相对位 置, 获得1个第二相对位置。 0129 同样的, 对于第二目标词, 计算第二目标词与第一实体之间的第一相对位置, 以及 第二目标词与第二实体之间的第二相对位置, 获得2个第一相对位置; 计算第二目标词与第 一动词之间的第二相对位置, 获得1个第二相对位置。 0130 然后对于每个目标词, 分别将目标词。
49、对应的所述M个第一相对位置、 所述N个第二 相对位置映射到预设维度的正态分布向量上, 获得M个第一位置向量和N个第二位置向量。 预设维度可根据实际情况进行设置, 在此不做限定。 0131 进一步的, 将目标词对应的所述M个第一位置向量按照所述M个实体在所述待识别 信息中的先后顺序进行拼接, 获得第一拼接向量; 将目标词对应的所述N个第二位置向量按 照所述N个动词在所述待识别信息中的先后顺序进行拼接, 获得第二拼接向量。 拼接可理解 为对字符串的拼接, 即将M个第一位置向量按照字符串的方式进行首尾拼接。 0132 然后, 将目标词对应的所述第一拼接向量和所述第二拼接向量进行拼接, 并将拼 接结果。
50、作为所述目标词的位置向量。 在本申请中, 拼接可理解为将第一拼接向量和第二拼 接向量以字符串的形式进行首尾拼接。 0133 本实施例中, 通过获取所述至少一个目标词中每一个目标词的位置向量, 可将目 标词分别与待识别信息的实体和动词之间的相对位置通过位置向量表示, 利用目标词分别 与实体和动词之间的关系, 来对待识别信息的类型进行识别, 可提高识别的准确率。 0134 在本申请一个实施例中, 所述若所述待识别信息包括的实体个数大于或等于M, 且 所述待识别信息包括的动词个数大于或等于N, 则获取所述待识别信息中的M个实体和N个 动词, 包括: 0135 若所述待识别信息包括的实体个数大于所述M。
- 内容关键字: 信息 识别 方法 装置 电子设备
相机模块.pdf
具有防堵机构的浆水处理用滤筛装置.pdf
打包设备.pdf
可回收动脉瘤辅助支架及输送系统.pdf
电梯井道相邻房间的复合隔声墙体构造.pdf
灯具的免接电线的导电铜片触点结构.pdf
管式反应器.pdf
陶瓷纤维管.pdf
留孔装置.pdf
冲压机用的送料机构.pdf
玻璃装饰条组装装置.pdf
电缆抗拉强度检测装置.pdf
电网建设的架线机.pdf
家电玻璃多向磨边机.pdf
用于土壤肥料的均匀泼洒机构.pdf
漏电电流检测仪及防护组件.pdf
洁净室多重复合杀菌过滤风口结构.pdf
纸垛自动整理装置.pdf
有机废气、有机废液及烟气的协同处理系统.pdf
铜锭抛光用夹具.pdf
指纹取景器.pdf
新型电动自楔式安全制动器.pdf
新型血糖试纸盒.pdf
中远距离传输零中频接收机电路.pdf
纳米铁强化磺胺废水厌氧消化的方法.pdf
鱼缸除垢机器人.pdf
可变形手持便携式三防平板电脑.pdf
步进电机散热方法、系统及介质.pdf
建筑施工降尘设备.pdf
防水防潮型家用可燃气体探测器.pdf
基于物联网的智能实验室安全管理策略确定方法及装置.pdf
基于双边带光频梳的快速布里渊光学时域分析仪.pdf
一种一孔两用的隧洞排水孔结构.pdf
钢管桩围堰结构.pdf
一种生态砌块.pdf
一种铁路桥梁用泄水管.pdf
一种卷帘门的抗风装置.pdf
一种掺有非预应力钢筋的管桩钢筋笼.pdf
大型沉管隧道管段基础.pdf
汽车手套箱开启装置.pdf
城市道路上空花园式电动跃层停车商务楼.pdf
蒸压加气砌块砌窗结构.pdf
一种升降式旋转室外消火栓.pdf
框架结构T型连接柱.pdf
防静电地板吸板器.pdf
一种建筑用箱体或井口预留孔洞活动模具.pdf
速成拉建房屋.pdf
预制桥面板精轧螺纹钢筋弧形连接构造.pdf
一种内固定式伸缩门滑行导轨及伸缩门.pdf
多用途封井器.pdf
一种新型圆弧建筑模板紧固件.pdf