数据处理方法、文本识别方法、装置及计算机设备.pdf

上传人:小** 文档编号:11204439 上传时间:2021-09-12 格式:PDF 页数:33 大小:835.01KB
收藏 版权申诉 举报 下载
数据处理方法、文本识别方法、装置及计算机设备.pdf_第1页
第1页 / 共33页
数据处理方法、文本识别方法、装置及计算机设备.pdf_第2页
第2页 / 共33页
数据处理方法、文本识别方法、装置及计算机设备.pdf_第3页
第3页 / 共33页
文档描述:

《数据处理方法、文本识别方法、装置及计算机设备.pdf》由会员分享,可在线阅读,更多相关《数据处理方法、文本识别方法、装置及计算机设备.pdf(33页完成版)》请在专利查询网上搜索。

1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 201910041335.0 (22)申请日 2019.01.16 (71)申请人 阿里巴巴集团控股有限公司 地址 英属开曼群岛大开曼资本大厦一座四 层847号邮箱 (72)发明人 王剑蒋卓人孙常龙刘晓钟 (74)专利代理机构 北京太合九思知识产权代理 有限公司 11610 代理人 曹威 (51)Int.Cl. G06F 40/289(2020.01) G06F 40/30(2020.01) G06K 9/62(2006.01) (54)发明名称 数据处理方法、 文本识别方法、 。

2、装置及计算 机设备 (57)摘要 本申请实施例提供一种数据处理方法、 一种 文本识别方法、 装置及一种计算机设备。 本申请 通过获取第一领域的第一文本样本及第二领域 的第二文本样本并分别对所述第一文本样本及 所述第二文本样本进行分词, 获得多个属性特 征。 以所述多个属性特征为节点, 以各个属性特 征之间的关联关系为边, 构建包括所述第一领域 和所述第二领域的连通图, 并确定所述连通图中 每个节点的节点向量。 基于所述第二文本样本命 中所述连通图中的至少一个节点的节点向量及 对应的至少一个属性标签, 训练所述第二领域的 分类模型, 以至少基于所述分类模型及所述节点 向量确定所述第二领域的待识别。

3、文本的识别结 果。 本申请技术方案大大提高第二领域属性识别 的准确性。 权利要求书5页 说明书22页 附图5页 CN 111523315 A 2020.08.11 CN 111523315 A 1.一种数据处理方法, 其特征在于, 包括: 获取第一领域的第一文本样本及第二领域的第二文本样本; 分别对所述第一文本样本及所述第二文本样本进行分词, 获得多个属性特征; 以所述多个属性特征为节点, 以各个属性特征之间的关联关系为边, 构建包括所述第 一领域和所述第二领域的连通图, 并确定所述连通图中每个节点的节点向量; 基于所述第二文本样本命中所述连通图中的至少一个节点的节点向量及对应的至少 一个属性。

4、标签, 训练所述第二领域的分类模型, 以至少基于所述分类模型及所述节点向量 确定所述第二领域的待识别文本的识别结果。 2.根据权利要求1所述的方法, 其特征在于, 所述方法还包括: 分别获取所述第一领域的第一对象关联信息以及所述第二领域的第二对象关联信息; 确定所述第一对象关联信息及所述第二对象关联信息中的多个对象关联特征; 所述以所述多个属性特征为节点, 以各个属性特征之间的关联关系为边, 构建包括所 述第一领域和所述第二领域的连通图, 并确定所述连通图中每个节点的节点向量包括: 分别以所述多个属性特征及所述多个对象关联特征为节点, 以所述各个属性特征以及 各个对象关联特征之间的关联关系为边。

5、, 构建包括所述第一领域和所述第二领域的连通 图; 确定所述连通图中每个节点的节点向量。 3.根据权利要求2所述的方法, 其特征在于, 所述第一对象关联信息包括所述第一领域 的第一对象信息、 与所述第一对象信息关联的店铺信息及用户信息; 所述第二对象关联信 息包括所述第二领域的第二对象信息、 与所述第二对象信息关联的店铺信息及用户信息; 所述确定所述第一对象关联信息及所述第二对象关联信息中的多个对象关联特征包 括: 基于所述第一对象信息、 所述与所述第一对象信息关联的店铺信息及用户信息以及所 述第二对象信息、 所述与所述第二对象信息关联的店铺信息及用户信息, 确定多个对象特 征、 多个用户特征。

6、及多个店铺特征。 4.根据权利要求3所述的方法, 其特征在于, 所述分别以所述多个属性特征及所述多个 对象关联特征为节点, 以所述各个属性特征以及各个对象关联特征之间的关联关系为边, 构建包括所述第一领域和所述第二领域的连通图包括: 分别将所述属性特征作为词节点、 将所述对象特征作为对象节点、 将所述用户特征作 为用户节点、 将所述店铺特征作为店铺节点; 将所述词节点之间以属性特征之间的共现关系为边, 将所述对象节点与所述词节点之 间以文本数量关系为边, 将所述店铺节点与所述对象节点之间以出售关系为边, 将所述用 户节点与所述对象节点、 所述用户节点与所述店铺节点以及所述用户节点与所述词节点之。

7、 间以用户行为关系为边, 构建包括所述第一领域和所述第二领域的连通图。 5.根据权利要求4所述的方法, 其特征在于, 所述用户行为关系包括购买关系、 点击关 系、 浏览关系、 写评论关系。 6.根据权利要求1所述的方法, 其特征在于, 所述确定所述连通图中每个节点的节点向 量包括: 确定所述连通图中每个节点的语义向量。 权利要求书 1/5 页 2 CN 111523315 A 2 7.根据权利要求2所述的方法, 其特征在于, 所述确定所述连通图中每个节点的节点向 量包括: 确定所述连通图中每个节点各自对应的语义向量及主题语义分布向量。 8.根据权利要求1所述的方法, 其特征在于, 所述基于所述。

8、第二文本样本命中所述连通 图中的至少一个节点的节点向量及对应的至少一个属性标签, 训练所述第二领域的分类模 型, 以至少基于所述分类模型及所述节点向量确定所述第二领域的待识别文本的识别结果 包括: 确定所述第二文本样本命中所述连通图中的至少一个节点对应的节点向量; 将所述第二文本样本对应的至少一个节点向量进行向量融合, 获得所述第二文本样本 的训练文本向量; 基于所述训练文本向量及所述第二文本样本对应的至少一个属性标签, 训练所述第二 领域的分类模型, 以至少基于所述分类模型及所述节点向量确定所述第二领域的待识别文 本的识别结果。 9.根据权利要求8所述的方法, 其特征在于, 所述节点向量包括。

9、语义向量及主题语义分 布向量; 所述将所述第二文本样本对应的至少一个节点向量进行向量融合, 获得所述第二 文本样本的训练文本向量包括: 将所述至少一个语义向量对应维度值取平均值, 获得训练文本第一子向量; 将所述至少一个主题语义分布向量对应维度值取最大值, 获得训练文本第二子向量; 将所述训练文本第一子向量及所述训练文本第二子向量进行向量拼接, 获得所述第二 文本样本的训练文本向量。 10.根据权利要求1所述的方法, 其特征在于, 所述确定所述连通图中每个节点的节点 向量包括: 分别以所述连通图中的每个节点为起点进行路径采样, 确定多条节点路径; 基于所述多条节点路径学习所述每个节点的节点向量。

10、。 11.根据权利要求10所述的方法, 其特征在于, 所述分别以所述连通图中的每个节点为 起点进行路径采样, 确定多条节点路径包括: 学习所述连通图中每个边的概率分布, 以确定每个边的概率权重; 分别以所述连通图中的每一个节点为起点, 基于所述每个边的概率权重依次选择下一 个节点, 确定多条节点路径。 12.根据权利要求11所述的方法, 其特征在于, 所述分别以所述连通图中的每个节点为 起点, 基于所述每个边的概率权重依次选择下一个节点, 确定多条节点路径包括: 所述分别以所述连通图中的每个节点为路径起点, 优先选择概率权重最大的边游走至 下一个节点; 判断任一路径游走步数是否满足步数阈值; 。

11、如果满足所述步数阈值, 确定当前节点为路径终点; 基于所述路径起点及所述路径起点对应的路径终点, 确定多条节点路径。 13.根据权利要求8所述的方法, 其特征在于, 所述基于所述训练文本向量及所述第二 文本样本对应的至少一个属性标签, 训练所述第二领域的分类模型包括: 将所述训练文本向量输入至所述分类模型中, 输出至少一个预测属性标签; 权利要求书 2/5 页 3 CN 111523315 A 3 判断所述至少一个预测属性标签与所述第二文本样本对应的至少一个属性标签是否 匹配; 如果是, 获得所述第二领域的分类模型; 如果否, 基于所述至少一个预测属性标签与所述至少一个属性标签的差值, 优化所。

12、述 分类模型的模型参数, 直至所述至少一个预测属性标签与所述至少一个属性标签相匹配。 14.根据权利要求13所述的方法, 其特征在于, 所述基于所述至少一个预测属性标签与 所述至少一个属性标签的差值, 优化所述分类模型的模型参数, 直至所述至少一个预测属 性标签与所述至少一个属性标签相匹配包括: 基于所述至少一个预测属性标签与所述至少一个属性标签的差值, 优化所述连通图中 每个节点的节点向量; 基于所述第二文本样本命中的节点优化后的节点向量, 优化所述训练文本向量; 基于优化后的训练文本向量及所述第二文本样对应的至少一个属性标签, 逐步优化所 述分类模型的模型参数。 15.根据权利要求14所述。

13、的方法, 其特征在于, 所述基于所述至少一个预测属性标签与 所述至少一个属性标签的差值, 优化所述连通图中每个节点的节点向量包括: 基于所述至少一个预测属性标签与所述至少一个属性标签的差值, 优化所述连通图中 每个边的概率权重; 分别以所述连通图中的每个节点为起点, 基于所述每个边优化后的概率权重依次选择 下一个节点, 更新所述多条节点路径; 基于所述更新后的多条节点路径, 优化所述每个节点的节点向量。 16.根据权利要求8所述的方法, 其特征在于, 所述基于所述训练文本向量及所述第二 文本样本对应的至少一个属性标签, 训练所述第二领域的分类模型包括: 确定所述第二文本样本对应的至少一个属性标。

14、签的预设输出属性标签向量; 基于所述训练文本向量及所述预设输出属性标签向量, 训练所述第二领域的分类模 型。 17.根据权利要求16所述的方法, 其特征在于, 所述确定所述第二文本样本对应的至少 一个属性标签的预设输出属性标签向量包括: 基于所述第二领域的属性标签的属性维数, 确定以所述属性维数作为向量维数的属性 标签向量; 确定每个属性标签在所述属性标签向量中各自对应的向量维度; 根据每个第二文本样本各自对应属性标签的向量维度, 生成所述每个第二文本样本各 自对应的预设输出属性标签向量。 18.根据权利要去1所述的方法, 其特征在于, 所述第一文本样本的样本数量远大于所 述第二文本样本的样本。

15、数量。 19.一种文本识别方法, 其特征在于, 包括: 获取第二领域的待识别文本; 确定所述待识别文本命中连通图中的至少一个节点的节点向量; 其中, 所述连通图基 于第一领域的第一文本样本及所述第二领域的第二文本样本进行分词获得的多个属性特 征作为节点, 以各个属性特征之间的关联关系为边构建获得; 每个节点的节点向量基于所 权利要求书 3/5 页 4 CN 111523315 A 4 述连通图学习获得; 基于所述待识别文本对应的至少一个节点向量及所述第二领域的分类模型, 确定所述 待识别文本的属性识别结果; 其中, 所述分类模型为基于所述第二文本样本命中所述连通 图的至少一个节点的节点向量, 。

16、以及对应的至少一个属性标签训练获得。 20.根据权利要求19所述的方法, 其特征在于, 所述基于所述待识别文本对应的至少一 个节点向量及所述第二领域的分类模型, 确定所述待识别文本的属性识别结果包括: 将所述待识别文本对应的至少一个节点向量进行向量融合, 获得待测文本向量; 将所述待测文本向量输入至所述第二领域的分类模型中进行属性识别, 获得所述待识 别文本对应的至少一个预测属性标签。 21.根据权利要求19所述的方法, 其特征在于, 所述确定所述待识别文本命中连通图中 的至少一个节点的节点向量包括: 对所述待识别文本进行分词, 获得的至少一个待识别属性特征; 确定所述连通图中与所述至少一个待。

17、识别属性特征匹配的至少一个节点的节点向量。 22.根据权利要求19所述的方法, 其特征在于, 所述基于所述连通图学习获得的所述每 个节点的节点向量包括语义向量; 所述将所述至少一个节点的节点向量进行融合, 获得待测文本向量包括: 将所述至少一个节点的语义向量对应维度值取平均值, 获得所述待测文本向量。 23.根据权利要求19所述的方法, 其特征在于, 所述连通图还包括基于所述第一领域的 第一文本样本及所述第二领域的第二文本样本进行分词获得的多个属性特征、 所述第一领 域的第二对象关联信息及所述第二领域的第二对象关联信息中的多个对象关联特征作为 节点, 以所述各个属性特征及各个对象关联特征之间的。

18、关联关系为边构建获得; 所述基于 所述连通图学习获得的所述每个节点的节点向量包括语义向量及主题语义分布向量; 所述将所述至少一个节点的节点向量进行融合, 获得待测文本向量包括: 将所述至少一个节点的语义向量对应维度值取平均值, 获得待测文本第一子向量; 将所述至少一个节点的主题语义分布向量对应维度值取最大值, 获得待测文本第二子 向量; 将所述待测文本第一子向量及所述待测文本第二子向量进行向量拼接, 获得所述待测 文本向量。 24.一种数据处理装置, 其特征在于, 包括: 第一获取模块, 用于获取第一领域的第一文本样本及第二领域的第二文本样本; 第二获取模块, 用于分别对所述第一文本样本及所述。

19、第二文本样本进行分词, 获得多 个属性特征; 连通图生成模块, 用于以所述多个属性特征为节点, 以各个属性特征之间的关联关系 为边, 构建包括所述第一领域和所述第二领域的连通图; 第一确定模块, 用于确定所述连通图中每一个节点的节点向量; 模型训练模块, 用于基于所述第二文本样本命中所述连通图中的至少一个节点的节点 向量及对应的至少一个属性标签, 训练所述第二领域的分类模型, 以至少基于所述分类模 型及所述节点向量确定所述第二领域的待识别文本的识别结果。 25.一种文本识别装置, 其特征在于, 包括: 权利要求书 4/5 页 5 CN 111523315 A 5 文本获取模块, 用于获取第二领。

20、域的待识别文本; 节点确定模块, 用于确定所述待识别文本命中连通图中的至少一个节点的节点向量; 其中, 所述连通图基于第一领域的第一文本样本及所述第二领域的第二文本样本进行分词 获得的多个属性特征作为节点, 以各个属性特征之间的关联关系为边构建获得; 每个节点 的节点向量基于所述连通图学习获得; 文本识别模块, 用于基于所述待识别文本对应的至少一个节点向量及所述第二领域的 分类模型, 确定所述待识别文本的属性识别结果; 其中, 所述分类模型为基于所述第二文本 样本命中所述连通图的至少一个节点的节点向量, 以及对应的至少一个属性标签训练获 得。 26.一种计算机设备, 其特征在于, 包括处理组件。

21、以及存储组件; 所述存储组件存储一 个或多个计算机指令; 所述一个或多个计算机指令用以被所述处理组件调用执行; 所述处理组件用于: 获取第一领域的第一文本样本及第二领域的第二文本样本; 分别对所述第一文本样本及所述第二文本样本进行分词, 获得多个属性特征; 以所述多个属性特征为节点, 以各个属性特征之间的关联关系为边, 构建包括所述第 一领域和所述第二领域的连通图, 并确定所述连通图中每一个节点的节点向量; 基于所述第二文本样本命中所述连通图中的至少一个节点的节点向量及对应的至少 一个属性标签, 训练所述第二领域的分类模型, 以至少基于所述分类模型及所述节点向量 确定所述第二领域的待识别文本的。

22、识别结果。 27.一种计算机设备, 其特征在于, 包括处理组件以及存储组件; 所述存储组件存储一 个或多个计算机指令; 所述一个或多个计算机指令用以被所述处理组件调用执行; 所述处理组件用于: 获取第二领域的待识别文本; 确定所述待识别文本命中连通图中的至少一个节点的节点向量; 其中, 所述连通图基 于第一领域的第一文本样本及所述第二领域的第二文本样本进行分词获得的多个属性特 征作为节点, 以各个属性特征之间的关联关系为边构建获得; 每个节点的节点向量基于所 述连通图学习获得; 基于所述待识别文本对应的至少一个节点向量及所述第二领域的分类模型, 确定所述 待识别文本的属性识别结果; 其中, 所。

23、述分类模型为基于所述第二文本样本命中所述连通 图的至少一个节点的节点向量, 以及对应的至少一个属性标签训练获得。 权利要求书 5/5 页 6 CN 111523315 A 6 数据处理方法、 文本识别方法、 装置及计算机设备 技术领域 0001 本申请实施例涉及网络技术领域, 尤其涉及一种数据处理方法、 一种文本识别方 法、 装置及一种计算机设备。 背景技术 0002 随着计算机网络技术的日益发达, 大量用户根据在互联网上的消费体验对该次消 费的评论信息已经形成一个庞大的数据。 目前, 可以通过将某一领域商品(例如服装领域) 大量的评论文本信息对该商品进行属性识别, 从而深入挖掘用户对该商品的。

24、关注点及兴 趣, 以便基于用户对商品的关注点及兴趣引导用户的消费行为或引导商家确定该领域商品 的研究方向及业务方向等。 0003 现有技术中, 可以通过该领域商品对应的分类模型识别该领域商品任一评论文本 对应的属性标签, 从而获知用户关注的属性维度。 为了提高该分类模型的属性识别的准确 性, 该分类模型的训练样本需要通过对该领域商品的大量评论文本进行人工标注获得。 具 体是, 首先通过人工定义该领域商品的属性标签体系, 由人工标注根据每一个评论文本信 息各自对应的至少一个属性标签, 从而获得用于训练该领域商品的分类模型的训练样本。 0004 但目前由于新领域商品(例如电子产品领域)的用户较少,。

25、 因此相应评论文本信息 较少, 导致新领域商品的训练样本较少, 难以获得准确性较好的训练模型。 发明内容 0005 本申请实施例提供一种数据处理方法、 一种文本识别方法、 装置及一种计算机设 备, 结合已有足够数据量的第一文本样本, 实现对第二领域分类模型进行模型训练, 大大提 高第二领域属性识别的准确性。 0006 第一方面, 本申请实施例中提供了一种数据处理方法, 包括: 0007 获取第一领域的第一文本样本及第二领域的第二文本样本; 0008 分别对所述第一文本样本及所述第二文本样本进行分词, 获得多个属性特征; 0009 以所述多个属性特征为节点, 以各个属性特征之间的关联关系为边, 。

26、构建包括所 述第一领域和所述第二领域的连通图, 并确定所述连通图中每一个节点的节点向量; 0010 基于所述第二文本样本命中所述连通图中的至少一个节点的节点向量及对应的 至少一个属性标签, 训练所述第二领域的分类模型, 以至少基于所述分类模型及所述节点 向量确定所述第二领域的待识别文本的识别结果。 0011 第二方面, 本申请实施例中提供了一种文本识别方法, 包括: 0012 获取第二领域的待识别文本; 0013 确定所述待识别文本命中连通图中的至少一个节点的节点向量; 其中, 所述连通 图基于第一领域的第一文本样本及所述第二领域的第二文本样本进行分词获得的多个属 性特征作为节点, 以各个属性。

27、特征之间的关联关系为边构建获得; 每个节点的节点向量基 于所述连通图学习获得; 说明书 1/22 页 7 CN 111523315 A 7 0014 基于所述待识别文本对应的至少一个节点向量及所述第二领域的分类模型, 确定 所述待识别文本的属性识别结果; 其中, 所述分类模型为基于所述第二文本样本对应所述 连通图的至少一个节点的节点向量, 以及对应的至少一个属性标签训练获得。 0015 第三方面, 本申请实施例中提供了一种数据处理装置, 包括: 0016 第一获取模块, 用于获取第一领域的第一文本样本及第二领域的第二文本样本; 0017 第二获取模块, 用于分别对所述第一文本样本及所述第二文本。

28、样本进行分词, 获 得多个属性特征; 0018 连通图生成模块, 用于以所述多个属性特征为节点, 以各个属性特征之间的关联 关系为边, 构建包括所述第一领域和所述第二领域的连通图; 0019 第一确定模块, 用于确定所述连通图中每一个节点的节点向量; 0020 模型训练模块, 用于基于所述第二文本样本命中所述连通图中的至少一个节点的 节点向量及对应的至少一个属性标签, 训练所述第二领域的分类模型, 以至少基于所述分 类模型及所述节点向量确定所述第二领域的待识别文本的识别结果。 0021 第四方面, 本申请实施例中提供了一种文本识别装置, 包括: 0022 文本获取模块, 用于获取第二领域的待识。

29、别文本; 0023 节点确定模块, 用于确定所述待识别文本命中连通图中的至少一个节点的节点向 量; 其中, 所述连通图基于第一领域的第一文本样本及所述第二领域的第二文本样本进行 分词获得的多个属性特征作为节点, 以各个属性特征之间的关联关系为边构建获得; 每个 节点的节点向量基于所述连通图学习获得; 0024 文本识别模块, 用于基于所述待识别文本对应的至少一个节点向量及所述第二领 域的分类模型, 确定所述待识别文本的属性识别结果; 其中, 所述分类模型为基于所述第二 文本样本对应所述连通图的至少一个节点的节点向量, 以及对应的至少一个属性标签训练 获得。 0025 第五方面, 本申请实施例中。

30、提供了一种计算机设备, 包括处理组件以及存储组件; 所述存储组件存储一个或多个计算机指令; 所述一个或多个计算机指令用以被所述处理组 件调用执行; 0026 所述处理组件用于: 0027 获取第一领域的第一文本样本及第二领域的第二文本样本; 0028 分别对所述第一文本样本及所述第二文本样本进行分词, 获得多个属性特征; 0029 以所述多个属性特征为节点, 以各个属性特征之间的关联关系为边, 构建包括所 述第一领域和所述第二领域的连通图, 并确定所述连通图中每一个节点的节点向量; 0030 基于所述第二文本样本命中所述连通图中的至少一个节点的节点向量及对应的 至少一个属性标签, 训练所述第二。

31、领域的分类模型, 以至少基于所述分类模型及所述节点 向量确定所述第二领域的待识别文本的识别结果。 0031 第六方面, 本申请实施例中提供了一种计算机设备, 包括处理组件以及存储组件; 所述存储组件存储一个或多个计算机指令; 所述一个或多个计算机指令用以被所述处理组 件调用执行; 0032 所述处理组件用于: 0033 获取第二领域的待识别文本; 说明书 2/22 页 8 CN 111523315 A 8 0034 确定所述待识别文本命中连通图中的至少一个节点的节点向量; 其中, 所述连通 图基于第一领域的第一文本样本及所述第二领域的第二文本样本进行分词获得的多个属 性特征作为节点, 以各个属。

32、性特征之间的关联关系为边构建获得; 每个节点的节点向量基 于所述连通图学习获得; 0035 基于所述待识别文本对应的至少一个节点向量及所述第二领域的分类模型, 确定 所述待识别文本的属性识别结果; 其中, 所述分类模型为基于所述第二文本样本对应所述 连通图的至少一个节点的节点向量, 以及对应的至少一个属性标签训练获得。 0036 与现有技术相比, 本申请可以获得包括以下技术效果: 0037 本申请实施例提供了一种数据处理方法、 一种文本识别方法、 装置及一种计算机 设备。 本申请实施例基于将第一领域的第一文本样本及第二领域的第二文本样本进行分词 获得多个属性特征作为节点并以各个属性特征之间的关。

33、联关系为边, 构建包括第一领域和 第二领域的连通图, 获得包含跨领域信息的连通图。 从而使确定的连通图中每一个节点的 节点向量都包含有大量第一领域及第二领域的有效信息。 基于所述第二文本样本命中所述 连通图中的至少一个节点的节点向量及对应的至少一个属性标签, 训练所述第二领域的分 类模型, 使得该分类模型学习获得第一领域的属性识别能力, 以至少基于所述分类模型及 所述节点向量确定所述第二领域的待识别文本的识别结果。 本申请实施例基于连通图学习 获得的节点向量, 可以将第一领域的有效信息迁移到第二领域中, 帮助提高了第二领域训 练模型的属性识别的准确性。 0038 本申请的这些方面或其他方面在以。

34、下实施例的描述中会更加简明易懂。 附图说明 0039 为了更清楚地说明本申请实施例或现有技术中的技术方案, 下面将对实施例或现 有技术描述中所需要使用的附图作一简单地介绍, 显而易见地, 下面描述中的附图是本申 请的一些实施例, 对于本领域普通技术人员来讲, 在不付出创造性劳动的前提下, 还可以根 据这些附图获得其他的附图。 0040 图1示出了根据本申请提供的一种数据处理方法一个实施例的流程示意图; 0041 图2示出了根据本申请提供的一种路径采样示意图; 0042 图3示出了根据本申请提供的一种数据处理方法又一个实施例的流程示意图; 0043 图4示出了根据本申请提供的一种文本识别方法一个。

35、实施例的流程示意图; 0044 图5示出了根据本申请提供的一种数据处理装置一个实施例的结构示意图; 0045 图6示出了根据本申请提供的一种数据处理装置又一个实施例的结构示意图; 0046 图7示出了根据本申请提供的一种文本识别装置一个实施例的结构示意图; 0047 图8示出了根据本申请提供的一种计算机设备一个实施例的结构示意图; 0048 图9示出了根据本申请提供的一种计算机设备一个实施例的结构示意图。 具体实施方式 0049 为了使本技术领域的人员更好地理解本申请方案, 下面将结合本申请实施例中的 附图, 对本申请实施例中的技术方案进行清楚、 完整地描述。 0050 在本申请的说明书和权利。

36、要求书及上述附图中的描述的一些流程中, 包含了按照 说明书 3/22 页 9 CN 111523315 A 9 特定顺序出现的多个操作, 但是应该清楚了解, 这些操作可以不按照其在本文中出现的顺 序来执行或并行执行, 操作的序号如101、 102等, 仅仅是用于区分开各个不同的操作, 序号 本身不代表任何的执行顺序。 另外, 这些流程可以包括更多或更少的操作, 并且这些操作可 以按顺序执行或并行执行。 需要说明的是, 本文中的 “第一” 、“第二” 等描述, 是用于区分不 同的消息、 设备、 模块等, 不代表先后顺序, 也不限定 “第一” 和 “第二” 是不同的类型。 0051 正如背景技术中。

37、所述, 为了提高新领域分类模型的属性识别的准确性, 需要首先 获得大量该领域的文本样本进行分类模型的训练。 但对于新领域来说, 由于用户较少, 产生 的文本数据量较少, 因此难以利用较少的文本样本训练获得准确性较好的训练模型。 0052 因此, 为了提高新领域分类模型的准确度, 发明人经过一系列研究提出了本申请 技术方案, 在本申请实施例中, 通过基于将第一领域的第一文本样本及第二领域的第二文 本样本进行分词获得多个属性特征作为节点并以各个属性特征之间的关联关系为边, 构建 包括第一领域和第二领域构建连通图, 获得包含跨领域信息的连通图。 从而使确定的连通 图中每一个节点的节点向量都包含有大量。

38、第一领域及第二领域的有效信息。 基于所述第二 文本样本命中所述连通图中的至少一个节点的节点向量及对应的至少一个属性标签, 训练 所述第二领域的分类模型, 使得该分类模型学习获得第一领域的属性识别能力, 以至少基 于所述分类模型及所述节点向量确定所述第二领域的待识别文本的识别结果。 本申请实施 例基于连通图学习获得的节点向量, 可以将第一领域的有效信息迁移到第二领域中, 帮助 提高了第二领域训练模型的属性识别的准确性。 0053 下面将结合本申请实施例中的附图, 对本申请实施例中的技术方案进行清楚、 完 整地描述, 显然, 所描述的实施例仅仅是本申请一部分实施例, 而不是全部的实施例。 基于 本。

39、申请中的实施例, 本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施 例, 都属于本申请保护的范围。 0054 图1为本申请实施例提供的一种数据处理方法一个实施例的流程示意图。 该方法 可以包括以下几个步骤: 0055 101: 获取第一领域的第一文本样本及第二领域的第二文本样本。 0056 实际应用中, 该第一领域和第二领域可以是指根据同一行业中对不同类型的商品 进行领域划分, 也可以根据不同行业进行领域划分。 例如, 服装行业中可以进一步划分为衣 服领域、 鞋帽领域、 配饰领域等。 当然, 对不同行业划分例如可以分为服装领域、 电子设备领 域、 新闻媒体领域等, 在此不做具体限定。

40、。 0057 但可以理解的是, 本申请实施实例中并未限定选取第一领域的数量, 为了保证第 一文本样本的丰富程度, 实际选取多个领域的文本样本要优于仅选择一个领域的文本样 本, 但在实际应用中需要考虑到实际数据的处理性能以及处理效率, 并不是第一领域选择 越多越好, 可根据实际需求进行选择。 0058 每一个文本样本需要通过进行人工标注属性标签获得。 即该领域商品的属性标签 体系确定的情况下, 需要人工分拣每一个文本对应的属性标签并进行人工标记获得文本样 本。 因此, 实际文本样本的获得需要耗费大量的人力和时间。 因此为了节省人工成本和时 间, 通常可以优先选择第一领域的第一文本样本为已经完成人。

41、工标注的文本样本。 因此, 仅 需要通过人工标注第二领域少量的第二文本样本即可。 0059 实际应用中, 对于第二领域为新领域时, 选择所述第一领域的第一文本样本的样 说明书 4/22 页 10 CN 111523315 A 10 本数量需要远大于所述第二领域第二文本样本的样本数量。 但实际本申请实施例技术方 案, 并不仅限于对新领域的分类模型的训练, 还可用于对第二领域为旧领域时的分类模型 的优化训练。 因此, 对于进行第二领域模型优化时, 并不限定第一领域的第一文本样本的样 本数量与第二领域的第二文本样本的样本数量之间的关系, 还可以是第一文本样本的样本 数量小于第二文本样本的样本数量, 。

42、也可以是第一文本样本的样本数量等于第二文本样本 的样本数量, 在此不做具体限定。 0060 可以理解的是, 本文中的 “第一” 、“第二” 等描述, 是用于区分不同的消息、 设备、 模 块等, 不代表先后顺序, 也不限定 “第一” 和 “第二” 是不同的类型。 0061 另外, 针对不同领域该文本样本, 例如可以是用户通过互联网上的购物网站进行 购物, 对购买商品的评论信息或快递的评论信息; 还可以是用户根据网上商品对已购买该 商品用户的提问留言信息、 或与评论用户进行沟通的留言信息等; 例如, 可以是用户进行网 络约车、 网约送餐消费等对司机或送餐人员的评论信息等。 例如, 可以是用户利用线。

43、上平台 的线下消费对线下店铺及消费体验的评论信息等。 当然, 还可以应用到新闻媒体行业、 例如 对互联网新闻媒体、 视频网站、 技术论坛等用户的留言信息和评论信息等。 0062 实际应用中, 商家为了深入挖掘用户对商品的关注点和兴趣点, 可以对商品定义 其特定的属性标签体系。 因此, 商家通过用户的评论文本进行深入分析和挖掘获得用户对 商品的关注点和兴趣点, 可以基于用户对商品的关注点及兴趣引导用户的消费行为或引导 商家确定该领域商品的研究方向及业务方向等。 0063 例如, 用户在服装领域中针对某件衣服的评论文本是 “这件衣服很时尚、 质量好、 性价比高” , 那么通过人工分析可以知道, 该。

44、评论文本对应的属性标签可以包括时尚、 质量、 性价比等至少三个属性标签。 可以认为该用户比较关注该商品的时尚、 质量、 性价这三个维 度。 因此, 在生成文本样本时, 将该条评论文本标注时尚、 质量、 性价比等至少三个属性标 签。 0064 通常相同领域的商品的属性标签体系可以通用, 例如服装领域的商品, 其属性标 签可以包括款式、 颜色、 质量、 时尚、 性价比等。 而不同领域的商品其属性标签体系之间存在 一定差异。 例如电子商品领域的属性标签可以包括质量、 设备性能、 设备功能, 外观、 时尚、 性价比等。 因此, 对于不同领域具有相同属性标签时, 对跨领域有效信息的迁移提供了可 能, 且。

45、领域越接近, 通过迁移学习获得的有效信息就会越丰富。 0065 102: 分别对所述第一文本样本及所述第二文本样本进行分词, 获得多个属性特 征。 0066 实际应用中, 为了实现跨领域信息的有效迁移, 需要将第一文本样本及第二文本 样本划分为更小的词单元, 基于各个词单元之间语义关系及关联关系等, 从而将不同领域 的文本样本进行融合。 因此, 需要将所述第一文本样本及所述第二文本样本进行分词。 通过 第一文本样本及所述第二文本样本分词获得的多个词, 进行词性标注、 句法分析等预处理 对该多个词进行筛选, 祛除其中例如 “啊” ,“呀” ,“吗” 等无实际意义的语气词或助词等, 并 将相同的词。

46、进行合并后, 分别获得第一文本样本及所述第二文本样本中的多个属性特征。 其中, 该属性特征实际为可以表征文本样本特征的词, 包括该文本样本标注的属性标签提 取的属性特征。 本申请实施例中, 可以是利用现有技术中分词方法进行分词处理获得多个 词, 还可以是其它现有的词提取技术, 在此不做具体限定。 且如果文本样本为标注属性标签 说明书 5/22 页 11 CN 111523315 A 11 的评论文本时, 对评论文本进行分词处理的同时, 由于每个属性标签同样由至少一个词构 成, 因此还需要对属性标签进行属性特征的提取。 0067 103: 以所述多个属性特征为节点, 以各个属性特征之间的关联关系。

47、为边, 构建包 括所述第一领域和所述第二领域的连通图。 0068 可以理解的是, 属性标签对应的词可能同样会出现在评论文本中, 例如, 评论文本 为 “这件衣服很时尚、 质量好、 性价比高” 时, 就会包含 “时尚” 、“质量” 、“性价比” 等至少三个 属性标签对应的词, 因此, 将该评论文本进行属性特征提取可以获得 “衣服” 、“时尚” 、“质 量” 、“性价比” 、“好” 、“高” 等词。 由于基于第一文本样本获得的多个词与基于第二文本样本 获得多个属性特征, 会存在部分相同的属性特征, 因此, 在构建连通图时, 需要将相同的词 进行合并获得多个属性特征, 将合并后获得每一个属性特征作为。

48、一个节点, 并根据各个属 性特征之间的关联关系为边, 构建连通图。 0069 实际该各个属性特征之间的关联关系可以是词之间的共现关系。 因此, 作为一种 可能的实现方式, 第一文本样本包括第一领域商品标注属性标签的评论文本; 第二文本样 本包括第二领域商品标注属性标签的评论文本。 所述将分别对所述第一文本样本及所述第 二文本样本进行分词, 获得的多个属性特征为节点, 并以各个属性特征之间的关联关系为 边, 构建包括所述第一领域和所述第二领域的连通图可以包括: 0070 分别将所述第一领域商品标注属性标签的评论文本及所述第二领域商品标注属 性标签的评论文本进行分词处理, 获得多个属性特征; 00。

49、71 将所述多个属性特征作为节点并以各个属性特征词之间的共现关系为边, 构建包 括所述第一领域及所述第二领域的连通图。 0072 本申请实施例中, 由于通过将第一领域的第一文本样本与第二领域的第二文本样 本分别进行分词处理, 提取获得的多个属性特征之间存在相同的部分, 通过连通图中的节 点将两个领域的属性特征通过边进行关联, 从而实现了跨领域有效信息的迁移。 0073 104: 确定所述连通图中每个节点的节点向量。 0074 本申请实施例中可以通过现有的图表示学习方法或图映射学习方法等, 例如采用 wors2vec、 skipgram等词向量学习模型, 确定每个节点的节点向量, 具体过程如下所。

50、述。 0075 一种可实现的实施方式, 所述确定所述连通图中每个节点的节点向量可以包括: 0076 分别以所述连通图中的每个节点为起点进行路径采样, 确定多条节点路径; 0077 基于所述多条节点路径学习所述每个节点的节点向量。 0078 实际应用中, 每种节点向量学习模型可以是基于神经网络的学习, 通过以每个节 点为起点, 遍历该连通图中的每一个节点, 并确定每一个节点对应的一条节点路径。 实际应 用中, 预先设置每个节点的初始节点向量, 基于确定的节点路径及每个节点路径的初始节 点向量进行模型训练, 从而逐步优化学习每个节点的节点向量。 其中, 初始节点向量可以是 随机设置的, 也可以按照。

展开阅读全文
内容关键字: 数据处理 方法 文本 识别 装置 计算机 设备
关于本文
本文标题:数据处理方法、文本识别方法、装置及计算机设备.pdf
链接地址:https://www.zhuanlichaxun.net/pdf/11204439.html
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1