文本识别方法和装置.pdf
《文本识别方法和装置.pdf》由会员分享,可在线阅读,更多相关《文本识别方法和装置.pdf(15页完成版)》请在专利查询网上搜索。
1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 201910099550.6 (22)申请日 2019.01.31 (71)申请人 北京明略软件系统有限公司 地址 102218 北京市昌平区东小口镇中东 路398号中煤建设集团大厦1号楼5层 (72)发明人 陈栋 (74)专利代理机构 北京安信方达知识产权代理 有限公司 11262 代理人 王康栗若木 (51)Int.Cl. G06F 17/27(2006.01) G06N 3/04(2006.01) (54)发明名称 一种文本识别方法和装置 (57)摘要 本发明公开了一种文本。
2、识别方法和装置, 能 够识别文本中指定对象的评价值。 所述方法包 括: 将每个训练用的文本与不同的指定对象的组 合各作为一条输入, 对于每条输入, 将该条输入 中的文本对于指定对象的评价值作为标签, 对预 生成的模型进行训练; 使用训练好的模型, 识别 输入的文本对于指定对象的评价值。 采用本发明 实施例, 相较于传统有监督模型, 不需要使用大 量的标注数据来确保最终的模型效果, 能够节省 人力, 实现对文本中不同实体的情感进行分析。 权利要求书2页 说明书11页 附图1页 CN 109933784 A 2019.06.25 CN 109933784 A 1.一种文本识别方法, 其特征在于, 。
3、所述方法包括: 将每个训练用的文本与不同的指定对象的组合各作为一条输入, 对于每条输入, 将该 条输入中的文本对于指定对象的评价值作为标签, 对预生成的模型进行训练; 使用训练好的模型, 识别输入的文本对于指定对象的评价值。 2.根据权利要求1所述的方法, 其特征在于, 所述对预生成的模型进行训练前还包括: 根据搜集的文本进行无监督的模型训练, 在所述无监督的模型的输出层后加上全连接层, 作为所述预生成的模型。 3.根据权利要求2所述的方法, 其特征在于, 所述根据搜集的文本进行无监督的模型训 练, 包括: 对搜集的文本进行屏蔽词预测和句子连接关系预测, 得到所述无监督的模型。 4.根据权利要。
4、求1所述的方法, 其特征在于, 所述将每个训练用的文本与不同的指定对 象的组合各作为一条输入包括: 对所述每个训练用的文本进行如下操作: 将该训练用的文本和不同的指定对象分别进行组合, 组合时将文本和指定对象用预定 字符连接; 对于每种组合结果分别进行嵌入, 所述嵌入包括字嵌入、 段落嵌入和位置嵌入; 所述字 嵌入是指将输入句子拆分成字级别, 并对句子中每一个字都做字嵌入; 所述段落嵌入是指 使用不同字母标识输入中不同的句子或字段; 所述位置嵌入是指为输入中的每一个字符标 注具体位置信息; 对于每种组合结果, 分别根据所述进行嵌入后的训练用的文本和进行嵌入后的指定对 象获取一条输入。 5.根据。
5、权利要求1所述的方法, 其特征在于, 所述使用训练好的模型, 识别输入的文本 对于指定对象的评价值, 包括: 当所述指定对象为一个时, 所述评价值为所述指定对象的分类结果; 当所述指定对象为两个或以上时, 所述评价值为所述指定对象的分类结果的表格; 其中, 所述分类结果包括积极、 未提及和消极。 6.一种文本识别装置, 包括: 存储器和处理器; 其特征在于: 所述存储器, 用于保存用于性能测试的程序; 所述处理器, 用于读取执行所述用于性能测试的程序, 执行如下操作: 将每个训练用的文本与不同的指定对象的组合各作为一条输入, 对于每条输入, 将该 条输入中的文本对于指定对象的评价值作为标签, 。
6、对预生成的模型进行训练; 使用训练好的模型, 识别输入的文本对于指定对象的评价值。 7.根据权利要求6所述的装置, 其特征在于, 所述处理器对预生成的模型进行训练前, 还执行如下操作: 根据搜集的文本进行无监督的模型训练, 在所述无监督的模型的输出层 后加上全连接层, 作为所述预生成的模型。 8.根据权利要求7所述的装置, 其特征在于, 所述根据搜集的文本进行无监督的模型训 练, 包括: 对搜集的文本进行屏蔽词预测和句子连接关系预测, 得到所述无监督的模型。 9.根据权利要求6所述的装置, 其特征在于, 所述处理器读取执行所述用于性能测试的 权利要求书 1/2 页 2 CN 109933784。
7、 A 2 程序, 还执行如下操作: 在所述将每个训练用的文本以及不同的指定对象分别作为输入之前, 对所述每个训练 用的文本进行如下操作: 将该训练用的文本和不同的指定对象分别进行组合, 组合时将文本和指定对象用预定 字符连接; 对于每种组合结果分别进行嵌入, 所述嵌入包括字嵌入、 段落嵌入和位置嵌入; 所述字嵌入是指将输入句子拆分成字级别, 并对句子中每一个字都做字嵌入; 所述段落嵌 入是指使用不同字母标识输入中不同的句子或字段; 所述位置嵌入是指为输入中的每一个 字符标注具体位置信息; 对于每种组合结果, 分别根据所述进行嵌入后的训练用的文本和进行嵌入后的指定对 象获取一条输入。 10.根据。
8、权利要求6所述的装置, 其特征在于, 所述处理器使用训练好的模型, 识别输入 的文本对于指定对象的评价值, 包括: 当所述指定对象为一个时, 所述评价值为所述指定对象的分类结果; 当所述指定对象为两个或以上时, 所述评价值为所述指定对象的分类结果的表格; 其中, 所述分类结果包括积极、 未提及和消极。 权利要求书 2/2 页 3 CN 109933784 A 3 一种文本识别方法和装置 技术领域 0001 本发明涉及计算机技术, 尤指一种文本识别方法和装置。 背景技术 0002 随着计算机软件、 硬件、 以及互联网行业的发展, 大数据已经成为生活中 密不可 分的一部分, 然而针对非结构化的数据。
9、, 例如: 社会网络舆情, 产品 意见反馈, 酒店餐饮评 论等, 各行各业的大量非结构化文本的处理都需要人 工参与阅读分析总结, 最终来确定产 品或服务或其他方面需要提高的部分, 非常耗时耗力。 0003 在传统的情感分类方法中, 我们只能大致通过文本整体的极性(积极的或 者消极 的), 来分析对象的特征(如: 产品的好坏程度), 但是细粒度的区 分对象的特征的情感是有 所欠缺的。 0004 再如, 用户反馈: 该产品操作非常简单, 用户界面设计简洁, 但是软件的 加载速度 耗时比较长。 上述反馈信息使用传统的分类方法, 仅仅区分区为积 极的或者消极, 并不能 很好的进行情感分类。 除了关注整。
10、体的情感外, 更应 该关注细节(指定对象)上的情感分 类, 例如, 操作的分类(简单or复杂), 加载速度的分类(快or慢), 用户界面的分类(简洁or 混乱)等。 0005 0006 可见, 传统的情感分类只能从句子的整体来区分情感的导向情况, 积极或 者消极 或着多层级的情感分类, 但难以针对单一句子中不同实体(指定对象) 的情感进行分析。 发明内容 0007 为了解决上述技术问题, 本发明提供了一种文本识别方法和装置, 能够 高效识别 文本中不同实体的评价值。 0008 为了达到本发明目的, 本发明提供了一种文本识别方法, 所述方法包括: 0009 将每个训练用的文本与不同的指定对象的组。
11、合各作为一条输入, 对于每 条输入, 将该条输入中的文本对于指定对象的评价值作为标签, 对预生成的 模型进行训练; 0010 使用训练好的模型, 识别输入的文本对于指定对象的评价值。 0011 一种示例性的实施例中, 所述对预生成的模型进行训练前还包括: 根据 搜集的文 本进行无监督的模型训练, 在所述无监督的模型的输出层后加上全 连接层, 作为所述预生 成的模型。 0012 一种示例性的实施例中, 所述根据搜集的文本进行无监督的模型训练, 包括: 0013 对搜集的文本进行屏蔽词预测和句子连接关系预测, 得到所述无监督的 模型。 0014 一种示例性的实施例中, 所述将每个训练用的文本与不同。
12、的指定对象的 组合各 作为一条输入包括: 0015 对所述每个训练用的文本进行如下操作: 0016 将该训练用的文本和不同的指定对象分别进行组合, 组合时将文本和指 定对象 说明书 1/11 页 4 CN 109933784 A 4 用预定字符连接; 对于每种组合结果分别进行嵌入, 所述嵌入包括字 嵌入、 段落嵌入和位 置嵌入; 所述字嵌入是指将输入句子拆分成字级别, 并 对句子中每一个字都做字嵌入; 所 述段落嵌入是指使用不同字母标识输入中 不同的句子或字段; 所述位置嵌入是指为输入 中的每一个字符标注具体位置 信息; 0017 对于每种组合结果, 分别根据所述进行嵌入后的训练用的文本和进行。
13、嵌 入后的 指定对象获取一条输入。 0018 一种示例性的实施例中, 所述使用训练好的模型, 识别输入的文本对于 指定对象 的评价值, 包括: 0019 当所述指定对象为一个时, 所述评价值为所述指定对象的分类结果; 0020 当所述指定对象为两个或以上时, 所述评价值为所述指定对象的分类结 果的表 格; 0021 其中, 所述分类结果包括积极、 未提及和消极。 0022 为了达到本发明目的, 本发明还提供了一种文本识别装置, 包括: 存储 器和处理 器; 所述存储器, 用于保存用于性能测试的程序; 0023 所述处理器, 用于读取执行所述用于性能测试的程序, 执行如下操作: 0024 将每个。
14、训练用的文本与不同的指定对象的组合各作为一条输入, 对于每 条输入, 将该条输入中的文本对于指定对象的评价值作为标签, 对预生成的 模型进行训练; 0025 使用训练好的模型, 识别输入的文本对于指定对象的评价值。 0026 一种示例性的实施例中, 所述处理器对预生成的模型进行训练前, 还执 行如下操 作: 根据搜集的文本进行无监督的模型训练, 在所述无监督的模型 的输出层后加上全连接 层, 作为所述预生成的模型。 0027 一种示例性的实施例中, 所述根据搜集的文本进行无监督的模型训练, 包括: 0028 对搜集的文本进行屏蔽词预测和句子连接关系预测, 得到所述无监督的 模型。 0029 一。
15、种示例性的实施例中, 所述处理器读取执行所述用于性能测试的程序, 还执行 如下操作: 0030 在所述将每个训练用的文本以及不同的指定对象分别作为输入之前, 对 所述每 个训练用的文本进行如下操作: 0031 将该训练用的文本和不同的指定对象分别进行组合, 组合时将文本和指 定对象 用预定字符连接; 对于每种组合结果分别进行嵌入, 所述嵌入包括字 嵌入、 段落嵌入和位 置嵌入; 所述字嵌入是指将输入句子拆分成字级别, 并 对句子中每一个字都做字嵌入; 所 述段落嵌入是指使用不同字母标识输入中 不同的句子或字段; 所述位置嵌入是指为输入 中的每一个字符标注具体位置 信息; 0032 对于每种组合。
16、结果, 分别根据所述进行嵌入后的训练用的文本和进行嵌 入后的 指定对象获取一条输入。 0033 一种示例性的实施例中, 所述处理器使用训练好的模型, 识别输入的文 本对于指 定对象的评价值, 包括: 0034 当所述指定对象为一个时, 所述评价值为所述指定对象的分类结果; 0035 当所述指定对象为两个或以上时, 所述评价值为所述指定对象的分类结 果的表 格; 说明书 2/11 页 5 CN 109933784 A 5 0036 其中, 所述分类结果包括积极、 未提及和消极。 0037 与现有技术相比, 本发明包括将每个训练用的文本与不同的指定对象的 组合各 作为一条输入, 对于每条输入, 将。
17、该条输入中的文本对于指定对象的 评价值作为标签, 对 预生成的模型进行训练; 使用训练好的模型, 识别输入的 文本对于指定对象的评价值。 相 较于传统有监督模型, 对无监督模型进行训 练, 得到有监督模型, 不需要使用大量的标注 数据来确保最终的模型效果, 能够节省人力, 实现对文本中不同实体的情感进行分析。 0038 本发明的其它特征和优点将在随后的说明书中阐述, 并且, 部分地从说 明书中变 得显而易见, 或者通过实施本发明而了解。 本发明的目的和其他优 点可通过在说明书、 权 利要求书以及附图中所特别指出的结构来实现和获得。 附图说明 0039 附图用来提供对本发明技术方案的进一步理解,。
18、 并且构成说明书的一部 分, 与本 申请的实施例一起用于解释本发明的技术方案, 并不构成对本发明 技术方案的限制。 0040 图1为本发明实施例一的文本识别方法的流程图; 0041 图2为本发明实施例二的文本识别方法文本的输入输出结构定义示意图; 0042 图3为本发明实施例三的文本识别装置的结构示意图。 具体实施方式 0043 为使本发明的目的、 技术方案和优点更加清楚明白, 下文中将结合附图 对本发明 的实施例进行详细说明。 需要说明的是, 在不冲突的情况下, 本申 请中的实施例及实施例 中的特征可以相互任意组合。 0044 在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机 。
19、系统中 执行。 并且, 虽然在流程图中示出了逻辑顺序, 但是在某些情况下, 可以以不同于此处的顺 序执行所示出或描述的步骤。 0045 实施例一 0046 本实施例提供了一种文本识别方法, 如图1所示, 该方法包括S11-S12: 0047 S11、 将每个训练用的文本与不同的指定对象的组合各作为一条输入, 对 于每条 输入, 将该条输入中的文本对于指定对象的评价值作为标签, 对预生 成的模型进行训练; 0048 S12、 使用训练好的模型, 识别输入的文本对于指定对象的评价值。 0049 本发明实施例中, 对预生成的模型进行训练, 识别输入的文本对于指定 对象的评 价值, 其中, 不同的指定。
20、对象可以对应不同实体; 相较于传统有监 督模型, 不需要使用大量 的标注数据来确保最终的模型效果, 还能够节省人 力, 实现对文本中不同实体的情感进行 分析。 0050 一种示例性的实施例中, 搜集的文本是指特定领域搜集的, 如餐饮服务。 当特定 领域为餐饮服务时, 指定对象可以为环境、 味道和服务态度等实体。 标签是对于指定对象 的评价值; 例如, 对于文本1 “这儿的环境很好” , 指 定对象环境、 味道和服务态度和文本1可 以各组成一个输入; 当其中一个指 定对象和文本1作为输入时, 标签是对于该指定对象的 评价值, 如当 “这儿 的环境很好” 和 “环境” 作为输入时, 标签为 “好”。
21、 , 对应的评价值为 “1” 。 评价值可以是 “-1、 0、 1” ; 标签(评价值)可以为可以为好、 未提及和不好, 还可以为 “-1、 0、 说明书 3/11 页 6 CN 109933784 A 6 1” , 还可以为字母或单词等。 0051 一种示例性的实施例中, 所述对预生成的模型进行训练前还包括: 根据 搜集的文 本进行无监督的模型训练, 在所述无监督的模型的输出层后加上全 连接层, 作为所述预生 成的模型。 搜集的文本是不分领域搜集的。 0052 一种示例性的实施例中, 预生成的模型指在无监督训练后得到无监督的 模型基 础上加上全连接层后生成的有监督模型, 指定对象即指定的实体。
22、词, 例如, 用于评论餐饮 行业的实体词包括: 环境、 服务态度、 味道等。 0053 一种示例性的实施例中, 所述根据搜集的文本进行无监督的模型训练, 包括: 0054 对搜集的文本进行屏蔽词预测和句子连接关系预测, 得到所述无监督的 模型。 0055 一种示例性的实施例中, 所述将每个训练用的文本与不同的指定对象的 组合各 作为一条输入, 包括: 0056 对所述每个训练用的文本进行如下操作: 0057 将该训练用的文本和不同的指定对象分别进行组合, 组合时将文本和指 定对象 用预定字符连接; 对于每种组合结果分别进行嵌入, 所述嵌入包括字 嵌入、 段落嵌入和位 置嵌入; 所述字嵌入是指将。
23、输入句子拆分成字级别, 并 对句子中每一个字都做字嵌入; 所 述段落嵌入是指使用不同字母标识输入中 不同的句子或字段; 所述位置嵌入是指为输入 中的每一个字符标注具体位置 信息; 0058 一种示例性的实施例中, 比如文本1和指定对象a、 b、 c分别组合, 并用 预定字符连 接, 得到的组合结果为: 0059 文本1a 0060 文本1b 0061 文本1c 0062 其中, 用于标识文本起始; 第一个用于标识之前数据为文本、 之后数 据为指定对象; 第二个用于标识指定对象结束。 0063 一种示例性的实施例中, 字嵌入是指将输入句子拆分成字级别, 并对句 子中每一 个字都做字嵌入(word。
24、 embedding); 段落嵌入是指使用不同字母标 识输入中不同的句子 或字段, 从而区分输入是单句还是一对或一组句子或字 段, 比如用A和B分别标识输入中的 不同句子或字段; 例如对于文本和指定 对象的组合, 可以用A标识文本中的每一个字符, 用 B标识指定对象中的每 一个字符; 位置嵌入是指为输入中的每一个字符(包括文本、 文本和 指定对 象之间的分隔符、 指定对象等)标注具体位置信息, 每一个字符对应于一个 位置, 比如但不限于用序号进行标注。 0064 对于每种组合结果, 分别根据所述进行嵌入后的训练用的文本和进行嵌 入后的 指定对象获取一条输入。 0065 一种示例性的实施例中, 。
25、所述使用训练好的模型, 识别输入的文本对于 指定对象 的评价值, 包括: 0066 当所述指定对象为一个时, 所述评价值为所述指定对象的分类结果; 0067 当所述指定对象为两个或以上时, 所述评价值为所述指定对象的分类结 果的表 格; 0068 其中, 所述分类结果包括积极、 未提及和消极。 说明书 4/11 页 7 CN 109933784 A 7 0069 本发明实施例中, 将每个训练用的文本与不同的指定对象的组合各作为 一条输 入, 对于每条输入, 将该条输入中的文本对于指定对象的评价值作为 标签, 对预生成的模 型进行训练; 使用训练好的模型, 识别输入的文本对于指 定对象的评价值。。
26、 相较于传统有 监督模型, 不需要使用大量的标注数据来确 保最终的模型效果, 能够节省人力, 实现对文 本中不同实体的情感进行分析。 0070 实施例二 0071 一种基于实体的情感分类方法中有以下缺点: 0072 (1)使用句法规则和实体及情感之间的关联来积累实体词和情感词, 但 非常依赖 于手动定义的规则, 并且严格遵循特定的词性规则。 0073 (2)将实体词抽取于实体情感分类分为两个不同的任务, 即在判断情感 时并不考 虑针对的实体的信息, 这样会导致分类不正确。 因为同一个形容词 在对不同实体或在不同 领域的不同实体使用时, 表达的情感是不一样的。 所 以, 需要考虑实体词和情感词之。
27、间的 信息交互。 0074 (3)基于深度学习的基于实体的情感分类中, 大多使用RNN模型(LSTM, GRU etc) 或者CNN模型作为模型的基础, 前者在训练速度上较后者有着很 大的劣势, 后者在序列信 息上较前者有着很大的劣势, 但两种方式都需要大 量的有监督训练文本。 0075 可见, 上述基于实体的情感分类方法需要大量人工去进行结果标注, 比 较繁琐, 效率较低。 如何高效的挖掘舆情中的关键信息, 提高监控社会态势、 提升产品质量等任务 的自动化程度, 成为了处理非结构化数据过程中必不可 少的任务。 0076 本实施例文本识别方法包括以下步骤: 0077 1、 文本(语料信息)搜集。
28、 0078 所述文本搜集包括两部分, 一是搜集无监督预训练神经网络语言模型(即 无监督 的模型)使用的文本; 二是使用上述构建的模型, 进行特定领域特定 任务的有监督训练时 (即有监督模型), 搜集有监督训练模型使用的文本。 0079 (1)无监督预训练文本的搜集 0080 通过搜集不限定领域的文本, 构建预训练文本集Dpretrain; 0081 其中, 所述领域包括以下一种或多种: 服装、 餐饮、 酒店等; 文本包括: 餐馆评论、 售后评论、 产品反馈、 微博舆情等。 0082 (2)有监督训练文本的搜集与文本构建 0083 1)搜集针对特定领域特定任务的文本, 构建领域训练集Ddomai。
29、n; 0084 文本包括: 餐馆评论、 售后评论、 产品反馈、 微博舆情等; 对特定领域 是指预进行 评价的领域。 0085 2)针对特定领域任务, 确定需要进行分析的对象数目与名称, 初始化文 本标签 Ldomain; 0086 3)对数据集中每一条文本, 标注面向指定对象的训练标签, 具体标签类 型可根据 需求设定, 例如表一所示: 0087 表一 0088 Index Source text Aspect1 Aspect2 Aspect3 Aspect4 Aspect5 . 说明书 5/11 页 8 CN 109933784 A 8 1 Text 1 1 -1 1 0 0 2 Text 。
30、2 0 0 0 -1 1 0089 其中, Aspect1Aspect5表示想要关注的实体(指定对象), Source text列 表下 的Text为不同的文本, 标签类型可以使用数字表示, 如:“1、 -1、 0” , 其中,“0” 表示未提及, “1” 表示Positive,“-1” 表示Negative; 0090 4)构建监督文本数据 0091 例如, 表二所示的为有监督文本数据: 0092 表二 0093 0094 0095 表二中的index为序号; input为输入, target为不同的文本的标签, 0096 输入对应的框架为: +文本+指定对象+; 0097 其中, Text。
31、为不同的文本; Aspect为指定对象; 用于标识文本起 始; 第一个用于标识之前数据为文本、 之后数据为指定对象; 第二个 用于标识指定对象结 束。 0098 2、 构建无监督预训练神经网络语言模型 0099 (1)模型参数设置 0100 所述模型参数设置是指对神经网络语言模型的常规设置, 如隐藏层大小、 层数 说明书 6/11 页 9 CN 109933784 A 9 等。 0101 (2)屏蔽词预训练(MLM-Masked Language Model) 0102 屏蔽词预训练即随机的掩盖一定比例的输入token, 然后只预测这些被 掩盖的 token。 例如: 0103 Input: 。
32、这家餐厅的境非常优雅, 味道也很错。 0104 Label: 环, 不 0105 当掩盖了输入中的 “环” 和 “不” 时, 所述无监督预训练神经网络语言 模型能够预 测出被掩盖的词。 0106 (3)句子关系预训练(NSP-Next Sentence Prediction) 0107 输入两个有前后关系(1isNext)或无前后关系(0notNext)的句子, 并用分隔, 对他们进行前后关系预测。 0108 Input Sentence A: 这家餐厅的环境非常优雅, 味道也很不错。 0109 Input Sentence B: 唯独服务员的态度有些爱答不理。 0110 Input: 这家餐。
33、厅的环境非常优雅, 味道也很不错。 唯独服 务员的态度 有些爱答不理。 0111 (4)得到预训练好的语言模型LM(Language Model)。 0112 3、 针对特定任务的模型改造与有监督训练 0113 (1)迁移学习 0114 迁移学习前需加载步骤2中预训练好的模型结构与参数。 0115 (2)模型结构改造 0116 1)针对特定任务在预训练好的模型基础上进行结构改造, 在预训练模型 的输出 层之后, 增加一层全连接层(输出维度为情感分类维度(如上述标签 类型包括 “1、 -1、 0” 三 个维度); 0117 2)Softmax结果输出(100表示Positive, 010表示未提。
34、及, 001表示 Negative); 0118 (3)输入输出文本结构定义 0119 输入输出文本结构定义如图2所示, 其中: 0120 1)输入: 该任务输入分为两部分, 第一部分为评论文本信息, 第二部分 为关注的 对象信息(指定对象), 并用分隔。 0121 i.Token Embedding(字嵌入): 将输入句子拆分成字级别, 并对句子中 每一个字 都做字嵌入(word embedding); 0122 ii.Segment Embedding(段落嵌入): 使用不同字母标识输入中不同的句 子或字 段, 从而区分输入是单句还是一对或一组句子或字段, 比如用A和B 分别标识输入中的不。
35、同 句子或字段; 0123 iii.Position Embedding(位置嵌入): 输入中的每一个字符(包括文本、 文本和 指定对象之间的分隔符、 指定对象等)标注具体位置信息, 比如但不 限于用序号进行标注; 0124 iv.Model input字嵌入+段落嵌入+位置嵌入; 将步骤iiii进行字嵌入、 段落 嵌入和位置嵌入后的数据进行矢量求和, 可以得到该文本对于某个指定 对象的一条输入。 0125 其中, 步骤iiii的先后顺序不做具体限定。 0126 例如, 文本为 “这家店也就交通非诚方便, 人均消费比较高” , 指定对 象为 “餐馆环 说明书 7/11 页 10 CN 1099。
36、33784 A 10 境” ; 用预定字符连接获得: 这家店也就交通非诚方便, 人均消费比较高餐馆环 境; 0127 进行字嵌入,“这家店也就交通非诚方便, 人均消费比较高 餐馆环境” 中的每个字均可用向量表示, 每个字与与之对应向量预先已 存储, 可以通过查询获 得, 即加上 “” 和两个 “” 后共计25个 向量; 0128 进行段落嵌入获得: AAAAAAAAAAAAAAAAAAAABBBB; 使用字母 A表示文本中的一个 字, 试用字母B表示指定对象的一个字; 0129 进行位置嵌入后获得: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19。
37、 20 21 22 23 24 25; 位置中的1-25与 “这家店也就交通非诚方便, 人均消费比 较高餐馆环境” 一一对应; 0130 字嵌入、 段落嵌入和位置嵌入矢量求和: 字嵌入、 段落嵌入和位置嵌入 后分别为 25个向量; 将字嵌入、 段落嵌入和位置嵌入后的各25个向量进行 矢量求和获得输入: E1 E2 E3 E4 E5 E6 E7 E8 E9 E10 E11 E12 E13 E14 E15 E16 E17 E18 E19 E20 E21 E22 E23 E24 E25。 0131 2)结果输出: 该评论在指定对象上的情感分类结果(Positive or未提及 or Negative。
38、) 0132 例如, 文本输入为 “这家店也就交通非诚方便, 人均消费比较高” , 指 定对象为 “餐 馆环境” 的结果输出: 为010, 因为该文本中未提及指定对象 “餐 馆环境” , 因此, 此文本的结 果输出为010(三位分别表示Positive、 未提及、 Negative, Positive为0, 未提及为1, Negative为0)。 0133 (4)有监督模型训练 0134 有监督模型训练是指将加载步骤(3)中的已定义好的输入输出文, 对步 骤2中的 无监督预训练神经网络语言模型进行训练。 0135 1)训练集验证集测试集划分; 0136 2)Freeze预训练语言模型的参数, 。
39、只训练网络尾端的全连接层; 0137 3)Unfreeze预训练语言模型的参数, 并针对该任务进行微调(fine-tunning); 0138 4)保存validation accuracy最高的模型以及其参数等信息。 0139 4、 使用训练好的模型, 对下游相关任务进行预测 0140 使用步骤3中有监督训练后的模型对下游相关任务进行预测, 包括: 0141 (1)关注点问答; 0142 (2)自动化细粒度情感表格生成。 0143 应用示例一 0144 本实施例对上述实施例方法进行具体描述, 以餐馆评论为例, 包括以下 步骤: 0145 1、 文本(语料信息)搜集 0146 (1)无监督预训。
40、练语料的搜集 0147 文本语料搜集(餐馆评论、 售后评论、 产品反馈、 微博舆情etc)。 0148 (2)有监督语料的搜集与文本构建 0149 1)搜集该特定任务的语料信息(餐馆评论); 0150 2)针对该任务, 设计需要分类的对象信息, 例如: (餐馆环境、 服务员 态度、 地理位 说明书 8/11 页 11 CN 109933784 A 11 置、 菜品、 价格等); 0151 3)样例数据: 0152 Text1:这家餐厅的环境非常优雅, 味道也很不错。 唯独服务员的态度有 些爱答不 理。 0153 Text2:这家店也就交通非常方便, 人均消费比较高。 0154 4)有监督数据标。
41、注, 如表3所示, 其中, 0表示未提及, 1表示情感Positive, -1表示 情感Negative; 0155 表三 0156 0157 0158 表三为根据输入的文本和关注的对象进行标注后的文本。 0159 5)文本生成 0160 表四 0161 index input target 1 TEXT1餐馆环境 1 2 TEXT1服务员 -1 3 TEXT1菜品 1 4 TEXT1价格 0 5 TEXT1地理位置 0 6 TEXT2餐馆环境 0 7 TEXT2服务员 0 8 TEXT2菜品 0 9 TEXT2价格 -1 10 TEXT2地理位置 1 0162 Input为对每条文本进行字嵌。
42、入后的结果, target为不同指定对象的评价 值。 0163 2、 无监督预训练神经网络语言模型 0164 3、 针对该任务的神经网络模型结构改造与有监督训练 0165 (1)模型改造后结构 0166 (2)输入输出文本结构定义 0167 (3)有监督模型训练 说明书 9/11 页 12 CN 109933784 A 12 0168 4、 最终可以根据上述训练好的模型, 可适用于多种不同的下游相关任务, 例如: 0169 (1)关注点问答 0170 以下文本输入1、 文本输入2、 文本输入3中的 “评论” 为训练用的文本, “关注点” 为 指定对象时输出的评价值。 0171 文本输入1 01。
43、72 评论: 这家店员工非常亲切, 而且味道很可口, 就是略贵, 关键是距离 单位只有5 分钟路程, 非常方便。 0173 关注点: 地理位置 0174 输出1: Positive(1 0 0); 0175 文本输入2 0176 评论: 这家店员工非常亲切, 而且味道很可口, 就是略贵, 关键是距离 单位只有5 分钟路程, 非常方便。 0177 关注点: 价钱 0178 输出2: Negative(0 0 1); 0179 文本输入3 0180 评论: 这家店员工非常亲切, 而且味道很可口, 就是略贵, 关键是距离 单位只有5 分钟路程, 非常方便。 0181 关注点: 可容纳人数 0182 。
44、输出3: 未提及(0 0 1); 0183 (2)自动化细粒度情感表格生成 0184 表五 0185 0186 0187 实施例三 0188 本实施例提供了一种文本识别装置, 上述方法实施例中描述也适用于本 实施例 中, 如图3所示, 该装置包括: 存储器31和处理器32; 0189 所述存储器31, 用于保存用于性能测试的程序; 0190 所述处理器32, 用于读取执行所述用于性能测试的程序, 执行如下操作: 0191 将每个训练用的文本与不同的指定对象的组合各作为一条输入, 对于每 条输入, 将该条输入中的文本对于指定对象的评价值作为标签, 对预生成的 模型进行训练; 0192 使用训练好。
45、的模型, 识别输入的文本对于指定对象的评价值。 0193 一种示例性的实施例中, 所述处理器32读取执行所述用于性能测试的程 序, 还执 说明书 10/11 页 13 CN 109933784 A 13 行如下操作: 根据搜集的文本进行无监督的模型训练, 在所述无监 督的模型的输出层后加 上全连接层, 作为所述预生成的模型。 0194 一种示例性的实施例中, 所述根据搜集的文本进行无监督的模型训练, 包括: 0195 对搜集的文本进行屏蔽词预测和句子连接关系预测, 得到所述无监督的 模型。 0196 一种示例性的实施例中, 所述处理器32读取执行所述用于性能测试的程 序, 还执 行如下操作: 。
46、0197 在所述将每个训练用的文本以及不同的指定对象分别作为输入之前, 对 所述每 个训练用的文本进行如下操作: 将该训练用的文本和不同的指定对象 分别进行组合, 组合 时将文本和指定对象用预定字符连接; 对于每种组合结 果分别进行嵌入, 所述嵌入包括字 嵌入、 段落嵌入和位置嵌入; 所述字嵌入 是指将输入句子拆分成字级别, 并对句子中每一 个字都做字嵌入; 所述段落 嵌入是指使用不同字母标识输入中不同的句子或字段; 所述位 置嵌入是指为 输入中的每一个字符标注具体位置信息; 0198 对于每种组合结果, 分别根据所述进行嵌入后的训练用的文本和进行嵌 入后的 指定对象获取一条输入。 0199 。
47、一种示例性的实施例中, 所述处理器32使用训练好的模型, 识别输入的 文本对于 指定对象的评价值, 包括: 0200 当所述指定对象为一个时, 所述评价值为所述指定对象的分类结果; 0201 当所述指定对象为两个或以上时, 所述评价值为所述指定对象的分类结 果的表 格; 0202 其中, 所述分类结果包括积极、 未提及和消极。 0203 本领域普通技术人员可以理解, 上文中所公开方法中的全部或某些步骤、 系统、 装置中的功能模块/单元可以被实施为软件、 固件、 硬件及其适当的组 合。 在硬件实施方式 中, 在以上描述中提及的功能模块/单元之间的划分不一 定对应于物理组件的划分; 例如, 一个物。
48、理组件可以具有多个功能, 或者一 个功能或步骤可以由若干物理组件合作执行。 某 些组件或所有组件可以被实 施为由处理器, 如数字信号处理器或微处理器执行的软件, 或 者被实施为硬 件, 或者被实施为集成电路, 如专用集成电路。 这样的软件可以分布在计算 机可读介质上, 计算机可读介质可以包括计算机存储介质(或非暂时性介质) 和通信介质 (或暂时性介质)。 如本领域普通技术人员公知的, 术语计算机 存储介质包括在用于存储信 息(诸如计算机可读指令、 数据结构、 程序模块 或其他数据)的任何方法或技术中实施的易 失性和非易失性、 可移除和不可 移除介质。 计算机存储介质包括但不限于RAM、 ROM、 EEPROM、 闪存或 其他存储器技术、 CD-ROM、 数字多功能盘(DVD)或其他光盘存储、 磁盒、 磁 带、 磁盘存储或其他磁存储装置、 或者可以用于存储期望的信息并且可以 被计算机访问的 任何其他的介质。 此外, 本领域普通技术人员公知的是, 通 信介质通常包含计算机可读指 令、 数据结构、 程序模块或者诸如载波或其他 传输机制之类的调制数据信号中的其他数 据, 并且可包括任何信息递送介质。 说明书 11/11 页 14 CN 109933784 A 14 图1 图2 图3 说明书附图 1/1 页 15 CN 109933784 A 15 。
- 内容关键字: 文本 识别 方法 装置
便于组装的铝单板及其成型加工装置.pdf
水藻打捞装置.pdf
无缝针织内衣机针盘弹性让位式导纱装置.pdf
自动化的农作物运输储存设备.pdf
应用于电缆井的边缘物联代理装置.pdf
机电一体化实训设备.pdf
双层折叠式无线充电设备.pdf
撬装式压裂液混合装置.pdf
适应地基不均匀沉降的支座.pdf
墙面打磨设备.pdf
适用于网条拉伸试验的夹具工装.pdf
污水处理过滤装置.pdf
干式变压器拉板.pdf
工业密集区空气粉尘检测装置.pdf
物料上下转运夹持机械手.pdf
具有收集结构的地质取样器.pdf
机车装配自动化车.pdf
燃气阀流量控制安全结构.pdf
可正反转的风扇灯.pdf
有效保护石墨鳞片特性的球磨系统.pdf
反渗透膜气密性检测装置.pdf
方便更换的除尘滤芯.pdf
棋类设备.pdf
秦皮甲素在提高水曲柳抗旱能力中的应用.pdf
针对Ceph文件的读取方法、装置、服务器及存储介质.pdf
分布式电表采集系统及采集方法.pdf
用于幼教的智慧教学管理系统及方法.pdf
具有硬质镀层的活塞环及其制备方法.pdf
对准标记及图形对准方法.pdf
输出功率的调整方法及美容仪、存储介质、电子设备.pdf
冷氢化生产系统装置及生产工艺.pdf
基于PLC和图像识别的电子围栏安全系统及其控制方法.pdf
一种婴儿用纯天然草本沐浴水.pdf
自闭症儿童辅助机器人及系统.pdf
一种桑葚枸杞保健酸奶及其制备方法.pdf
一种生物疫苗灭活装置和控制方法.pdf
一种治疗风湿性心脏病的中药制剂及其制备方法.pdf
一种用于高楼火灾时高楼间逃生及救援滑索系统.pdf
一种用于动脉穿刺引起的皮下血肿的中药制剂及制备方法.pdf
温度分布确定装置.pdf
非发酵啤酒样发泡性饮料.pdf
一种土基质挖孔压实装置.pdf
窝臼轨链式复位固定动态椎弓根螺钉系统.pdf
抗浪鱼人工孵化养殖池.pdf
一种治疗小儿疝气的中药组合物及其制备方法.pdf
枝丫剪断机及剪断方法.pdf
用于治疗骨质疏松的药物.pdf
一种具有消除色斑功效的六堡茶及其制备方法.pdf
一种火法去除土豆皮的方法.pdf
体内可定位过滤装置及其相关方法.pdf
一种小磨香油提香工艺.pdf