神经网络文本翻译模型的运行方法、装置、设备、及介质.pdf
《神经网络文本翻译模型的运行方法、装置、设备、及介质.pdf》由会员分享,可在线阅读,更多相关《神经网络文本翻译模型的运行方法、装置、设备、及介质.pdf(19页完成版)》请在专利查询网上搜索。
1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202010187586.2 (22)申请日 2020.03.17 (71)申请人 江苏省舜禹信息技术有限公司 地址 210019 江苏省南京市奥体大街69号 新城科技大厦01栋12层 (72)发明人 单杰 (74)专利代理机构 北京品源专利代理有限公司 11332 代理人 孟金喆 (51)Int.Cl. G06F 40/44(2020.01) G06F 40/58(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 神。
2、经网络文本翻译模型的运行方法、 装置、 设备、 及介质 (57)摘要 本公开实施例公开了一种神经网络文本翻 译模型的运行方法、 装置、 电子设备、 及存储介 质, 所述神经网络文本翻译模型, 包括编码器层、 注意力机制层、 以及解码器层, 方法包括: 将源语 言词汇序列输入编码器层进行处理, 以形成隐结 构向量; 控制注意力机制层生成词汇对齐表; 将 隐结构向量和翻译各个词汇时的上下文向量输 入解码器层进行处理, 以生成目标语言词汇序 列; 获取所述目标语言词汇序列中的未知文字, 根据所述词汇对齐表确定所述未知文字对应所 述源语言词汇序列中的源语言词汇; 对所述源语 言词汇进行翻译得到目标语言。
3、词汇; 将所述目标 语言词汇序列中的所述未知文字用所述目标语 言词汇替换, 能减少乃至完全消除翻译结果中的 未知文字。 权利要求书2页 说明书13页 附图3页 CN 111401078 A 2020.07.10 CN 111401078 A 1.一种神经网络文本翻译模型的运行方法, 所述神经网络文本翻译模型包括编码器 层、 注意力机制层、 以及解码器层, 其特征在于, 包括: 将源语言词汇序列输入所述编码器层进行处理, 以形成隐结构向量; 控制所述注意力机制层根据所述编码器层和所述解码器层的内部状态生成注意力信 息, 根据所述注意力信息生成未知文字替换用词汇对齐表, 其中所述词汇对齐表没有重复。
4、 词汇; 将所述隐结构向量和翻译各个词汇时的上下文向量输入所述解码器层进行处理, 以生 成目标语言词汇序列; 获取所述目标语言词汇序列中的未知文字, 根据所述词汇对齐表确定所述未知文字对 应所述源语言词汇序列中的源语言词汇; 对所述源语言词汇进行翻译得到目标语言词汇; 将所述目标语言词汇序列中的所述未知文字用所述目标语言词汇替换。 2.根据权利要求1所述的神经网络文本翻译模型的运行方法, 其特征在于, 根据所述注 意力信息生成未知文字替换用词汇对齐表包括: 根据所述注意力信息, 通过交集算法将所述源语言词汇序列与所述目标语言词汇序列 中注意力最高的词汇单元建立关联, 根据关联结果生成未知文字替。
5、换用词汇对齐表, 其中 所述词汇单元包括一个或一个以上相邻的词汇。 3.根据权利要求2所述的神经网络文本翻译模型的运行方法, 其特征在于, 在根据关联 结果生成未知文字替换用词汇对齐表之前还包括: 通过交集算法将所述源语言词汇序列与所述目标语言词汇序列中注意力最高的词汇 单元的邻接单元建立第二关联; 所述根据关联结果生成未知文字替换用词汇对齐表包括: 根据关联结果和所述第二关联结果生成未知文字替换用词汇对齐表。 4.根据权利要求3所述的神经网络文本翻译模型的运行方法, 其特征在于, 在根据关联 结果和所述第二关联结果生成未知文字替换用词汇对齐表之后还包括: 基于所述词汇对齐表, 确定所述目标语。
6、言词汇序列中没有对应关系的第一目标语言词 汇, 根据所述注意力信息, 确定注意力最高的单元与所述第一目标语言词汇建立第三关联; 基于所述词汇对齐表, 确定所述源语言词汇序列中没有对应关系的第一源语言词汇, 根据所述注意力信息, 确定注意力最高的单元与所述第一源语言词汇建立第四关联; 根据关联结果、 所述第二关联结果、 所述第三关联结果、 以及所述第四关联结果生成未 知文字替换用词汇对齐表。 5.根据权利要求1所述的神经网络文本翻译模型的运行方法, 其特征在于, 控制所述注 意力机制层根据所述编码器层和所述解码器层的内部状态生成注意力信息, 根据所述注意 力信息生成未知文字替换用词汇对齐表包括:。
7、 控制所述注意力机制层根据所述编码器层和所述解码器层的内部状态, 确定翻译所述 源语言词汇序列中各个词汇时的上下文向量, 以及根据翻译各个词汇时的上下文向量生成 未知文字替换用词汇对齐表。 6.根据权利要求5所述的神经网络文本翻译模型的运行方法, 其特征在于, 控制所述注 意力机制层根据所述编码器层和所述解码器层的内部状态, 确定翻译所述源语言词汇序列 权利要求书 1/2 页 2 CN 111401078 A 2 中各个词汇时的上下文向量, 以及根据翻译各个词汇时的上下文向量生成未知文字替换用 词汇对齐表包括: 在翻译各个词汇时, 确定当前翻译的目标语言词汇序列的序号, 获取翻译该词汇时应 注。
8、意的位置, 对所述源语言词汇序列中各词汇计算注意力概率, 将所述源语言词汇序列中 各词汇对应的分布表示向量乘以该词汇的注意力概率之后, 确定最大值对应的词汇在所述 源语言词汇序列的序号; 根据翻译各个词汇时, 将当前翻译的目标语言词汇序列的序号, 和所确定的最大值对 应的词汇在所述源语言词汇序列的序号建立关联, 根据关联结果生成未知文字替换用词汇 对齐表。 7.根据权利要求1所述的神经网络文本翻译模型的运行方法, 其特征在于, 对所述源语 言词汇进行翻译得到目标语言词汇包括: 采用IBM对齐模型对所述源语言词汇进行翻译得到目标语言词汇; 或者 通过外部词典对所述源语言词汇进行翻译得到目标语言词。
9、汇。 8.一种神经网络文本翻译模型的运行装置, 所述神经网络文本翻译模型包括编码器 层、 注意力机制层、 以及解码器层, 其特征在于, 包括: 编码单元, 用于将源语言词汇序列输入所述编码器层进行处理, 以形成隐结构向量; 注意力控制单元, 用于控制所述注意力机制层根据所述编码器层和所述解码器层的内 部状态生成注意力信息, 根据所述注意力信息生成未知文字替换用词汇对齐表, 其中所述 词汇对齐表没有重复词汇; 解码单元, 将所述隐结构向量和翻译各个词汇时的上下文向量输入所述解码器层进行 处理, 以生成目标语言词汇序列; 未知文字定位单元, 用于获取所述目标语言词汇序列中的未知文字, 根据所述词汇。
10、对 齐表确定所述未知文字对应所述源语言词汇序列中的源语言词汇; 未知文字翻译单元, 用于对所述源语言词汇进行翻译得到目标语言词汇; 词汇替换单元, 用于将所述目标语言词汇序列中的所述未知文字用所述目标语言词汇 替换。 9.一种电子设备, 其特征在于, 包括: 一个或多个处理器; 存储器, 用于存储一个或多个程序; 当所述一个或多个程序被所述一个或多个处理器执行, 使得所述一个或多个处理器实 现如权利要求1-7中任一项所述方法的指令。 10.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 该计算机程序被 处理器执行时实现如权利要求1-7任一项所述方法的步骤。 权利要求书 2/2 。
11、页 3 CN 111401078 A 3 神经网络文本翻译模型的运行方法、 装置、 设备、 及介质 技术领域 0001 本公开实施例涉及自然语言处理技术领域, 具体涉及一种神经网络文本翻译模型 的运行方法、 装置、 电子设备、 及存储介质。 背景技术 0002 传统的SMT(统计机器翻译, Statistical Machine Translation)是从平行语料库 获得翻译规则的概率, 根据该概率将源语言的词汇或短语转换为目标语言的词汇或短语。 但是, SMT方法没有反映出距离较远短语间的联系, 因此译文常欠缺通顺性。 0003 与SMT相比, NMT(神经网络机器翻译, Neural M。
12、achine Translation)基于数值向 量将源语言表示为分散表示, 使用神经网络将其加以转换, 根据获得的数值向量求出目标 语言的词汇串, 从而进行翻译, 其通过利用RNN(循环神经网络, Recurrent Neural Network)和LSTM(长短记忆网络, Long Short Term Memory)或GRU(门控循环单元, Gated Recurrent Unit), 在考虑较长区间内词汇或短语彼此的联系的基础上进行翻译, 因此译文 通顺性显著提升。 但是, 翻译得到的译文还常存在未知词汇(unknown words)或无意义词汇 (nonsense words)的问题。
13、。 发明内容 0004 有鉴于此, 本公开实施例提供一种神经网络文本翻译模型的运行方法、 装置、 电子 设备、 及存储介质, 以减少翻译结果中的未知文字。 0005 本公开实施例的其他特性和优点将通过下面的详细描述变得显然, 或部分地通过 本公开实施例的实践而习得。 0006 第一方面, 本公开实施例提供了一种神经网络文本翻译模型的运行方法, 所述神 经网络文本翻译模型包括编码器层、 注意力机制层、 以及解码器层, 包括: 将源语言词汇序 列输入所述编码器层进行处理, 以形成隐结构向量; 控制所述注意力机制层根据所述编码 器层和所述解码器层的内部状态生成注意力信息, 根据所述注意力信息生成未知。
14、文字替换 用词汇对齐表, 其中所述词汇对齐表没有重复词汇; 将所述隐结构向量和翻译各个词汇时 的上下文向量输入所述解码器层进行处理, 以生成目标语言词汇序列; 获取所述目标语言 词汇序列中的未知文字, 根据所述词汇对齐表确定所述未知文字对应所述源语言词汇序列 中的源语言词汇; 对所述源语言词汇进行翻译得到目标语言词汇; 将所述目标语言词汇序 列中的所述未知文字用所述目标语言词汇替换。 0007 于一实施例中, 根据所述注意力信息生成未知文字替换用词汇对齐表包括: 0008 根据所述注意力信息, 通过交集算法将所述源语言词汇序列与所述目标语言词汇 序列中注意力最高的词汇单元建立关联, 根据关联结。
15、果生成未知文字替换用词汇对齐表, 其中所述词汇单元包括一个或一个以上相邻的词汇。 0009 于一实施例中, 在根据关联结果生成未知文字替换用词汇对齐表之前还包括: 0010 通过交集算法将所述源语言词汇序列与所述目标语言词汇序列中注意力最高的 说明书 1/13 页 4 CN 111401078 A 4 词汇单元的邻接单元建立第二关联; 0011 所述根据关联结果生成未知文字替换用词汇对齐表包括: 0012 根据关联结果和所述第二关联结果生成未知文字替换用词汇对齐表。 0013 于一实施例中, 在根据关联结果和所述第二关联结果生成未知文字替换用词汇对 齐表之后还包括: 基于所述词汇对齐表, 确定。
16、所述目标语言词汇序列中没有对应关系的第 一目标语言词汇, 根据所述注意力信息, 确定注意力最高的单元与所述第一目标语言词汇 建立第三关联; 基于所述词汇对齐表, 确定所述源语言词汇序列中没有对应关系的第一源 语言词汇, 根据所述注意力信息, 确定注意力最高的单元与所述第一源语言词汇建立第四 关联; 根据关联结果、 所述第二关联结果、 所述第三关联结果、 以及所述第四关联结果生成 未知文字替换用词汇对齐表。 0014 于一实施例中, 控制所述注意力机制层根据所述编码器层和所述解码器层的内部 状态生成注意力信息, 根据所述注意力信息生成未知文字替换用词汇对齐表包括: 控制所 述注意力机制层根据所述。
17、编码器层和所述解码器层的内部状态, 确定翻译所述源语言词汇 序列中各个词汇时的上下文向量, 以及根据翻译各个词汇时的上下文向量生成未知文字替 换用词汇对齐表。 0015 于一实施例中, 控制所述注意力机制层根据所述编码器层和所述解码器层的内部 状态, 确定翻译所述源语言词汇序列中各个词汇时的上下文向量, 以及根据翻译各个词汇 时的上下文向量生成未知文字替换用词汇对齐表包括: 在翻译各个词汇时, 确定当前翻译 的目标语言词汇序列的序号, 获取翻译该词汇时应注意的位置, 对所述源语言词汇序列中 各词汇计算注意力概率, 将所述源语言词汇序列中各词汇对应的分布表示向量乘以该词汇 的注意力概率之后, 确。
18、定最大值对应的词汇在所述源语言词汇序列的序号; 根据翻译各个 词汇时, 将当前翻译的目标语言词汇序列的序号, 和所确定的最大值对应的词汇在所述源 语言词汇序列的序号建立关联, 根据关联结果生成未知文字替换用词汇对齐表。 0016 于一实施例中, 对所述源语言词汇进行翻译得到目标语言词汇包括: 采用IBM对齐 模型对所述源语言词汇进行翻译得到目标语言词汇; 或者通过外部词典对所述源语言词汇 进行翻译得到目标语言词汇。 0017 第二方面, 本公开实施例还提供了一种神经网络文本翻译模型的运行装置, 所述 神经网络文本翻译模型包括编码器层、 注意力机制层、 以及解码器层, 包括: 编码单元, 用于 。
19、将源语言词汇序列输入所述编码器层进行处理, 以形成隐结构向量; 注意力控制单元, 用于 控制所述注意力机制层根据所述编码器层和所述解码器层的内部状态生成注意力信息, 根 据所述注意力信息生成未知文字替换用词汇对齐表, 其中所述词汇对齐表没有重复词汇; 解码单元, 将所述隐结构向量和翻译各个词汇时的上下文向量输入所述解码器层进行处 理, 以生成目标语言词汇序列; 未知文字定位单元, 用于获取所述目标语言词汇序列中的未 知文字, 根据所述词汇对齐表确定所述未知文字对应所述源语言词汇序列中的源语言词 汇; 未知文字翻译单元, 用于对所述源语言词汇进行翻译得到目标语言词汇; 词汇替换单 元, 用于将所。
20、述目标语言词汇序列中的所述未知文字用所述目标语言词汇替换。 0018 于一实施例中, 所述注意力控制单元用于: 根据所述注意力信息, 通过交集算法将 所述源语言词汇序列与所述目标语言词汇序列中注意力最高的词汇单元建立关联, 根据关 联结果生成未知文字替换用词汇对齐表, 其中所述词汇单元包括一个或一个以上相邻的词 说明书 2/13 页 5 CN 111401078 A 5 汇。 0019 于一实施例中, 所述注意力控制单元用于, 在根据关联结果生成未知文字替换用 词汇对齐表之前: 通过交集算法将所述源语言词汇序列与所述目标语言词汇序列中注意力 最高的词汇单元的邻接单元建立第二关联; 根据关联结果。
21、和所述第二关联结果生成未知文 字替换用词汇对齐表。 0020 于一实施例中, 所述注意力控制单元用于: 在根据关联结果和所述第二关联结果 生成未知文字替换用词汇对齐表之后, 基于所述词汇对齐表, 确定所述目标语言词汇序列 中没有对应关系的第一目标语言词汇, 根据所述注意力信息, 确定注意力最高的单元与所 述第一目标语言词汇建立第三关联; 基于所述词汇对齐表, 确定所述源语言词汇序列中没 有对应关系的第一源语言词汇, 根据所述注意力信息, 确定注意力最高的单元与所述第一 源语言词汇建立第四关联; 根据关联结果、 所述第二关联结果、 所述第三关联结果、 以及所 述第四关联结果生成未知文字替换用词汇。
22、对齐表。 0021 于一实施例中, 所述注意力控制单元用于: 控制所述注意力机制层根据所述编码 器层和所述解码器层的内部状态, 确定翻译所述源语言词汇序列中各个词汇时的上下文向 量, 以及根据翻译各个词汇时的上下文向量生成未知文字替换用词汇对齐表。 0022 于一实施例中, 所述注意力控制单元用于: 在翻译各个词汇时, 确定当前翻译的目 标语言词汇序列的序号, 获取翻译该词汇时应注意的位置, 对所述源语言词汇序列中各词 汇计算注意力概率, 将所述源语言词汇序列中各词汇对应的分布表示向量乘以该词汇的注 意力概率之后, 确定最大值对应的词汇在所述源语言词汇序列的序号; 根据翻译各个词汇 时, 将当。
23、前翻译的目标语言词汇序列的序号, 和所确定的最大值对应的词汇在所述源语言 词汇序列的序号建立关联, 根据关联结果生成未知文字替换用词汇对齐表。 0023 于一实施例中, 所述未知文字翻译单元用于: 采用IBM对齐模型对所述源语言词汇 进行翻译得到目标语言词汇; 或者通过外部词典对所述源语言词汇进行翻译得到目标语言 词汇。 0024 第三方面, 本公开实施例还提供了一种电子设备, 包括: 一个或多个处理器; 存储 器, 用于存储一个或多个程序; 当所述一个或多个程序被所述一个或多个处理器执行, 使得 所述一个或多个处理器实现如第一方面中任一项所述方法的指令。 0025 第四方面, 本公开实施例还。
24、提供了一种计算机可读存储介质, 其上存储有计算机 程序, 该计算机程序被处理器执行时实现如第一方面中任一项所述方法的步骤。 0026 本公开实施例提出的技术方案的有益技术效果是: 0027 本公开实施例通过注意力机制生成对齐词汇表, 找出目标语言词汇序列中的未知 文字, 确定该未知文字所对应源语言词汇序列中的词汇, 对该词汇进行翻译, 再利用翻译的 词汇替换未知文字, 从而消除未知文字。 具体而言, 根据神经网络机器翻译生成的注意力, 制作没有重复词汇的词汇对齐表, 判断输出结果中的未知文字和源语言词汇序列哪个词汇 对应, 再将未知文字替换成适当的词汇, 能减少乃至完全消除翻译结果中的未知文字。
25、。 附图说明 0028 为了更清楚地说明本公开实施例中的技术方案, 下面将对本公开实施例描述中所 需要使用的附图作简单的介绍, 显而易见地, 下面描述中的附图仅仅是本公开实施例中的 说明书 3/13 页 6 CN 111401078 A 6 一部分实施例, 对于本领域普通技术人员来讲, 在不付出创造性劳动的前提下, 还可以根据 本公开实施例的内容和这些附图获得其他的附图。 0029 图1是本公开实施例提供的一种神经网络文本翻译模型的运行方法的流程示意 图; 0030 图2是本公开实施例提供的另一种神经网络文本翻译模型的运行方法的流程示意 图; 0031 图3是本公开实施例提供的一种神经网络文本。
26、翻译模型的运行装置的结构示意 图; 0032 图4示出了适于用来实现本公开实施例的电子设备的结构示意图。 具体实施方式 0033 为使本公开实施例解决的技术问题、 采用的技术方案和达到的技术效果更加清 楚, 下面将结合附图对本公开实施例的技术方案作进一步的详细描述, 显然, 所描述的实施 例仅仅是本公开实施例中的一部分实施例, 而不是全部的实施例。 基于本公开实施例中的 实施例, 本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例, 都属于 本公开实施例保护的范围。 0034 需要说明的是, 本公开实施例中术语 “系统” 和 “网络” 在本文中常被可互换使用。 本公开实施例中提到的。
27、 “和/或” 是指包括一个或更多个相关所列项目的任何和所有组合。 本公开的说明书和权利要求书及附图中的术语 “第一” 、“第二” 等是用于区别不同对象, 而 不是用于限定特定顺序。 0035 还需要说明是, 本公开实施例中下述各个实施例可以单独执行, 各个实施例之间 也可以相互结合执行, 本公开实施例对此不作具体限制。 0036 本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性 的目的, 而并不是用于对这些消息或信息的范围进行限制。 0037 下面结合附图并通过具体实施方式来进一步说明本公开实施例的技术方案。 0038 图1示出了本公开实施例提供的一种神经网络文本翻译模型的。
28、运行方法的流程示 意图, 本实施例可适用于通过神经网络机器翻译模型进行文本翻译的情况, 该方法可以由 配置于电子设备中的神经网络文本翻译模型的运行装置来执行, 所述神经网络文本翻译模 型包括编码器层、 注意力机制层、 以及解码器层, 如图1所示, 本实施例所述的神经网络文本 翻译模型的运行方法包括: 0039 在步骤S110中, 将源语言词汇序列输入所述编码器层进行处理, 以形成隐结构向 量 。 本 步 骤可 通 过 多 种方式 实 现 , 例如可 通 过 编码器 将各 词汇转 换 (词嵌 入 , WordEmbedding)为分布表示(distributed representation)向。
29、量, 其中包含语义。 利用前 向传播(forward)RNN和反向传播(backward)循环神经网络RNN, 将所获得的分布表示向量 组合生成隐结构向量。 0040 具体而言, 将源语言词汇序列f(f1,f2,fJ)及其分布表示(独热码, One-Hot Encoding)x(x1,x2,xJ)、 目标语言词汇序列e(f1,f2,fI)及其分布表示y(y1, y2,yI)进行学习。 0041 根据hjh(xj,hj-1)算出第j个源语言词汇的上下文向量hj; 说明书 4/13 页 7 CN 111401078 A 7 0042 在步骤S120中, 控制所述注意力机制层根据所述编码器层的和所述。
30、解码器层的内 部状态生成注意力信息, 根据所述注意力信息生成未知文字替换用词汇对齐表, 其中所述 词汇对齐表没有重复词汇。 0043具体而言, 根据eija(si-1,hj)算出注意力概率 ij, 该注意力概率 表示xi与yi相关联的概率; 0044根据算出第i个目标语言词汇的上下文向量ci; 0045 根据sif(si-1,yi-1,ci)算出第i个目标语言词汇的隐结构向量si; 0046 在步骤S130中, 将所述隐结构向量和翻译各个词汇时的上下文向量输入所述解码 器层进行处理, 以生成目标语言词汇序列。 0047 具体而言, 根据p(ei|e1,e2,ei-1,x)g(yi-1,si,c。
31、i)算出ei的生成概率; 0048根据算出短语翻译概率p(e|f)。 0049 在步骤S140中, 获取所述目标语言词汇序列中的未知文字, 根据所述词汇对齐表 确定所述未知文字对应所述源语言词汇序列中的源语言词汇。 0050 在步骤S150中, 对所述源语言词汇进行翻译得到目标语言词汇。 例如采用IBM对齐 模型对所述源语言词汇进行翻译得到目标语言词汇。 又如, 通过外部词典对所述源语言词 汇进行翻译得到目标语言词汇。 0051 在步骤S160中, 将所述目标语言词汇序列中的所述未知文字用所述目标语言词汇 替换。 0052 上述相关函数a()、 f()、 g()、 h()是利用非线性函数tan。
32、h将输入变量的加权线性 和进行转化的函数。 例如将输入变量设为v1,v2,vn, 将各变量的权重设为w1,w2,wn, 将截距设为c,a(v1,v2,vn)tanh(iwivi+c)。 0053 于一实施例中, 根据所述注意力信息生成未知文字替换用词汇对齐表可采用多种 方法, 例如可根据所述注意力信息, 通过交集算法将所述源语言词汇序列与所述目标语言 词汇序列中注意力最高的词汇单元建立关联, 根据关联结果生成未知文字替换用词汇对齐 表, 其中所述词汇单元包括一个或一个以上相邻的词汇。 0054 进一步地, 在根据关联结果生成未知文字替换用词汇对齐表之前, 还可通过交集 算法将所述源语言词汇序列。
33、与所述目标语言词汇序列中注意力最高的词汇单元的邻接单 元建立第二关联。 以根据关联结果和所述第二关联结果生成未知文字替换用词汇对齐表。 0055 更进一步地, 在根据关联结果和所述第二关联结果生成未知文字替换用词汇对齐 表之后, 还可基于所述词汇对齐表, 确定所述目标语言词汇序列中没有对应关系的第一目 标语言词汇, 根据所述注意力信息, 确定注意力最高的单元与所述第一目标语言词汇建立 第三关联; 以及基于所述词汇对齐表, 确定所述源语言词汇序列中没有对应关系的第一源 语言词汇, 根据所述注意力信息, 确定注意力最高的单元与所述第一源语言词汇建立第四 关联; 以根据关联结果、 所述第二关联结果、。
34、 所述第三关联结果、 以及所述第四关联结果生 成未知文字替换用词汇对齐表。 说明书 5/13 页 8 CN 111401078 A 8 0056 于一实施例中, 控制所述注意力机制层根据所述编码器层和所述解码器层的内部 状态生成注意力信息, 根据所述注意力信息生成未知文字替换用词汇对齐表, 可控制所述 注意力机制层根据所述编码器层和所述解码器层的内部状态, 确定翻译所述源语言词汇序 列中各个词汇时的上下文向量, 以及根据翻译各个词汇时的上下文向量生成未知文字替换 用词汇对齐表。 0057 其中, 控制所述注意力机制层根据所述编码器层和所述解码器层的内部状态, 确 定翻译所述源语言词汇序列中各个。
35、词汇时的上下文向量, 以及根据翻译各个词汇时的上下 文向量生成未知文字替换用词汇对齐表可执行如下操作: 0058 在翻译各个词汇时, 确定当前翻译的目标语言词汇序列的序号, 获取翻译该词汇 时应注意的位置, 对所述源语言词汇序列中各词汇计算注意力概率, 将所述源语言词汇序 列中各词汇对应的分布表示向量乘以该词汇的注意力概率之后, 确定最大值对应的词汇在 所述源语言词汇序列的序号; 根据翻译各个词汇时, 将当前翻译的目标语言词汇序列的序 号, 和所确定的最大值对应的词汇在所述源语言词汇序列的序号建立关联, 根据关联结果 生成未知文字替换用词汇对齐表。 0059 本实施例通过注意力机制生成对齐词汇。
36、表, 找出目标语言词汇序列中的未知文 字, 确定该未知文字所对应源语言词汇序列中的词汇, 对该词汇进行翻译, 再利用翻译的词 汇替换未知文字, 从而减少翻译结果中的未知文字。 0060 图2示出了本公开实施例提供的另一种神经网络文本翻译模型的运行方法的流程 示意图, 本实施例以前述实施例为基础, 进行了改进优化。 如图2所示, 本实施例所述的神经 网络文本翻译模型的运行方法包括: 0061 在步骤S210中, 基于注意力机制制作词汇对齐表。 0062 本步骤可通过交集算法(intersection; 参见Koehn et al.2003)、 修正算法1及修 正算法2制作未知文字替换用词汇对齐表。
37、。 0063 如下所述, 第i个目标语言词汇及第j个源语言词汇所对应的注意力概率(式中以 aij表示)及词汇对齐表中的要素构成一个单元。 0064 首先通过交集算法, 针对源语言及目标语言, 将注意力值最高的单元建立关联。 根 据交集算法, 各单元的值bij可根据下式计算: 0065 0066 其中, bij为注意力值; argimax ai j为最大值参数函数(arguments of the maxima), 用以计算注意力值最高时的i及j, 从而确定该等值所对应的单元。 0067 采用修正算法1(算法1), 提取通过交集算法获得的bij为1的单元的邻接单元作为 备选单元, 这些备选单元的。
38、初始值均为0。 当某备选单元的注意力值大于其他源语言对应的 注意力值时, 将该单元的值设为1; 另外, 当某备选单元的注意力值大于其他目标语言对应 的注意力值时, 将该单元的值设为1。 该算法是考虑到通常源语言的一个词汇对应目标语言 的多个词汇时, 所述多个词汇通常在目标语言中是邻接的, 因此可以将已经列入词汇对齐 表中的词汇的邻接词汇也列入表中。 通过该修正算法1获得的词汇对齐表bij是使用某种函 数通过如下方式计算, 该函数能够求出bpq的上下左右的邻近单元中值取1的单元的数量。 修 说明书 6/13 页 9 CN 111401078 A 9 正算法1的公式如下: 0068 0069 上述。
39、公式中: 0070 neighbor(bpq)b(p-1)q+b(p+1)q+bp(q-1)+bp(q+1), 该函数是计算为bij为1的单元的四 个相邻单元中值为1的单元的数量; argmax函数同上文所述。 0071 进一步地, 采用进一步的修正算法(算法2), 基于词汇对齐表bij,对于没有对应的 目标语言词汇的源语言词汇, 取注意力值最高的单元建立对应关系; 反之, 对于没有对应的 源语言词汇的目标语言词汇, 同样地取注意力值最高的单元建立对应关系。 获得的词汇对 齐表bij可通过修正算法2计算, 公式如下: 0072 0073其中I及J为没有对应的目标语言词汇的源 语言词汇的集合及没。
40、有对应的源语言词汇的目标语言词汇的集合; argmax函数同上文所 述。 0074 在修正算法2中, 目标语言词汇序列中的各词汇对应于至少一个源语言词汇序列 中的词汇。 换言之, 通过修正算法2, 目标语言词汇序列中的所有未知文字都能对应地被分 配至源语言词汇序列中的词汇。 0075 在步骤S210中, 依据该词汇对齐表确定与未知文字对应的词汇, 并将该未知文字 替换为该词汇。 0076 本步骤使用所制作的词汇对齐表, 将与目标语言词汇序列中的未知文字ei对应的 源语言词汇序列中的词汇行fi设为fifj|bij1, 确定翻译词汇行并将ei替换为对应的 词汇。 翻译词汇行的确定方法可采用IBM对。
41、齐模型或导入外部词典等方式。 0077 对平行语料库使用IBM对齐模型(参见Hashimoto et al .2016; Arthur et al.2016), 获得词汇翻译概率p(e|f), 从中选出源语言词汇序列各词汇中概率最高的词汇 ehighestargemaxp(e|fi)。 0078 或者, 采用ChangePhrase(参见Koehn et al.2003), 对平行语料库使用统计机器 翻译制作短语表, 参考该短语表, 由语料库算出短语翻译概率P并选择短 语翻译概率最高的短语ehighestargemaxP(e|fi), c(f)为语料库中的短语f的出现次数, c (e, f)为。
42、短语e和f同时出现的次数。 0079 或者, 也可以通过检索外部导入的词典来选择翻译词汇。 0080 本公开实施例在使用修正算法2制作词汇对齐表的情况下, 能够完全消除未知文 字, 同时BLEU值(参见Papineni,Roukos,Ward,and Zhu 2002)和METEOR值(Banerjee and Lavie 2005)也有所提高。 进一步地, 通过采用本发明的方法, 并且导入更加专业的外部词 典, 能够进一步提高翻译准确度, 对于对术语翻译要求更高的科技文献、 专利文献等能够实 现更好的翻译效果。 另外, 在语言学意义上是利用邻近词汇间存在对应关系这一特性, 根据 说明书 7/。
43、13 页 10 CN 111401078 A 10 注意力机制推算对齐词汇表。 然后, 利用生成的对齐词汇表对于未知文字加以替换, 同时发 挥神经网络机器翻译的注意力机制的优点和语言学特性, 从而解决未知文字问题。 0081 本公开实施根据神经网络机器翻译生成的注意力, 制作没有重复词汇的词汇对齐 表, 判断输出结果中的未知文字和源语言词汇序列哪个词汇对应, 再将未知文字替换成适 当的词汇, 能减少乃至完全消除翻译结果中的未知文字。 0082 具体地, 在使用修正算法2制作单词对齐表的情况下, 能够完全消除未知文字, 同 时BLEU值和METEOR值也有所提高。 进一步地, 通过采用本发明的方。
44、法, 并且导入更加专业的 外部词典, 能够进一步提高翻译准确度, 对于对术语翻译要求更高的科技文献、 专利文献等 能够实现更好的翻译效果。 0083 另外, 本发明在语言学意义上是利用邻近单词间存在对应关系这一特性, 根据注 意力机制推算对齐单词表。 然后, 利用生成的对齐单词表对于未知文字加以替换, 同时发挥 神经网络机器翻译的注意力机制的优点和语言学特性, 从而解决未知文字问题。 0084 神经网络机器翻译所采用的语料库为NIST及WMT, 亦可采用其他类型的语料库。 0085 以下内容为根据本公开实施例所述的方法, 具体采用的算法对应的效果检验方 法。 于效果检验环境, 平行语料库使用N。
45、IST及WMT, 学习模型及解码器使用nematus, 隐藏层 数1000层, 单词向量维数512, RNN使用GRU, 学习算法Adam, 学习率0.0001, 批大小(Batch_ Size)40, 不添加dropout, 在该环境下进行学习。 使用Stanford Parser进行英文句法分析, 使用KyTea进行汉语的指示标记化, IBM模型具体采用GIZA+, 使用mosesdecoder提取短语 表, 使用EDict作为替换未知语言所使用的外部词典。 0086 利用NIST, 训练文本单词数量为1万至5万, 据此计算每次增加1万个单词时翻译结 果的BLEU值。 0087 各语料库的。
46、文本量及单词量如表1所示 0088 0089 表1 0090 每次增加1万个单词时翻译结果的BLEU值如表2所示。 0091 单词量1万2万3万4万5万 BLEU23.0224.1124.4524.8924.73 0092 表2 0093 根据结果, 在检验中将单词量设为4万。 0094 关于测评指标, 通常翻译准确度的测评采用BLEU(Bilingual Evaluation Understudy, 双语评估替换分数)(Papineni,Roukos,Ward,and Zhu 2002)及METEOR (METEOR标准: Language specific translation eval。
47、uation for any target language) (Banerjeeand Lavie 2005)。 说明书 8/13 页 11 CN 111401078 A 11 0095 检验结果如下: 0096 Baseline是在神经网络机器翻译系统nematus的预设值下进行学习获得的模型, BPE及PosUNK分别采用Sennrich et al .2016及Luong et al .2015所提出的算法, Intersection为交集算法, Dict为导入的外部词典韦氏辞典(Webster Dictionary), 也可 采用其他常用词典, 在单词量设为4万时, 结果见下表: 0。
48、097 NIST语料库的翻译准确度结果如表3所示。 0098 0099 0100 表3 0101 WMT语料库的翻译准确度结果如表4所示: 0102 0103 表4 0104 根据上述表4的结果可知, 采用IBM算法时翻译结果优于采用ChangePhrase算法。 实验结果表明, 采用ChangePhrase时会连续出现多个未知文字而形成短语, 如果该短语无 法翻译, 则最终会导致多个未知文字无法翻译。 而IBM算法是逐个替换单词, 因此只要语料 库中有该单词就能够进行替换。 说明书 9/13 页 12 CN 111401078 A 12 0105 同时使用gdfa-f和IBM时, 能够将全部。
49、未知文字加以替换, 并且其BLEU值也不逊于 现有的intersection法。 0106 现有的BPE法(Sennrich et al.2016)和PosUNK法(Luong et al.2015)虽然能够 减少未知文字, 但翻译质量也随之下降。 0107 综上所述, 本公开实施例的神经网络机器翻译方法是根据神经网络机器翻译生成 的注意力, 制作没有重复单词的单词对齐表, 判断输出结果中的未知文字和源语言词汇序 列哪个单词对应, 再使用SMT模型将未知文字替换成适当的单词。 使用gdfa-f制作单词对齐 表时, 能够完全消除未知文字, 同时BLEU值和METEOR值也有所提高。 0108 采。
50、用本公开实施例的方法, 通过导入更加专业的外部词典, 能够进一步提高翻译 准确度, 对于对术语翻译要求更高的科技文献、 专利文献等能够产生更积极的意义。 0109 作为上述各图所示方法的实现, 本申请提供了一种神经网络文本翻译模型的运行 装置的一个实施例,图3示出了本实施例提供的一种神经网络文本翻译模型的运行装置的 结构示意图, 该装置实施例与图1和图2所示的方法实施例相对应, 该装置具体可以应用于 各种电子设备中。 本实施例所述神经网络文本翻译模型包括编码器层、 注意力机制层、 以及 解码器层, 如图3所示, 本实施例所述的神经网络文本翻译模型的运行装置包括编码单元 310、 注意力控制单元。
- 内容关键字: 神经网络 文本 翻译 模型 运行 方法 装置 设备 介质
管材冷轧机.pdf
禽畜养殖圈舍环境治理消杀机构.pdf
自动排屑的木工机床用顶针.pdf
用于油气井液面测试的声波采集装置.pdf
化工管道快速对接接头.pdf
新型咪头粘网机.pdf
麦克风生产用烘干装置.pdf
隐形眼镜助戴器.pdf
混合料制备系统.pdf
非遗用品存放柜用消毒装置.pdf
光伏逆变器用增压散热风扇.pdf
集线器.pdf
护理床抬升角测量仪.pdf
棋类设备的智能方块及棋类设备.pdf
基于数据融合的耕深监测装置.pdf
大口径平推阀.pdf
水利工程防汛浮标.pdf
自动锁螺丝机锁紧力调节装置.pdf
数据交换装置.pdf
高效羊粪有机肥发酵罐.pdf
应用于船首的船舶防撞结构.pdf
渔光互补的监控系统及方法.pdf
适应于高污泥浓度的脱氮除磷系统及方法.pdf
具有清洁效果的真空镀铝丝复绕设备.pdf
影像分类模型建立方法及装置、分类方法、装置及系统.pdf
基于多传感器融合技术的数据采集方法及系统.pdf
用于涵管的实时压力测试方法.pdf
人员安全转移救援舱及其制造方法.pdf
复合电缆生产用全自动绞线装置及方法.pdf
机载双站雷达间载波频率差高精度测量与补偿方法.pdf
量子密钥分发网络中负载均衡的分布式路由方法及系统.pdf
无线路由器间加密通讯方法及系统.pdf