基于注意力共享Transformer的语法改错模型.pdf

上传人:姓*** 文档编号:10357694 上传时间:2021-06-19 格式:PDF 页数:8 大小:514.83KB
收藏 版权申诉 举报 下载
基于注意力共享Transformer的语法改错模型.pdf_第1页
第1页 / 共8页
基于注意力共享Transformer的语法改错模型.pdf_第2页
第2页 / 共8页
基于注意力共享Transformer的语法改错模型.pdf_第3页
第3页 / 共8页
文档描述:

《基于注意力共享Transformer的语法改错模型.pdf》由会员分享,可在线阅读,更多相关《基于注意力共享Transformer的语法改错模型.pdf(8页完成版)》请在专利查询网上搜索。

1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202010482641.0 (22)申请日 2020.06.01 (71)申请人 北京先声智能科技有限公司 地址 100000 北京市海淀区上庄乡上庄村 北京市西郊农场机关10幢平房1027 (72)发明人 徐书尧陈进秦龙 (74)专利代理机构 北京中企讯专利代理事务所 (普通合伙) 11677 代理人 熊亮 (51)Int.Cl. G06F 40/253(2020.01) G06F 40/58(2020.01) G06N 3/04(2006.01) G06N 3/08(200。

2、6.01) (54)发明名称 一种基于注意力共享Transformer的语法改 错模型 (57)摘要 本发明涉及神经翻译的语法改错模型技术 领域, 尤其是一种基于注意力共享Transformer 的语法改错模型, 包括编码器与解码器, 所述编 码器由多层结构组成, 每层结构均包含自注意力 层与前馈神经网络, 数据输入自注意力层, 自注 意力层进行计算后输出处理数据至前馈神经网 络, 前馈神经网络输出处理结果至解码器; 所述 解码器由自注意力层、 编码器解码器注意力层与 前馈神经网络构成, 解码器的前馈神经网络输出 计算数据, 并通过Softmax映射到词汇表上的概 率分布, 本发明的语法改错模。

3、型, 注意力共享机 制下, 语法改错模型的效果(F0.5)几乎与基线系 统相同, 但却可以减少计算量, 加快推理速度。 权利要求书2页 说明书4页 附图1页 CN 111859927 A 2020.10.30 CN 111859927 A 1.一种基于注意力共享Transformer的语法改错模型, 其特征在于: 包括编码器与解码 器, 所述编码器由多层结构组成, 每层结构均包含自注意力层与前馈神经网络, 数据输入自 注意力层, 自注意力层进行计算后输出处理数据至前馈神经网络, 前馈神经网络输出处理 结果至解码器; 所述解码器由自注意力层、 编码器解码器注意力层与前馈神经网络构成, 数据输入自。

4、 注意力层, 自注意力层进行计算后输出处理数据至编码器解码器注意力层, 同时编码器输 出的数据输入编码器解码器注意力层, 编码器解码器注意力层处理数据后输出至解码器的 前馈神经网络, 由解码器的前馈神经网络输出计算数据, 并通过Softmax映射到词汇表上的 概率分布; 编码器中的自注意力层和解码器中的自注意力层为相同的机制模块, 自注意层包括注 意力机制和多头注意力; 编码器中的前馈神经网络和解码器中的前馈神经网络为相同的机制模块; 编码器和解码器中的各个连接模块之间, 从前一模块输出在输入下一模块前需要进行 残差连接与层归一化处理。 2.根据权利要求1所述的一种基于注意力共享Transfo。

5、rmer的语法改错模型, 其特征在 于: 注意力机制的计算规则为: attention(a, V)aV 其中a仅在第一层计算一次, 之后的几层均直接使用第一层的a。 3.根据权利要求1所述的一种基于注意力共享Transformer的语法改错模型, 其特征在 于: 多头注意力的计算规则为: MultiHead(V)Concat(head1, ., headh)WO where headiattention(ai, V WiV), aia(Q WiQ, K WiK) 在自注意力层中QKV; 在编码器解码器注意力层中, K与V来自编码器的输出, 而Q来 自解码器的输入。 4.根据权利要求1所述的一种。

6、基于注意力共享Transformer的语法改错模型, 其特征在 于: 前馈神经网络的计算规则为: FFN(x)max(0, xW1+b1)W2+b2 在 前 馈 神 经 网 络 中 , 输 入 输 出 的 维 度 为 d , 内 部 的 维 度 为 4 d , 其 中 为模型参数。 5.根据权利要求1所述的一种基于注意力共享Transformer的语法改错模型, 其特征在 于: 残差连接与层归一化处理计算规则为: NormAdd(X)LayerNorm(X+SubLayer(X)。 6.根据权利要求1所述的一种基于注意力共享Transformer的语法改错模型, 其特征在 于: 解码器输出的数。

7、据通过Softmax映射, 其处理规则为: 权利要求书 1/2 页 2 CN 111859927 A 2 ptsoftmax(dt Wvocab) 其中dt表示t时刻解码器的输出, Wvocab表示词嵌入矩阵。 7.根据权利要求1所述的一种基于注意力共享Transformer的语法改错模型, 其特征在 于: 从自注意力层输入的数据为目标函数。 8.根据权利要求7所述的一种基于注意力共享Transformer的语法改错模型, 其特征在 于: 目标函数的计算规则为: 其中T表示输入的文本长度, yt表示标签, XN表示编码器的输出。 权利要求书 2/2 页 3 CN 111859927 A 3 一。

8、种基于注意力共享Transformer的语法改错模型 技术领域 0001 本发明涉及神经翻译的语法改错模型技术领域, 具体领域为一种基于注意力共享 Transformer的语法改错模型。 背景技术 0002 基于神经翻译的语法改错模型是解决语法改错这个问题最为有效的方法之一。 其 原理是把有语法错误的句子视作源语言, 无语法错误的句子视作目标语言的翻译过程。 常 见的神经翻译模型, 如基于循环神经网络的编码解码模型、 基于卷积编码器的神经翻译模 型、 Transformer等被成功地运用于语法改错这个任务中。 在大量平行语料以及模型预训练 技术的支持下, 相比于其它方法(如基于规则的方法、 基。

9、于分类的方法、 基于语言模型的方 法、 基于统计翻译的方法等), 基于神经翻译的语法改错模型, 改错的效果得到了显著的提 升。 发明内容 0003 本发明的目的在于提供一种基于注意力共享Transformer的语法改错模型。 0004 为实现上述目的, 本发明提供如下技术方案: 一种基于注意力共享Transformer的 语法改错模型, 包括编码器与解码器, 所述编码器由多层结构组成, 每层结构均包含自注意 力层与前馈神经网络, 数据输入自注意力层, 自注意力层进行计算后输出处理数据至前馈 神经网络, 前馈神经网络输出处理结果至解码器; 0005 所述解码器由自注意力层、 编码器解码器注意力层。

10、与前馈神经网络构成, 数据输 入自注意力层, 自注意力层进行计算后输出处理数据至编码器解码器注意力层, 同时编码 器输出的数据输入编码器解码器注意力层, 编码器解码器注意力层处理数据后输出至解码 器的前馈神经网络, 由解码器的前馈神经网络输出计算数据, 并通过Softmax映射到词汇表 上的概率分布; 0006 编码器中的自注意力层和解码器中的自注意力层为相同的机制模块, 自注意层包 括注意力机制和多头注意力; 0007 编码器中的前馈神经网络和解码器中的前馈神经网络为相同的机制模块; 0008 编码器和解码器中的各个连接模块之间, 从前一模块输出在输入下一模块前需要 进行残差连接与层归一化处。

11、理。 0009 优选的, 注意力机制的计算规则为: 0010 0011 attention(a, V)aV 0012 其中a仅在第一层计算一次, 之后的几层均直接使用第一层的a。 0013 优选的, 多头注意力的计算规则为: 0014 MultiHead(V)Concat(head1, ., headh)WO 说明书 1/4 页 4 CN 111859927 A 4 0015 0016 0017 在自注意力层中QKV; 在编码器解码器注意力层中, K与V来自编码器的输出, 而Q来自解码器的输入。 0018 优选的, 前馈神经网络的计算规则为: 0019 FFN(x)max(0, xW1+b1)。

12、W2+b2 0020 在 前 馈 神 经 网 络 中 , 输 入 输 出 的 维 度 为 d , 内 部 的 维 度 为 4 d , 其 中 为模型参数。 0021 优选的, 残差连接与层归一化处理计算规则为: 0022 NormAdd(X)LayerNorm(X+SubLayer(X)。 0023 优选的, 解码器输出的数据通过Softmax映射, 其处理规则为: 0024 ptsoftmax(dt Wvocab) 0025 其中dt表示t时刻解码器的输出, Wvocab表示词嵌入矩阵。 0026 优选的, 从自注意力层输入的数据为目标函数。 0027 优选的, 目标函数的计算规则为: 00。

13、28 0029 其中T表示输入的文本长度, yt表示标签, XN表示编码器的输出。 0030 与现有技术相比, 本发明的有益效果是: 基于神经翻译的语法改错模型是目前解 决语法改错这个问题最为有效的方法。 基础的Transformer有编码器与解码器构成。 其中 Transformer编码器的基础单元由自注意力结构与前馈神经网络构成。 解码器结构与编码 器结构类似, 但多一层编码器解码器注意力层用于连接编码器与解码器。 0031 其中自注意力结构可以构建出句子中词与词之间的关系, 其有效性在多个自然语 言处理任务中被广泛地证明, 通过注意力共享的策略能够在维持改错性能基本不变的情况 下, 降低。

14、注意力层的计算复杂度与空间复杂度。 具体来说, 在Transformer的编码器与解码 器中, 均有多层相同的结构构成, 每层中都有自注意力机制, 自注意力机制中的注意力权重 计算是计算复杂度最高的步骤。 编码器与解码器的多层结构可以分别共享一个注意力权 重, 从而降低计算与空间复杂度。 附图说明 0032 图1为本发明的模型结构图。 具体实施方式 0033 下面将结合本发明实施例中的附图, 对本发明实施例中的技术方案进行清楚、 完 整地描述, 显然, 所描述的实施例仅仅是本发明一部分实施例, 而不是全部的实施例。 基于 本发明中的实施例, 本领域普通技术人员在没有做出创造性劳动前提下所获得的。

15、所有其他 说明书 2/4 页 5 CN 111859927 A 5 实施例, 都属于本发明保护的范围。 0034 请参阅图1, 本发明提供一种技术方案: 一种基于注意力共享Transformer的语法 改错模型, 包括编码器与解码器, 所述编码器由多层结构组成, 每层结构均包含自注意力层 与前馈神经网络, 数据输入自注意力层, 自注意力层进行计算后输出处理数据至前馈神经 网络, 前馈神经网络输出处理结果至解码器; 0035 所述解码器由自注意力层、 编码器解码器注意力层与前馈神经网络构成, 数据输 入自注意力层, 自注意力层进行计算后输出处理数据至编码器解码器注意力层, 同时编码 器输出的数据。

16、输入编码器解码器注意力层, 编码器解码器注意力层处理数据后输出至解码 器的前馈神经网络, 由解码器的前馈神经网络输出计算数据, 并通过Softmax映射到词汇表 上的概率分布; 0036 编码器中的自注意力层和解码器中的自注意力层为相同的机制模块, 自注意层包 括注意力机制和多头注意力; 0037 编码器中的前馈神经网络和解码器中的前馈神经网络为相同的机制模块; 0038 编码器和解码器中的各个连接模块之间, 从前一模块输出在输入下一模块前需要 进行残差连接与层归一化处理。 0039 注意力机制的计算规则为: 0040 0041 attention(a, V)aV 0042 其中a仅在第一层计。

17、算一次, 之后的几层均直接使用第一层的a。 0043 多头注意力的计算规则为: 0044 MultiHead(V)Concat(head1, ., headh)WO 0045 0046 0047 在自注意力层中QKV; 在编码器解码器注意力层中, K与V来自编码器的输出, 而Q来自解码器的输入。 0048 前馈神经网络的计算规则为: 0049 FFN(x)max(0, xW1+b1)W2+b2 0050 在 前 馈 神 经 网 络 中 , 输 入 输 出 的 维 度 为 d , 内 部 的 维 度 为 4 d , 其 中 为模型参数。 0051 残差连接与层归一化处理计算规则为: 0052 N。

18、ormAdd(X)LayerNorm(X+SubLayer(X)。 0053 解码器输出的数据通过Softmax映射, 其处理规则为: 0054 ptsoftmax(dt Wvocab) 0055 其中dt表示t时刻解码器的输出, Wvocab表示词嵌入矩阵。 0056 从自注意力层输入的数据为目标函数, 目标函数的计算规则为: 说明书 3/4 页 6 CN 111859927 A 6 0057 0058 其中T表示输入的文本长度, yt表示标签, XN表示编码器的输出。 0059 通过本技术方案, 在实际运用过程中: 0060 实验设置的参数: 编码器与解码器的层数N6; 模型维度d1024。

19、; MultiHead Attention的Heads8; 采用了Adam作为优化算法, (学习率0.001, 采用了学习率预热与学 习率衰减), dropout作为正则化方法(dropout rate0.2); 编码器的自注意力层的注意力 权重a仅在第一层计算, 后面5层直接用第一层的注意力权重; 解码器的自注意力层与编码 解码注意力层也仅只在第一层计算注意力权重, 后面5层直接用第一层的注意力权重。 解码 过程中采用了Beam search, 其中Beam的大小为4。 该模型是单词级别的输入输出, 其中稀有 词根据BPE算法被切分为subword, 该词表大小约为16000。 0061 训。

20、练采用了预训练、 训练、 模型精调的三步策略。 采用了随机生成预训练文本的方 法生成平行语料用于预训练, 在标注好的语料上进行训练, 然后在目标领域数据集上进行 精调。 0062 在Write&Improve LOCNESS的实验结果如下表所示 0063 0064 实验结果显示, 注意力共享机制下, 语法改错模型的效果(F0.5)几乎与基线系统 相同, 但却可以减少计算量, 加快推理速度。 0065 在实际运用过程中, 实验的超参数可以根据具体情况调整; 除了第一层计算注意 力权重外, 还可以在其它层间歇地计算注意力权重, 后一层直接使用前一层的注意力权重; 编码器的自注意力模块、 编码器解码器注意力模块与解码器注意力模块可以采用不同的注 意力共享机制。 0066 尽管已经示出和描述了本发明的实施例, 对于本领域的普通技术人员而言, 可以 理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、 修改、 替换 和变型, 本发明的范围由所附权利要求及其等同物限定。 说明书 4/4 页 7 CN 111859927 A 7 图1 说明书附图 1/1 页 8 CN 111859927 A 8 。

展开阅读全文
内容关键字: 基于 注意力 共享 Transformer 语法 改错 模型
关于本文
本文标题:基于注意力共享Transformer的语法改错模型.pdf
链接地址:https://www.zhuanlichaxun.net/pdf/10357694.html
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1