基于孪生循环神经网络的泰文句子切分方法.pdf

上传人:周** 文档编号:10655040 上传时间:2021-08-06 格式:PDF 页数:9 大小:594.99KB
收藏 版权申诉 举报 下载
基于孪生循环神经网络的泰文句子切分方法.pdf_第1页
第1页 / 共9页
基于孪生循环神经网络的泰文句子切分方法.pdf_第2页
第2页 / 共9页
基于孪生循环神经网络的泰文句子切分方法.pdf_第3页
第3页 / 共9页
文档描述:

《基于孪生循环神经网络的泰文句子切分方法.pdf》由会员分享,可在线阅读,更多相关《基于孪生循环神经网络的泰文句子切分方法.pdf(9页完成版)》请在专利查询网上搜索。

1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 201911309244.7 (22)申请日 2019.12.18 (71)申请人 昆明理工大学 地址 650093 云南省昆明市五华区学府路 253号 (72)发明人 线岩团王红斌余正涛文永华 张志菊 (51)Int.Cl. G06F 40/211(2020.01) G06F 40/30(2020.01) G06F 40/126(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于孪生循环神经网络的泰文句子切 。

2、分方法 (57)摘要 本发明公开了一种基于孪生循环神经网络 的泰文句子切分方法, 属于句子切分领域。 本发 明方法不需要人工设计特征, 也不依赖词性标注 和句法信息。 与已有方法相比, 本发明所提出的 方法更加简洁, 句子切分效果也有了提升; 本发 明方法对空格前后的词序列进行编码获取句子 切分的特征时, 空格前和空格后的词序列使用相 同的模型框架, 并且共享了相同的参数, 这样更 好的考虑了空格前后词序列之间的可比性, 同时 缩减了参数, 更有利于模型的训练; 通过词嵌入 和循环神经网络学习词序的特征表示有助于捕 获句子中的隐含语义, 从而提升句子切分的性 能。 权利要求书1页 说明书6页 。

3、附图1页 CN 111126037 A 2020.05.08 CN 111126037 A 1.一种基于孪生循环神经网络的泰文句子切分方法, 其特征在于: 所述方法的具体步 骤如下: Step1、 将语料中以空格前后的词序列作为孪生循环神经网络模型输入层的输入, 分别 得到空格前后的词序列所对应的one-hot矩阵表示X; 其中, 孪生循环神经网络模型表示两 个循环神经网络模型, Xx1,x2,.,xt,xT, 每个词对应的one-hot向量表示xt的维数 为Nw维, T表示词序列中词的数量, Nw为词汇表的大小, 即从语料中统计并去重后的词语数 量; Step2、 将step1分别得到的空格。

4、前后的词序列所对应的one-hot矩阵表示X通过孪生循 环神经网络模型中的嵌入层参数矩阵分别得到空格前后的词序列对应的词嵌 入矩阵表示E; 其中, EWEXe1,e2,.,et,eT, etRd, et表示第t个词所对应的词嵌入 表示,和Rd中的R表示实数域, d表示词序列中每个词所对应的词嵌入表示的维数; Step3、 采用孪生循环神经网络模型中的循环网络层对step2分别得到的空格前后词序 列中每个词所对应的词嵌入表示et进行编码, 分别得到空格前后的词序列编码表示hl和hr; 其中, hl表示空格前的词序列所对应的编码表示, hr表示空格后词序列所对应的编码表示; Step4、 将ste。

5、p3分别得到的空格前后词序列编码表示hl和hr通过孪生循环神经网络模 型的隐含层综合学习, 得到最终的编码向量表示h作为句子切分的特征; Step5、 在孪生循环神经网络模型的输出层采用sigmoid对step4得到的句子切分特征h 进行二分类操作: ysigmoid(W2h+b2) 其中, y表示模型分类结果, W2是输出层的权重矩阵, b2是偏置矩阵; Step6、 采用对数损失函数作为孪生循环神经网络模型的损失函数, 同时采用一种自适 应学习速率梯度下降优化算法Adam训练该模型, Adam算法根据对数损失函数对每个模型参 数梯度的一阶矩估计和二阶矩估计来动态调整Adam算法学习速率, 。

6、从而训练出泰文句子切 分的最优孪生循环神经网络模型; 其中, 针对一个样本数量为M的批次数据, 其损失函数定 义如下: 对数损失函数是求在空格前词序列 中第i个词的编码表示和空格后词序列中第i个词的编码表示的条件下分类结果为y的 概率, log表示对数函数。 2.根据权利要求1所述的基于孪生循环神经网络的泰文句子切分方法, 其特征在于: 所 述语料为ORCHID语料。 权利要求书 1/1 页 2 CN 111126037 A 2 一种基于孪生循环神经网络的泰文句子切分方法 技术领域 0001 本发明涉及一种基于孪生循环神经网络的泰文句子切分方法, 属于句子切分领 域。 背景技术 0002 泰文。

7、很少使用标点符号, 句子间没有明显的分隔符, 为泰文词法分析、 句法分析、 机器翻译等自然语言处理任务带来了额外的困难。 0003 泰文也有标点符号, 在Unicode甚至提供了特殊的零宽度空格符(Zero-Width Space,ZWSP)用于分隔泰文词。 然而, 与英语不同的是, 在实际应用中泰文很少使用标点符 号, 词语间通常也不用分隔符, 而是用空格符分隔句子、 短语和特殊词语, 如称谓和姓名之 间、 标号和内容之间、 括号和内容之间等。 所以, 泰文句子切分不能依靠标点符号, 而必须充 分考虑段落的上下文信息。 发明内容 0004 本发明提供了一种基于孪生循环神经网络的泰文句子切分方。

8、法, 以用于构建最优 孪生循环神经网络模型用于泰文句子切分。 0005 本发明的技术方案是: 一种基于孪生循环神经网络的泰文句子切分方法, 所述方 法的具体步骤如下: 0006 Step1、 将语料中以空格前后的词序列作为孪生循环神经网络模型输入层的输入, 分别得到空格前后的词序列所对应的one-hot矩阵表示X; 其中, 孪生循环神经网络模型表 示两个循环神经网络模型, Xx1,x2,.,xt,xT, 每个词对应的one-hot向量表示xt的 维数为Nw维, T表示词序列中词的数量, Nw为词汇表的大小, 即从语料中统计并去重后的词语 数量; 0007 Step2、 将step1分别得到的空。

9、格前后的词序列所对应的one-hot矩阵表示X通过孪 生循环神经网络模型中的嵌入层参数矩阵分别得到空格前后的词序列对应的 词嵌入矩阵表示E; 其中, EWEXe1,e2,.,et,eT, etRd, ed表示第t个词所对应的词 嵌入表示,和Rd中的R表示实数域, d表示词序列中每个词所对应的词嵌入表示的维 数; 0008 Step3、 采用孪生循环神经网络模型中的循环网络层对step2分别得到的空格前后 词序列中每个词所对应的词嵌入表示et进行编码, 分别得到空格前后的词序列编码表示hl 和hr; 其中, hl表示空格前的词序列所对应的编码表示, hr表示空格后词序列所对应的编码 表示; 00。

10、09 Step4、 将step3分别得到的空格前后词序列编码表示hl和hr通过孪生循环神经网 络模型的隐含层综合学习, 得到最终的编码向量表示h作为句子切分的特征; 0010 Step5、 在孪生循环神经网络模型的输出层采用sigmoid对step4得到的句子切分 特征h进行二分类操作: 说明书 1/6 页 3 CN 111126037 A 3 0011 ysigmoid(W2h+b2) 0012 其中, y表示模型分类结果, W2是输出层的权重矩阵, b2是偏置矩阵; 0013 Step6、 采用对数损失函数作为孪生循环神经网络模型的损失函数, 同时采用一种 自适应学习速率梯度下降优化算法A。

11、dam训练该模型, Adam算法根据对数损失函数对每个模 型参数梯度的一阶矩估计和二阶矩估计来动态调整Adam算法学习速率, 从而训练出泰文句 子切分的最优孪生循环神经网络模型; 其中, 针对一个样本数量为M的批次数据, 其损失函 数定义如下: 对数损失函数是求在空格前词 序列中第i个词的编码表示和空格后词序列中第i个词的编码表示的条件下分类结果 为y的概率, log表示对数函数。 0014 所述语料为ORCHID语料。 0015 本发明的有益效果是: 0016 1.本发明提出了一种基于孪生循环神经网络的泰文句子切分方法。 该方法不需要 人工设计特征, 也不依赖词性标注和句法信息。 与已有方法。

12、相比, 本发明所提出的方法更加 简洁, 句子切分效果也有了提升。 0017 2.本发明提出了一种基于孪生循环神经网络的泰文句子切分方法。 对空格前后的 词序列进行编码获取句子切分的特征时, 空格前和空格后的词序列使用相同的模型框架, 并且共享了相同的参数, 这样更好的考虑了空格前后词序列之间的可比性, 同时缩减了参 数, 更有利于模型的训练。 0018 3.本发明提出了一种基于孪生循环神经网络的泰文句子切分方法。 通过词嵌入和 循环神经网络学习词序的特征表示有助于捕获句子中的隐含语义, 从而提升句子切分的性 能。 附图说明 0019 图1为本发明的流程图。 具体实施方式 0020 实施例1: 。

13、如图1所示, 一种基于孪生循环神经网络的泰文句子切分方法, 所述方法 的具体步骤如下: 0021 Step1、 将语料中以空格前后的词序列作为孪生循环神经网络模型输入层的输入, 分别得到空格前后的词序列所对应的one-hot矩阵表示X; 其中, 孪生循环神经网络模型表 示两个循环神经网络模型, Xx1,x2,.,xt,xT, 每个词对应的one-hot向量表示xt的 维数为Nw维, T表示词序列中词的数量, Nw为词汇表的大小, 即从语料中统计并去重后的词语 数量; 0022 Step2、 将step1分别得到的空格前后的词序列所对应的one-hot矩阵表示X通过孪 生循环神经网络模型中的嵌入。

14、层参数矩阵分别得到空格前后的词序列对应的 词嵌入矩阵表示E; 其中, EWEXe1,e2,.,et,eT, etRd, et表示第t个词所对应的词 嵌入表示,和Rd中的R表示实数域, d表示词序列中每个词所对应的词嵌入表示的维 数; 说明书 2/6 页 4 CN 111126037 A 4 0023 Step3、 采用孪生循环神经网络模型中的循环网络层对step2分别得到的空格前后 词序列中每个词所对应的词嵌入表示et进行编码, 分别得到空格前后的词序列编码表示hl 和hr; 其中, hl表示空格前的词序列所对应的编码表示, hr表示空格后词序列所对应的编码 表示; 0024 Step4、 将。

15、step3分别得到的空格前后词序列编码表示hl和hr通过孪生循环神经网 络模型的隐含层综合学习, 得到最终的编码向量表示h作为句子切分的特征; 0025 Step5、 在孪生循环神经网络模型的输出层采用sigmoid对step4得到的句子切分 特征h进行二分类操作: 0026 ysigmoid(W2h+b2) 0027 其中, y表示模型分类结果, W2是输出层的权重矩阵, b2是偏置矩阵; 0028 Step6、 采用对数损失函数作为孪生循环神经网络模型的损失函数, 同时采用一种 自适应学习速率梯度下降优化算法Adam训练该模型, Adam算法根据对数损失函数对每个模 型参数梯度的一阶矩估计。

16、和二阶矩估计来动态调整Adam算法学习速率, 从而训练出泰文句 子切分的最优孪生循环神经网络模型; 其中, 针对一个样本数量为M的批次数据, 其损失函 数定义如下: 对数损失函数是求在空格前词 序列中第i个词的编码表示和空格后词序列中第i个词的编码表示的条件下分类结果 为y的概率, log表示对数函数。 0029 作为本发明的进一步方案, 所述语料为ORCHID语料。 0030 作为本发明的进一步方案, 所述步骤3的具体步骤为: 0031 Step3.1、 采用孪生循环神经网络模型中的循环网络层对step2分别得到的空格前 后词序列中每个词所对应的词嵌入表示et进行编码, 首先通过重置门rt来。

17、控制过去状态对 候选状态的贡献。 如果rt为零, 则它将忘记过去的状态, 重置门rt的更新公式为: 0032 rt (Wret+Urht-1+br) 0033 在这里, rt表示重置门, 代表激活函数, Wr和Ur表示权重矩阵, br表示偏置矩阵, et 表示第t个词的词嵌入表示, ht-1表示第t个词的前一个词编码后的表示; 0034 Step3.2、 接下来, 需要计算更新门zt, 通过它来决定要丢弃空格前后词序列中的 哪些信息和要添加哪些新信息, 计算公式如下: 0035 zt (Wzet+Uzht-1+bz) 0036 其中, zt表示更新门状态, 表示激活函数, Wz和Uz表示权重矩。

18、阵, bz表示偏置矩阵, et表示第t个词的词嵌入表示, ht-1表示第t个词的前一个词编码后的表示; 0037 Step3.3、 通过step3.1计算得到的重置门rt的不断更新获得空格前后词序列每个 词的新状态表示 0038 0039 在这里, tanh表示激活函数, Wh和Uh表示权重矩阵, bh表示偏置矩阵, et表示第t个 词的词嵌入表示, ht-1表示第t个词的前一个词编码后的表示, rt表示重置门; 0040Step3.4、 通过step3.2和step3.3两步骤分别计算得到的zt和来计算得到空格 前后的词序列编码表示hl, hr, 计算公式如下: 说明书 3/6 页 5 CN。

19、 111126037 A 5 0041 0042也就是说hl和hr分别是通过上面公式得到, 表示逐元素(element-wise)相乘, zt 表示更新门状态, 表示空格前后词序列中每个词的新状态表示, ht-1表示第t个词的前一 个词编码后的表示; 0043 本发明对空格前后的词序列进行编码获取句子切分的特征时, 空格前和空格后的 词序列使用相同的模型框架, 并且共享了相同的参数, 这样更好的考虑了空格前后词序列 之间的可比性, 同时缩减了参数, 更有利于模型的训练。 0044 作为本发明的进一步方案, 所述步骤4的具体步骤为: 0045 Step4.1、 将step3.3分别得到的空格前后。

20、的词序列编码表示hl和hr通过隐含层学 习到的编码向量作为句子切分的特征向量, 计算公式如下: 0046 hrelu(W11hl+W12hr+b1) 0047 其中, h是最终得到的编码向量, W11和W12分别为编码向量hl和hr的权重矩阵, b1是 相应的偏置。 relu是修正线性单元(Rectified linear unit, ReLU)激活函数。 0048 实验效果: 0049 本发明为了和已有的方法进行比较, 采用Charoenporn构建的ORCHID泰文语料库 作为训练和测试数据, 并采用十折交叉验证的平均值作为最终结果。 0050 评价指标与对比方法一致, 采用断句符召回率(。

21、sb-recall)、 空格符精确率 (space-correct)和断句符错分率(false-break)作为评价模型断句效果的指标: 0051 sb-recallCB/RB 0052 space-correctCS/RS 0053 false-breakFB/RS 0054 其中, CB是测试集中断句符正确预测的数量, FB是测试集中断句符错误预测的数 量, CS是测试集中断句符和非断句符正确预测的数量。 RB是测试集中断句符的总数量。 RS是 测试集中断句符和非断句符的总数量。 0055 从ORCHID泰文语料库中过滤掉出现频次小于2词语后, 词汇表规模为8077个词。 通 过对语料的统。

22、计我们发现, ORCHID语料库中大部分的泰文句子长度为6-20个词, 而且大部 分的句子长度接近于15个词, 所以我们选择15作为基准系统的词序列窗口大小。 词向量维 度、 循环神经网络的隐状态维度根据经验选择设为100。 在后续实验中对比了不同维度对模 型性能的影响。 为了缓解训练过程中的过拟合问题, 在循环神经网络层和隐含层中引入了 Dropout。 基准系统中各层神经网络的参数参见表1。 0056 表1 基准系统模型参数 0057 0058 在实验中, 本发明提出的所有模型均训练4轮, 每批数据的batch大小为128。 0059 由于ORCHID语料中用于句子切分的空格数量远少于其它。

23、用途空格的数量, 其中正 说明书 4/6 页 6 CN 111126037 A 6 样本的数量为13377, 负样本数量为6360, 负样本的数量大约是正样本数量的5倍。 正负样本 的数量极不平衡, 会影响模型的效果。 0060 为了缓解样本不平衡带来的问题, 比如, 假设ORCHID语料中每个段落中有3个句子 , 即3个词序列, 从中除了能获得和两个正样本外, 我们将第2个词 序列移除获得伪样本。 通过这种方法我们获得了和原有正样本数量相当的伪样本。 由于伪样本的句子来自同一段落语境一致, 更接近真实语料, 我们获得伪样本句子完整。 为 了保证实验的准性, 伪样本只加入到训练样本中。 006。

24、1 表2 伪样本对系统性能的影响 0062 0063 表2中的实验结果对比了基准系统在原始样本和加入伪样本后的性能指标。 从表2 的结果可以看出, 伪样本加入后断句符的召回率有了很大的提升, 幅度达13, 而空格符准 确率和断句符错分率的效果也有一定的改进。 实难结果表明, 本发明构造的伪样本有效缓 解了训练样本类别不平衡带来的影响。 0064 考虑到序列长度和词嵌入的维度对模型性能的影响, 我们尝试了不同的模型参 数。 根据ORCHID语料库句子的长度的统计, 我们对比了不同序列长度和词嵌入的维度对句 子切分性能的影响。 0065 从表3可以看出在序列长度为5时, 模型性总体略低于其它模型的。

25、性能。 而当序列 长度足以含盖大多数样本时, 序列长度对句子切分性能影响不明显。 0066 表3 不同序列长度对性能的影响 0067 0068 据上述实验结果, 本发明将后续实验模型的序列长度固定为15。 并在此基础上, 对 比不同词嵌入维度大小对模型性能影响。 对比实验结果参见表4, 从中我们发现较高的词嵌 入维度可以提升句子切分的性能, 但同时也会增加模型的参数。 0069 表4 不同词嵌入维对性能的影响 0070 说明书 5/6 页 7 CN 111126037 A 7 0071 0072 从表5的对比实验结果可以看到本发明提出的孪生GRU泰文句子切分方法在断句 符召回率(sb-reca。

26、ll)、 空格符准确率(space-correct)和断句符错分率(false-break)上 都优于其它三种方法, 表明本发明提出的方法能有效学习泰文的句子切分特征。 同时, 表1 数据表明本发明方法具有较高的指标值, 这从客观上证明了本发明方法是有效的。 在这 里, #sb表示语料中断句符个数, #space表示语料中空格的个数。 0073 表5 不同模型在ORCHID上的客观评价效果比较 0074 0075 上面结合附图对本发明的具体实施方式作了详细说明, 但是本发明并不限于上述 实施方式, 在本领域普通技术人员所具备的知识范围内, 还可以在不脱离本发明宗旨的前 提下作出各种变化。 说明书 6/6 页 8 CN 111126037 A 8 图1 说明书附图 1/1 页 9 CN 111126037 A 9 。

展开阅读全文
内容关键字: 基于 孪生 循环 神经网络 文句 切分 方法
关于本文
本文标题:基于孪生循环神经网络的泰文句子切分方法.pdf
链接地址:https://www.zhuanlichaxun.net/pdf/10655040.html
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1