基于注意力长短期记忆循环神经网络的论文质量测评方法.pdf

上传人:万林****人 文档编号:10541640 上传时间:2021-06-23 格式:PDF 页数:7 大小:387.08KB
收藏 版权申诉 举报 下载
基于注意力长短期记忆循环神经网络的论文质量测评方法.pdf_第1页
第1页 / 共7页
基于注意力长短期记忆循环神经网络的论文质量测评方法.pdf_第2页
第2页 / 共7页
基于注意力长短期记忆循环神经网络的论文质量测评方法.pdf_第3页
第3页 / 共7页
文档描述:

《基于注意力长短期记忆循环神经网络的论文质量测评方法.pdf》由会员分享,可在线阅读,更多相关《基于注意力长短期记忆循环神经网络的论文质量测评方法.pdf(7页完成版)》请在专利查询网上搜索。

1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202010320432.6 (22)申请日 2020.04.22 (71)申请人 成都中科云集信息技术有限公司 地址 610000 四川省成都市成华区一环路 东一段159号电子信息产业大厦712房 (72)发明人 田文洪 (51)Int.Cl. G06F 16/35(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于注意力长短期记忆循环神经网络 的论文质量测评方法 (57)摘要 本发明专利技术公开了一种基于注。

2、意力长 短期记忆循环神经网络的论文质量测评方法, 其 主要特点是针对本科和硕士博士毕业论文等长 文本 , 设计基于章节的 双向 长短记忆网络 (BiLSTM)的文本分析模型ChapBiLSTM, 并结合注 意力机制和改进交叉熵函数, 提升质量评级准确 度。 克服了目前文本模型训练慢的缺点, 适应数 据特征的端到端的模型分析, 通过识别、 表示和 特征加权等方法, 对长文本进行准确的质量评级 分类。 涉及的主要流程和功能包括: 整篇论文数 据采集, 通过互联网和其它公开方式获得论文数 据; 论文数据识别, 提取PDF/word文本内各章节 内容; 论文数据表示, 对论文进行处理, 映射成计 算机。

3、可分析处理的数据形式; 论文数据标签, 获 取论文质量等级标签; 各章节数据表征, 通过设 计适当特征表示模型, 进行数据表征; 整篇论文 质量分类, 对各章节内容进行加权数据表征, 然 后进行整篇论文质量分类。 权利要求书1页 说明书4页 附图1页 CN 111522946 A 2020.08.11 CN 111522946 A 1.一种基于注意力长短期记忆循环神经网络(Att_BiLSTM)的论文质量测评方法, 其特 征在于: 整篇论文数据采集, 通过互联网和其它公开方式获得论文数据; 论文数据识别, 提 取PDF/word文本内各章节内容; 论文数据表示, 对论文进行处理, 映射成计算机。

4、可分析处理 的数据形式; 论文数据标签, 获取论文质量等级标签; 各章节数据表征, 采用长文本模型并 结合注意力机制进行特征表征; 整篇论文质量分类, 对各章节内容进行加权数据表征, 然后 进行整篇论文质量分类。 2.根据权利要求1所述的论文质量测评方法, 其特征在于, 在所述论文数据识别过程 中, 提取PDF/word文本内各章节内容。 3.根据权利要求1所述的论文质量测评方法, 其特征在于, 在所述数据表示过程中, 将 文本进行分句, 用字嵌入方式, 颗粒度更小, 字典将更小, 更加完整的映射章节的文本向量。 4.根据权利要求1所述的论文质量测评方法, 其特征在于, 在所述数据标签过程中,。

5、 利 用学校论文评级信息和上传时间等信息, 提取出论文质量等级(包括优、 良、 差等等级信 息)。 5.根据权利要求1所述的论文质量测评方法, 其特征在于, 在所述各章节数据表征过程 提取中, 采用长文本模型并结合注意力机制, 用于对论文各章节内容质量进行特征提取, 将 正向最后一个长短期记忆细胞隐藏层输出特征和反向最后一个长短期记忆细胞隐藏层输 出特征组合起来。 6.根据权利要求5所述的论文质量测评方法, 其特征在于, 采用基于论文章节内容的注 意力长短期记忆循环神经网络(Att_BiLSTM), 并结合注意力提升机制, 注重章节中一些比 较重要的语意特征, 忽略一些不那么重要的语意特征的干。

6、扰, 获得注意力矩阵, 有效地减小 模型复杂度, 大大提升了质量评级准确度。 7.根据权利要求1所述的论文质量测评方法, 其特征在于, 所述整篇论文质量分类, 通 过最小化改进的交叉熵来调整模型参数, 完成训练的模型参数的优化和质量分类。 权利要求书 1/1 页 2 CN 111522946 A 2 一种基于注意力长短期记忆循环神经网络的论文质量测评 方法 技术领域 0001 本发明涉及计算机技术领域, 特别涉及一种基于注意力长短期记忆循环神经网络 的论文质量测评方法。 背景技术 0002 维基百科是人类大型的知识库, 是现代人信息来源依赖的在线资源, 但一度受到 质量水平的质疑, 日益增加的。

7、条目, 日益频繁的编辑, 人工评审将不符合实际。 如果没有得 到适当的监控和修改, 可能会导致低质量文章(甚至错误信息) 的产生。 0003 关于质量问题, 每年有数百万的大学生、 研究生毕业, 论文的质量参差不齐, 高校 对于毕业生的论文也提出了越来越高的要求, 应届生的论文在提交之前如何做到有效监控 和修改, 毕业论文这种长文本的自动质量分类, 也是一个具有挑战的任务。 0004 国外维基百科2017年已经在对这一领域提出的一个基于双向LSTM的端到端的神 经网络的方法, 但文本这种非结构化数据比较难以用计算机表征, 过长的文本会导致现有 的模型具有梯度消失或者梯度爆炸从而失去提取文本的特。

8、征的功能, 他们在维基百科收集 的条目数据集下, 选择最长截取长度为2000, 目前acc 值在0.69。 0005 而对于现有的本科、 硕士和博士毕业论文, 文本比维基百科的条目更长, 目前现有 的设计的模型都是针对300词左右的短文本的, 而对于像毕业论文这种具有几万词语的长 文本, 分析难度更大, 特别是采用单个PC级电脑。 在长文本质量分析领域, CNN模型是其中的 一种, 但缺点是将长文本分割成短文本进行分析, 没有很好的表征长文本整体特征。 0006 在2018年前CNN和LSTM是自然语言处理的文本特征的主要提取器, 经过技术的不 断发展Transformer已经是目前较优的特征。

9、提取器, 但仍然存在对长文本特征提取分析的 困难。 已经公开的发明专利 “一种基于transformer的长文本质量分析方法” (专利申请号 201910583213.4)采用Transformer的方法, 对于论文的质量评级准确度仅68。 0007 通过上面分析, 目前主要问题如下: 0008 现有的自然语言处理模型大多是针对短文本进行分析, 缺乏具有长文本分析能 力, 会出现梯度爆炸的问题, 影响最终模型的泛化能力; 0009 在的短文本分析中, RNN结构具有训练慢, 而应用到长文本这个问题会更加放大。 发明内容 0010 为了解决上述技术问题, 本发明主要提供一种基于注意力长短期记忆循。

10、环神经网 络的论文质量测评方法, 并结合注意力机制和改进的交叉熵函数, 解决长文本质量难以评 估的问题。 0011 一种基于注意力长短期记忆循环神经网络的论文质量测评方法, 包括: 整篇论文 数据采集, 通过互联网和其它公开方式获得论文数据; 论文数据识别, 提取 PDF/word文本 内各章节内容; 论文数据表示, 对论文进行处理, 映射成计算机可分析处理的数据形式; 论 说明书 1/4 页 3 CN 111522946 A 3 文数据标签, 获取论文质量等级标签; 各章节数据表征, 通过设计适当特征表示模型, 进行 数据表征; 整篇论文质量分类, 对各章节内容进行加权数据表征, 然后进行整。

11、篇论文质量分 类。 0012 在所述论文数据识别过程中, 提取PDF/word文本内各章节内容。 0013 在所述数据表示过程中, 将文本进行分句, 用字嵌入方式, 颗粒度更小, 字典将更 小, 更加完整的映射章节的文本向量。 0014 在所述数据标签过程中, 利用学校论文评级信息和上传时间等信息, 提取出论文 质量等级(包括优、 良、 差等等级信息)。 0015 在所述各章节数据表征过程提取中, 采用长文本模型并结合注意力机制, 用于对 论文各章节内容质量进行特征提取, 将正向最后一个长短期记忆细胞隐藏层输出特征和反 向最后一个长短期记忆细胞隐藏层输出特征组合起来。 0016 采用基于论文章。

12、节内容的注意力长短期记忆循环神经网络(Att_BiLSTM), 并结合 注意力提升机制, 注重章节中一些比较重要的语意特征, 忽略一些不那么重要的语意特征 的干扰, 获得注意力矩阵, 有效地减小模型复杂度, 大大提升了质量评级准确度。 0017 所述整篇论文质量分类, 通过最小化改进的交叉熵来调整模型参数, 完成训练的 模型参数的优化和质量分类。 0018 本发明的优点在于: 0019 (1)设计了一个具有长文本质量测评的方法 0020 (2)克服了CNN/RNN训练慢的特点 0021 (3)采用端到端的神经网络的方法, 并结合注意力机制和改进的交叉熵函数, 有利 于节省大量人工 0022 (。

13、4)具有比CNN或RNN更好的提取特征能力, 所以模型具有较好的泛化能力。 附图说明 0023 图1本发明的论文质量测评方法的工作流程图 0024 图2本发明的论文质量测评模型图 具体实施方式 0025 下面将参照附图更详细地描述本公开的示例性实施方式。 虽然附图中显示了本公 开的示例性实施方式, 然而应当理解, 可以以各种形式实现本公开而不被这里阐述的实施 方式所限制。 相反, 提供这些实施方式是为了能够更透彻地理解本公开, 并且能够将本公开 的范围完整的传达给本领域的技术人员。 0026 如图1所示, 为本发明的基于章节内容的注意力长短期记忆循环神经网络论文质 量测评方法的工作流程图。 其。

14、中基于章节内容的双向长短记忆网络论文质量测评方法包 括: 整篇论文数据采集, 通过互联网和其它公开方式获得论文数据; 论文数据识别, 提取 PDF/word文本内各章节内容; 论文数据表示, 对论文进行处理, 映射成计算机可分析处理的 数据形式; 论文数据标签, 获取论文质量等级标签; 各章节数据表征, 采用长文本模型并结 合注意力机制进行特征表征; 整篇论文质量分类, 对各章节内容进行加权数据表征, 然后进 行整篇论文质量分类。 说明书 2/4 页 4 CN 111522946 A 4 0027 具体步骤S11整篇论文数据采集, 通过互联网和其它公开方式获得本科、 硕士博士 论文数据; 00。

15、28 具体步骤S12论文数据识别中, 通过编程提取PDF/word文本内各章节内容。 0029 具体步骤S13数据表示和S14数据标签中, 论文数据表示, 对论文进行处理, 映射成 计算机可分析处理的数据形式; 0030 在所述数据表示过程中, 将文本进行分句, 用字嵌入方式, 颗粒度更小, 字典将更 小, 更加完整的映射章节的文本向量。 0031 假设第i章节Ci的文本长度为l, 映射到d维的矩阵空间, 将其进行字嵌入表示如公 式(1): 0032 EE1+E2+.+El (1) 0033 其中Ei为字嵌入。 0034 在所述论文数据标签获取过程中, 利用学校论文评级信息和上传时间等信息, 。

16、提 取出论文质量等级(包括优、 良、 差等等级信息)。 0035 具体的步骤S15论文数据表征中, 采用长文本模型并结合注意力机制, 用于对论文 各章节内容质量进行特征提取, 将正向最后一个长短期记忆细胞隐藏层输出特征和反向最 后一个长短期记忆细胞隐藏层输出特征组合起来。 0036 每个章节文本向量的特征提取, 双向LSTM通过正向和逆向基于上下文的捕获字与 字之间长期的语义特征, 其输入门如(2)、 遗忘门如(3)、 输出门如(4), 这3个门的值在0到1 之间, 相当于对信号进行选择多少的权重。 候选细胞如(5) 的公式, 其值在-1到1之间。 0037 It (XtWxi+Ht-1Whi。

17、+bi) (2) 0038 Ft (XtWxf+Ht-1Whf+bf) (3) 0039 Ot (XtWxo+Ht-1Who+bo) (4) 0040 0041 其中Wxi,Wxf,Wxo,WxcRdh和Whi,Whf,Who,Whc是神经网络需要训练的权重参数, bi, bf,bo,bcRlh是偏差参数。 0042 记忆细胞更新信息如(6)所示, 由遗忘上一时间步的记忆信息和当前输入的候选 信息共同决定。 0043 0044 隐藏层的最后输出如公式(7)所示, 由输出门控制最后一个记忆细胞信息所得。 0045 HlOl tanh(Cl) (7) 0046 HHl+Hl (8) 0047 采用。

18、基于论文章节内容的注意力长短期记忆循环神经网络(Att_BiLSTM), 并结合 注意力提升机制, 注重章节中一些比较重要的语意特征, 忽略一些不那么重要的语意特征 的干扰, 获得注意力矩阵, 有效地减小模型复杂度, 大大提升了质量评级准确度。 0048 将BiLSTM的输出经过softmax分类, 如公式(9)所示, 获得模型的分类结果。 0049 0050 最后整个论文的分类通过各个章节的类别进行权重加权如公式(10)所示获得。 说明书 3/4 页 5 CN 111522946 A 5 0051 0052 所述整篇论文质量分类, 通过最小化改进的交叉熵来调整模型参数, 完成训练的 模型参数的优化和质量分类。 0053 改进的交叉熵函数如公式(11)所示, 其中e是超参数, 如果e为0, 则损失函数只关 心正确分类的样本, 如果e为1, 则模型最终不关心正确分类样本, 只关心错误分类的样本, 一般e设为0.1, 分一小部分注意力去关注错误分类的样本。 0054。 说明书 4/4 页 6 CN 111522946 A 6 图1 图2 说明书附图 1/1 页 7 CN 111522946 A 7 。

展开阅读全文
内容关键字: 基于 注意力 长短 记忆 循环 神经网络 论文 质量 测评 方法
关于本文
本文标题:基于注意力长短期记忆循环神经网络的论文质量测评方法.pdf
链接地址:https://www.zhuanlichaxun.net/pdf/10541640.html
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1