基于目标情感分析数据集的数据增强方法.pdf

上传人:龙脉 文档编号:10588511 上传时间:2021-06-25 格式:PDF 页数:17 大小:559.44KB
收藏 版权申诉 举报 下载
基于目标情感分析数据集的数据增强方法.pdf_第1页
第1页 / 共17页
基于目标情感分析数据集的数据增强方法.pdf_第2页
第2页 / 共17页
基于目标情感分析数据集的数据增强方法.pdf_第3页
第3页 / 共17页
文档描述:

《基于目标情感分析数据集的数据增强方法.pdf》由会员分享,可在线阅读,更多相关《基于目标情感分析数据集的数据增强方法.pdf(17页完成版)》请在专利查询网上搜索。

1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202010095397.2 (22)申请日 2020.02.17 (71)申请人 中山大学 地址 510275 广东省广州市海珠区新港西 路135号 (72)发明人 胡弘康权小军 (74)专利代理机构 广州粤高专利商标代理有限 公司 44102 代理人 林丽明 (51)Int.Cl. G06F 16/36(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06F 40/289(2020.01) G06F 40/30(2020.01)。

2、 (54)发明名称 一种基于目标情感分析数据集的数据增强 方法 (57)摘要 本发明公开一种基于目标情感分析数据集 的数据增强方法, 包括采集目标领域内的数据 集; 对文本进行分词处理得到对应的单词序列, 用全词掩盖方法掩盖待增强文本中的非情感表 达的单词与待训练文本中的随机单词; 将预处理 后的待训练文本输入语言模型BERT进行训练, BERT对文本中每个单词对应的隐藏状态计算其 概率分布及损失, 相加所有被掩盖单词的损失并 把其反向传播更新BERT的参数至模型收敛; 把预 处理后的待增强文本输入收敛后的BERT中, 随机 采样单词出现概率作为新目标, 用其替换文本中 的目标, 得到增强后的。

3、新样本。 本发明能预测出 更符合语境的单词, 从而得到基于目标情感分析 任务的数据增强后的新样本。 权利要求书2页 说明书9页 附图5页 CN 111324744 A 2020.06.23 CN 111324744 A 1.一种基于目标情感分析数据集的数据增强方法, 其特征在于, 包括: S10预训练语言模型BERT: 采集目标领域内的数据集预训练语言模型BERT; S20对文本预处理: 对待增强文本进行分词处理得到其对应的单词序列, 从待增强文本 的单词序列中挑选出非情感类单词作为目标, 用全词掩盖方法掩盖目标; 从待训练文本的 单词序列中随机挑选单词用全词掩盖方法掩盖; S30将预处理后的。

4、待训练文本输入预训练后的语言模型BERT进行训练, 语言模型BERT 对文本中每个单词根据其语义和位置对应的隐藏状态计算其概率分布及损失, 相加所有被 掩盖目标的损失得到文本总损失, 把文本总损失反向传播更新语言模型BERT的参数至模型 收敛; S40把预处理后的待增强文本输入收敛后的语言模型BERT中, 随机采样单词出现概率 作为新目标, 将新目标替换文本中的目标, 得到增强后的新样本。 2.如权利要求1所述的基于目标情感分析数据集的数据增强方法, 其特征在于, 所述语 言模型BERT包括: 分词模块, 用于对输入的文本基于语义进行分词生成单词序列; 掩盖模块, 用于从单词序列中挑选单词以用。

5、遮掩词掩盖; 词嵌入模块, 用于对掩盖后的单词序列编码成神经网络能够识别的单词向量序列E且 将其输入Transformer模块, 其中每个单词对应的向量均包括语义信息和该单词在文本中 的位置信息, 被掩盖的非情感类词的语义信息用遮掩词代替; Transformer模块, 由多个Transformer网络堆叠而成, 每个Transformer网络均采用了 多头自注意力机制, 第一个Transformer网络将单词向量序列E作为输入, 其他Transformer 网络的输入是前一个Transformer网络的输出, 以获取单词向量序列E中每个单词以不同的 权重注意单词向量序列中的所有单词, 并对单。

6、词向量序列E中每个单词加权求和得到新单 词向量序列H; 输出模块, 用于根据其语义和位置对应的隐藏状态获取新单词向量序列H中每个单词 在语言模型BERT词表中所分配的概率; 损失模块, 用于根据被掩盖词的语义信息和其位置上每个单词的概率采用交叉熵计算 在训练过程中每个被掩盖词的损失之和, 再反向传播以更新网络参数; 采样模块, 用于在增强阶段, 随机采样输出模块输出概率的一个单词作为新目标; 替换模块, 用于将新目标替换文本中的目标, 得到增强后的新样本。 3.如权利要求2所述的基于目标情感分析数据集的数据增强方法, 其特征在于, 所述 Transformer模块由12层Transformer。

7、网络堆叠而成, 每层Transformer网络包括12头注意 力模块, 其词嵌入的维度与词嵌入模块的维度相等。 4.如权利要求3所述的基于目标情感分析数据集的数据增强方法, 其特征在于, 每层所 述Transformer网络包括多头注意力模块、 多头残差归一层、 前馈神经网络及前馈残差归一 层, 词嵌入表示E输入多头注意力模块抽取文本特征, 所抽取的文本特征输入多头残差归一 层梯度传递至前馈神经网络, 前馈神经网络对文本特征进行非线性变换后输入前馈残差归 一层得到梯度输出的文本特征。 5.如权利要求4所述的基于目标情感分析数据集的数据增强方法, 其特征在于, 所述多 头注意力模块包括N头子空间。

8、、 拼接层和线性总层, 其中每头子空间包括3个线性层和1个缩 权利要求书 1/2 页 2 CN 111324744 A 2 放点积注意力层, 词嵌入层表示E分别输入每头子空间的3个线性层进行线性转换得到线性 向量Q、 线性向量K、 线性向量V的投影, 再把投影后的结果汇积到每个缩放点积注意力层计 算得到一定角度提取的语义信息作为每头子空间的输出, 拼接N头子空间所有的输出, 再经 过线性总层线性转换得到不同角度提取的最终语义信息, 以作为多头注意力模块的输出。 6.如权利要求2所述的基于目标情感分析数据集的数据增强方法, 其特征在于, 所述输 出模块包括线性层和激活层, 新单词向量序列H经过线。

9、性层线性变换以使其维度与语言模 型BERT的词表维度相当, 输入激活层通过Softmax函数进行归一化, 为词表中每一个单词分 配一个概率。 7.如权利要求2所述的基于目标情感分析数据集的数据增强方法, 其特征在于, 所述词 嵌入模块由单词嵌入、 分割嵌入和位置嵌入相加得到, 单词嵌入用于输入每个单词的语义 信息, 分割嵌入用于分段区分所输入的文本, 位置嵌入用于输入每个单词的位置信息。 8.如权利要求1所述的基于目标情感分析数据集的数据增强方法, 其特征在于, 所述语 言模型BERT采用在维基百科上的BERT-base版本。 9.如权利要求1所述的基于目标情感分析数据集的数据增强方法, 其特。

10、征在于, 所述 S10包括: S101使用爬虫爬取目标领域的评论语料且将其输入语言模型BERT训练至收敛, 以得到 具有目标领域知识的语言模型BERT; S102将待增强文本处理为以非情感词为目标的目标情感文本, 将其输入语言模型BERT 迭代训练至收敛, 以得到即具有目标领域知识又贴合待增强文本的文本分布特征的语言模 型BERT。 10.如权利要求1所述的基于目标情感分析数据集的数据增强方法, 其特征在于, 所述 S20具体包括: S201从语料中随机选择一段文本, 对这段文本根据空格或者标点进行分词, 得到其对 应的单词序列; S202从待增强文本的单词序列中挑选出非情感类词作为掩盖目标;。

11、 从待训练文本的单 词序列中随机挑选单词; S203从S202所挑选出的掩盖目标或单词按词根和词缀进行子词切分, 用遮盖词分别对 所切分的所有目标或单词的子词掩盖。 权利要求书 2/2 页 3 CN 111324744 A 3 一种基于目标情感分析数据集的数据增强方法 技术领域 0001 本发明涉及自然语言处理领域, 尤其涉及一种基于目标情感分析数据集的数据增 强方法。 背景技术 0002 在自然语言数据处理领域, 有人提出基于上下文的数据增强方法是给定需要进行 替换的单词对应的上下文, 它使用一个语言模型去预测一个新的单词用于替换, 通过使用 一个双向的长短期记忆网络来构建语言模型, 把目标。

12、单词两边位置经过双向长短期记忆网 络后的输出进行拼接, 并让其经过前馈神经网络, 用Softmax函数来得到目标位置的单词在 词典上的概率分布, 最后根据给定的概率视乎需要从整个词典或前若干个最可能的词范围 中随机抽样得到最终预测出的词, 替换掉原本的单词来生成新的样本。 传统的语言模型在 对单词进行预测时, 本身不会带有特定的情感倾向, 这会有新样本的标签被改变的危险。 为 了保证产生的新样本不会改变原样本的标签, 把传统的语言模型转化为 “基于标签的语言 模型, 在双向语言模型的前馈神经网络层中拼接上样本标签的嵌入, 使得输出的单词能同 时考虑上下文信息和标签信息。 如此, 语言模型预测出。

13、的词就能带有标签相对应的情感信 息, 保证了新样本的标签不会改变。 为了保证语言模型的质量, 论文先在一个较大的语料数 据集上不使用标签信息来进行双向长短期记忆网络语言模型的预训练, 然后才在具体的有 标签数据集上使用标签信息继续进行训练。 0003 这个方法在对语言模型进行建模的时候, 主要使用了双向长短期记忆网络。 使用 这种网络主要有四个缺点: 其一是长短期记忆网络在处理较长的输入时依然无法保证信息 的长期保存, 距离较远的信息可能无法被较好地编码; 其二是双向长短期记忆网络在本质 上还是两个不同方向的单向长短期记忆网络拼接而成的, 在建模时不能很好地利用两个方 向上的语义信息; 其三是。

14、长短期记忆网络不能进行并行运算, 必须按顺序对输入逐步处理, 这使得它的计算效率受到限制; 其四是这种网络难以进行多层堆叠, 信息抽取能力受限。 0004 还有人提出BERT(Bidirectional Encoder Representations from Transformers)模型来进行实验文本的数据增强。 由于BERT模型主体由多层新的网络结构 Transformer堆叠而成, 并且在预训练阶段使用了新的预训练任务 “掩盖语言模型(Masked Language Model)” , 它能够获取到深层的双向语义表示, 比传统的语言模型效果好很多, 它 使用BERT模型作为基础的语言模。

15、型, 把BERT模型在词嵌入层的 “分割嵌入(Segment Embedding)” 改造成 “标签嵌入(Label Embedding)” , 用直接相加的形式在词嵌入层就引入 标签信息。 它先让BERT在更大规模的语料上进行预训练, 然后再在有标签的数据集上使用 掩盖语言模型任务进行微调直到收敛。 0005 第二个方法主要适用于传统的对单个句子输入进行情感分析的数据集, 主要原因 有二: 其一是此方法假定整句话的输入有一个统一的情感标签, 由此才能设定相应的类别 嵌入, 但实际上在这个数据集里, 一句话可能会对不同的 “目标” 表达不同的情感, 因此无法 设定一个合适的类别嵌入来满足需求。。

16、 另外, 此方法在挑选替换词时没有进行特别针对, 而 说明书 1/9 页 4 CN 111324744 A 4 是随机选择单词进行替换, 结合上一点, 这会导致我们无法准确预知增强得到的样本的标 签, 可能会出现不慎修改样本标签的情况; 其二是此方法要求在数据集上进行掩盖语言模 型任务的微调, 但我们针对的数据集规模很小, 不足以支持掩盖语言模型任务的训练, 此外 BERT本身主要是使用维基百科的文本来进行预训练的, 而我们的数据集则是专门针对笔记 本的评论进行收集的, 二者的领域不一样, 这更是加大了在我们数据集上进行掩盖语言模 型任务的微调的难度, 最终无法得到一个强大的语言模型, 从而预。

17、测单词的性能也会受到 影响。 此外, 由于此方法把BERT模型在词嵌入层的 “分割嵌入” 改造成 “标签嵌入” , 而BERT原 本的 “分割嵌入” 只有两类, 在面对标签不止两类的数据集时, 此方法需要修改模型的结构, 并重新对嵌入层进行训练, 会更加麻烦。 发明内容 0006 本发明为克服上述现有技术所述的至少一种缺陷(不足), 提供一种基于目标情感 分析数据集的数据增强方法。 0007 本发明旨在至少在一定程度上解决上述技术问题。 0008 为了达到上述技术效果, 本发明的技术方案如下: 0009 一种基于目标情感分析数据集的数据增强方法, 包括: 0010 S10预训练语言模型BERT。

18、: 采集目标领域内的数据集预训练语言模型BERT; 0011 S20对文本预处理: 对待增强文本进行分词处理得到其对应的单词序列, 从待增强 文本的单词序列中挑选出非情感类单词作为目标, 用全词掩盖方法掩盖目标; 从待训练文 本的单词序列中随机挑选单词用全词掩盖方法掩盖; 0012 S30将预处理后的待训练文本输入预训练后的语言模型BERT进行训练, 语言模型 BERT对文本中每个单词根据其语义和位置对应的隐藏状态计算其概率分布及损失, 相加所 有被掩盖目标的损失得到文本总损失, 把文本总损失反向传播更新语言模型BERT的参数至 模型收敛; 0013 S40把预处理后的待增强文本输入收敛后的语。

19、言模型BERT中, 随机采样单词出现 概率作为新目标, 将新目标替换文本中的目标, 得到增强后的新样本。 0014 优选地, 所述语言模型BERT包括: 0015 分词模块, 用于对输入的文本基于语义进行分词生成单词序列; 0016 掩盖模块, 用于从单词序列中挑选单词以用遮掩词掩盖; 0017 词嵌入模块, 用于对掩盖后的单词序列编码成神经网络能够识别的单词向量序列 E且将其输入Transformer模块, 其中每个单词对应的向量均包括语义信息和该单词在文本 中的位置信息, 被掩盖的非情感类词的语义信息用遮掩词代替; 0018 Transformer模块, 由多个Transformer网络堆。

20、叠而成, 每个Transformer网络均采 用了多头自注意力机制, 每一个Transformer网络将单词向量序列E作为输入, 其他 Transformer网络的输入是前一个Transformer网络的输出, 以获取单词向量序列E中每个 单词以不同的权重注意单词向量序列中的所有单词, 并对单词向量序列E中每个单词加权 求和得到新单词向量序列H; 0019 输出模块, 用于根据其语义和位置对应的隐藏状态获取新单词向量序列H中每个 单词在语言模型BERT词表中所分配的概率; 说明书 2/9 页 5 CN 111324744 A 5 0020 损失模块, 用于根据被掩盖词的语义信息和其位置上每个单。

21、词的概率采用交叉熵 计算在训练过程中每个被掩盖词的损失之和, 再反向传播以更新网络参数; 0021 采样模块, 用于在增强阶段, 随机采样输出模块输出概率的一个单词作为新目标; 0022 替换模块, 用于将新目标替换文本中的目标, 得到增强后的新样本。 0023 优选地, 所述Transformer模块由12层Transformer网络堆叠而成, 每层 Transformer网络包括12头注意力模块, 其词嵌入的维度与词嵌入模块的维度相等。 0024 优选地, 每层所述Transformer网络包括多头注意力模块、 多头残差归一层、 前馈 神经网络及前馈残差归一层, 词嵌入表示E输入多头注意力。

22、模块抽取文本特征, 所抽取的文 本特征输入多头残差归一层梯度传递至前馈神经网络, 前馈神经网络对文本特征进行非线 性变换后输入前馈残差归一层得到梯度输出的文本特征。 0025 优选地, 所述多头注意力模块包括N头子空间、 拼接层和线性总层, 其中每头子空 间包括3个线性层和1个缩放点积注意力层, 词嵌入层表示E分别输入每头子空间的3个线性 层进行线性转换得到线性向量Q、 线性向量K、 线性向量V的投影, 再把投影后的结果汇积到 每个缩放点积注意力层计算得到一定角度提取的语义信息作为每头子空间的输出, 拼接N 头子空间所有的输出, 再经过线性总层线性转换得到不同角度提取的最终语义信息, 以作 为。

23、多头注意力模块的输出。 0026 优选地, 所述输出模块包括线性层和激活层, 新单词向量序列H经过线性层线性变 换以使其维度与语言模型BERT的词表维度相当, 输入激活层通过Softmax函数进行归一化, 为词表中每一个单词分配一个概率。 0027 优选地, 所述词嵌入模块由单词嵌入、 分割嵌入和位置嵌入相加得到, 单词嵌入用 于输入每个单词的语义信息, 分割嵌入用于分段区分所输入的文本, 位置嵌入用于输入每 个单词的位置信息。 0028 优选地, 所述语言模型BERT采用在维基百科上的BERT-base版本。 0029 优选地, 所述S10包括: 0030 S101使用爬虫爬取目标领域的评论。

24、语料且将其输入语言模型BERT训练至收敛, 以 得到具有目标领域知识的语言模型BERT; 0031 S102将待增强文本处理为以非情感词为目标的目标情感文本, 将其输入语言模型 BERT迭代训练至收敛, 以得到即具有目标领域知识又贴合待增强文本的文本分布特征的语 言模型BERT。 0032 优选地, 所述S20具体包括: 0033 S201从语料中随机选择一段文本, 对这段文本根据空格或者标点进行分词, 得到 其对应的单词序列; 0034 S202从待增强文本的单词序列中挑选出非情感类词作为掩盖目标; 从待训练文本 的单词序列中随机挑选单词; 0035 S203从S202所挑选出的掩盖目标或单。

25、词按词根和词缀进行子词切分, 用遮盖词分 别对所切分的所有目标或单词的子词掩盖。 0036 与现有技术相比, 本发明技术方案的有益效果是: 本发明先采集目标领域的大规 模评论语料(数据集)预训练语言模型BERT, 微调语言模型BERT让其学习到目标领域相关的 知识, 训练出一个掌握目标领域知识且熟悉待增强文本的BERT模型; 再对待增强文本分词 说明书 3/9 页 6 CN 111324744 A 6 处理, 目标掩盖, 对待训练文本分词处理后随机挑选单词掩盖, 并将预处理后的待训练文本 输入语言模型BERT进行训练, 进行一次掩盖语言模型任务训练至模型收敛, 接着输入待增 强文本至语言模型B。

26、ERT从而得到基于目标的情感分析任务的数据增强后的样本。 附图说明 0037 图1为本发明所述语言模型BERT在训练阶段的数据流图。 0038 图2为本发明所述语言模型BERT在增强阶段的数据流图。 0039 图3为本发明所述词嵌入模块的结构示意图。 0040 图4为本发明所述语言模块BERT主体内部的数据流图。 0041 图5为本发明所述Transformer网络的结构示意图。 0042 图6为本发明所述多头注意力模块的结构示意图。 具体实施方式 0043 在本发明的描述中, 需要理解的是, 术语 “中心” 、“纵向” 、“横向” 、“长度” 、“宽度” 、 “厚度” 、“上” 、“下” 、。

27、“前” 、“后” 、“左” 、“右” 、“竖直” 、“水平” 、“顶” 、“底”“内” 、“外” 、“顺时 针” 、“逆时针” 、“轴向” 、“径向” 、“周向” 等指示的方位或位置关系为基于附图所示的方位或 位置关系, 仅是为了便于描述本发明和简化描述, 而不是指示或暗示所指的装置或元件必 须具有特定的方位、 以特定的方位构造和操作, 因此不能理解为对本发明的限制。 0044 此外, 术语 “第一” 、“第二” 仅用于描述目的, 而不能理解为指示或暗示相对重要性 或者隐含指明所指示的技术特征的数量。 由此, 限定有 “第一” 、“第二” 的特征可以明示或者 隐含地包括至少一个该特征。 在本发。

28、明的描述中,“多个” 的含义是至少两个, 例如两个, 三 个等, 除非另有明确具体的限定。 在本发明中, 除非另有明确的规定和限定, 术语 “安装” 、 “相连” 、“连接” 、“固定” 等术语应做广义理解, 例如, 可以是固定连接, 也可以是可拆卸连 接, 或成一体; 可以是机械连接, 也可以是电连接; 可以是直接相连, 也可以通过中间媒介间 接相连, 可以是两个元件内部的连通或两个元件的相互作用关系, 除非另有明确的限定。 对 于本领域的普通技术人员而言, 可以根据具体情况理解上述术语在本发明中的具体含义。 0045 在本发明中, 除非另有明确的规定和限定, 第一特征在第二特征 “上” 或。

29、 “下” 可以 是第一和第二特征直接接触, 或第一和第二特征通过中间媒介间接接触。 而且, 第一特征在 第二特征 “之上” 、“上方” 和 “上面” 可是第一特征在第二特征正上方或斜上方, 或仅仅表示 第一特征水平高度高于第二特征。 第一特征在第二特征 “之下” 、“下方” 和 “下面” 可以是第 一特征在第二特征正下方或斜下方, 或仅仅表示第一特征水平高度小于第二特征。 0046 在本说明书的描述中, 参考术语 “一个实施例” 、“一些实施例” 、“示例” 、“具体示 例” 、 或 “一些示例” 等的描述意指结合该实施例或示例描述的具体特征、 结构、 材料或者特 点包含于本发明的至少一个实施。

30、例或示例中。 在本说明书中, 对上述术语的示意性表述不 必须针对的是相同的实施例或示例。 而且, 描述的具体特征、 结构、 材料或者特点可以在任 一个或多个实施例或示例中以合适的方式结合。 此外, 在不相互矛盾的情况下, 本领域的技 术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结 合和组合。 0047 尽管上面已经示出和描述了本发明的实施例, 可以理解的是, 上述实施例是示例 说明书 4/9 页 7 CN 111324744 A 7 性的, 不能理解为对本发明的限制, 本领域的普通技术人员在本发明的范围内可以对上述 实施例进行变化、 修改、 替换和变型。 0048。

31、 为了更好说明本实施例, 附图某些部件会有省略、 放大或缩小, 并不代表实际产品 的尺寸; 0049 对于本领域技术人员来说, 附图中某些公知结构及其说明可能省略是可以理解 的。 0050 下面结合附图和实施例对本发明的技术方案做进一步的说明。 0051 如图1-6所示, 一种基于目标情感分析数据集的数据增强方法, 包括: 0052 S10预训练语言模型BERT: 采集目标领域内的数据集预训练语言模型BERT; 0053 S20对文本预处理: 对待增强文本进行分词处理得到其对应的单词序列, 从待增强 文本的单词序列中挑选出非情感类单词作为目标, 用全词掩盖方法掩盖目标; 从待训练文 本的单词序。

32、列中随机挑选单词用全词掩盖方法掩盖; 0054 S30将预处理后的待训练文本输入预训练后的语言模型BERT进行训练, 语言模型 BERT对文本中每个单词根据其语义和位置对应的隐藏状态计算其概率分布及损失, 相加所 有被掩盖目标的损失得到文本总损失, 把文本总损失反向传播更新语言模型BERT的参数至 模型收敛; 0055 S40把预处理后的待增强文本输入收敛后的语言模型BERT中, 随机采样单词出现 概率作为新目标, 将新目标替换文本中的目标, 得到增强后的新样本。 0056 在本实施例中, 本发明分为训练阶段及增强阶段, S10、 S20和S30是训练阶段, S40 是增强阶段。 训练阶段的目。

33、的是训练出一个掌握目标领域知识且熟悉待增强文本的BERT模 型; 增强阶段的目的是利用训练阶段得到的语言模型BERT生成新样本, 使用所生成的新样 本用于任意模型训练, 相比直接用原样本进行训练, 使用新样本训练出的模型表现更优秀。 本发明沿用语言模型BERT作为基础进行训练, 它不但能够提取深层次的双向语义特征, 还 拥有高度可并化的特点, 在提高语义表达能力的同时还提高了计算效率。 本发明的目标通 常为一个非情感类的名词或名词性短语, 其内容不会影响输入文本表达的情感倾向。 即, 一 个样本中句子对目标的情感倾向只与目标以外的单词相关, 通过限定目标, 保证了增强前 后样本的标签不会发生变。

34、化, 提高了增强得到的新样本的标签的准确度。 同时, 也避免了需 要额外设置 “标签嵌入” 并对其重新进行训练的麻烦, 可以直接在语言模型BERT的基础上训 练, 而不必对网络结构再进行修改, 减少训练难度。 0057 本发明采用目标领域内的数据集预训练语言模型BERT, 得到即具有目标领域知识 又贴合数据集文本分布特征的语言模型BERT, 这样预测出来的单词也会更加贴切, 在语义 上与原句子的联系更加紧密; 另一方面, 通过这种方法来增强数据, 有助于产生更多样化的 “目标” , 大大提高模型的泛化能力。 0058 本发明专门针对文本的目标进行掩盖和替换, 省去了标签信息的引入的同时还能 保。

35、证增强出的样本标签不变。 0059 优选地, 所述语言模型BERT包括: 0060 分词模块, 用于对输入的文本基于语义进行分词生成单词序列; 0061 掩盖模块, 用于从单词序列中挑选单词以用遮掩词掩盖; 0062 词嵌入模块, 用于对掩盖后的单词序列编码成神经网络能够识别的单词向量序列 说明书 5/9 页 8 CN 111324744 A 8 E且将其输入Transformer模块, 其中每个单词对应的向量均包括语义信息和该单词在文本 中的位置信息, 被掩盖的非情感类词的语义信息用遮掩词代替; 0063 Transformer模块, 由多个Transformer网络堆叠而成, 每个Tran。

36、sformer网络均采 用了多头自注意力机制, 第一个Transformer网络将单词向量序列E作为输入, 其他 Transformer网络的输入是前一个Transformer网络的输出, 以获取单词向量序列E中每个 单词以不同的权重注意单词向量序列中的所有单词, 并对单词向量序列E中每个单词加权 求和得到新单词向量序列H; 0064 输出模块, 用于根据其语义和位置对应的隐藏状态获取新单词向量序列H中每个 单词在语言模型BERT词表中所分配的概率; 0065 损失模块, 用于根据被掩盖词的语义信息和其位置上每个单词的概率采用交叉熵 计算在训练过程中每个被掩盖词的损失之和, 再反向传播以更新网。

37、络参数; 0066 采样模块, 用于在增强阶段, 随机采样输出模块输出概率的一个单词作为新目标; 0067 替换模块, 用于将新目标替换文本中的目标, 得到增强后的新样本。 0068 优选地, 所述Transformer模块由12层Transformer网络堆叠而成, 每层 Transformer网络包括12头注意力模块, 其其词嵌入的维度与词嵌入模块的维度相等。 0069 优选地, 每层所述Transformer网络包括多头注意力模块、 多头残差归一层、 前馈 神经网络及前馈残差归一层, 词嵌入表示E输入多头注意力模块抽取文本特征, 所抽取的文 本特征输入多头残差归一层梯度传递至前馈神经网络。

38、, 前馈神经网络对文本特征进行非线 性变换后输入前馈残差归一层得到梯度输出的文本特征。 0070 优选地, 所述多头注意力模块包括N头子空间、 拼接层和线性总层, 其中每头子空 间包括3个线性层和1个缩放点积注意力层, 词嵌入层表示E分别输入每头子空间的3个线性 层进行线性转换得到线性向量Q、 线性向量K、 线性向量V的投影, 再把投影后的结果汇积到 每个缩放点积注意力层计算得到一定角度提取的语义信息作为每头子空间的输出, 拼接N 头子空间所有的输出, 再经过线性总层线性转换得到不同角度提取的最终语义信息, 以作 为多头注意力模块的输出。 0071 优选地, 所述输出模块包括线性层和激活层, 。

39、新单词向量序列H经过线性层线性变 换以使其维度与语言模型BERT的词表维度相当, 输入激活层通过Softmax函数进行归一化, 为词表中每一个单词分配一个概率。 0072 优选地, 所述词嵌入模块由单词嵌入、 分割嵌入和位置嵌入相加得到, 单词嵌入用 于输入每个单词的语义信息, 分割嵌入用于分段区分所输入的文本, 位置嵌入用于输入每 个单词的位置信息。 0073 在本实施例中, 本发明的语言模型BERT的分词模块、 掩盖模块、 词嵌入模块、 Transformer模块、 输出模块和损失模块用于完成训练阶段任务, 通过输入的文本得到训练 阶段的损失, 从而进行反向传播, 更新语言模型BERT的网。

40、络参数。 0074 以 “I like to use Windows because it is cool这句话作为输入的文本, 对每 个模块具体说明如下: 0075 1.分词模块。 该模块负责使用BERT提供的分词工具对输入的文本基于空格、 标点 等进行分词, 把输入的文本转化为对应的一个单词序列。 0076 例如对输入文本进行分词得到: “I” , “like” , “to” , “use” , “Windows” , 说明书 6/9 页 9 CN 111324744 A 9 “because” , “it” , “is” , “cool” 。 0077 2.掩盖模块。 该模块负责把上一步。

41、得到的单词序列中的一些单词进行掩盖, 得到 一个被掩盖的单词序列, 用于后续的训练。 其中, 被掩盖的单词是随机挑选得到的, 掩盖的 具体方法是将该单词使用一个特殊的词 “MASK” 进行替换。 对分词后的结果进行随机掩 盖, 得到: “I” , “like” , “MASK” , “use” , “Windows” , “MASK” , “it” , “is” , “cool” 的结 果。 其中, 原本的 “to” 和 “because” 这两个单词被掩盖了。 0078 3.词嵌入模块。 该模块负责把被掩盖的单词序列进行编码, 把其转化成为神经网 络能够识别的向量形式。 其中, 被掩盖的单词。

42、序列中的每个单词对应的向量, 主要由两个因 素决定: 其一为单词本身的内容; 其二为单词在这个序列中所处的位置。 经过词嵌入模块的 编码后, 每个单词对应的向量同时具有单词的语义信息以及位置信息。 例如, 对上一步的结 果进行编码, 会得到每个单词对应的向量: “EI_0” , “Elike_1” , “EMASK_2” , “Euse_3” , “EWindows_4” , “EMASK_5” , “Eit_6” , “Eis_7” , “Ecool_8” 。 其中, 下标左边的部分表示原单词, 右边 的部分表示位置编号。 注意, 两个 “MASK” 词经过编码后得到的是两个不一样的编码 “。

43、EMASK_2” 和 “EMASK_5” 。 0079 4.Transformer模块。 该模块负责使用多个堆叠的Transformer网络结构来对上一 步得到的单词向量进行编码。 其中, 第一个Transformer以上一步的单词向量作为输入, 其 他Transformer的输入都是前一个Transformer的输出。 Transformer网络内部主要使用了 多头自注意力机制(Multi-Head Self-Attention), 每一个单词都以不同的权重去注意序 列中的所有词, 把他们加权求和得到新的向量。 多个Transformer模块堆叠, 能够充分学习 单词之间的关系, 最终得到更。

44、好的向量表示。 使用H表示经过整个Transformer模块后得到 的向量, 有: “HI_0” , “Hlike_1” , “HMASK_2” , “Huse_3” , “HWindows_4” , “HMASK_5” , “Hit_6” , “His_7” , “Hcool_8” 。 0080 5.输出模块。 该模块负责根据上一步编码得到的向量H去计算每个被掩盖的位置 上的词表中每个单词的概率分布(没被掩盖的位置则无需计算)。 其中, 对于任一个被掩盖 的位置上的向量(例如HMASK_2), 该模块首先让其经过线性层, 把其维度变为词表大小, 再用 Softmax函数进行归一化, 得到词表。

45、里每一个词的概率分布。 例如, 我们可能得到: “I” , “like” , “MASK” , “use” , “Windows” , “MASK” , “it” , “is” , “cool” 这个序列中的第一个 “MASK” 的位置有90的可能性是 “to” , 10的可能性是其他词(并非真实概率, 只用于举 例说明)。 0081 6.损失模块。 该模块负责根据被掩盖的词原本的内容与其位置上词表中单词的概 率分布去计算训练过程中的损失, 用于网络的训练。 训练中具体使用的是交叉熵损失, 计算 出来的概率分布中原本的单词的概率越大, 则损失越小。 针对每一个被掩盖的词计算出一 个损失, 而最。

46、终的损失为每个被掩盖的词的损失之和。 例如, 上面的例子中, 训练过程的损 失应该由 “HMASK_2” 和 “HMASK_5” 这两个向量分别对应的概率分布计算得到, 从而反向传播, 更新语言模型BERT的网络参数。 0082 本发明的语言模型BERT的分词模块、 掩盖模块、 词嵌入模块、 Transformer模块、 输 出模块、 采样模块和替换模块完成增强阶段任务。 随机采样输出模块的一个概率的单词作 为新目标, 和待增强文本和初始目标一起输入语言模型BERT, 得到一个增强的新样本。 0083 下面以文本 “I love Windows 7which is better than Vi。

47、sta” , 目标为 “Vista” 说明书 7/9 页 10 CN 111324744 A 10 的一个样本为例对模块进行说明。 0084 1.分词模块负责对文本与目标进行分词, 其方法与训练阶段中一致。 对文本进行 分词得到对应的单词序列, 例如: “I” , “love” , “Windows” , “7” , “which” , “is” , “better” , “than” , “Vista” 。 而 “Vista” 分词后仍为 “Vista” 。 0085 2.掩盖模块负责对文本进行掩盖。 与训练阶段不一致的是, 本方案专门对文本中 的目标进行掩盖。 例如, 由于目标是 “Vis。

48、ta” , 针对上一步得到的单词序列里的 “Vista” 进行 掩盖, 得到掩盖后的单词序列为 “I” , “love” , “Windows” , “7” , “which” , “is” , “better” , “than” , “MASK” 。 0086 3.词嵌入模块与训练阶段一致, 不再赘述。 上一步中被掩盖的单词序列经过词嵌 入模块编码可得每个单词对应的向量: “EI_0” , “Elove_1” , “EWindows_2” , “E7_3” , “Ewhich_4” , “Eis_5” , “Ebetter_6” , “Ethan_7” , “EMASK_8” 。 0087 。

49、4 .Transformer模块与训练阶段一致。 对上一步得到的词向量使用多层 Transformer编码, 最终得到: “HI_0” , “Hlove_1” , “HWindows_2” , “H7_3” , “Hwhich_4” , “His_5” , “Hbetter_6” , “Hthan_7” , “HMASK_8” 。 0088 5.输出模块与训练阶段一致, 经过线性层和Softmax函数后, 可得被掩盖的位置的 词表中单词概率分布。 例如, 可能得到: “I” , “love” , “Windows” , “7” , “which” , “is” , “better” , “th。

50、an” , “MASK” 中的 “MASK” 位置上有40的可能是词 “XP” , 30的可能是 词 “7” , 20的可能是词 “Vista” , 10的可能是其他词。 0089 6.采样模块负责根据上一步中得到的概率进行随机采样, 得到一个单词作为新的 “目标” 。 例如, 根据上面例子中的概率, 采样得到单词 “XP” 作为新 “目标” 。 0090 7.替换模块负责根据原有的文本、 目标以及上一步采样的结果, 把原文本中的目 标替换成新的目标, 形成新的样本。 承接上面的例子, 原文本为 “I love Windows 7which is better than Vista” , 目标。

展开阅读全文
内容关键字: 基于 目标 情感 分析 数据 增强 方法
关于本文
本文标题:基于目标情感分析数据集的数据增强方法.pdf
链接地址:https://www.zhuanlichaxun.net/pdf/10588511.html
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1