基于BERT-LSTM的谣言检测模型.pdf

上传人：齐** 文档编号：10619605 上传时间：2021-08-05 格式：PDF 页数：9 大小：443.49KB

收藏版权申诉举报下载

第1页 / 共9页

第2页 / 共9页

第3页 / 共9页

下载文档到电脑，查找使用更方便

30 金币

下载文档

文档描述：

《基于BERT-LSTM的谣言检测模型.pdf》由会员分享，可在线阅读，更多相关《基于BERT-LSTM的谣言检测模型.pdf（9页完成版）》请在专利查询网上搜索。

1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202011220175.5 (22)申请日 2020.11.05 (71)申请人中山大学地址 510275 广东省广州市海珠区新港西路135号 (72)发明人况丽娟戴宪华 (51)Int.Cl. G06F 40/289(2020.01) G06F 40/216(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于BERT-LSTM的谣言检测模型 (57)摘要本发。

2、明提出了一种基于BERTLSTM的谣言检测模型，使用BERT预训练模型对文本进行句子层面的特征向量表示，再输入LSTM进一步获取高层语义特征，更加准确地理解语义。在微博谣言数据集的实验结果表明检测的准确率和召回率更高。具体步骤如下：首先，对输入的的原始数据做预处理，下载Google提供的BERTBase模型用来获取文本的词向量；再将BERT模型得到的向量输入LSTM模型。将bert_model.get_sequence_ output()函数即BERT模型输出的token向量作 LSTM网络的输入，将两者结合起来形成端到端的神经网络结构。经过LSTM的。

3、遗忘门、输入门、输出门提取到更高维、有效的特征再输入到softmax 层进行分类。根据loss， accuracy， recall和 precision的数值进行调整、优化模型参数，直到得到最优解，模型训练成功并保存。权利要求书1页说明书4页附图3页 CN 112270187 A 2021.01.26 CN 112270187 A 1.一种基于BERT-LSTM的谣言检测模型，其特征在于，使用BERT预训练语言模型对文本进行句子层面的特征向量表示，将获得的特征向量输入LSTM模型进一步获取高层语义特征，并且防止梯度消失或者梯度爆炸，使得模型能更加准确地理解。

4、语义，提高检测的准确率。所述方法包括：下载Google提供的BERT-Base模型，对输入的的原始数据做预处理，主要有去除特殊符号、去除多余空白、文本繁体转简体以及去除停用词，主要去掉文本中高频、无实际意义的词。将BERT模型得到的向量输入LSTM模型。将BERT与LSTM连接的方式是将bert_ model.get_sequence_output()函数即bert模型输出的token向量作为LSTM网络的输入，将两者结合起来形成端到端的神经网络结构。经过LSTM的遗忘门、输入门、输出门提取到更高维、有效的特征再输入到softmax层进行分类。 2.根据。

5、权利要求所述的方法，其特征在于，选取训练样本集，所述训练样本集中包括若干个样本文本和每个所述样本文本的0、 1标签。保持所述神经网络的网络结构的参数为读取到的所述基础网络参数，利用所述训练样本集对所述神经网络的基础网络参数进行训练。对输入数据预处理，利用停用词表，主要是对文本进行去停用词、去标点符号、分词。根据BERT模型，将文本数据转化为词向量。 3.根据权利要求1或2所述的方法，其特征在于,将得到的词向量以时间序列输入到 LSTM的encoder端，利用隐藏层保存文本中的依赖信息，信息在LSTM中会经过遗忘门、输入门、输出门最终输出。利用LST。

6、M对数据进行过滤、筛选和细胞状态更新，并防止梯度爆炸。 4.所述方法还包括：将LSTM输出的特征向量输入softmax分类器中进行具体分类,确定所述特征向量对应的类别并输出文本是否为谣言的分类结果。权利要求书 1/1 页 2 CN 112270187 A 2 一种基于BERT-LSTM的谣言检测模型技术领域 0001 本发明涉及自然语言处理领域，尤其是一种基于BERT-LSTM的谣言检测模型。背景技术 0002 谣言检测是指针对微博等网络社交平台上广泛传播的虚假内容的帖子或者新闻，应用互联网信息采集技术和自然语言处理技术对谣言进行自动检测，同时克服谣言举报或核查平台如新浪。

7、的谣言报告中心、互联网公司的辟谣平台所存在的人工辟谣费时费力、信息不全、时延等问题，实现在谣言传播早期阻断谣言的传播，减小谣言产生的危害。 0003 谣言检测主要有基于统计特征的机器学习和基于深度学习的两类检测方法。其中基于统计特征的机器学习有三个统计特征方面效果突出：一是用户特征，如用户是否为 VIP，用户的粉丝数，用户的关注数等等；二是内容特征，如文本中包含特殊符号的数量，是否包含链接等内容；三是传播统计特征，如帖子的转发量、评论数等。但这种方法以谣言传播的所有信息为前提，依赖于聚合特性，能够收集到的信息有限。 0004 基于深度学习的谣言检测。

8、避免了繁琐的特征提取过程，通过采用CNN、 RNN进行高维抽象特征提取，最后经Softmax进行分类预测。但CNN只能抽取文本局部特征，更适合检测短文本，而RNN在实际应用中存在梯度消失的问题。随着Word2Vec、 GloVe等词向量模型的发展，人们开始利用词向量模型训练文本库生成词向量获得词汇语义关系， BERT模型被认为是自然语言处理领域新时代的开始。这个强大的、预训练好的模型可以作为一个随时可用的部件使用，节省了从头开始训练模型所需花费的时间、精力和资源。发明内容 0005 针对上述问题及技术需求，提出了一种基于BERT-LSTM的谣言检测方法，使。

9、用BERT 预训练语言模型对文本进行句子层面的特征向量表示，将获得的特征向量输入LSTM模型进一步获取高层语义特征，并且防止梯度消失或者梯度爆炸，使得模型能更加准确地理解语义，提高检测的准确率。本发明在微博谣言数据集上进行了实验，结果表明本发明提出的谣言检测模型的准确率和召回率都有较大提升。 0006 本发明的技术方案如下： 0007 一种基于BERT-LSTM的谣言检测方法，该方法包括BERT预训练模型提取文本特征、获取词向量和LSTM神经网络获取文本的高层语义特征以及softmax层进行谣言分类，方法包括： 0008 BERT的输入相较其它模型，采用了三个Emb。

10、edding相加的方式，包括Token Embeddings， Segment Embeddings， Position Embeddings三个向量，以此达到预训练和预测下一句的目的。 BERT采用self-attention机制克服了RNN无法并行、运行慢的缺点，同时通过MaskLM来达到训练深度双向预训练模型，较之前使用单向语言模型训练更准确，信息量更大，且语义理解更准确。 0009 输入的embedding会加入位置编码，即在词向量中加入了单词的位置信息，便于区说明书 1/4 页 3 CN 112270187 A 3 分不同位置的单词。 0010 BERT自注。

11、意力机制将句子中的某个词对句子中的所有词做一次Attention，算出每个词对于这个词的权重，再用所有词的加权和来表示这个词。 0011 具体操作是每个词都要通过三个矩阵wq， wk， wv进行一次线性变化，生成每个词对应的的query,key,value三个向量。以一个词为中心进行SelfAttention时，都是用这个词的query向量与每个词的key向量做点积。 0012 再通过Softmax归一化出权重,点乘value得到所有词的加权和，作为这个词的输出； 0013 BERT前向传播网络会将经过Attention之后输出的n个向量(n是词的个数)都分别输入到一个全。

12、连接层中，完成前馈网络传播。 0014 BERT的Add&Norm部分是一个残差网络，它会将一层的输入与其标准化后的输出进行相加。此外， BERT还引入了Multi-HeadAttention多头机制相当于h个Attention集成，再将h个输出进行concat得到最终的输出，从而提高算法的效果和稳定性。 0015 通过将BERT进Fine-tune(微调)，结合LSTM网络进行文本特征提取。将BERT与LSTM 连接的方式是将bert_model.get_sequence_output()函数即bert模型输出的token向量作为LSTM网络的输入。 0016 LSTM增。

13、加了记忆单元、输入门、遗忘门及输出门，这些门及记忆单元组合起来，增强了其处理远距离依赖问题的能力，大大提升了循环神经网络处理长序列数据的能力，同时还能防止梯度爆炸和消失。 0017 LSTM输出的词向量可以扩充为卷积对应的格式，即样本数量batch_size为16，计算序列长度sequence_len为128。 0018 最后全连接层进行softmax分类操作；最终输出层可以得到是否为谣言的二分类结果； 0019 其进一步的技术方案为，增加已获取的文本数据的人工标注量，导入BERT-LSTM神经网络进行多次训练，包括： 0020 选取训练样本集，所述训练样本。

14、集中包括多个方面的文本数据，且已经人工标注好分类： 0为非谣言、 1为谣言，选取训练样本集训练时需要对输入的文本数据进行预处理，需要利用停用词表，主要是对文本进行去停用词、去标点符号、去敏感词、结巴分词。将所述训练样本输入已构建好的BERT-LSTM中，从而提高模型训练精度。 0021 本发明的有益技术效果是： 0022 1、本申请公开了一种基于BERT-LSTM的谣言检测模型，将BERT和LSTM结合起来，提高了预测结果的准确度。 0023 2、通过多次训练、多次测试的方法，不仅提高了模型的鲁棒性，而且增强了对各类文本信息的识别能力。 0024 3、。

15、本发明还用到了预训练模型的思想，避免从零开始构建模型，通过fine-tune大量地节省训练时间和计算资源，进一步提高检测效率。 0025 4、本发明采用深层双向的BERT做特征提取， BERT采用self-attention机制克服了 RNN无法并行、运行慢的缺点，同时通过Mask LM来达到训练深度双向预训练模型。说明书 2/4 页 4 CN 112270187 A 4 附图说明 0026 图1是本申请中的谣言检测模型框图。 0027 图2是本申请中的BERT模型结构图。 0028 图3是本申请中的LSTM模型结构图。 0029 图4是本申请中的谣言检测模型输入层设计流程图。。

16、 0030 图5是本申请中的谣言检测模型参数取值图表。具体实施方式 0031 下面结合附图对本发明做进一步的说明。 0032 本申请中公开了一种基于BERT-LSTM的谣言检测模型，针对社交网络中某些热点问题所发表的难以区分真实性的帖子或者新闻，能够省时、高效的判断是否属于谣言的分类结果。本发明中的文本数据处理模型包括Bidirectional Encoder Representation from Transformers(BERT)、长短期记忆网络(LSTM)和softmax分类器。 0033 本发明公开的方法在使用BERT-LSTM模型对文本数据进行预测分类结果之前，需。

17、要从用BERT模型和LSTM神经网络获取文本语义特征，因此本发明分为两部分，第一部分是 BERT预训练模型获得词向量表示，主要流程参考图2，第二部分是LSTM神经网络模型，主要流程参考图3，总流程图参考图1。 0034 第一步：下载Google提供的BERT-Base模型，网络结构一共12层，隐藏层有768维，采用12头模式，共有110M个参数。 0035 第二步：对输入的的原始数据做预处理。主要有去除特殊符号、去除多余空白、文本繁体转简体以及去除停用词，主要去掉文本中高频、无实际意义的词。 0036 第三步：映射索引，对文本进行分词并映射为索引，。

18、以及标签映射为索引，对每个单词序列做mask。通过BERT模型的self-attention机制得到每个词语对应的融合字、位置和文本的全局语义信息的向量表示。 0037 第四步：将BERT模型得到的向量输入LSTM模型。将BERT与LSTM连接的方式是将 bert_model.get_sequence_output()函数即bert模型输出的token向量作为LSTM网络的输入，将两者结合起来形成端到端的神经网络结构。经过LSTM的遗忘门、输入门、输出门提取到更高维、有效的特征再输入到softmax层进行分类。 0038 第五步：选定实验的评价指标，本文研究的问。

19、题属于分类问题，分类问题最常用的评价指标包括精确率P、召回率R以及F1值，精确率P是指分类器预测为正且预测正确的样本占所有预测为正的样本的比例，召回率R是指分类器预测为正且预测正确的样本占所有真实为正的样本的比例， F1值即为正确率和召回率的调和平均值，可以更加全面的反映分类性能，因此它是本文衡量实验效果主要评价指标。 0039 第六步：输入微博谣言文本数据集训练BERT-LSTM模型。将微博谣言文本数据做好非谣言(0)、谣言(1)的标注，按照8:1:1划分训练集、测试集、验证集。 0040 第七步：将文本数据通过BERT模型转化为词向量的后送入LSTM神经。

20、网络入口，训练10000轮观察baseline模型结果。根据loss， accuracy， recall和precision的数值进行调整、优化模型参数，直到得到最优解，模型训练成功并保存。 0041 第八步：利用模型预测。获取未标注的数据集，将文本数据转化为词向量的形式，说明书 3/4 页 5 CN 112270187 A 5 送入训练好的模型入口，得到预测结果。训练出合适的模型后会自动保存，因此预测模型这部分每次只需使用已训练好的模型。 0042 第九步：将文发明提出的模型与传统的机器学习模型做实验对比，在微博谣言数据集的实验结果表明本发明提出的谣言检测算法的准确率和召回率更高。 0043 以上所述的仅是本申请的优选实施方式，本发明不限于以上实施例。可以理解，本领域技术人员在不脱离本发明的精神和构思的前提下直接导出或联想到的其它改进和变化，均应认为包含在本发明的保护范围之内。说明书 4/4 页 6 CN 112270187 A 6 图1 图2 说明书附图 1/3 页 7 CN 112270187 A 7 图3 图4 说明书附图 2/3 页 8 CN 112270187 A 8 图5 说明书附图 3/3 页 9 CN 112270187 A 9 。

展开阅读全文

内容关键字: 基于 BERT LSTM 谣言检测模型