使用社交上下文特征的深度微博情感分析方法.pdf
《使用社交上下文特征的深度微博情感分析方法.pdf》由会员分享,可在线阅读,更多相关《使用社交上下文特征的深度微博情感分析方法.pdf(10页完成版)》请在专利查询网上搜索。
1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 201910446241.1 (22)申请日 2019.05.27 (71)申请人 哈尔滨工程大学 地址 150001 黑龙江省哈尔滨市南岗区南 通大街145号哈尔滨工程大学科技处 知识产权办公室 (72)发明人 杨静邹晓梅韩宏宇张薇 (51)Int.Cl. G06F 16/35(2019.01) G06F 16/33(2019.01) G06F 16/9536(2019.01) G06F 17/27(2006.01) G06Q 50/00(2012.01) (54)发明名称 一。
2、种使用社交上下文特征的深度微博情感 分析方法 (57)摘要 本发明属于自然语言处理领域, 具体涉及一 种使用社交上下文特征的深度微博情感分析方 法。 本发明方法包括以下步骤: 1)采集微博数据 并对其进行预处理。 具体包括采集和预处理微博 文本信息和发布微博的用户信息即社交上下文 信息; 2)使用一种深度学习方法对微博社交上下 文信息进行表示, 将每个微博表示成为连续分布 的实数向量; 3)建立一个基于长短期记忆网络的 深度学习分类模型, 结合微博文本特征和社交上 下文特征对微博进行情感分析。 本发明针对微博 数据的特点, 提取了微博文本之间的上下文信 息, 并对其进行表示, 将其作为特征同文。
3、本信息 一起进行微博文本情感分析, 本发明方法能够提 高微博情感分析的效果。 权利要求书2页 说明书6页 附图1页 CN 110188200 A 2019.08.30 CN 110188200 A 1.一种使用社交上下文特征的深度微博情感分析方法, 其特征在于, 包括以下步骤: 步骤1: 采集微博数据并对其进行预处理, 具体包括采集和预处理微博文本信息和发布 微博的用户即社交上下文信息; 步骤2: 使用一种深度学习方法对微博社交上下文信息进行表示, 将每个微博表示成为 连续分布的实数向量; 步骤3: 建立一个基于长短期记忆网络的深度学习分类模型, 结合微博文本特征和社交 上下文特征对微博进行情。
4、感分析。 2.根据权利要求1所述的一种使用社交上下文特征的深度微博情感分析方法, 其特征 在于, 步骤2中对社交上下文关系图G(V,E)进行表示具体包括以下步骤: 步骤2.1: 对社交上下文网络G(V,E)中的局部信息进行表示: 其中vi和vj是节点 i和 j的向量表示, wij表示节点 i和 j之 间的权重; 步骤2.2: 对社交上下文中的全局信息进行表示: 其中当 i表示网络节点时, vi是其向量表示; 当 i表示上下文 时, vi 是此时的向量表示; 步骤2.3: 为了解决低效率的目标优化问题, 引入负采样, 使用异步随机梯度算法ASGD 来优化, 具体公式为: 3.根据权利要求1所述的。
5、一种使用社交上下文特征的深度微博情感分析方法, 其特征 在于, 在步骤3中, 使用社交上下文表示作为特征对微博进行情感分析具体包括以下步骤: 步骤3.1: 为了更好地利用微博社交上下文信息, 通过连接社交上下文向量v与词语向 量来作为编码器的输入, 以这种方式, 隐藏层输出表示(h1,h2,.,hN)具有来自微博社交 上下文的信息; 步骤3.2: 计算基于长短期记忆网络的编码器的隐藏层输出: ftsigmoid(Wfht-1,t,vi+bf) itsigmoid(Wiht-1,t,vi+bi) otsigmoid(Woht-1,t,vi+bo) Ctft Ct-1+it tanh(Wcht-1。
6、,t+bc) htot tanh(Ct) ft, it, ot分别是遗忘门, 输入门和输出门, Wf,Wi,是权重矩阵, bf,bI, 权利要求书 1/2 页 2 CN 110188200 A 2 是每个门的偏差, t表示当前词语的向量表示, Ct是细胞状态, ht是隐藏的输 出, 表示点乘, 输入序列由最后的隐藏输出hN表示, dv是社交上下文嵌入的维度, dh表示隐 藏层输出的维度, d为t的维度; 步骤3.3: 计算注意力机制产生注意力权重向量 和加权隐藏表示r: softmax(wTM) rH T 其中, H是由前面步骤产生的由隐含层输出向量h1,.,hN组成的矩阵, N是输入微博 的。
7、长度,和是权重矩阵, RN是由注意力 权重组成的向量,表示带权重的微博表示, dv是社交上下文嵌入的维度, dh表示隐藏 层输出的维度,是向量vi的N次连接, eN是元素为N个1的列向量, 表示线性转换vi的重复次数和句子中的单词数目相同。 权利要求书 2/2 页 3 CN 110188200 A 3 一种使用社交上下文特征的深度微博情感分析方法 技术领域 0001 本发明属于自然语言处理领域, 具体涉及一种使用社交上下文特征的深度微博情 感分析方法。 背景技术 0002 情感分析又称意见挖掘, 是指运用自动化的手段分析、 处理、 归纳和推理带主观色 彩的文本的过程。 随着Web2.0技术的发。
8、展, 在线社交网络如新浪微博、 Twitter等逐渐成为 人们日常获取、 传播信息和交流观点的平台。 用户成为在线社交网络的中心, 他们在社交网 络平台上不受限制地发布大量带有对各种事件、 话题有关观点看法的文本信息。 这些用户 生成的文本蕴含着巨大的价值, 可以应用在突发事件发现、 舆情控制等领域。 情感分析作为 一个自然语言处理领域的热门研究方向, 可以为在线社交网络文本分析提供重要的技术手 段。 0003 社交网络中情感分析研究的一般方法是应用自2000年初开始研究的传统情感分 析所使用的技术。 然而, 由于信息来源的演变, 现有技术中可用的方法在这个充满挑战的社 交网络环境中不能再有效。
9、地进行情感分析。 事实上, 社交网络情感分析除了传统情感分析 和自然语言处理的众多问题外, 还引入了更复杂的内容和新的信息来源, 更复杂的内容包 含短而噪音多的文本, 性别, 位置和年龄等元数据。 0004 传统方法假设社交网络中的文本是独立同分布的, 不符合在线社交网络数据的特 征。 在选择情感分类特征的时候, 传统方法通常只选择微博中的文本特征, 如单元组、 双元 组等, 并没有考虑社交网络上提供的丰富的上下文信息。 然而, 这种假设并不适用于微博平 台。 微博平台是一种新型的社交媒体, 除了基本的文本信息外, 微博平台还提供了丰富的元 数据, 如用户资料, 用户关系等。 换句话说, 由于。
10、元数据间存在发布、 关注、 喜欢等各种关系, 微博数据之间也因此由微博平台提供的各种元数据等连接在一起, 组成了一个关系多样、 结构丰富的网络。 这些元数据, 通常称为微博文本的社交上下文信息。 基于这个事实, 仅使 用文本内容作为分类特征对于微博情感分析是远远不够的。 发明内容 0005 本发明的目的在于结合新涌现的社交网络的特征, 提供一种不同于基于文本之间 相互独立模型的新型的微博情感分析方法, 即一种使用社交上下文特征的深度微博情感分 析方法, 该方法使用微博的社交上下文表示作为特征。 0006 本发明的目的是这样实现的: 0007 一种使用社交上下文特征的深度微博情感分析方法, 包括。
11、以下步骤: 0008 步骤1: 采集微博数据并对其进行预处理, 具体包括采集和预处理微博文本信息和 发布微博的用户即社交上下文信息; 0009 步骤2: 使用一种深度学习方法对微博社交上下文信息进行表示, 将每个微博表示 成为连续分布的实数向量; 说明书 1/6 页 4 CN 110188200 A 4 0010 步骤3: 建立一个基于长短期记忆网络的深度学习分类模型, 结合微博文本特征和 社交上下文特征对微博进行情感分析。 0011 步骤2中对社交上下文关系图G(V,E)进行表示具体包括以下步骤: 0012 步骤2.1: 对社交上下文网络G(V,E)中的局部信息进行表示: 0013 0014。
12、其中vi和vj是节点 i和 j的向量表示, wij表示节点 i和 j之间的权重; 0015 步骤2.2: 对社交上下文中的全局信息进行表示: 0016 0017其中当 i表示网络节点时, vi是其向量表示; 当 i表示上 下文时, vi是此时的向量表示; 0018 步骤2.3: 为了解决低效率的目标优化问题, 引入负采样, 使用异步随机梯度算法 ASGD来优化, 具体公式为: 0019 0020 在步骤3中, 使用社交上下文表示作为特征对微博进行情感分析具体包括以下步 骤: 0021 步骤3.1: 为了更好地利用微博社交上下文信息, 通过连接社交上下文向量v与词 语向量来作为编码器的输入, 以。
13、这种方式, 隐藏层输出表示(h1,h2,.,hN)具有来自微博 社交上下文的信息; 0022 步骤3.2: 计算基于长短期记忆网络的编码器的隐藏层输出: 0023 ftsigmoid(Wfht-1,t,vi+bf) 0024 itsigmoid(Wiht-1,t,vi+bi) 0025 otsigmoid(Woht-1,t,vi+bo) 0026 Ctft Ct-1+it tanh(Wcht-1,t+bc) 0027 htot tanh(Ct) 0028ft, it, ot分别是遗忘门, 输入门和输出门,是权重矩阵, 是每个门的偏差, t表示当前词语的向量表示, Ct是细胞状态, ht是隐藏 。
14、的输出, 表示点乘, 输入序列由最后的隐藏输出hN表示, dv是社交上下文嵌入的维度, dh表 示隐藏层输出的维度, d为t的维度; 0029 步骤3.3: 计算注意力机制产生注意力权重向量 和加权隐藏表示r: 0030 说明书 2/6 页 5 CN 110188200 A 5 0031 softmax(wTM) 0032 rH T 0033 其中, H是由前面步骤产生的由隐含层输出向量h1,.,hN组成的矩阵, N是输入 微博的长度,和是权重矩阵, RN是由注 意力权重组成的向量,表示带权重的微博表示, dv是社交上下文嵌入的维度, dh表示 隐藏层输出的维度,是向量vi的N次连接, eN是。
15、元素为N个1的列向量, 表示线性转换vi的重复次数和句子中的单词数目相同。 0034 本发明的有益效果在于: 0035 a.提出了一种在新兴社交网络上的新假设, 即微博文本之间并不是相互独立的。 这种新假设更加符合在线社交网络的实际情况, 能够使模型更精确。 0036 b.使用深度学习方法提取微博的社交上下文特征。 用这种方法提取特征能够精确 地表示社交上下文。 0037 c.提出一种可以结合社会上下文特征和文本特征的、 引入注意力机制的微博情感 分析方法。 在这个模型中, 社交上下文特征可以既训练阶段又可用于预测阶段。 该方法能够 对微博进行更精确的表示, 从而取得更好的情感分析结果。 附图。
16、说明 0038 图1为本发明方法框架图; 0039 图2为本发明社交上下文特征提取图。 具体实施方式 0040 下面结合附图对本发明的实施过程作进一步详细的描述。 0041 本发明结合新涌现的社交网络的特征, 提供一种不同于基于文本之间相互独立模 型的新型的微博情感分析方法, 即一种使用社交上下文特征的深度微博情感分析方法, 该 方法使用微博的社交上下文表示作为特征。 0042 一种使用社交上下文特征的深度微博情感分析方法, 包括如下步骤: 0043 (1)采集微博数据并对其进行预处理。 0044 (1.1)先采用网络爬虫采集微博文本数据及其发布用户的关注关系, 对采集的数 据进行人工情感标注。
17、, 以此作为数据集; 0045 (1.2)对微博数据集进行分词处理, 使用word2vec训练语料库, 对微博文本进行向 量化表示。 给定第i个微博sw1,w2,.,wN, w表示句子中的词语。 首先执行查找操作以将 微博中的所有词转换为词向量1,2,.,N, 其中N是微博的长度。 0046 (1.3)根据社会学中的情感一致性理论, 建立微博之间的情感一致性关系矩阵。 根 据用户发布微博的信息, 建立微博之间的情感一致性关系矩阵Asc: 0047 AscUTU 0048 其中, U为用户微博矩阵, 其第i行第j列表示的是用户ui发布了微博dj。 0049 (1.4)根据用户之间的关注信息, 建。
18、立微博之间的情绪感染性关系矩阵Aec: 0050 AecUTFU 说明书 3/6 页 6 CN 110188200 A 6 0051其中, F表示用户之间直接关系的矩阵。表示发布ti的用户是发布tj的用户 的朋友。 0052 (1.5)构建微博社交上下文网络G(V,E), 其邻接矩阵为: 0053 AAsc+ Aec 0054 其中 控制两个微博关系矩阵的权重。 0055 (2)使用一种深度学习方法对微博社交上下文信息进行表示, 将每个微博表示成 为连续分布的实数向量。 0056 (2.1)对社交上下文网络G(V,E)中的局部信息进行表示: 0057 0058其中vi和vj是节点 i和 j的向。
19、量表示, wij表示节点 i和 j之间的权重。 0059 (2.2)对社交上下文中的全局信息进行表示: 0060 0061其中当 i表示网络节点时, vi是其向量表示; 当 i表示上 下文时, vi是此时的向量表示。 0062 (2.3)为了解决低效率的目标优化问题, 中引入负采样。 使用异步随机梯度算法 ASGD来优化该方程。 0063 0064 如果边( i, j)被采样, 则对应的梯度将被计算为: 0065 0066 (3)建立一个基于长短期记忆网络的深度学习分类模型, 结合微博文本特征和社 交上下文特征对微博进行情感分析。 0067 (3.1)为了更好地利用微博社交上下文信息, 通过连。
20、接社交上下文向量v与词语向 量来作为编码器的输入。 以这种方式, 隐藏层输出表示(h1,h2,.,hN)可以具有来自微博 社交上下文的信息。 0068 (3.2)计算基于长短期记忆网络的编码器的隐藏层输出: 0069 ftsigmoid(Wfht-1,t,vi+bf) 0070 itsigmoid(Wiht-1,t,vi+bi) 0071 otsigmoid(Woht-1,t,vi+bo) 0072 Ctft Ct-1+it tanh(Wcht-1,t+bc) 说明书 4/6 页 7 CN 110188200 A 7 0073 htot tanh(Ct) 0074ft, it, ot分别是遗忘。
21、门, 输入门和输出门。是权重矩阵, 是每个门的偏差。 t表示当前词语的向量表示。 Ct是细胞状态, ht是隐藏 的输出。 表示点乘。 输入序列由最后的隐藏输出hN表示。 dv是社交上下文嵌入的维度, dh表 示隐藏层输出的维度, d为t的维度。 0075 (3.3)计算注意力机制产生注意力权重向量 和加权隐藏表示r: 0076 0077 softmax(wTM) 0078 rH T 0079 其中, H是由前面步骤产生的由隐含层输出向量h1,.,hN组成的矩阵, N是输入 微博的长度。和是权重矩阵, RN是由注 意力权重组成的向量,表示带权重的微博表示, dv是社交上下文嵌入的维度, dh表示。
22、 隐藏层输出的维度。是向量vi的N次连接。 eN是元素为N个1的列向量。 表示线性转换vi的重复次数和句子中的单词数目相同。 0080 (3.4)对输入的词语序列进行最终表示: 0081 h*tanh(Wpr+WxhN) 0082 其中, h*, Wp和Wx是待学习的参数。 0083 (3.5)添加一个线性层来将句子向量转换为e, 它是一个长度等于分类数目|C|的 实值向量。 然后, softmax层将e转换为条件概率分布。 0084 ysoftmax(Wse+bs) 0085 其中, Ws和bs是softmax层的参数。 0086 (3.6)通过随机梯度下降的反向传播来训练提出的模型, 其中。
23、目标函数即损失函 数是交叉熵损失函数, 使用Adam算法来调整学习速率。 0087 0088 其中, i表示微博的索引, j是情感分类的索引。 是L2正则化的权重。 是模型中的 所有参数。 yi表示微博真实的情感标签, 表示预测的微博情感标签。 0089 本发明提出了一种在新兴社交网络上的新假设, 即微博文本之间并不是相互独立 的, 这种新假设更加符合在线社交网络的实际情况, 能够使模型更精确。 使用深度学习方法 提取微博的社交上下文特征, 用这种方法提取特征能够精确地表示社交上下文。 本发明提 出一种可以结合社会上下文特征和文本特征的、 引入注意力机制的微博情感分析方法, 在 这个模型中, 。
24、社交上下文特征可以既训练阶段又可用于预测阶段, 该方法能够对微博进行 更精确的表示, 从而取得更好的情感分析结果。 0090 本发明涉及一种使用社交上下文特征的深度微博情感分析方法。 方法主要包括以 下步骤: 采集微博数据并对其进行预处理, 具体包括采集和预处理微博文本信息和发布微 博的用户即社交上下文信息; 使用一种深度学习方法对微博社交上下文信息进行表示, 将 说明书 5/6 页 8 CN 110188200 A 8 每个微博表示成为连续分布的实数向量; 建立一个基于长短期记忆网络的深度学习分类模 型, 结合微博文本特征和社交上下文特征对微博进行情感分析。 本发明针对微博数据的特 点, 提取了微博文本之间的上下文信息, 并对其进行表示, 将其作为特征同文本信息一起进 行微博文本情感分析。 该方法能够提高微博情感分析的效果。 说明书 6/6 页 9 CN 110188200 A 9 图1 图2 说明书附图 1/1 页 10 CN 110188200 A 10 。
- 内容关键字: 使用 社交 上下文 特征 深度 情感 分析 方法
电子债权凭证数据信息安全存储方法.pdf
玄武岩管道弯曲性能检测装置及方法.pdf
板仓感应装置.pdf
软土地基用防渗塑钢板桩.pdf
瓶盖及灌装产品.pdf
汽车仪表饰条总成.pdf
基于光伏顶棚的不停车充电车道.pdf
具有泄漏气体回收功能的甲醛储罐.pdf
自动开蛋机.pdf
高稳定性管道焊接机器人.pdf
陶瓷纤维保温结构.pdf
快速对接的管道连接机构.pdf
自动化磁体振动研磨清洗生产连接线.pdf
土地测绘用具有定位结构的测绘支架.pdf
用于监测土壤滑坡的监测球及系统.pdf
自清洗型乳化液过滤器.pdf
按摩垫滚轮导电结构.pdf
铁塔钢材表面防腐涂层的喷涂装置.pdf
高容量低成本层状钠离子电池正极材料烧结用匣钵.pdf
集成模块化电源.pdf
精度可控制调节输出装置.pdf
输液杆的集中供电结构.pdf
桥式起重机吊钩.pdf
活塞止转销自动定位安装装置.pdf
超疏水表面减阻测量装置.pdf
电池链接护罩.pdf
城市地下空间拖曳式时频联合电磁探测系统及方法.pdf
基于区块链的电动自行车智能计时方法及系统.pdf
高精密减速器的磨损检测装置.pdf
T型气密检测装置.pdf
环形钢桁架地面散件拼装高空胎架组装施工工艺.pdf
杂化改性高吸油树脂及其制备方法与应用.pdf
共刺激受体增效的嵌合抗原受体及其应用.pdf
波束互易性能力上报方法及装置.pdf
适用于区块链与链下间协作的验证系统与方法.pdf
自动收集水面漂浮物的方法.pdf
滤光结构.pdf
运算方法、装置及相关产品.pdf
可动嵌入式微结构及微型扬声器.pdf
节水的自动洗头装置.pdf
带提盖装置的U型模块与下置滤胆仓插接的净水机及滤胆.pdf
减反射膜、光学元件、摄像头模组和终端.pdf
沿一侧方位校正安全套的安全套自动排列供给装置.pdf
油气砂三相流体在水平段内流动能力的评价方法.pdf
预估血压骤降的方法及电子装置.pdf
兴趣点确定方法及系统.pdf
应用于显示驱动电路的公共电压补偿装置及补偿方法.pdf
电解铜箔、其制造方法、及锂离子二次电池.pdf
车辆的控制方法、系统、装置及存储介质.pdf
触控面板.pdf
基于区块链的资源处理方法、装置、电子设备及存储介质.pdf