欢迎来到专利查询网! | 帮助中心 查专利用我们更专业!
专利查询网
换一换
首页 专利查询网 > 资源分类 > PDF文档下载
分享到微信 分享到微博 分享到QQ空间

基于多重邻居节点的多重语义影响的网络链接预测方法.pdf

  • 资源ID:11025878       资源大小:1.22MB        全文页数:15页
  • 资源格式: PDF        下载积分:30金币
快捷下载 游客一键下载
账号登录下载
三方登录下载: 微信开放平台登录 QQ登录
下载资源需要30金币
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
如填写123,账号就是123,密码也是123。
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 
账号:
密码:
验证码:   换一换
  忘记密码?
    
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

基于多重邻居节点的多重语义影响的网络链接预测方法.pdf

1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 201910985752.0 (22)申请日 2019.10.17 (71)申请人 天津大学 地址 300072 天津市南开区卫津路92号 (72)发明人 王博宋美贤胡清华 (74)专利代理机构 天津市北洋有限责任专利代 理事务所 12201 代理人 曹玉平 (51)Int.Cl. G06F 16/2458(2019.01) G06F 16/28(2019.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01)

2、G06Q 50/00(2012.01) (54)发明名称 基于多重邻居节点的多重语义影响的网络 链接预测方法 (57)摘要 本发明公开了一种基于多重邻居节点的多 重语义影响的网络链接预测方法, 涉及数据挖 掘、 拓扑结构分析, 属于社会计算领域的一个研 究问题。 包括以下步骤: 数据解析, 基于社交网络 中节点行为以及节点关系数据, 解析节点兴趣特 征以及网络结构特征。 模型训练, 模型结合多重 邻居节点的多重语义影响, 获取得到每个节点的 嵌入向量。 预测分析, 使用节点对的嵌入向量之 间的相似性来测量存在好友链接的概率。 本发明 不使用邻居的恒定影响分数, 而是模拟每个邻居 对该节点的特殊

3、语义影响。 本发明联合模拟了网 络嵌入训练中邻居节点的局部级和全局级语义 影响, 并为每个节点训练基于所有邻居节点的语 义影响的联合嵌入向量。 权利要求书3页 说明书9页 附图2页 CN 110851491 A 2020.02.28 CN 110851491 A 1.一种基于多重邻居节点的多重语义影响的网络链接预测方法, 其特征在于, 包括以 下步骤: 步骤一, 数据解析, 用于解析社交网络中节点行为数据以及节点间关系数据; 分别从节 点的兴趣属性、 以及节点好友属性中解析出相关属性向量; 获得节点兴趣特征、 网络结构特 征; 步骤二, 模型训练, 用于构建获取社交网络中节点嵌入向量的模型;

4、基于数据解析模块 获得的节点兴趣特征、 网络结构特征, 模型建模多重邻居节点的多重语义影响, 获取得到每 个节点的嵌入向量; 步骤三, 预测分析, 使用节点对的嵌入向量之间的相似性来测量相应节点对之间存在 好友链接的概率。 2.根据权利要求1所述的基于多重邻居节点的多重语义影响的网络链接预测方法, 其 特征在于, 步骤一中, 将社交网络表示为G(N, E, S), 该社交网络中的节点都具有文本属 性, 该文本属性蕴含了兴趣信息, 其中, Nu1, u2, ., un是社交网络的节点集合, E是社交 网络中的好友链接集合, S是节点的文本属性集合; 节点ui的兴趣表示为单词序列Si(w1, w2

5、, ., wn), 其中wt是词序列Si中的第t个词。 3.根据权利要求1所述的基于多重邻居节点的多重语义影响的网络链接预测方法, 其 特征在于, 步骤二中, 训练目标是获得网络嵌入矩阵Vv1, v2, ., vn, V由所有节点的嵌 入向量组合形成, 其中是节点ui的嵌入向量; 为了训练网络中每个节点的嵌入向 量, 最大化所有已知边缘的概率之和, 如下所示: 其中, L(e)是基于拓扑的目标函数LT(e)和基于影响的目标函数LI(e)的权衡, 基于拓扑 和基于影响的嵌入被映射到相同的表示空间中; L(e) LT(e)+(1- )LI(e) 其中基于拓扑的目标函数基于影响的目标函数 wij是社

6、交网络中的边的权重, 用于表示好友关系的强度或极性, 这使本发 明适用于各种网络; 在模型训练过程中获得节点的基于影响的嵌入向量时, 该节点的每个邻居的语义影响 用每个邻居和该节点的兴趣文本的语义建模; 该语义影响分别在局部和全局层面建模, 并 合并为一个联合的基于影响的嵌入向量; 其中, 局部级语义影响用于捕获局部区域的文本 语义影响, 局部区域的文本可以用兴趣文本中的某些术语词汇来解释; 全局级语义影响捕 捉邻居的全局兴趣语义所造成的影响, 即兴趣文本整体语义所刻画的全局语义而造成的语 义影响; 把所有邻居对节点ui的基于影响的嵌入进行平均, 来生成最终的如下所示: 权利要求书 1/3 页

7、 2 CN 110851491 A 2 其中m表示节点ui的邻居节点数量,表示邻居节点uk对节点ui的基于影响的嵌入; 通过连接局部级语义影响嵌入和全局级语义影响嵌入获得邻居节点uk对节点ui 的基于影响的嵌入, 即:其中且 4.根据权利要求3所述的基于多重邻居节点的多重语义影响的网络链接预测方法, 其 特征在于: 基于局部级语义影响的嵌入向量训练是基于卷积神经网络和注意力机制; 训练 包括: 获取一对好友节点ui, uk的文本信息序列Si, Sk, 基于查找层, 卷积层, 注意层和输出层 获得最终的基于局部级语义影响的嵌入向量; 基于文本信息序列Si, 通过查找层获得文本嵌入矩阵Xx1, x

8、2, ., xn, 然后基于如下 卷积公式, 获得局部特征矩阵C(i)c1, c2, ., cn-h+1; cif(Wcxi: i+h-1+b) 以同样的方式, 获取节点ui, uk的局部特征矩阵C(i), 结合注意力机制, 耦合一组好友节点的局部语义相关性, 并为两个局部特征矩阵各生 成一个注意力向量, 使得来自邻居节点的局部语义信息直接影响该节点的嵌入向量; 生成 注意力向量时, 首先使用局部特征矩阵C(i), C(k)构建用于局部级语义影响的语义匹配矩阵 M, 其目标是获取语义匹配信号, 计算方式如下: 其中, 语义匹配矩阵Mxy表示矩阵M的第x行、 第y列元素; 对语义 匹配矩阵M进行

9、均值池化和softmax运算, 以生成注意力向量, 计算方式如下: a(i)softmax(meanrow(M) a(k)softmax(meancol(M) 其中, a(i),分别是局部特征矩阵C(i), C(k)的注意力向量, meanrow()和 meancol()分别表示对矩阵在行、 列方向上进行均值池化; 节点uk对节点ui的基于局部级语义影响的嵌入向量计算如下: 以同样的方式, 计算节点ui对节点uk的基于局部级语义影响的嵌入向量 5.根据权利要求3所述的基于多重邻居节点的多重语义影响的网络链接预测方法, 其 特征在于: 基于全局级语义影响的嵌入向量训练是利用Bi-GRU模型获取全

10、局语义影响, 包 括: 给定节点ui, 先获得节点ui对应的文本嵌入矩阵X, GRU模型的第t个隐藏状态组件的计 算方式如下: rt (Wxrxt+Whrht-1) zt (Wxzxt+Whzht-1) 权利要求书 2/3 页 3 CN 110851491 A 3 获取节点ui的前向隐藏状态和后向隐藏状态并将和连接 后得到Bi-GRU模型的隐层上下文状态 对所有历史隐藏状态应用均值池化, 即: 将向量的大小映射到相应的维度, 如下: 其中, 矩阵是投影矩阵; 向量是节点uk对节点ui的基于全局级语 义影响的嵌入向量; 以同样的方式, 计算节点ui对节点uk的基于全局级语义影响的嵌入向量 6.根

11、据权利要求3所述的基于多重邻居节点的多重语义影响的网络链接预测方法, 其 特征在于: 对于训练网络中每个节点的嵌入向量进行模型优化, 包括: 采用负抽样算法对原目标函数进行加速, 即为每个已知边(ui, uk)指定以下目标函数: 其中, K表示对应的负采样边的个数; ()表示sigmoid函数。 7.根据权利要求1所述的基于多重邻居节点的多重语义影响的网络链接预测方法, 其 特征在于, 步骤三中, 使用节点对的嵌入向量之间的相似性来测量相应节点对之间存在好 友链接的概率; 进行预测分析时, 社交网络中节点ui和uj, 组成链接eij的概率为: 其中, vi,分别是节点ui, uj的嵌入向量,

12、每个节点的嵌入向量是基于拓扑的嵌 入向量和该节点的基于影响的嵌入向量的组合, 即: 权利要求书 3/3 页 4 CN 110851491 A 4 基于多重邻居节点的多重语义影响的网络链接预测方法 技术领域 0001 本发明涉及数据挖掘、 拓扑结构分析, 属于社会计算领域的一个研究问题。 提出了 一种结合多重邻居节点的多重语义影响的网络链接预测方法。 背景技术 0002 在社交网络中的众多任务中,链接预测非常具有重要性。 该任务包括两种问题: 第 一种是推断社交网络中未来可能产生的社交链接, 另一种是重建社交网络当前快照中缺失 的现有链接。 本发明的目标是解决后者, 即重建社交网络中的缺失链接。

13、 0003 为实现链接预测, 网络的拓扑结构信息被广泛用于传统的链路预测方法, 其被称 为基于拓扑结构的方法。 基于拓扑结构的链接预测仅考虑社交网络的结构信息。 受网络嵌 入(Network Embedding, NE)技术的启发, 近年来大量基于拓扑结构的模型被提出, 用于学 习节点嵌入向量并进一步用于链接预测。 例如, DeepWalk1通过将随机游走得到的节点串 视为句子, 结合Skip-Gram方法来学习节点的嵌入向量表示。 基于拓扑的方法忽略了节点属 性, 这些属性实际上对链路预测也很有用。 通过联合建模拓扑和语义信息, 混合方法可以提 供更好的性能。 例如, TADW2结合文本信息

14、来改进基于DeepWalk的矩阵分解。 0004 本发明通过将不同类型的属性嵌入到统一空间中, 计算其嵌入向量的相似性来预 测两个人之间的社交链接的概率。 这种预测与相似性的联系的想法与社会学中的同质性理 论密切相关。 为了解释社会网络中个体之间的相似性, 同质性理论提出了两个原则: 选择和 影响。 选择原则通过假设人与其他人相似来解释社会联系的相似性, 并且影响原则假设相 似性源于人们随着时间的推移变得更加与他们的朋友相似的事实。 与影响原则相比, 选择 原则更直观, 在当前的链接预测研究中得到广泛应用: 人们倾向于选择在结构或语义属性 上与自己相似的朋友。 0005 但是, 影响力在建立社

15、会联系方面也起着重要作用。 社会学中的同质性理论表明 人们在现有关系上相互影响。 通过这种影响方式, 一个人的邻居的将影响一个人的新朋友 的选择。 心理学研究也支持影响和选择在人们选择行为中的共同作用。 在心理学中, 影响和 选择的区别可以理解为两种动机: 内在动机和外在动机, 它们共同驱动选择行为3。 内在动 机是由人的内在兴趣决定的, 外在动机来自于外在的影响。 0006 在本发明中, 将邻居的影响作用引入链路预测任务。 为此, 有两个主要挑战: 0007 (1)社交网络中用户节点经常对不同的邻居节点有不同的影响。 但是, 在传统方法 中一个用户节点只有一个恒定的影响力分数, 当用户节点影

16、响他/她周围的不同邻居节点 时, 便不能得到具有细微差别的影响。 因此, 如果想要了解给定用户节点在社交链接建立过 程中如何被不同的邻居节点影响, 则需要建模好友节点之间的成对影响。 0008 (2)人际关系间的影响通常是语义的, 例如研究兴趣或政治立场。 这种语义可能存 在于不同的语言层面。 一方面, 局部级语义影响以某些特定术语语义描绘了两个用户节点 的交互。 另一方面, 全局级语义影响是指邻居节点的整体兴趣的语义影响。 0009 参考文献 说明书 1/9 页 5 CN 110851491 A 5 0010 1Bryan Perozzi,Rami Al-Rfou,and Steven Sk

17、iena.2014.DeepWalk:online learning of social representations.In Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,KDD 14,New York,NY,USA-August 24-27,2014.701710. 0011 2Cheng Yang ,Zhiyuan Liu ,Deli Zhao ,Maosong Sun ,and Edward Y.Chang.2015.Network R

18、epresentation Learning with Rich Text Information.In Proceedings of the Twenty-Fourth International Joint Conference on Artificial Intelligence,IJCAI2015,Buenos Aires,Argentina,July 25-31,2015.21112117. 0012 3Richard M.Ryan and Edward L.Deci.2000.Intrinsic and Extrinsic Motivations:Classic Definitio

19、ns and New Directions.Contemporary Educational Psychology 25,1(2000),5467. 发明内容 0013 在本发明中设计了一种结合多重邻居节点的多重语义影响的网络链接预测方法。 即基于网络嵌入的方法来进行链接预测, 每个节点的每个邻居节点具有多级语义影响。 本 发明的目标是基于相关的拓扑信息和兴趣文本信息, 对某些节点对之间存在好友链接的概 率进行预测。 0014 本发明提出的一种基于多重邻居节点的多重语义影响的网络链接预测方法, 包括 以下步骤: 0015 步骤一, 数据解析, 用于解析社交网络中节点行为数据以及节点间关系数据;

20、 分别 从节点的兴趣属性、 以及节点好友属性中解析出相关属性向量; 获得节点兴趣特征、 网络结 构特征; 0016 步骤二, 模型训练, 用于构建获取社交网络中节点嵌入向量的模型; 基于数据解析 模块获得的节点兴趣特征、 网络结构特征, 模型建模多重邻居节点的多重语义影响, 获取得 到每个节点的嵌入向量; 0017 步骤三, 预测分析, 使用节点对的嵌入向量之间的相似性来测量相应节点对之间 存在好友链接的概率。 0018 进一步讲, 本发明所述的基于多重邻居节点的多重语义影响的网络链接预测方法 的步骤一中, 将社交网络表示为G(N, E, S),该社交网络中的节点都具有文本属性, 该文本 属性

21、蕴含了兴趣信息, 其中, Nu1, u2, ., un是社交网络的节点集合, E是社交网络中的 好友链接集合, S是节点的文本属性集合; 节点ui的兴趣表示为单词序列Si(w1, w2, ., wn), 其中wt是词序列Si中的第t个词。 0019 本发明所述的基于多重邻居节点的多重语义影响的网络链接预测方法的步骤二 中, 训练目标是获得网络嵌入矩阵Vv1, v2, ., vn, V由所有节点的嵌入向量组合形成, 其中是节点ui的嵌入向量; 为了训练网络中每个节点的嵌入向量, 最大化所有已知 边缘的概率之和, 如下所示: 0020 0021 其中, L(e)是基于拓扑的目标函数LT(e)和基于

22、影响的目标函数LI(e)的权衡, 基于 说明书 2/9 页 6 CN 110851491 A 6 拓扑和基于影响的嵌入被映射到相同的表示空间中; 0022 L(e)= LT(e)+(1- )LI(e) 0023其中基于拓扑的目标函数基于影响的目标函数 wij是社交网络中的边的权重, 用于表示好友关系的强度或极性, 这使本发明适用于各种网络; 0024 在模型训练过程中获得节点的基于影响的嵌入向量时, 该节点的每个邻居的语义 影响用每个邻居和该节点的兴趣文本的语义建模; 该语义影响分别在局部和全局层面建 模, 并合并为一个联合的基于影响的嵌入向量; 其中, 局部级语义影响用于捕获局部区域的 文本

23、语义影响, 局部区域的文本可以用兴趣文本中的某些术语词汇来解释; 全局级语义影 响捕捉邻居的全局兴趣语义所造成的影响, 即兴趣文本整体语义所刻画的全局语义而造成 的语义影响; 0025把所有邻居对节点ui的基于影响的嵌入进行平均, 来生成最终的如下所示: 0026 0027其中m表示节点ui的邻居节点数量,表示邻居节点uk对节点ui的基于影响的嵌 入; 通过连接局部级语义影响嵌入和全局级语义影响嵌入获得邻居节点uk对节 点ui的基于影响的嵌入, 即:其中且 0028 在步骤二中 , 基于局部级语义影响的嵌入向量训练是基于卷积神经网络 (Convolutional Neural Network,

24、CNN)和注意力机制(Attention Mechanism); 训练包括: 获取一对好友节点ui, uk的文本信息序列Si, Sk, 基于查找层, 卷积层, 注意层和输出层获得 最终的基于局部级语义影响的嵌入向量; 0029 基于文本信息序列Si, 通过查找层获得文本嵌入矩阵Xx1, x2, ., xn, 然后基 于如下卷积公式, 获得局部特征矩阵C(i)c1, c2, ., cn-h+1; 0030 ci=f(Wcxi: i+h-1+b) 0031以同样的方式, 获取节点ui, uk的局部特征矩阵C(i), 0032 结合注意力机制, 耦合一组好友节点的局部语义相关性, 并为两个局部特征矩

25、阵 各生成一个注意力向量, 使得来自邻居节点的局部语义信息直接影响该节点的嵌入向量; 生成注意力向量时, 首先使用局部特征矩阵C(i), C(k)构建用于局部级语义影响的语义匹配 矩阵M, 其目标是获取语义匹配信号, 计算方式如下: 0033 0034其中, 语义匹配矩阵Mxy表示矩阵M的第x行、 第y列元素; 对 语义匹配矩阵M进行均值池化和softmax运算, 以生成注意力向量, 计算方式如下: 0035 a(i)=softmax(meanrow(M) 0036 a(k)=softmax(meancol(M) 说明书 3/9 页 7 CN 110851491 A 7 0037其中, a(i

26、),分别是局部特征矩阵C(i), C(k)的注意力向量, meanrow ()和meancol()分别表示对矩阵在行、 列方向上进行均值池化; 0038节点uk对节点ui的基于局部级语义影响的嵌入向量计算如下: 0039 0040以同样的方式, 计算节点ui对节点uk的基于局部级语义影响的嵌入向量 0041 在步骤二中 , 基于全局级语义影响的嵌入向量训练是利用Bi-GRU模型 (Bidirectional Gated Recurrent Unit,Bi-GRU)获取全局语义影响, 包括: 0042 给定节点ui, 先获得节点ui对应的文本嵌入矩阵X, GRU模型(Gated Recurren

27、t Unit,GRU)的第t个隐藏状态组件的计算方式如下: 0043 rt= (Wxrxt+Whrht-1) 0044 zt (Wxzxt+Whzht-1) 0045 0046 0047获取节点ui的前向隐藏状态和后向隐藏状态并将和 连接后得到Bi-GRU模型的隐层上下文状态 0048 对所有历史隐藏状态应用均值池化, 即: 0049 0050 将向量的大小映射到相应的维度, 如下: 0051 0052其中, 矩阵是投影矩阵; 向量是节点uk对节点ui的基于全局 级语义影响的嵌入向量。 以同样的方式, 计算节点ui对节点uk的基于全局级语义影响的嵌入 向量 0053 在步骤二中, 对于训练网络

28、中每个节点的嵌入向量进行模型优化, 包括: 0054 采用负抽样算法对原目标函数进行加速, 即为每个已知边(ui, uk)指定以下目标函 数: 0055 0056 其中, K表示对应的负采样边的个数; ()表示sigmoid函数。 0057 本发明所述的基于多重邻居节点的多重语义影响的网络链接预测方法的步骤三 中, 使用节点对的嵌入向量之间的相似性来测量相应节点对之间存在好友链接的概率; 进 行预测分析时, 社交网络中节点ui和uj, 组成链接eij的概率为: 说明书 4/9 页 8 CN 110851491 A 8 0058 0059 其中, vi, vjD分别是节点ui,uj的嵌入向量,

29、每个节点的嵌入向量是基于拓扑的 嵌入向量和该节点的基于影响的嵌入向量的组合, 即: 0060 与现有技术相比, 本发明的优点如下: 0061 (1)本发明的方法中利用观察到的邻居关系和用户的文本属性, 为每个用户训练 一个具有他/她邻居语义影响的联合嵌入向量。 本发明不是使用邻居的恒定影响分数, 而是 模拟每个邻居对该用户的特殊影响。 根据邻居和该用户的文本属性对影响进行建模。 最后, 对于在当前网络中未连接的任何一对节点, 通过计算它们的嵌入向量之间的相似性来预测 节点对之间的缺失链接。 0062 (2)本发明中, 联合模拟了网络嵌入训练中邻居节点的局部级和全局级语义影响。 语义影响被建模在

30、多重级别上, 能更充分地建模好友用户对之间的语义影响关系, 有助于 提高链接预测的精准度和鲁棒性。 附图说明 0063 图1是本发明基于多重邻居节点的多重语义影响的网络链接预测示意简图; 0064 图2是本发明基于多重邻居节点的多重语义影响的网络链接预测框架图。 0065 图3是本发明步骤二中建模多重语义影响模块框架图。 具体实施方式 0066 下面结合附图和具体实施例对本发明技术方案作进一步详细描述, 所描述的具体 实施例仅对本发明进行解释说明, 并不用以限制本发明。 0067 本发明提出的基于多重邻居节点的多重语义影响的网络链接预测方法包括三个 步骤: 数据解析、 模型训练以及预测分析。

31、0068 1.数据解析: 用于解析社交网络中用户行为以及用户关系数据, 分别从用户的兴 趣属性、 以及用户好友属性中解析出相关属性向量; 获得节点兴趣特征、 网络结构特征。 将 社交网络表示为G(N, E, S),该社交网络中的节点都具有文本属性, 其文本属性蕴含了兴 趣信息。 其中, Nu1, u2, ., un是社交网络的节点集合。 E是社交网络中的好友链接集合。 S是节点的文本属性集合。 节点ui的兴趣表示为单词序列Si(w1, w2, ., wn), 其中wt是词序 列Si中的第t个词。 0069 2.模型训练: 用于构建获取社交网络中节点嵌入向量的模型; 基于数据解析模块 获得的节点

32、兴趣特征、 网络结构特征, 模型建模多重邻居节点的多重语义影响, 获取得到每 个节点的嵌入向量; 训练目标是获得网络嵌入矩阵Vv1, v2, ., vn, V由所有节点的嵌入 向量组合形成, 其中是节点ui的嵌入向量。 为了训练网络中每个节点的嵌入向量, 最大化了所有已知边缘的概率之和。 0070 0071 其中L(e)是基于拓扑的目标函数LT(e)和基于影响的目标函数LI(e)的权衡, 拓扑 说明书 5/9 页 9 CN 110851491 A 9 和影响嵌入被映射到相同的表示空间中。 如下式所示: 0072 L(e) LT(e)+(1- )LI(e) (2) 0073其中基于拓扑的目标函数

33、基于影响的目标函数 wij是社交网络中的边的权重, 用于表示好友关系的强度或极性, 这使本发明适用于各种网络。 0074 此外, 当在训练过程中获得节点的基于影响的嵌入向量时, 考虑该节点的每个邻 居的影响(社交网络中的影响示例如图1所示)。 该影响用每个邻居和该节点的兴趣文本的 语义建模。 语义影响分别在局部和全局层面建模, 并合并为一个联合的基于影响的嵌入向 量(如图2左侧及中侧部分所示)。 局部级语义影响可以捕获特定的语义影响, 这些影响可以 用兴趣文本中的某些术语的语义来解释。 而全局级语义影响将捕捉邻居的整个兴趣文本所 造成的语义影响(语义影响建模过程如图3所示)。 0075把所有邻

34、居对节点ui的基于影响的嵌入进行平均, 来生成最终的 0076 0077通过连接局部级语义影响嵌入和全局级语义影响嵌入获得邻居uk对ui 的基于影响的嵌入,即:其中且接下来, 将介绍基于影 响的嵌入向量的训练细节。 0078 2.1基于局部级语义影响的嵌入向量 0079 在获取基于局部级语义影响的嵌入向量时, 主要是基于卷积神经网络和注意力机 制。 获取一对好友节点ui, uk的文本信息序列Si, Sk, 基于查找层, 卷积层, 注意层和输出层便 可以获得最终的基于局部级语义影响的嵌入向量。 0080 基于文本信息序列Si, 通过查找层获得文本嵌入矩阵Xx1, x2, ., xn, 然后基 于

35、如下卷积公式, 获得局部特征矩阵C(i)c1, c2, ., cn-+1。 0081 ci=f(Wcxi: i+h-1+b) (4) 0082以同样的方式, 获取节点ui, uk的局部特征矩阵C(i), 0083 结合注意力机制, 耦合了一组好友节点的局部语义相关性, 并为两个局部特征矩 阵各生成了一个注意力向量, 这使得来自好友节点的局部语义信息可以直接影响该节点的 嵌入向量。 0084 为了获得注意力向量, 首先使用局部特征矩阵C(i), C(k)构建用于局部级语义影响 的语义匹配矩阵M, 其目标是获取语义匹配信号。 其计算方式如下: 0085 0086其中语义匹配矩阵Mxy表示矩阵M的第

36、x行、 第y列元素。 0087 对语义匹配矩阵M进行均值池化和softmax运算, 以生成注意力向量。 其计算方式 如下: 说明书 6/9 页 10 CN 110851491 A 10 0088 a(i)=softmax(meanrow(M) (6) 0089 a(k)=softmax(meancol(M) (7) 0090其中a(i),分别是局部特征矩阵C(i), C(k)的注意力向量。 meanrow() 和meancol()分别表示对矩阵在行、 列方向上进行均值池化。 0091以节点对ui, uk为例, 节点uk对节点ui的局部语义影响嵌入向量计算如下: 0092 0093节点ui对节点

37、uk的局部语义影响嵌入向量的计算方法与上式同理。 0094 2.2基于全局级语义影响的嵌入向量 0095 Bi-GRU模型(Bidirectional Gated Recurrent Unit,Bi-GRU)通常用于捕获全局 级语义, 并已成功应用于各种NLP任务。 它使用前向GRU和后向GRU模拟上下文依赖性。 因此, 可以获得两个隐藏表示, 然后连接每个单词的前向隐藏状态和后向隐藏状态。 给定节点ui, 先获得其文本嵌入矩阵X, GRU模型的第t个隐藏状态组件的计算方式如下: 0096 rt= (Wxrxt+Wrht-1) (9) 0097 zt= (Wxzxt+Wzht-1) (10)

38、0098 0099 0100获取节点ui的前向隐藏状态和后向隐藏状态并将其连接后得到Bi-GRU模 型的隐层上下文状态 0101 本发明中, 不是简单地使用最终状态下的隐藏状态表示作为全局语义, 而是对所 有历史隐藏状态应用均值池化, 即: 0102 0103 为了将池化后的向量维度与目标维度匹配, 将向量的大小映射到相应的维度: 0104 0105其中, 矩阵是投影矩阵; 向量是节点uk对节点ui的基于全局 级语义影响的嵌入向量。 节点ui对节点uk的基于全局级语义影响的嵌入向量的计算方 法与上述过程同理。 0106 2.3模型优化 0107 本发明旨在最大化每个已知边(ui, uk)之间的

39、条件概率。 为了降低其计算开销, 采 用负抽样算法对原目标函数进行加速。 即为每个已知边(ui, uk)指定以下目标函数: 0108 0109 其中, K表示对应的负采样边的个数。 ()表示sigmoid函数。 说明书 7/9 页 11 CN 110851491 A 11 0110 3.预测分析: 使用节点对的嵌入向量之间的相似性来测量相应节点对之间存在好 友链接的概率。 0111 基于一对用户节点的嵌入向量之间的相似性来测量概率, 进行链接预测(如图2右 侧部分所示)。 例如, 社交网络中节点ui和uj, 组成链接边eij的概率为: 0112 0113其中,是节点ui,uj的嵌入向量, 每个

40、用户的嵌入向量是基于拓扑的嵌 入向量和该用户的基于影响的嵌入向量的组合, 即: 0114 本发明实验材料有四个社交网络数据集, 这些类型的数据集被广泛应用于相关的 研究中, 分别为: Cora引文网络、 HepTh引文网络、 Twitter社交网络以及Coauthorship共同 合作者网络。 数据集的多样性有助于验证本发明的稳健性。 表1总结了四个数据集的相关信 息。 0115 表1数据集信息统计 0116 0117 通过链接预测算法, 在预测的工作后可以得到网络中每一对节点的嵌入向量之间 的相似度得分。 尽管相似度得分越高, 节点之间存在链接的可能性越高, 同样需要相应的评 价指标来评判链

41、接预测算法的可行性和准确性。 为了测试算法的准确性, 通常把网络中的 链接边分为测试集和训练集, 而测试集中的边和网络中本不存在的边称为未知边。 通过链 接预测算法计算后, 每条未知边都会有一个相似度得分, 得分越高代表了边存在的可能性 越大。 0118 目前常用的评价链接预测算法精确度的指标为AUC。 AUC是指ROC曲线下的面积, 常 在信号检测理论里评价分类器的效果。 传统的AUC指标需要通过画出ROC曲线后计算其面积 来确定AUC的值。 当AUC作为衡量链接预测算法精确度评价指标时, 可以理解成在网络中随 机选取一条不存在的边的得分比测试集中随机选取一条边的得分低的概率。 0119 当

42、使用AUC评价指标时, 每次从不存在的边中和测试集中各取一条边, 如果不存在 的边的分数值小于测试集中的边的分数值, 就加1分; 如果两个分数值相等, 则加0.5分。 当 独立比较n次后, 如果有n 次加1分的情况, 有n 次加0.5分的情况, 那么AUC的值定义为: 0120 0121 将数据集分离为训练集和测试集时, 从数据集中随机选择不同比例的子集到训练 网络, 即20, 40, 60, 80。 对于训练集的每个部分, 首先用训练集训练嵌入向量。 然后 剩余的实例用作测试网络的测试数据集, 用于评估链接预测方法的性能。 表2、 表3、 表4以及 表5是本发明在四个实际数据集上的实验效果,

43、 并将相应的效果与目前已有的DeepWalk以 及TADW模型的性能效果进行了比较。 说明书 8/9 页 12 CN 110851491 A 12 0122 表2基于Coautahorship共同合作者网络数据集的AUC性能指标 0123 0124 表3基于Cora引文网络数据集的AUC性能指标 0125 0126 表4基于HepTh引文网络数据集的AUC性能指标 0127 0128 表5基于Twitter社交网络数据集的AUC性能指标 0129 0130 由性能评估结果可知, 在不同的数据集以及不同比例的情况下, 本发明相对于基 线模型都取得了显著改善。 0131 以上实施方法仅用于说明本发明, 而非对本发明的限制, 有关技术领域的普通技 术人员, 在不脱离本发明的精神和范围的情况下, 还可以做出各种变化和变型, 因此所有等 同的技术方案也属于本发明的范畴。 说明书 9/9 页 13 CN 110851491 A 13 图1 图2 说明书附图 1/2 页 14 CN 110851491 A 14 图3 说明书附图 2/2 页 15 CN 110851491 A 15


注意事项

本文(基于多重邻居节点的多重语义影响的网络链接预测方法.pdf)为本站会员(徐敬)主动上传,专利查询网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知专利查询网(点击联系客服),我们立即给予删除!




关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1