《一种社交网络中的社区结构发现方法.pdf》由会员分享,可在线阅读,更多相关《一种社交网络中的社区结构发现方法.pdf(8页完整版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 103729467 A (43)申请公布日 2014.04.16 CN 103729467 A (21)申请号 201410020036.6 (22)申请日 2014.01.16 G06F 17/30(2006.01) (71)申请人 重庆邮电大学 地址 400065 重庆市南岸区黄桷垭崇文路 2 号 (72)发明人 苏畅 王裕坤 贾文强 余跃 吴琪 (74)专利代理机构 北京同恒源知识产权代理有 限公司 11275 代理人 赵荣之 (54) 发明名称 一种社交网络中的社区结构发现方法 (57) 摘要 本发明公开了一种复杂社交网络中的社区结 构发现方法, 属于网络技术。
2、领域。本方法包括以 下步骤 : 步骤一 : 将社交网络转换为邻接矩阵形 式, 如果两个节点之间存在边, 那么相对应的元素 为 1, 否则为 0 ; 步骤二 : 利用随机游走理论对邻 接矩阵进行处理, 得到新的节点度数 P-degree 以 及边权值 P-weight ; 步骤三 : 根据新的节点度数 P-degree 得到社交网络中的领袖节点 ; 步骤四 : 基于领袖节点生成子社区, 并通过对子社区的一 系列操作来进行社区发现。该方法能够高效的识 别出社交网络中的社区结构, 同时将本方法与一 些经典的社区发现算法如 Newman 算法相比, 在模 块度指标上有着更好的表现。将本发明用于后续 的。
3、社交网络实践中有着重要的意义。 (51)Int.Cl. 权利要求书 1 页 说明书 4 页 附图 2 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书1页 说明书4页 附图2页 (10)申请公布号 CN 103729467 A CN 103729467 A 1/1 页 2 1. 一种社交网络中的社区结构发现方法, 其特征在于 : 包括以下步骤 : 步骤一 : 将社交网络转换为邻接矩阵形式, 如果两个节点之间存在边, 那么相对应的元 素为 1, 否则为 0 ; 步骤二 : 利用随机游走理论对邻接矩阵进行处理, 得到新的节点度数 P-degree 以及边 权值 P-wei。
4、ght ; 步骤三 : 根据新的节点度数 P-degree 得到社交网络中的领袖节点 ; 步骤四 : 基于领袖节点生成子社区, 并通过对子社区的一系列操作来进行社区发现。 2. 根据权利要求 1 所述的一种社交网络中的社区结构发现方法, 其特征在于 : 在 步骤二中, 利用随机游走理论处理社交网络相对应的邻接矩阵, 将新的节点度数命名为 P-degree, 新的边的权值命名为P-weight ; 领袖节点的基础是P-degree(i)的值 ; 根据原始 矩阵 A, 得到过渡矩阵 P, 其元素表示为 Pij Aij/ki, 其中 ki为节点 i 的度数 ; 同时, 根据过 渡矩阵 P 得到 Pt。
5、, 其元素 Pijt为一个随机游走者从节点 i 经过 t 步走到节点 j 的概率 ; 矩 阵 PF 用来表示最终得到的矩阵 PF P*1+P2*2+P3*3?+PT*t, 公式中参数 1、 2、 2t, 0 i 1, 1 i t, 表示对不同的过渡矩阵赋予不同的权值 ; 根据过渡 矩阵 PF 得到 P-degree, (P-degree(i)=PF(i,i)。 3. 根据权利要求 2 所述的一种社交网络中的社区结构发现方法, 其特征在于 : 在步骤 三中, 首先将社交网络中的节点根据 P-degree(i) 的值进行降序排序, 节点数目为 n, 以降 序列表中 n/4 所处的位置元素作为领袖节。
6、点的门限值, 然后以此进行领袖节点的选择 ; 确 认领袖节点后, 以领袖节点作为核心将与领袖节点直接相连的节点合并, 初步形成子社区 结构。 4. 根据权利要求 3 所述的一种社交网络中的社区结构发现方法, 其特征在于 : 在 步骤四中, 利用按序统计模型进行剩余节点的加入以及子社区重叠部分的处理 ; 使用 cos-similarity 来 表 示 边 的 权 值, 其中 vi和 vj, 表示矩阵 PF 的第 i 行和第 j 行行向量 ; 根据 cos-similarity 的值得到 P-weight(i,j) 的公式如下 : (P-weight(i,j)=w*(cos-similarity)。
7、, 其中 w 为权值 ; 对子 社区 Ct, 节点 i 相对于 Ct的统计值为对不同的子社区计算不同的 t, max(1, 23t), 如果 k最大, 那么节点 i 就属于第 k 个子社区。 5. 根据权利要求 4 所述的一种社交网络中的社区结构发现方法, 其特征在于 : 在步骤中需要将较小的社区并入较大的社区中, 采用如下步骤进行处理 : 用 min_ length 来定义小社区概念, min_length=aver_length(as1,as2ast)/4, 其中, aver_ length(as1,as2ast) 表示的是各社区平均节点数目, 对于社区之间的合并, 采用以下 公 式 进 。
8、行 : ask=max_link(link(as1,ask),link(as2,ask)link(ast,ask), link(ast,ask) 表示的是 ast,ask连接的边的数目, 求得 ask与所有的社区连接边数最大的那个社区就是将 要与 ask合并的社区, 合并完成后得到相对应的社区结构。 权 利 要 求 书 CN 103729467 A 2 1/4 页 3 一种社交网络中的社区结构发现方法 技术领域 0001 本发明属于网络技术领域, 涉及一种复杂社交网络中的社区结构发现方法。 背景技术 0002 现实生活中, 许多复杂的系统或以复杂网络的形式出现, 或者能够被转换为复杂 网络, 。
9、比如社会关系网络, 论文合作网络, 计算机病毒传播网络, Facebook 网络, QQ 朋友圈 等等。社区发现就是探测并揭示复杂网络中所固有的社区结构。它被用来帮助人们理解复 杂网络中的功能, 发现隐藏在复杂网络中的规律, 和预测复杂网络的行为。自从 Girvan 和 Newman提出GN算法至今, 新的理论新的方法层出不穷。 社区发现相关算法的应用领域也不 断的涌现。 0003 除了一些经典的社区发现算法, 还有一些算法在社区发现中也可以取得比较好 的划分效果, 例如, 韩毅、 贾焰等人提出的在社会网络中实现社区发现的方法 (专利号 : 201110103491.9, 公开日 : 2012。
10、.05.16) ; 蔺智挺、 吴秀龙等人提出的基于随机游走的社 区发现方法 (专利号 : 201110177783.7, 公开日 : 2013.01.02) ; 徐冰莹、 韩伟红等人提出 的一种社区发现方法和系统 (专利号 : 201310201298.8, 公开日 : 2013.09.25)等等。除 此之外, 张璐、 蔡皖东等人提出的社交网络意见领袖识别方法 (专利号 : 201310028159. X, 公开日 : 2013.05.22) ; 蔡琳、 蔡皖东等人提出了微博网络意见领袖识别方法 (专利号 : 201310027808, 公开日 : 2013.06.05) 等对领袖节点的识别以。
11、及作用都做了很好的阐述, 但 是关于领袖节点的识别也还存在着一些不足。 0004 基于上述的一些社区发现算法, 虽然可以得到相应的社区结构, 但是以模块度作 为标准进行衡量的时候, 还是存在着一些不足, 本发明提出了一种基于领袖节点的社区发 现算法, 旨在更好的得到社交网络中的社区结构, 特别在以模块度作为衡量标准的情况下, 能够得到较高的模块度值, 本发明在实际经典网络数据集中进行测试时, 算法性能稳定高 效, 将算法用于后续的社交网络分析中具有非常重要的意义以及广阔的应用前景。 发明内容 0005 有鉴于此, 本发明的目的在于提供一种社交网络中的社区结构发现方法, 该方法 是利用随机游走的。
12、思想来进对邻接矩阵进行处理, 得到新的节点度数 P-degree 以及边权 值 -weight, 根据新的节点度数 P-degree 可以得到社交网络中的领袖节点, 基于领袖节点 来生成子社区, 通过对子社区的一系列操作来进行社区发现。 0006 为达到上述目的, 本发明提供如下技术方案 : 0007 一种社交网络中的社区结构发现方法, 包括以下步骤 : 步骤一 : 将社交网络转换 为邻接矩阵形式, 如果两个节点之间存在边, 那么相对应的元素为 1, 否则为 0 ; 步骤二 : 利 用随机游走理论对邻接矩阵进行处理, 得到新的节点度数 P-degree 以及边权值 P-weight ; 步骤三。
13、 : 根据新的节点度数 P-degree 得到社交网络中的领袖节点 ; 步骤四 : 基于领袖节点 生成子社区, 并通过对子社区的一系列操作来进行社区发现。 说 明 书 CN 103729467 A 3 2/4 页 4 0008 进一步, 在步骤二中, 利用随机游走理论处理社交网络相对应的邻接矩阵, 将新的节点度数命名为 P-degree, 新的边的权值命名为 P-weight ; 领袖节点的基础 是 P-degree(i) 的值 ; 根据原始矩阵 A, 得到过渡矩阵 P, 其元素表示为 Pij Aij/ki, 其中 ki为节点 i 的度数 ; 同时, 根据过渡矩阵 P 得到 Pt, 其元素 P。
14、ijt为一个随机游 走者从节点 i 经过 t 步走到节点 j 的概率 ; 矩阵 PF 用来表示最终得到的矩阵 PF P*1+P2*2+P3*3+PT*t,公 式 中 参 数 1、 2、 2t, 0 i 1, 1 i t, 表示对不同的过渡矩阵赋予不同的权值 ; 根据过渡矩阵 PF 得到 P-degree, (P-degree(i)=PF(i,i)。 0009 进一步, 在步骤三中, 首先将社交网络中的节点根据 P-degree(i) 的值进行降序 排序, 节点数目为 n, 以降序列表中 n/4 所处的位置元素作为领袖节点的门限值, 然后以此 进行领袖节点的选择 ; 确认领袖节点后, 以领袖节点。
15、作为核心将与领袖节点直接相连的节 点合并, 初步形成子社区结构。 0010 进 一 步,在 步 骤 四 中,利 用 按 序 统 计 模 型 进 行 剩 余 节 点 的 加 入 以 及 子 社 区 重 叠 部 分 的 处 理 ;使 用 cos-similarity 来 表 示 边 的 权 值, 其 中 vi和 vj, 表 示 矩 阵 PF 的 第 i 行 和 第 j 行 行 向 量 ; 根 据 cos-similarity 的 值 得 到 P-weight(i,j) 的 公 式 如 下 : (P-w eight(i,j)=w*(cos-similarity), 其 中 w 为 权 值 ; 对 子。
16、 社 区 Ct, 节 点 i 相 对 于 Ct的 统计值为对不同的子社区计算不同的 t, max(1, 23t), 如果 k最大, 那么节点 i 就属于第 k 个子社区。 0011 进一步, 在步骤中需要将较小的社区并入较大的社区中, 采用如下步骤进行处 理 : 用 min_length 来定义小社区概念, min_length=aver_length(as1,as2ast)/4, 其中, aver_length(as1,as2ast) 表示的是各社区平均节点数目, 对于社区之间的合 并, 采用以下公式进行 : ask=max_link(link(as1,ask),link(as2,ask)l。
17、ink(ast,ask), link(ast,ask)表示的是ast,ask连接的边的数目, 求得ask与所有的社区连接边数最大的那个 社区就是将要与 ask合并的社区, 合并完成后得到相对应的社区结构。 0012 本发明的有益效果在于 : 本发明提供的社区发现方法, 有效的解决了如何更有效 的发现领袖节点, 并将发现的领袖节点用于社区发现的问题, 能够高效的识别出社交网络 中的社区结构 ; 同时将本方法与一些经典的社区发现算法如 Newman 算法相比, 在模块度指 标上有着更好的表现。将本发明用于后续的社交网络实践中有着重要的意义。 附图说明 0013 为了使本发明的目的、 技术方案和有益。
18、效果更加清楚, 本发明提供如下附图进行 说明 : 0014 图 1 为本发明所述方法的宏观流程图 ; 0015 图 2 为本方法应用于 Karate 搏击俱乐部网络拓扑示意图 ; 0016 图 3 为本方法应用于 Dolphins 关系网络拓扑示意图 ; 0017 图 4 为本方法应用于 AmericanFootball 俱乐部网络拓扑示意图。 说 明 书 CN 103729467 A 4 3/4 页 5 具体实施方式 0018 下面将结合附图, 对本发明的优选实施例进行详细的描述。 0019 本发明的整体技术实施方案如下 : 0020 1. 算法测试数据集 0021 在本实施例中, 所采用的。
19、数据集有三个, 分别是Karate俱乐部网络, Dolphins关系 网络以及 AmericanFootball 网络 , 其网络数据集描述如下 : 0022 1)Karate 搏击俱乐部网络 0023 20 世纪 70 年代初期, Wayne Zachary 用两年的时间来观察空手道俱乐部, 这家空 手道俱乐部是来自美国的一所大学。Wayne Zachary 构造了俱乐部成员的网络, 这个网络 是根据俱乐部内成员之间的社会关系所构成的。然而在他调查过程中发现了该俱乐部的 内部问题, 就是关于是否提高收费标标准, 他们的主管与校长之间意见产生了分歧。结果, 一部分成员被教练带走组织成了一个新的。
20、俱乐部, 而剩下的成员则留在原来的俱乐部, 最 终 Zachary 空手道俱乐部分裂成了两个小俱乐部, 一个以校长为首, 另一个则是以主管为 核心。图一所示的是 Zachary 空手道俱乐部划分成的两个不同的社团, 共包含 34 个成员和 78 条边, 各节点分别代表了分裂后的小俱乐部中的各个成员。在复杂网络的社团结构分析 中, Zachary 网络已被广泛应用到研究网络社团结构划分算法中, 在本发明中我们使用的就 是这个数据集。我们将本发明中的算法应用于此数据集, 得到的网络拓扑结构如图 2 所示。 0024 2)Dolphins 关系网络 0025 在 1994 年至 2001 年, D.。
21、Lusseau 对海豚研究了七年的时间得到了 Dolphins 关系 网络。这个网络一共包含 62 个节点, 其中每一个节点代表一只海豚, 两只海豚有亲密的关 系, 就把这两只海豚代表的节点之间连一条边, 我们将本发明的算法应用于此数据集, 得到 的网络拓扑结构如图 3 所示。 0026 3)AmericanFootball 网络 0027 一个美国大学组织的 2000 季足球连赛季的一场小组比赛。其中网络中的每一个 节点代表一个足球队, 而节点之间的连边表示的是两个球队之间有比赛。而这次的所有的 比赛可以分成12个组, 每个球队与属于同一小组的球队比赛次数比较多, 大约7场 ; 而与不 属于。
22、一个小组的比赛相对较少, 大约 4 场, 所以这些球队结成了一个具有社团结构的网络。 通过我们的算法对美国大学足球赛网络进行划分, 这些球队结成了一个具有社团结构的网 络。我们将本发明的算法应用于此数据集, 得到的网络拓扑结构如图 4 所示。 0028 2. 实现基于领袖节点的社区发现算法 0029 为了发现社交网络中的领袖节点以及子社区, 首先利用随机游走对邻接矩阵进行 处理, 得到社区网络中的领袖节点, 以领袖节点作为核心构建子社区, 然后通过对剩余节点 的加入, 以及子社区之间的合并得到相应的社区结构。 0030 根据社交网络相对应的邻接矩阵获得领袖节点具体步骤如下 : 0031 步骤一。
23、 : 通过对社交网络相对的邻接矩阵进行预处理得到 P-degree。根据原始矩 阵 A, 得到过渡矩阵 P, 其元素可以表示为 Pij Aij/ki, 其中 ki为节点 i 的度数。于此同时, 根据过渡矩阵 P 得到 Pt, 其元素表示 Pijt表示一个随机游走者从节点 i 经过 t 步走到节点 j 的概率。矩阵 PF 用来表示最终得到的矩阵 PF P*1+P2*2+P3*3+PT*t, 公式 说 明 书 CN 103729467 A 5 4/4 页 6 中参数 1、 2、 2t, 0 i 1, 1 i t, 表示对不同的过渡矩阵赋予不同的 权值。根据过渡矩阵 PF 得到 P-degree, 。
24、(P-degree(i)=PF(i,i)。 0032 步骤二 : 利用P-degree得到领袖节点以及子社区。 首先将社交网络中的节点根据 P-degree(i) 的值进行降序排序, 节点数目为 n, 以降序列表中 n/4 所处的位置元素作为领 袖节点的门限值, 然后以此进行领袖节点的选择。 确认领袖节点后, 以领袖节点作为核心将 与领袖节点直接相连的节点合并, 初步形成子社区结构。 0033 得到领袖节点以及相关子社区之后, 剩下的工作就是根据邻接矩阵获得 P-weight 的值, 根据 P-weight 的值对社交网络中的剩余节点进行加入, 最后将获得的子社区进一步 合并得到最终的社区结构。
25、。其具体步骤如下 : 0034 步骤一 : 根据邻接矩阵获得 P-weight 的值以及剩余节点加入。我们使用 cos-similarity 来 表 示 边 的 权 值, 其中 vi和 vj, 表示矩阵 PF 的第 i 行和第 j 行行向量。根据 cos-similarity 的值得到 P-weight(i,j) 的公式如下 : (P-weight(i,j)=w*(cos-similarity), 其中 w 为权值。对子 社区 Ct, 节点 i 相对于 Ct的统计值为对不同的子社区计算不同的 t, max(1, 23t), 如果 k最大, 那么节点 i 就属于第 k 个子社区。 0035 步骤。
26、二 : 子社区进一步合并得到社区结构。现在得到的社区结构存在多节点重叠 现象, 以及社区之间的节点数目之差有时候会很大, 需要将较小的社区并入较大的社区中, 用 min_length 来定义小社区概念, min_length=aver_length(as1,as2ast)/4, aver_ length(as1,as2ast) 表示的是各社区平均节点数目, 至于社区之间的合并, 采用以下 数学公式 ask=max_link(link(as1,ask),link(as2,ask)link(ast,ask), link(ast,ask) 表 示的是 ast,ask连接的边的数目, 求得 ask与所有的社区连接边数最大的那个社区就是将要 与 ask合并的社区。合并完成后得到相对应的社区结构。 0036 最后说明的是, 以上优选实施例仅用以说明本发明的技术方案而非限制, 尽管通 过上述优选实施例已经对本发明进行了详细的描述, 但本领域技术人员应当理解, 可以在 形式上和细节上对其作出各种各样的改变, 而不偏离本发明权利要求书所限定的范围。 说 明 书 CN 103729467 A 6 1/2 页 7 图 1 图 2 说 明 书 附 图 CN 103729467 A 7 2/2 页 8 图 3 图 4 说 明 书 附 图 CN 103729467 A 8 。