微博特定事件关注群体识别方法.pdf

上传人:凯文 文档编号:10699323 上传时间:2021-08-08 格式:PDF 页数:21 大小:927.88KB
收藏 版权申诉 举报 下载
微博特定事件关注群体识别方法.pdf_第1页
第1页 / 共21页
微博特定事件关注群体识别方法.pdf_第2页
第2页 / 共21页
微博特定事件关注群体识别方法.pdf_第3页
第3页 / 共21页
文档描述:

《微博特定事件关注群体识别方法.pdf》由会员分享,可在线阅读,更多相关《微博特定事件关注群体识别方法.pdf(21页完成版)》请在专利查询网上搜索。

1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 201911282150.5 (22)申请日 2019.12.13 (71)申请人 北京信息科技大学 地址 100192 北京市海淀区清河小营东路 12号 (72)发明人 黄改娟刘浩天王寒茹张仰森 段瑞雪 (74)专利代理机构 北京科亿知识产权代理事务 所(普通合伙) 11350 代理人 汤东凤 (51)Int.Cl. G06F 16/9536(2019.01) G06F 16/35(2019.01) G06F 40/289(2020.01) G06Q 50/00(2012.01。

2、) G06K 9/62(2006.01) (54)发明名称 微博特定事件关注群体识别方法 (57)摘要 一种微博特定事件关注群体识别方法, 通过 改进PageRank算法对特定事件的重点用户进行 识别, 在对特定事件的重点关注用户进行识别的 基础上, 对重点关注用户进行特征抽取, 采用基 于特征映射的方式对用户属性特征进行向量表 征, 然后采用模糊c-means聚类算法对特定事件 关注用户进行聚类, 识别出某个特定事件下重点 关注的人群层次。 本发明的方法能够很好的识别 出特定事件的重点关注用户, 同时采用特征映射 的方法对用户群体聚类分析, 在平均聚类准确度 上要比基于硬匹配规则高出至少0.。

3、06个百分点。 权利要求书4页 说明书13页 附图3页 CN 111026976 A 2020.04.17 CN 111026976 A 1.一种微博特定事件关注群体的识别方法, 其特征在于, 包括如下步骤: S1构建包括用户属性权重和用户交互属性权重的基于网络特征的特定重点用户识别 算法, 识别特定事件的重点关注用户; S2对S1识别出的重点关注用户进行特征抽取, 采用基于特征映射的方式对用户属性特 征进行向量表征; S3采用模糊c-means聚类算法对重点关注用户进行聚类, 识别重点关注用户的人群层 次。 2.根据权利要求所述的一种微博特定事件关注群体的识别方法, 其特征在于: S1构建包。

4、括用户属性权重和用户交互属性权重的基于网络特征的特定重点用户识别 算法, 识别特定事件的重点关注用户, 其方法为, S11构建特定事件的微博用户网络结构图, 即有向加权图G(V, E, P, W), 其中, V为特定事件下关注用户的集合Vv1, v2, v3, v4, , vn, 其中vi为某个微博用 户, 当微博用户vi对特定事件进行了发表、 转发或者评论操作时, 将微博用户vi加入到特定 事件关注用户集合中, 其中viV; E为特定事件下相关微博用户交互的集合Ee11, e12, e13, e14, , emn, 其中eij为微博 用户vi与微博用户vj对特定事件进行了交互操作, 具体为微。

5、博用户vi转发或者评论了微博 用户vj在特定事件下的相关微博, 该交互具有方向性, 即 P为特定事件下相关微博用户权重的集合Pp1, p2, p3, p4, , pn, 其中pi为微博用户vi 的权重, 满足piP; W为特定事件下用户交互关系权重的集合, Ww11, w12, w13, , wmn, 其中wij为微博用户 vi与微博用户vj之间的交互关系eij的权重, 满足wijW; S12结合用户属性权重和用户交互属性权重构建DLRank排序算法, 迭代收敛后, 将DLR 值排名靠前的用户当作该事件下的重点关注用户; DLRank算法的迭代公式为, (k+1)T(1- )eT+ (k)TG。

6、, 其中, (k)T为迭代更新前的所有微博用户的DLR值, (k+1)T为迭代更新后的所有微博用户 的DLR值, 为阻尼系数, 为0.85, eT为投票矩阵的单位行向量, G为投票矩阵, 其中的元素gij 为投票权重, 其计算方法公式为: , DLRank是迭代式的算法, 算法收敛后的矩阵为 *, 收敛的条件是矩阵A满足可逆条件, 迭 代算法的解和矩阵A公式分别为, *(1- )eT+ (*)G AE- G; 按照迭代公式计算所有节点的DLR值, 最终迭代收敛后, 将DLR值排名靠前的用户当作 该特定事件的重点关注用户。 3.根据权利要求1所述的一种微博特定事件关注群体的识别方法, 其特征在于。

7、: S2对S1识别出的重点关注用户进行特征抽取, 采用基于特征映射的方式对用户属性特 权利要求书 1/4 页 2 CN 111026976 A 2 征进行向量表征, 包括以下步骤, S21对S1识别出的特定事件的重点关注用户进行信息采集, 抽取其标签和认证信息; S22对用户特征进行预处理和格式化; S23构建重点关注用户特征集合; S24获得重点关注用户特征初始特征值; S25计算用户特征与特征维之间的平均语义相似度; S26选取出语义相似度最高的用户特征作为该用户隶属度的特征向量, 将特征的特征 值与最大相似度的乘积作为特征维的特征值; 将每个重点用户用m维的向量进行表征, 实现用户特征到。

8、特征维的特征映射。 4.根据权利要求3所述的一种微博特定事件关注群体的识别方法, 其特征在于: S22对用户特征进行预处理和格式化的方法为采用NLPIR分词系统对认证信息和标签 的长词条进行分词, 将该认证信息或者标签用词的集合来表示。 5.根据权利要求3所述的一种微博特定事件关注群体的识别方法, 其特征在于: S23构建重点关注用户特征集合的方法为, 用户特征集合表示为Fuuw1,uw2,uw3, uwm, 其中m表示当前用户特征包含的特征词数目; 特征维集合表示为Fddw1,dw2,dw3,dwn, 其中n表示特征维所包含的词数目。 6.根据权利要求3所述的一种微博特定事件关注群体的识别方。

9、法, 其特征在于: 重点关注用户初始特征值计算公式为: 其中, X为微博用户ui的特征集合数量, x为每个特征在该用户特征集合出现的次数。 7.根据权利要求3所述的一种微博特定事件关注群体的识别方法, 其特征在于: S25计算用户特征与特征维之间的平均语义相似度的方法为, 其中, fu为用户特征集合, fd为特征维集合, Sim(uwi,dwj)为用户特征与特征维之间的平 均语义相似度, uwi为包含i个词的用户特征的集合, dwj为包含j个词的特征维集合, 词语相似度利用HowNet进行计算, 其公式为: 其中, 词语W1、 W2在HowNet中分别有n和m个义原, S1i为W1的第i个义原。

10、, S2j为W2的第j个义 原, Sim(S1,S2)表示两个义原S1i、 S2j之间的相似度, 其公式为: 其中, i(1i4)为调节参数, 且满足 1+ 2+ 3+ 41, 1234, i分别取值为: 0.5、 0.2、 0.17和0.13。 8.根据权利要求3所述的一种微博特定事件关注群体的识别方法, 其特征在于: S26选取出语义相似度最高的用户特征作为该用户隶属度的特征向量, 将特征的特征 权利要求书 2/4 页 3 CN 111026976 A 3 值与最大相似度的乘积作为特征维的特征值的方法为, 特征维对应的特征值的计算公式为, T(fd)fd(fu)a)maxSF(fu)a,f。

11、d), 1,2,3,X, 其中, maxSF(fu)a,fd)表示用户的X个特征分别与特征维中fd计算后的最大语义相似 度值, fd(fu)a)表示当取得最大相似度时该特征自身的特征值, T(fd)为特征维fd对应的特 征值。 9.根据权利要求1所述的一种微博特定事件关注群体的识别方法, 其特征在于: S3采用模糊c-means聚类算法对特定事件关注用户进行聚类, 识别出某个特定事件下 重点关注的人群层次, 包括如下步骤, S31抽取特定事件的重点关注用户, 构建待聚类的微博用户集合, 得到微博用户原始数 据矩阵; S32标准差规格化方法数据矩阵平滑转换, 得到规格化的重点用户特征向量; S3。

12、3计算重点用户间相似程度; S34构建模糊相似矩阵进行聚类分析。 10.根据权利要求9所述的一种微博特定事件关注群体的识别方法, 其特征在于: S31抽取特定事件的重点关注用户, 构建待聚类的微博用户集合, 得到微博用户原始数 据矩阵方法为, 待聚类的微博用户特征集合公式为: Cux1,x2,x3,xn 其中n表示待聚类的用户数量; 每个微博用户通过m维的特征向量进行表征, 公式为: xi(xi1,xi2,xi3,xim); 其中, i为用户, m为特征维数; 基于以上特征得到重点关注用户的原始数据矩阵, 公式为: 其中, i为用户, m为特征维数; S32标准差规格化方法数据矩阵平滑转换, 。

13、得到规格化的重点用户特征向量方法为, 采用标准差规格化方法数据矩阵进行平滑转换, 公式为: 其中i1,2,3,.,n; k1,2,3,.,m;表示样本数据的平均值, 权利要求书 3/4 页 4 CN 111026976 A 4 表示样本数据的标准差, xik表示经过规格化后的微博用户特 征向量; S33计算重点用户间相似程度方法为, rijR(xi,xj)表示数据矩阵中用户xi与用户xj之间的相似度, 基于所有用户相似度值 构建模糊相似矩阵, 其中rij的值采用模糊数学中的指数相似系数法定值, 公式为: 其中, m表示用户特征维度,表示数据标准差的平方, 基于上 述公式得到用户间相似程度; S。

14、34构建模糊相似矩阵进行聚类分析方法为, 引入F统计量来确定最优聚类参数 , 第i个簇类中用户第k个特征的平均值的公式为: 其中, UNi为第i个簇类中微博用户的数量, k(1, 2, 3, , m)为微博用户x的第k个特征, 所有微博用户第k个特征的平均值的公式为: 设CN表示当聚类阈值取值为 时对应的簇类数量, 采用F统计量来衡量聚类阈值 的好 坏, F统计量公式为: 统计量F服从(CN-1,UN-CN)的F分布, 若FF(CN-1, UN-CN)( 0.05), 则聚类结果合 理; 再取maxF所对应的 作为模糊聚类的最佳阈值, 聚类阈值为 时也就是最佳聚类结 果。 权利要求书 4/4 。

15、页 5 CN 111026976 A 5 微博特定事件关注群体识别方法 技术领域 0001 本发明涉及一种微博特定事件关注群体识别方法, 属于群体识别方法技术领域。 背景技术 0002 随着互联网的高速发展, 社交媒体因其方便性、 时效性迅速成为人们表达意见、 抒 发观点的重要载体。 微博以用户交互为核心, 用户更倾向于关注与自己有相同兴趣爱好、 或 有现实社会关系的用户, 具有相同或相似的属性的用户往往形成一个群体。 群体现象在社 交网络中普遍存在, 对于特定的群体而言, 内部成员紧密联系, 而群体内成员与外部的关系 则相对稀疏。 0003 微博中活跃着形形色色的用户群体, 内部成员往往是某。

16、一特定事件的发布者、 传 播者、 关注者。 当一个事件发生之后, 迅速会在微博上传播开来, 吸引一大批特定人群去关 注事件的发展与走向, 这一庞大群体中, 大多数人持旁观者角度, 以数量优势默默影响事件 的发展趋势, 而事件的发布者和传播者往往是事件的当事人或者有影响力的社交账号, 能 够对事件的发展起到关键性乃至决定性的作用。 识别微博中特定事件的关注群体这对于微 博用户来说, 有助于扩大社交圈, 发现更多与自己有相同兴趣爱好的人; 对于微博运营商来 说, 实现群体划分有助于实现精准营销; 对于社会而言, 由于发现潜在热点话题并及时追 踪, 便于决策者更好地对社会舆论实现监督和管理。 000。

17、4 发明人在对群体发现的研究进行详细调研的基础上, 同时对社团发现领域的相关 研究加以调研, 以求能对关注群体识别提供借鉴参考作用。 0005 在社团发现的研究中, Xiu等人针对COPRA算法的随机更新和稳定性差的缺点, 提 出了一种基于标签传播的重叠社区发现算法。 该算法通过遍历每个节点来计算节点的值, 并找到参考节点以确定划分的社区数。 然后参考节点用于更新相邻节点的标签以标识重叠 节点, 并且在找到所有重叠节点时可以对重叠社区进行划分。 李孔文等人提出NCC算法, 利 用聚集系数对局部社团进行划分, 该算法不需要考虑全局信息, 在时间复杂度上具有一定 的优势, 然而, 该算法的缺点在于。

18、最终解可能不是全局最优解。 Gulmera和Amaral提出的采 用基于模拟退火算法的GA算法解决了NCC算法的缺点。 王雪梅和王义和将模拟退火算法 (SA)与遗传算法(GA)进行结合应用在群体发现的研究上, 提出了两种改进算法SSB1和SSB2 来分析和测试他们的探索能力。 该算法主要有两个缺陷: (1)无法准确的找到社团的边界; (2)算法复杂度高。 0006 在面向微博特定群体发现的研究领域中, 李蕾提出了基于TF-IDF算法的群体特征 抽取算法, 该算法对语义相似度进行了改进并且提出了用户主体相关度的概念, 结合微博 文本分析方法和关系分析方法对特定群体进行识别, 结果提高搜索特定群体。

19、的效率和时 间。 王越提出了基于微博用户自定义兴趣标签的动态网络模型, 该算法以差分分析的方式 识别社群归属变化的节点, 然后计算这些节点的社区隶属度, 以实现动态网络的社区划分。 Shen和Cheng等人提出了一种同时检测复杂群体结构重叠性和层次性的算法(Eagle), 该算 法采用凝聚框架使得Jaccard系数较大的两个类簇合成一个社团, 扩展了模块性的质量函 说明书 1/13 页 6 CN 111026976 A 6 数, 该算法在实际网络结构中的应用实例取得了很好的效果, 但未考虑网络交互特征。 0007 综上所述, 关于社团发现和微博特定事件关注群体识别方面的研究, 有了很大的 进步。

20、, 对群体识别和社团划分领域具有推动性的贡献。 但是面向微博特定事件的关注群体 识别的相关研究还是有限的, 而且现有的社团发现算法的时间复杂度高, 同时忽略了网络 交互特征。 发明内容 0008 为了解决现有技术存在的问题, 本发明通过改进PageRank算法对重点用户进行识 别, 在基于网络特征的特定重点用户识别算法基础上, 对识别出的重点用户进行特征抽取, 采用基于特征映射的方式对用户属性特征进行向量表征, 然后采用模糊c-means聚类算法 对特定事件关注用户进行聚类, 识别出某个特定事件下重点关注的人群层次。 0009 本发明为了实现上述的技术目的, 采用如下的技术方案。 0010 一。

21、种微博特定事件关注群体的识别方法, 包括如下步骤: 0011 S1构建包括用户属性权重和用户交互属性权重的基于网络特征的特定重点用户 识别算法, 识别特定事件的重点关注用户。 0012 S2对S1识别出的重点关注用户进行特征抽取, 采用基于特征映射的方式对用户属 性特征进行向量表征。 0013 S3采用模糊c-means聚类算法对重点关注用户进行聚类, 识别重点关注用户的人 群层次。 0014 进一步的, 本发明提供一种微博特定事件关注群体的识别方法, S1构建包括用户 属性权重和用户交互属性权重的基于网络特征的特定重点用户识别算法, 识别特定事件的 重点关注用户, 其具体方法如下。 0015。

22、 S11构建特定事件的微博用户网络结构图, 即有向加权图G(V, E, P, W) 0016 将整个微博社交平台看成一张图, 图节点是微博用户自身, 微博用户的交互关系 构成边, 而特定事件的关注群体之间的交互可以视为其中的子图, 该图为特定事件的微博 用户网络结构图, 用有向加权图G(V, E, P, W)表示。 0017 其中, V为特定事件下关注用户的集合Vv1, v2, v3, v4, , vn, 其中vi为某个微博 用户, 当微博用户vi对特定事件进行了发表、 转发或者评论操作时, 将微博用户vi加入到特 定事件关注用户集合中, 其中viV。 0018 E为特定事件下相关微博用户交互。

23、的集合Ee11, e12, e13, e14, , emn, 其中eij为 微博用户vi与微博用户vj对特定事件进行了交互操作, 具体为微博用户vi转发或者评论了 微博用户vj在特定事件下的相关微博, 该交互具有方向性, 即 0019 P为特定事件下相关微博用户权重的集合Pp1, p2, p3, p4, , pn, 其中pi为微博 用户vi的权重, 满足piP。 0020 W为特定事件下用户交互关系权重的集合, Ww11, w12, w13, , wmn, 其中wij为微 博用户vi与微博用户vj之间的交互关系eij的权重, 满足wijW。 0021 S12结合用户属性权重和用户交互属性权重构。

24、建DLRank排序算法, 迭代收敛后, 将 DLR值排名靠前的用户当作该事件的重点关注用户。 0022 识别特定事件的重点关注用户类似于寻找微博用户网络结构图中的核心节点, 关 说明书 2/13 页 7 CN 111026976 A 7 于对微博影响力的研究中, 像PageRank以及复杂网络中心性分析法, 大多以互粉关系以及 自身属性构建模型, 基本忽略了用户自身属性的权重和用户交互关系的权重。 0023 而事实上, 每个微博用户都具有一定的影响力, 影响力越大的用户越容易带动特 定事件的观点走向, 本申请在PageRank网页排名算法的基础上, 增加了用户属性权重和用 户交互属性权重值的特。

25、征, 构建了基于网络结构特征的特定事件的重点关注用户识别算法 DeepLeaderRank(DLRank)。 0024 具体的, 微博用户之间相互评论或者转发微博构成微博用户网络结构图的边, 一 条有向边表示一次投票策略, 边的权重值采用微博用户之间的交互属性权重值衡量, 边的 权重值的大小表示用户之间互动的紧密度, 同时节点自身具有权重值即用户自身属性权 重。 用户自身属性权重值越大, 说明用户影响力越大; 用户交互关系权重值越大, 说明用户 间的影响力越大。 本申请结合用户属性权重和用户交互属性权重构建DLRank排序算法。 0025 具体的, DLRank算法的迭代公式如下: 0026 。

26、(k+1)T(1- )eT+ (k)TG (1) 0027 其中, (k)T为迭代更新前的所有微博用户的DLR值, (k+1)T为迭代更新后的所有微 博用户的DLR值, 为阻尼系数, eT为投票矩阵的单位行向量, G为投票矩阵, 其中的元素gij 为投票权重, 其计算方法公式为: 0028 0029 由于在微博用户网络结构图中会出现一些出度为0的节点, 也就是该微博用户没 有任何与其他人进行交互, 这类节点称为死节点(仅原创微博, 没有评论或者转发他人微 博), 这些死节点会影响算法的效果。 因此, 引入阻尼系数 来解决图稀疏的问题, 本申请阻 尼系数 设置为 0.85。 0030 DLRan。

27、k是迭代式的算法, 算法收敛后的矩阵为 *, 收敛的条件是矩阵A满足可逆条 件, 迭代算法的解如公式(3)所示, 矩阵A如公式(4)所示: 0031 *(1- )eT+ (*)G (3) 0032 AE- G (4) 0033 按照迭代公式计算所有节点的DLR值, 最终迭代收敛后, 将DLR值排名靠前的用户 当作该特定事件的重点关注用户。 0034 进一步的, 本发明的一种微博特定事件关注群体的识别方法, S2, 具体的, 对S1识 别出的重点关注用户进行特征抽取, 采用基于特征映射的方式对用户属性特征进行向量表 征。 0035 S21对S1识别出的特定事件的重点关注用户进行信息采集, 抽取其。

28、标签和认证信 息。 0036 具体的, 对特定事件的重点关注用户进行信息采集, 所述信息包括微博用户的ID、 昵称、 标签、 认证信息、 关注数、 粉丝数、 微博数、 微博内容、 会员等级、 所在省/市等, 提取其 认证信息和标签作为用户特征。 0037 S22对用户特征进行预处理和格式化。 说明书 3/13 页 8 CN 111026976 A 8 0038 具体的, 采用NLPIR分词系统对认证信息和标签的长词条进行分词, 将该认证信息 或者标签用词的集合来表示。 0039 S23构建重点关注用户特征集合。 0040 构建用户特征集合, 具体的, 用户特征集合表示为Fuuw1,uw2,uw。

29、3,uwm, 其中 m表示当前用户特征包含的特征词数目; 0041 特征维集合表示为Fddw1,dw2,dw3,dwn, 其中n表示特征维所包含的词数目。 0042 S24获得重点关注用户特征初始特征值。 0043 重点关注用户初始特征值计算公式为: 0044 0045 其中, X为微博用户ui的特征集合数量, x为每个特征在该用户特征集合出现的次 数。 0046 S25计算用户特征与特征维之间的平均语义相似度。 0047 用户特征集合与特征维集合之间的语义相似度计算公式为: 0048 0049 其中, fu为用户特征集合, fd为特征维集合, Sim(uwi,dwj)为用户特征与特征维之 间。

30、的平均语义相似度, uwi为包含i个词的用户特征的集合, dwj为包含j个词的特征维集合。 0050 词语相似度利用HowNet进行计算, 其公式为: 0051 0052 其中, 词语W1、 W2在HowNet中分别有n和m个义原, S1i为W1的第i个义原, S2j为W2的第j 个义原, Sim(S1,S2)表示两个义原S1i、 S2j之间的相似度, 其公式为: 0053 0054 其中, i(1i4)为调节参数, 且满足 1+ 2+ 3+ 41, 1 2 3 4, 本申请中, i分别取值为: 0.5、 0.2、 0.17和0.13。 0055 S26选取出语义相似度最高的用户特征作为该用户。

31、隶属度的特征向量, 将特征的 特征值与最大相似度的乘积作为特征维的特征值。 0056 具体的, 特征维对应的特征值的计算公式为, 0057 0058 其中, maxSF(fu)a,fd)表示用户的X个特征分别与特征维中fd计算后的最大语 义相似度值, fd(fu)a)表示当取得最大相似度时该特征自身的特征值, T(fd)为特征维fd对 应的特征值。 0059 将每个重点用户用m维的向量进行表征, 实现用户特征到特征维的特征映射。 0060 进一步的, 本发明的一种微博特定事件关注群体的识别方法, S3采用模糊c-means 聚类算法对特定事件关注用户进行聚类, 识别出某个特定事件下重点关注的人。

32、群层次, 其 说明书 4/13 页 9 CN 111026976 A 9 具体方法如下。 0061 模糊c-means聚类算法(Fuzzy c-means Clustering Algorithm), 简称FCMA, 该算 法的目标是计算每个元素对所有簇类中心的隶属程度, 从而将数据归类为隶属程度值最高 的簇类。 FCMA算法是无监督的模糊聚类算法, 在聚类的过程中无须人为干预。 因此, 本申请 采用此算法, 对特定事件关注用户进行群体聚类。 0062 S31抽取特定事件的重点关注用户, 构建待聚类的微博用户集合, 得到微博用户原 始数据矩阵。 0063 待聚类的微博用户特征集合公式为: 00。

33、64 Cux1,x2,x3,xn 0065 其中n表示待聚类的用户数量; 0066 每个微博用户通过m维的特征向量进行表征, 公式为: 0067 xi(xi1,xi2,xi3,xim); 0068 其中, i为用户, m为特征维数。 0069 基于以上特征得到重点关注用户的原始数据矩阵, 公式为: 0070 0071 其中, i为用户, m为特征维数。 0072 S32标准差规格化方法数据矩阵平滑转换, 得到规格化的重点用户特征向量 0073 由于不同微博用户数据有不同的量纲, 不同量纲下的数据无法横向比较, 为了比 较不同量纲下的数据, 本申请采用标准差规格化方法数据矩阵进行平滑转换, 公式。

34、为: 0074 0075其中i1,2,3,.,n; k1,2,3,.,m;表示样本数据的平均值, 表示样本数据的标准差, xik表示经过规格化后的微博用户特 征向量。 0076 S33计算重点用户间相似程度 0077 rijR(xi,xj)表示数据矩阵中用户xi与用户xj之间的相似度, 基于所有用户相似 度值构建模糊相似矩阵, 其中rij的值采用模糊数学中的指数相似系数法定值, 公式为: 0078 说明书 5/13 页 10 CN 111026976 A 10 0079其中, m表示用户特征维度,表示数据标准差的平方, 基 于上述公式得到用户间相似程度, 最后构建模糊相似矩阵进行聚类分析。 0。

35、080 S34构建模糊相似矩阵进行聚类分析 0081 基于模糊c-means聚类分析中, 核心在于找到最佳聚类阈值 0,1, 不同的聚类 阈值, 数据会聚到不同的簇类中, 因此, 本申请引入F统计量来确定最优聚类参数 。 0082第i个簇类中用户第k个特征的平均值的公式为: 0083 0084 其中, UNi为第i个簇类中微博用户的数量, k(1, 2, 3, , m)为微博用户x的第k个 特征, 所有微博用户第k个特征的平均值的公式为: 0085 0086 设CN表示当聚类阈值取值为 时对应的簇类数量, 采用F统计量来衡量聚类阈值 的好坏, F统计量公式为: 0087 0088 统计量F服从。

36、(CN-1,UN-CN)的F分布, 公式(15)计算F统计量中分子表示不同簇类 之间的距离, 分母表示同一簇类中元素间的距离, 因此, 分子值越大, F值就越大, 不同簇类 间的距离也就越大, 说明聚类效果越好。 0089 依据数理统计方差分析理论, 若FF(CN-1, UN-CN)( 0.05), 则聚类结果合理; 再取maxF所对应的 作为模糊聚类的最佳阈值, 聚类阈值为 时也就是最佳聚类结果。 0090 本发明采用上述的技术方案, 取得了如下的技术效果。 0091 本发明的方法能够很好的识别出特定事件的重点关注用户, 同时采用特征映射的 方法对用户群体聚类分析, 在平均聚类准确度上要比基。

37、于硬匹配规则高出至少0.06个百分 点。 0092 本发明的方法, 可以得到微博中特定事件的关注群体, 这对于微博用户来说, 有助 于扩大社交圈, 发现更多与自己有相同兴趣爱好的人; 对于微博运营商来说, 实现群体划分 有助于实现精准营销; 对于社会而言, 由于发现潜在热点话题并及时追踪, 便于决策者更好 地对社会舆论实现监督和管理, 具有较强的有效性和进步性。 附图说明 0093 图1为用户动态交互关系图; 0094 图2为PageRank算法排名结果; 0095 图3为DLRank算法排名结果; 0096 图4为引入特征映射与基于规则硬匹配的平均聚类准确度对比图; 0097 图5为模糊聚类。

38、结果图。 说明书 6/13 页 11 CN 111026976 A 11 具体实施方式 0098 为使本发明实施例的目的、 技术方案和优点更加清楚, 下面将结合本发明实施例 中的附图, 对本发明实施例中的技术方案进行清楚、 完整地描述, 显然, 所描述的实施例是 本发明一部分实施例, 而不是全部的实施例。 通常在此处附图中描述和示出的本发明实施 例的组件可以以各种不同的配置来布置和设计。 0099 因此, 以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护 的本发明的范围, 而是仅仅表示本发明的选定实施例。 基于本发明中的实施例, 本领域普通 技术人员在没有做出创造性劳动前提下所。

39、获得的所有其他实施例, 都属于本发明保护的范 围。 0100 应注意到: 相似的标号和字母在下面的附图中表示类似项, 因此, 一旦某一项在一 个附图中被定义, 则在随后的附图中不需要对其进行进一步定义和解释。 0101 在本发明实施例的描述中, 需要说明的是, 术语 “第一” 、“第二” 等仅用于区分描 述, 而不能理解为指示或暗示相对重要性。 0102 本发明提供一种微博特定事件关注群体的识别方法, 包括如下步骤: 0103 一种微博特定事件关注群体的识别方法, 包括如下步骤: 0104 S1构建包括用户属性权重和用户交互属性权重的基于网络特征的特定重点用户 识别算法, 识别特定事件的重点关。

40、注用户。 0105 S2对S1识别出的重点关注用户进行特征抽取, 采用基于特征映射的方式对用户属 性特征进行向量表征。 0106 S3采用模糊c-means聚类算法对重点关注用户进行聚类, 识别重点关注用户的人 群层次。 0107 具体的, 本发明提供一种微博特定事件关注群体的识别方法, S1构建包括用户属 性权重和用户交互属性权重的基于网络特征的特定重点用户识别算法, 识别特定事件的重 点关注用户, 其具体方法如下。 0108 S11构建特定事件的微博用户网络结构图, 即有向加权图G(V, E, P, W) 0109 将整个微博社交平台看成一张图, 图节点是微博用户自身, 微博用户的交互关系。

41、 构成边, 而特定事件的关注群体之间的交互可以视为其中的子图, 该图为特定事件的微博 用户网络结构图, 用有向加权图G(V, E, P, W)表示。 0110 其中, V为特定事件下关注用户的集合Vv1, v2, v3, v4, , vn, 其中vi为某个微博 用户, 当微博用户vi对特定事件进行了发表、 转发或者评论操作时, 将微博用户vi加入到特 定事件关注用户集合中, 其中viV。 0111 E为特定事件下相关微博用户交互的集合Ee11, e12, e13, e14, , emn, 其中eij为 微博用户vi与微博用户vj对特定事件进行了交互操作, 具体为微博用户vi转发或者评论了 微博。

42、用户vj在特定事件下的相关微博, 该交互具有方向性, 即 0112 P为特定事件下相关微博用户权重的集合Pp1, p2, p3, p4, , pn, 其中pi为微博 用户vi的权重, 满足piP。 0113 W为特定事件下用户交互关系权重的集合, Ww11, w12, W13, , wmn, 其中wij为微 博用户vi与微博用户vj之间的交互关系eij的权重, 满足wijW。 0114 S12结合用户属性权重和用户交互属性权重构建DLRank排序算法, 迭代收敛后, 将 说明书 7/13 页 12 CN 111026976 A 12 DLR值排名靠前的用户当作该事件下的重点关注用户。 0115。

43、 具体的, 微博用户之间相互评论或者转发微博构成微博用户网络结构图的边, 一 条有向边表示一次投票策略, 边的权重值采用微博用户之间的交互属性权重值衡量, 边的 权重值的大小表示用户之间互动的紧密度, 同时节点自身具有权重值即用户自身属性权 重。 本申请结合用户属性权重和用户交互属性权重构建DLRank排序算法。 用户自身属性权 重值越大, 说明用户影响力越大; 用户交互关系权重值越大, 说明用户间的影响力越大。 0116 具体的, DLRank算法的迭代公式如下: 0117 (k+1)T(1- )eT+ (k)TG (1) 0118 其中, (k)T为迭代更新前的所有微博用户的DLR值, (。

44、k+1)T为迭代更新后的所有微 博用户的DLR值, 为阻尼系数, eT为投票矩阵的单位行向量, G为投票矩阵, 其中的元素gij 为投票权重, 其计算方法公式为: 0119 0120 由于在微博用户网络结构图中会出现一些出度为0的节点, 也就是该微博用户没 有任何与其他人进行交互, 这类节点称为死节点(仅原创微博, 没有评论或者转发他人微 博), 这些死节点会影响算法的效果。 因此, 引入阻尼系数 来解决图稀疏的问题, 本实施例 阻尼系数 设置为 0.85。 0121 DLRank是迭代式的算法, 算法收敛后的矩阵为 *, 收敛的条件是矩阵A满足可逆条 件, 迭代算法的解如公式(3)所示, 矩。

45、阵A如公式(4)所示: 0122 *(1- )eT+ (*)G (3) 0123 AE- G (4) 0124 按照迭代公式计算所有节点的DLR值, 最终迭代收敛后, 将DLR值排名靠前的用户 当作该特定事件的重点关注用户。 0125 进一步的, 本发明的一种微博特定事件关注群体的识别方法, S2, 具体的, 对S1识 别出的重点关注用户进行特征抽取, 采用基于特征映射的方式对用户属性特征进行向量表 征。 0126 S21对S1识别出的特定事件的重点关注用户进行信息采集, 抽取其标签和认证信 息。 0127 具体的, 对特定事件的重点关注用户进行信息采集, 所述信息包括微博用户的ID、 昵称、。

46、 标签、 认证信息、 关注数、 粉丝数、 微博数、 微博内容、 会员等级、 所在省/市等, 提取其 认证信息和标签作为用户特征。 0128 S22对用户特征进行预处理和格式化。 0129 具体的, 采用NLPIR分词系统对认证信息和标签的长词条进行分词, 将该认证信息 或者标签用词的集合来表示。 0130 S23构建重点关注用户特征集合。 0131 构建用户特征集合, 具体的, 用户特征集合表示为Fuuw1,uw2,uw3,uwm, 其中 m表示当前用户特征包含的特征词数目; 说明书 8/13 页 13 CN 111026976 A 13 0132 特征维集合表示为Fddw1,dw2,dw3,。

47、dwn, 其中n表示特征维所包含的词数目。 0133 S24获得重点关注用户特征初始特征值。 0134 重点关注用户初始特征值计算公式为: 0135 0136 其中, X为微博用户ui的特征集合数量, x为每个特征在该用户特征集合出现的次 数。 0137 S25计算用户特征与特征维之间的平均语义相似度。 0138 用户特征集合与特征维集合之间的语义相似度计算公式为: 0139 0140 其中, fu为用户特征集合, fd为特征维集合, Sim(uwi,dwj)为用户特征与特征维之 间的平均语义相似度, uwi为包含i个词的用户特征的集合, dwj为包含j个词的特征维集合。 0141 词语相似度。

48、利用HowNet进行计算, 其公式为: 0142 0143 其中, 词语W1、 W2在HowNet中分别有n和m个义原, S1i为W1的第i个义原, S2j为W2的第j 个义原, Sim(S1,S2)表示两个义原S1i、 S2j之间的相似度, 其公式为: 0144 0145 其中, i(1i4)为调节参数, 且满足 1+ 2+ 3+ 41, 1 2 3 4, 本申请中, i分别取值为: 0.5、 0.2、 0.17和0.13。 0146 S26选取出语义相似度最高的用户特征作为该用户隶属度的特征向量, 将特征的 特征值与最大相似度的乘积作为特征维的特征值。 0147 具体的, 特征维对应的特征。

49、值的计算公式为, 0148 0149 其中, maxSF(fu)a,fd)表示用户的X个特征分别与特征维中fd计算后的最大语 义相似度值, fd(fu)a)表示当取得最大相似度时该特征自身的特征值, T(fd)为特征维fd对 应的特征值。 0150 将每个重点用户用m维的向量进行表征, 实现用户特征到特征维的特征映射。 0151 进一步的, 本发明的一种微博特定事件关注群体的识别方法, S3采用模糊c-means 聚类算法对特定事件关注用户进行聚类, 识别出某个特定事件下重点关注的人群层次, 其 具体方法如下。 0152 S31抽取特定事件的重点关注用户, 构建待聚类的微博用户集合, 得到微博。

50、用户原 始数据矩阵。 0153 待聚类的微博用户特征集合公式为: 0154 Cux1,x2,x3,xn 说明书 9/13 页 14 CN 111026976 A 14 0155 其中n表示待聚类的用户数量; 0156 每个微博用户通过m维的特征向量进行表征, 公式为: 0157 xi(xi1,xi2,xi3,xim); 0158 其中, i为用户, m为特征维数。 0159 基于以上特征得到重点关注用户的原始数据矩阵, 公式为: 0160 0161 其中, i为用户, m为特征维数。 0162 S32标准差规格化方法数据矩阵平滑转换, 得到规格化的重点用户特征向量 0163 由于不同微博用户数。

展开阅读全文
内容关键字: 特定 事件 关注 群体 识别 方法
关于本文
本文标题:微博特定事件关注群体识别方法.pdf
链接地址:https://www.zhuanlichaxun.net/pdf/10699323.html
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1