《一种基于互联网开放信息的事件发生风险预测并预警方法.pdf》由会员分享,可在线阅读,更多相关《一种基于互联网开放信息的事件发生风险预测并预警方法.pdf(22页完整版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 103854063 A (43)申请公布日 2014.06.11 CN 103854063 A (21)申请号 201210501872.7 (22)申请日 2012.11.29 G06Q 10/04(2012.01) G06Q 50/00(2012.01) (71)申请人 中国科学院计算机网络信息中心 地址 100190 北京市海淀区中关村南四街 4 号 (72)发明人 杨风雷 黎建辉 (74)专利代理机构 北京君尚知识产权代理事务 所 ( 普通合伙 ) 11200 代理人 余长江 (54) 发明名称 一种基于互联网开放信息的事件发生风险预 测并预警方法 (57) 。
2、摘要 本发明公开了一种基于互联网开放信息的 事件发生风险预测并预警方法。本发明为 : 1) 对 网页信息进行垃圾过滤 ; 2) 对过滤后的网页信息 中表示处所的词语进行解析, 得到地名词语 ; 基 于所建信息本体对解析后的网页信息进行处理, 将网页信息归入匹配区域 ; 3) 对网页信息进行过 滤, 得到与食品安全相关的网页信息 ; 然后利用 回归分析模型对过滤后的网页信息进行处理, 判 断每一网页信息相关的对象类别 ; 4) 确定设定区 域、 对象事件的网页信息集合, 建立事件特征参数 并定期计算参数值, 如果某事件的特征参数值超 过设定阈值则对该事件进行预警 ; 5) 基于矩阵分 析和回归预。
3、测模型对目标区域发生设定事件的风 险进行不同预警。 本发明提高了风险预警的效率。 (51)Int.Cl. 权利要求书 3 页 说明书 14 页 附图 4 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书3页 说明书14页 附图4页 (10)申请公布号 CN 103854063 A CN 103854063 A 1/3 页 2 1. 一种基于互联网开放信息的事件发生风险预测并预警方法, 其步骤为 : 1) 建立一食品安全事件信息本体, 并对本体中的每个实例分别建立一附加表 ; 2) 对爬取的网页信息进行垃圾过滤, 得到非垃圾网页信息 ; 3) 对过滤后的网页信息中表示处。
4、所的词语进行解析, 得到准确的地名词语 ; 基于所述 食品安全事件信息本体中区域维度的本体实例名称、 属性采用模式匹配方法对解析后的网 页信息进行处理, 将网页信息归入匹配成功的区域 ; 4) 对网页信息进行过滤, 得到与食品安全相关的网页信息 ; 然后针对每一设定的对象 类别, 利用回归分析模型对过滤后的网页信息进行处理, 判断每一网页信息相关的对象类 别 ; 5) 根据步骤 3)、 4) 确定出的网页信息所属区域及其相关的对象类别, 得到设定区域、 对象的事件的网页信息集合, 建立事件的特征参数并定期计算特征参数值, 如果某事件的 特征参数值持续设定时间超过设定阈值则对该事件进行预警 ; 。
5、6) 如果某区域出现一设定对象事件预警, 基于矩阵分析和回归预测模型定期计算目标 区域发生该设定事件的可能性以及可能的发生时间, 并进行不同级别的风险预警。 2. 如权利要求 1 所述的方法, 其特征在于对爬取的网页信息中的欺骗性垃圾意见进行 过滤的方法为 : 21) 爬取所选用户生成内容信息源的网页, 并根据爬取的网页建立一用户意见信息集 合 ; 对用户意见信息集合进行聚类, 得到若干个信息区域, 并计算每一信息区域中所有信息 的特征向量均值, 作为该信息区域的标志向量 ; 22) 对每一信息区域中的用户意见信息进行样本抽样, 得到每个信息区域的样本集 合 ; 23) 对每一信息区域的样本集。
6、合中的样本进行标注, 得到每个信息区域的欺骗性垃圾 意见样本集合和无标注意见信息样本集合 ; 24) 对每一样本, 寻找各信息区域的样本集合中与其最相似的 P 个样本, 基于该 P 个样 本的类别标识、 及其与该样本之间的相似度值, 得到该样本的最终特征向量 ; 25) 基于每个样本的最终特征向量, 选择机器学习方法针对每个信息区域建立一欺骗 性垃圾意见检测模型 ; 26) 利用欺骗性垃圾意见检测模型对用户意见信息集合中的信息进行过滤。 3. 如权利要求 2 所述的方法, 其特征在于得到所述每个信息区域的样本集合的方法 为 : 先对所述用户意见信息集合中确定为欺骗性垃圾意见的信息进行标注, 建。
7、立一准确的 欺骗性垃圾意见信息集合 ; 然后对意见信息分区后, 在样本抽样过程中对每一分区按照随 机抽样的方法进行多次抽取, 并根据所建欺骗性垃圾意见信息集合选择所抽取样本中欺骗 性垃圾意见数最多的一次抽取为该分区的最终样本, 得到每个信息区域的样本集合。 4.如权利要求2或3所述的方法, 其特征在于对每一样本, 以样本的内容和链接纬度的 特征参数形成其初始特征向量, 寻找各信息区域的样本集合中与其最相似的 P 个样本。 5. 如权利要求 2 所述的方法, 其特征在于利用欺骗性垃圾意见检测模型对用户意见信 息集合中的信息进行过滤过程中, 以意见信息和各信息区域的距离为基础建立加权系数, 将每一。
8、欺骗性垃圾意见检测模型对用户意见信息的检测结果进行综合加权, 得到最终的检 测结果 ; 根据最终的检测结果对用户意见信息进行标注。 权 利 要 求 书 CN 103854063 A 2 2/3 页 3 6. 如权利要求 2 所述的方法, 其特征在于所述样本最终特征向量的计算方法为 : A) 首先对抽取出来的样本意见信息内容进行分词, 去掉停用词, 并经过降维后形成内 容特征向量 Qj, j 为样本编号 ; B) 计算样本意见信息的链接特征, 并将各项连接特征参数加权计算得到总的数值, 设 为 Lj; C) 计算 Mj Lj*Qj, 得到基于内容、 链接的表征样本意见信息的初始特征向量 Mj; 。
9、D) 对信息区域中的每一样本 Sample, 基于该样本的初始特征向量, 计算其与各信息区 域中每一样本信息的相似值, 并将各样本信息按照相似值从大到小排序, 得到其相似样本 序列 ; E) 将样本序列中前 P 个样本信息的类别标识与对应相似值分别相乘, 形成一个纬数为 P 的向量 N, 作为样本 Sample 的最终特征向量。 7. 如权利要求 2 所述的方法, 其特征在于定期对准确欺骗性垃圾意见信息集合和无标 注的用户意见信息集合进行补充、 更新, 然后对更新后的用户意见信息集合进行聚类, 计算 每一信息区域当前标志向量与上一次标志向量之间的距离并求和得到累加值 Dis, 当 Dis 值大。
10、于事先设定的阈值时, 更新每个信息区域的欺骗性垃圾意见检测模型。 8. 如权利要求 2 所述的方法, 其特征在于对用户意见信息集合进行聚类分析的特征 向量为 : 提取意见信息的字数、 词数、 意见段落数、 段落长度均值、 句子数、 句子长度均值、 第 一人称代词数、 第二人称代词数、 第三人称代词数、 形容词数、 副词数、 动词数、 人名数、 地名 数、 机构名数、 时间数、 感叹号数、 问号数以及标题字数, 并对其进行归一化得到对用户意见 信息集合进行聚类分析的特征向量。 9. 如权利要求 1 所述的方法, 其特征在于对网页信息中表示处所的词语进行解析的方 法为 : a) 对于地名代词, 用。
11、一判断模型判断地名代词与其前面出现的地理名词之间是否存在 指代关系, 如果存在, 则将地名代词替换为相应的地理名词 ; b) 基于标准词语和非标准词语对照表对词语中非标准地名词语进行解析, 将非标准词 语替换为标准词语 ; c) 基于所述食品安全事件信息本体中的区域维度, 对词语中的相对位置区域信息进行 解析, 得到准确的地名词语 ; 其中, 所述判断模型的建立方法为 : 将包含地名代词的网页信息形成一样本集合, 并对 样本集合中地名代词和其之前的地理名词之间的指代关系进行标注, 作为类别变量 ; 建立 地名代词和其之前的地理名词之间关系的特征向量 : 然后选择机器学习方法基于所述样本 集合、。
12、 类别变量和特征向量建立地理名词和地名代词之间是否存在指代关系的判断模型 ; 其中, 判断地名代词与其前面出现的地理名词之间是否存在指代关系的方法为 : 计算 地名代词和地理名词之间关系的特征向量值, 利用所述判断模型对所述特征向量值进行判 断, 确定地名代词和地理名词之间的指代关系是否存在。 10. 如权利要求 9 所述的方法, 其特征在于对网页信息中表示处所的地名代词进行解 析的方法为 : 101) 建立一代词解析的长度为 L 的滑动窗口 ; 102) 选择地名代词前 L 个词语内是否存在地理名词, 如果存在, 则采用判断模型进行 权 利 要 求 书 CN 103854063 A 3 3/。
13、3 页 4 判断, 如果存在指代关系, 则根据指代关系确定代词对应的地理名词, 解析结束, 否则进行 步骤 103) ; 103) 选择地名代词前 2L 个词语内是否存在地理名词, 如果存在, 则采用判断模型进行 判断, 如果存在指代关系, 则根据指代关系确定代词对应的地理名词, 解析结束, 否则进行 步骤 104) ; 104) 根据元数据提取过程中得到的信息来源或网站所在地采用抽取或者替换的方法 确定地名代词的指代地名。 11. 如权利要求 1 或 2 或 10 所述的方法, 其特征在于计算目标区域发生该设定事件的 可能性以及可能的发生时间, 并进行不同级别的风险预警的方法为 : 11) 。
14、选择与目标区域同行政级别的区域的历史事件信息集合, 基于该历史事件信息集 合建立事件网络图 ; 其中, 事件网络图的顶点标识各个区域、 食品安全事件, 如果一个区域 发生了某一事件, 则标识该区域的顶点与标识该事件的顶点之间产生一个边, 并且边的权 重为该事件发生的次数 ; 12)将该事件网络图转换为一个R*S的矩阵A ; 其中, R为区域数, S为食品安全事件数 ; 13) 基于上述的历史事件信息集合, 按照目标区域发生设定事件距离最早发生该事件 的时间不同, 设定 N 个时间范围, 针对每一时间范围分别对该历史事件信息集合进行标注, 形成 N 个数据集合 ; 14) 对上述每一数据集合, 。
15、将目标区域在相应时间范围内是否发生设定事件作为因变 量, 其余区域是否发生相应事件作为自变量, 采用回归分析方法分别建立自变量、 因变量之 间的回归预测模型 ; 15) 更新矩阵 A 中的相应元素, 对矩阵 A 采用矩阵分解方法进行处理, 形成新的矩阵 B ; 16) 寻找矩阵 B 中标识目标区域和设定事件相关性的矩阵元素值, 如果其大于事先设 定的阈值, 则确定目标区域可能会发生该设定事件 ; 否则, 不会发生该设定事件 ; 17) 如果确定目标区域未来会发生该设定事件, 则根据目前发生该设定事件的区域得 到自变量的值, 代入上述回归预测模型进行判断, 根据判断结果得到目标区域可能发生设 定。
16、事件的时间预测值 ; 18) 根据上述的风险预测结果, 对目标区域发生设定事件的风险进行不同级别的预警。 权 利 要 求 书 CN 103854063 A 4 1/14 页 5 一种基于互联网开放信息的事件发生风险预测并预警方法 技术领域 0001 本发明属于信息技术领域, 尤其涉及一种对爬取得到的互联网信息进行特定处 理, 之后对特定区域发生特定事件的风险进行预测并进行预警的方法, 主要应用于食品安 全信息监控、 风险预警等非常规突发事件的应急处理工作中。 背景技术 0002 近年来, 食品安全事件诸如毒胶囊、 回锅油、 瘦肉精、 染色馒头、 塑化剂、 毒黄瓜等 频频发生, 这既造成了极坏的。
17、社会影响, 也带来了大量的经济损失。 为了避免或最大限度的 降低这些食品安全事件所带来的危害, 基于事件的风险预警技术开始得到了极大关注。为 进行基于事件的风险预警, 这就需要提前发现这些事件的信息。 0003 随着 Internet 的迅猛发展, 互联网网民数量越来越庞大, 互联网逐渐成为网民发 布信息、 获取信息和传递信息的主要载体, 而且通过人、 组织等之间的交互形成了一个和现 实社会有一定的对应、 关联关系的虚拟社会。 它已经变成了世界上规模最大的公共数据源, 而且其规模还正在不停的增长着。 此状况下, 利用互联网自身的特点, 建立起完善的社会信 息反馈网络, 提前发现各种可能带来危机。
18、的 “未然” 因素, 为食品安全事件的应急管理提供 及时、 准确、 全面的信息就显得势在必行和有着非常重要的意义。 0004 从现实的角度看, 注意到多数食品安全事件发生前, 在互联网上总是已经存在一 些零星的线索, 为此, 可以采取采集、 分析互联网上的相关信息后以预警的方式为这些食品 安全事件的应急管理提供直接的信息来源。为及时、 准确、 全面获取、 掌握所需要的特定互 联网目标信息, 就需要用到互联网信息分析和预警等相关技术。 0005 比如有研究工作利用互联网信息进行风险预警, 但该研究中对收集的信息如何处 理, 采取何种措施, 都需要人工的参与和决定。 也有研究工作可以自动的基于互联。
19、网信息针 对添加剂和补充剂等进行食品安全风险预警, 但其存在一些不足 : 过程中没有考虑信息的 质量问题, 没有对采集的垃圾信息进行过滤 - 这会影响预警的准确性 ; 事件信息发现过程 中直接将经过关键词匹配后得到的类别信息作为同一种事件信息的做法中可能存在信息 对应的主体不一致等。从实际的测试结果看, 其信息分类、 预警的准确性、 全面性等方面尚 存在需要进一步提高的地方。 0006 同时, 在通过事件信息发现方法提取出相关区域所发生的事件信息后, 如果能对 特定区域(当前未发生)发生特定事件的风险进行预测, 即对其是否会发生此种事件, 以及 多长时间后可能会发生等进行预测并预警, 将对特定。
20、区域的风险监测和预警有着非常重要 的意义。通过查阅文献, 尚未发现此类研究。 发明内容 0007 为解决上述的问题, 本发明的目的在于提供一种采取特定步骤对网页信息的内容 进行分析, 之后对特定区域发生特定事件的风险进行预测并预警的方法。方法中借鉴智能 系统思路, 形成的步骤如下所述。 说 明 书 CN 103854063 A 5 2/14 页 6 0008 1. 网页信息爬取 0009 选用互联网信息爬虫软件 ( 比如 Heritrix、 Nutch 等 ) 对信息源中的网页信息进 行爬取, 爬取过程中基于有限范围爬取、 垂直爬取等技术尽可能得到所需要的互联网网页 信息并进行保存。 0010。
21、 2. 垃圾信息过滤 0011 为提高进入后续处理过程中的信息质量, 对爬取得到的网页信息进行垃圾过滤。 过滤过程中主要是对通过内容、 链接作弊的垃圾信息、 以及用户生成内容中的无关意见、 低 质量意见和欺骗性垃圾意见通过建立的检测模型进行过滤。 从而保证进入后续过程的信息 的质量。 0012 3. 区域信息发现 0013 在上述垃圾信息过滤基础上, 对爬取的网页信息的标题、 内容等进行地名代词等 解析后, 采取模式匹配、 基于机器学习判断模型的判断识别方法进行信息相关区域的发现 确定。 0014 4. 区域事件预警 0015 对信息进行食品安全信息过滤、 对象信息发现后, 在建立表示区域事件。
22、的特征参 数诸如页面数、 页面浏览数、 综合指数等的基础上, 通过定期计算事件特征参数值的方法对 事件的发展趋势进行追踪 ; 并对事件当前的各特征参数值和其之前一定时期内的均值进行 比较, 如果差值为正且绝对值持续大于一定的阈值, 则进行区域事件预警。 0016 5. 目标区域事件发生风险预测和预警 0017 基于已经发生特定事件的区域分布, 采用矩阵分解和 logistic 回归分析的方法, 对目标区域是否会发生特定事件以及可能的发生时间等进行分析和预测, 并根据预测结果 进行不同的风险预警。 0018 6. 结果展示和服务 0019 在对目标区域特定事件是否发生、 何时发生进行预测、 预警。
23、分析的基础上, 将分析 得到的结果通过表格、 图等的方式展示给用户。 并提供短信息、 邮件等即时送发的服务方式 0020 本发明为提高事件信息发现的准确度, 在对爬取得到的互联网信息进行后续处理 前, 首先对其进行了垃圾信息过滤处理。 0021 本发明为了保证建立欺骗性垃圾意见检测模型时样本的代表性, 首先建立了意见 信息基于内容分布的用于分区的特征向量, 并采用聚类的方法对意见信息进行分区, 之后 在每个分区中采用随机抽样的方法得到了用于建立模型的样本, 保证了样本的代表性。 0022 本发明为建立欺骗性垃圾意见检测模型, 在抽取样本特征过程中, 采用的方法是 : 首先对每个样本建立基于内容。
24、、 链接的初始特征向量 ; 之后寻找和某一样本最相似的 P 个 样本, 基于这 P 个样本的类别标识以及和该样本的相似度值得到该样本的最终特征向量 ; 依此循环得到每个样本的最终特征向量。特征向量综合了内容、 链接以及相似样本的类别 等, 保证了样本特征提取的全面、 完整。 0023 本发明在采用模型对意见信息进行欺骗性垃圾意见检测过程中, 以意见信息和各 分区的距离为基础建立加权系数, 综合各分区检测模型对意见信息的检测结果, 综合加权 得到最终的检测结果。保证了检测结果的准确度。 0024 本发明为了提高网页信息相关区域识别判断的准确度, 首先对网页信息进行预处 说 明 书 CN 1038。
25、54063 A 6 3/14 页 7 理后对可能是地名的相关词语进行相关解析以得到明确的词语, 之后通过模式匹配和判断 模型判断等方式判断信息是否可归入目标区域, 由此确定网页信息相关区域。 0025 本发明在网页信息相关区域判断确定过程中, 依次采用了针对标题信息的模式匹 配方法、 针对正文信息的模式匹配方法、 基于机器学习的判断模型进行判断的方法进行信 息相关区域的判断。 其中, 在基于机器学习的判断模型进行判断的方法中, 通过集成的区域 判断模型进行信息相关区域判断, 避免了同名、 同词异义(比如通常词作为地名)等所带来 的区域判断不准确问题。 0026 本发明在对象信息发现过程中, 基。
26、于事先建立的回归分析模型, 对信息的标题、 内 容等进行分词、 降维等步骤后针对各对象类别进行回归分析, 以此确定网页信息分别与哪 些对象种类有关系。 0027 本发明定期计算事件各特征参数值和其之前一定时间范围内的均值之间的关系, 当差值为正且绝对值持续达到一定程度时 ( 比如 3 倍的标准差 ) 进行及时的事件预警。 0028 本发明对预警的事件定期计算其各特征参数值, 并将事件当前的各特征参数值和 其之前一定时期内 ( 自预警日开始 ) 的均值进行比较, 如果差值为负且绝对值大于一定的 阈值, 则结束针对此事件的预警。 0029 本发明基于已经发生特定事件的区域分布, 采用矩阵分解和 l。
27、ogistic 回归分析 的方法, 对目标区域是否会发生特定事件以及可能的发生时间等进行分析和预测, 并根据 预测结果进行不同的风险预警。 0030 与现有技术相比, 本发明的优点 : 0031 本发明通过对爬取得到的互联网信息采取垃圾信息过滤、 区域信息发现、 对象信 息发现、 区域事件的趋势追踪和预警、 风险预测并预警等技术进行处理, 保证了食品安全事 件信息发现和预警、 目标区域事件发生风险预测和预警的准确性和全面性, 保证了食品安 全风险预警的效率。 附图说明 0032 图 1 一种基于互联网开放信息的事件发生风险预测并预警的方法流程图 ; 0033 图 2 欺骗性垃圾意见检测方法示意。
28、图 ; 0034 图 3 网页信息相关地域的识别方法流程图 ; 0035 图 4 区域事件预警方法示意图 ; 0036 图 5 目标区域事件风险预测、 预警方法示意图。 具体实施方式 0037 本发明的具体实施方式如图 1 所示, 具体步骤叙述如下。 0038 1. 网页信息爬取 0039 选用互联网信息爬虫软件 ( 比如 Heritrix、 Nutch 等 ) 对信息源中的网页信息进 行爬取, 爬取过程中基于有限范围爬取、 垂直爬取等技术尽可能得到所需要的互联网网页 信息并进行保存。 0040 2. 垃圾信息过滤 0041 随着互联网的发展, 互联网的网页数量和内容量越来越多。 但同时, 网。
29、页中的垃圾 说 明 书 CN 103854063 A 7 4/14 页 8 信息也越来越多, 为保证后续信息处理的准确, 就需要进行垃圾信息过滤。 垃圾信息过滤环 节中具体的可分为 Web 垃圾页面过滤和用户生成内容中的垃圾意见过滤两个方面。其中, Web 垃圾页面可分为内容作弊页面、 链接作弊页面 ; 垃圾意见按照其负面影响大小不同, 可 将其分为不可信意见、 低质量意见、 无关意见。 不可信意见, 也就是欺骗性的意见, 一方面表 现为对特定的对象、 事件、 人物等给出不符合实际情况的超高评价、 恭维等 ; 另一方面也可 能表现为对特定的对象、 事件、 人物等给出不符合实际情况的超低评价、 。
30、谩骂、 攻击等。 低质 量意见, 此种意见内容一般长度较短, 其内容可能是有用的, 也可能是无用的, 但是由于其 内容对特定的话题 / 产品描述不详细, 不能非常确定其对特定话题 / 产品的意见挖掘的意 义, 因此也认为是一种垃圾意见 ( 针对计算机而言 )。无关意见, 此种意见主要表现为广告 或者和话题无关的内容。 0042 对一网站中的 Web 垃圾页面、 用户生成内容中的低质量意见、 无关意见等, 考虑到 其垃圾特征相对比较明显, 可以基于事先建立的经过标注的样本集合, 提取样本的内容、 内 容分布、 链接等纬度的特征 ( 抽取特征前需对网页信息进行元数据提取、 正文提取、 分词、 句子。
31、统计、 段落统计、 锚文本统计、 链接统计等处理 ) 后建立检测模型进行检测。关于内容 纬度的特征, 本方法中采用了对抽取出来的信息进行分词、 去掉停用词并经过降维 ( 可采 用文档频率法、 信息增益法等 ) 后形成内容特征向量 - 权数为词语频率 ; 关于内容分布特 征, 本方法中采用了信息的标题长度 ( 字符数 )、 段落数、 句子数、 段落长度 ( 均值 )、 句子长 度 ( 均值 )、 信息长度 ( 字符数 )、 锚文本数、 锚文本长度 ( 字符数 - 均值 ) 等 ( 建立模型过 程中, 对特征进行归一化处理, 过程为 y x/(max+1), 其中 x、 y 分别是归一化前后的特征。
32、 值, max 为事先对网站信息集合内样本统计该特征所得到的最大值 ; 在 max 参数更新前如果 出现 x max 时, 则取 x max+1, 即 y 1) ; 关于链接纬度的特征, 本方法中采用了信息的 网站内出链数占总出链数比例、 信息的网站外出链数占总出链数比例、 信息链接垃圾页面 集合 ( 事先构建 ) 内的信息数占总出链数比例、 垃圾页面集合 ( 事先构建 ) 内链接此信息 的数量占总页面数比例等。针对上述三个维度的特征, 基于事先建立的垃圾信息集合和非 垃圾信息集合, 分别形成特征向量并采取机器学习的方法 ( 比如支持向量机等 ) 建立垃圾 信息检测模型 ( 三个, 基于更新的。
33、样本集合定期更新模型 ), 之后即可对新采集的信息进行 过滤 ( 信息被判断为垃圾信息的规则是至少其中两个模型的检测结果为正例 )。 0043 同时, 为解决欺骗性垃圾意见的识别问题, 借鉴智能系统思路, 形成的识别步骤如 图 2 所示, 具体如下所述。 0044 (1) 意见集合产生 0045 对某一特定用户生成内容信息源中由互联网信息爬虫软件爬取的信息, 对其进行 预处理 ( 包括网页信息作者等元数据提取、 正文提取、 分词、 词性标注、 命名实体抽取、 句子 统计、 段落统计、 标点符号统计等 ) 步骤后形成用户意见信息集合。 0046 (2) 欺骗性垃圾意见标注 0047 考虑到欺骗性。
34、垃圾意见的目的是为了不切实际的抬高或降低特定对象比如网站、 网页、 产品、 人物等的形象, 具体的表现为对特定的对象、 事件、 人物等给出不符合实际情况 的超高评价、 恭维等 ; 另一方面也可能表现为对特定的对象、 事件、 人物等给出不符合实际 情况的超低评价、 谩骂、 攻击等。由此出发, 考虑到实际中欺骗性垃圾意见所具有的一些分 布特征, 采取启发式方法对可能是欺骗性垃圾意见的用户生成内容进行收集。具体的, 此 说 明 书 CN 103854063 A 8 5/14 页 9 过程中主要关注用户生成内容中内容重复或者近似重复的意见、 一定时间范围内发布意见 量最高的 top-N1 个作者所发布。
35、的意见、 一定时间范围内意见量最高的 top-N2 个特定对象 相关的意见、 一定时间范围内发布意见量最高的 top-N3 个 IP 地址相关的意见、 针对特定 对象发布意见最早的 top-N4 个用户所发布的意见和针对特定对象的意见修正次数最多的 top-N5 个用户所发布的意见。 0048 依据上述规则, 对用户意见信息集合中符合以上条件的意见信息进行整理, 形成 候选欺骗性垃圾意见集合。之后, 遵循宁缺勿滥的原则 ( 即要保证欺骗性垃圾意见样本的 准确性 ) 并结合审核、 排查等方式对候选的欺骗性垃圾意见进行审核确认。具体的采取了 两种方法进行确认, 一种是正向确认, 一种是反向确认。所。
36、谓正向确认, 即如果意见信息内 容和欺骗性垃圾意见知识库中的信息描述的是同一件事情, 即信息内容与欺骗性垃圾意见 知识库中的某信息描述相匹配, 则为欺骗性垃圾意见。欺骗性垃圾意见知识库中的信息条 目增加规则为 : 对于一条意见信息, 经过一段时间的过程或者事后证明, 某用户所发布的信 息的确是欺骗性的意见, 加入知识库中。比如在某论坛有人发布信息说某品牌牛奶中含有 三聚氰胺, 但后来有人举出种种理由说明这是不可能的, 事后证明后者是某品牌牛奶公司 的内部员工欺骗所致。由此即可确认此意见信息是欺骗性垃圾信息, 加入知识库中 ( 知识 库事先构建并定期更新 )。所谓反向确认, 即在现有的正常情况下。
37、, 出现此类信息是不可能 的, 从而从反向的角度证明是欺骗性垃圾意见。比如反向确认知识库 ( 事先构建并定期更 新 ) 中的一条规则为 : 某一用户 id 在设定时间中 ( 比如 1 分钟 ) 对一种或多种产品发布了 多于 N( 比如 10 条 ) 条意见信息, 则将该用户所发表的这些意见信息标注为欺骗性垃圾意 见信息。能匹配此规则的一个例子是 : 某一论坛中某一用户 id 在不到 1 分钟的时间中对 3 种不同产品发布了 15 条评价信息, 从一个正常人的角度考虑这是不可能的。因此, 从反向 的角度证明了此用户所发布的这些信息的欺骗性。 0049 将通过上述方法确认的信息进行标注, 并形成准。
38、确欺骗性垃圾意见集合, 同时对 于经常发布欺骗性垃圾意见的用户, 即发布欺骗性垃圾意见最多的 N 个用户, 将其加到黑 名单以备后期识别使用 ; 另外, 依据准确的欺骗性垃圾意见集合等, 总结归纳意见作者的反 常行为(比如上述用户在1分钟内针对3种产品发布了15条信息等)形成规则, 以备后用。 0050 注意到明确的确认一意见是非欺骗性垃圾意见也存在相当的困难 ( 对于一条信 息, 不能明确的表明是欺骗性垃圾意见也可能意味着不能明确的说明其不是欺骗性垃圾意 见 ), 考虑到时间、 工作量、 以及非欺骗性垃圾意见存在的多样性等因素, 这里没有对非欺骗 性垃圾意见进行标注。 0051 (3) 意见。
39、信息分区 0052 对步骤 (1)、 (2) 形成、 标注的用户意见信息集合中的每一个信息, 提取其用于分 区的特征向量, 进行聚类, 得到若干个信息区域, 并计算得到每个区域的标志向量。计算过 程如下所述。 0053 对意见信息集合中每一信息提取用于分区的特征向量的具体过程如下所述 : 提取 意见信息的字数、 词数、 意见段落数、 段落长度 ( 均值 )、 句子数、 句子长度 ( 均值 )、 第一人 称代词数、 第二人称代词数、 第三人称代词数、 形容词数、 副词数、 动词数、 人名数、 地名数、 机构名数、 时间数、 感叹号数、 问号数、 标题字数等 ( 过程中对特征进行归一化处理, 过程。
40、为 y x/(max+1), 其中 x、 y 分别是归一化前后的特征值, max 为事先对用户意见信息集合内 说 明 书 CN 103854063 A 9 6/14 页 10 信息统计该特征所得到的最大值 ; 在max参数更新前如果出现xmax时, 则取xmax+1, 即 y 1) 形成归一化的分区特征向量。 0054 之后即可对意见信息进行聚类处理, 聚类过程中可采用谱系聚类、 非谱系聚类等 方法完成具体过程。 0055 通过此过程, 基于用户意见信息用于分区的特征向量, 将原始的用户意见信息集 合分为若干个子区域 ( 分区 )。分别计算每一个分区的标志向量 Marki(i 为分区编号 )-。
41、 通 过计算该分区中所有信息的特征向量均值得到。 0056 (4) 意见信息抽样 0057 对步骤(3)形成的各个用户意见信息分区, 进行样本抽样(样本量事先确定)。 采 取随机抽样的方法, 具体过程如下 : 0058 设要抽取的样本数为 S( 事先确定 ), 各分区的信息数为 Ii, 则各分区应抽取的样 本数为 Si S*Ii/ Ii( 此数值为大概的数字, 在保证每个分区的样本数都大于事先设定 的阈值以及满足 S Si的基础上, 各分区的样本数可以适度调整 )。 0059 对每一分区中的信息进行编号, 编号方法是从 1 开始, 依次增长直到所有信息都 有一个编号, 设最大编号值为MAXi,。
42、 之后利用随机函数产生Si个1-MAXi之间的随机数, 则这 Si个随机数对应的意见信息即为相应分区抽中的样本。 0060 抽样过程中, 对每一分区按照上述规则进行 10 次抽取, 并选择所抽取样本中欺骗 性垃圾意见数最多的一次抽取为最终样本, 以保证尽可能多的欺骗性垃圾意见信息能抽取 为样本。 0061 从而得到每个意见信息分区的抽样样本集合。 0062 (5) 意见信息样本二次标注 0063 对每个分区抽取得到的样本, 进行二次整理、 标注, 区分为欺骗性垃圾意见、 其他 意见, 从而将每个分区抽取的样本形成欺骗性垃圾意见、 无标注意见信息样本集合。 0064 (6) 样本特征抽取 006。
43、5 对每个分区中经过二次标注的样本进行样本特征提取、 算法选择等是建立检测模 型的必须步骤。其中样本特征抽取是一个非常关键的步骤, 本方法中的具体步骤如下所 述 : 0066 A) 首先对抽取出来的样本意见信息内容进行分词, 去掉停用词, 并经过降维 ( 可 采用文档频率法、 信息增益法等 ) 后形成内容特征向量 ( 权数为词语频率 )Qj(j 为样本编 号 )。 0067 B) 之后计算样本意见信息的链接特征包括信息的网站内出链数占总出链数比例、 信息的网站外出链数占总出链数比例、 信息链接准确欺骗性垃圾意见集合内的信息数占总 出链数比例、 准确欺骗性垃圾意见集合内链接信息的数量占总页面数比。
44、例等, 并将各项参 数加权 ( 权数事先通过统计分析法确定, 但须保证权数之和为 1) 计算得到总的数值, 设为 Lj。 0068 C) 最后计算 Mj Lj*Qj, 得到基于内容、 链接的表征样本意见信息的初始特征向量 Mj。 0069 D) 对分区中的某一个样本 Sample, 基于该样本的初始特征向量, 计算其和各分区 中各样本信息的相似值 ( 采用余弦函数 ), 并将各样本信息按照相似值从大到小排序, 得到 说 明 书 CN 103854063 A 10 7/14 页 11 其相似样本序列。 0070 E)将序列中前P(事先通过分析确定)个样本信息的二次标注的类别标识(1表示 是欺骗性。
45、垃圾意见样本, -1 表示无标注样本 ) 和相似值 ( 和该样本之间 ) 分别相乘, 并形 成一个纬数为 P 的向量 N, 作为样本 Sample 的最终特征向量。 0071 依此循环步骤 D)-E), 直到计算得到所有样本的特征向量。 0072 (7) 建立欺骗性垃圾意见检测模型 0073 对每个样本意见信息建立了特征向量后, 从判断识别欺骗性垃圾意见的角度看, 目前需要选择机器学习方法建立检测模型。 注意到上述过程(步骤(5)中得到的样本集合 中包括经过标注的欺骗性垃圾意见, 以及未经标注的意见信息, 但没有经过标注的非欺骗 性垃圾意见。这就意味着不能简单地采用一般的有监督机器学习方法, 。
46、因为它建立模型需 要同时具备正例、 反例集合。所以我们这里采用了一种 “从正例和无标注数据中学习” 的机 器学习方法-偏置SVM(Liu, B., Y.Dai, X.Li, W.Lee, and P.Yu.Building text classifiers using positive andunlabeled examples.Proceedings of IEEE International Conference on Data Mining, 2003.)。 0074 对每个分区, 基于上述计算得到的样本的特征向量和所选择的 “从正例和无标注 数据中学习” 的机器学习方法, 即可建立识别。
47、检测欺骗性垃圾意见的检测模型(每个分区一 个模型 )。 0075 (8) 欺骗性垃圾意见检测识别 0076 每个分区的欺骗性垃圾意见检测模型建立完毕后, 即可对互联网信息爬虫新爬取 的用户生成内容进行欺骗性垃圾意见的判断识别。整体上, 欺骗性垃圾意见的判断识别按 照三个步骤进行 : 黑名单识别、 反向识别、 模型检测识别。 首先进行黑名单识别, 对属于黑名 单中用户发布的信息, 直接识别为欺骗性垃圾意见 ; 对于剩余意见, 依据步骤 (2) 归纳的规 则按照反向确认 ( 即在现有的正常情况下, 出现此类信息是不可能的, 从而从反向的角度 证明是欺骗性垃圾意见 ) 的方式进行识别, 对于不正常的。
48、意见, 识别为欺骗性垃圾意见 ; 对 于剩余的意见按照步骤 (7) 建立的模型进行识别, 识别过程为 : 0077 首先计算意见信息的分区用特征向量 ( 按照步骤 (3) 所述方法计算 ), 并计算 意见信息和各个分区的距离 ( 通过计算意见信息的特征向量和各分区标志向量的距离得 到 )di(i 表示分区编号 )。由此, 计算得到对此意见信息而言各分区检测模型的权数 ei di/ di。 0078 对意见信息分别采用各分区的检测模型进行检测识别, 得到检测结果 Oi( 过程 为首先建立意见信息的初始特征向量, 之后寻找和意见信息相似的样本, 得到最终特征向 量 - 过程同步骤 (6), 之后采。
49、用步骤 (7) 建立的模型得到检测结果 ), 从而得到最终的检测 结果 O ei*Oi, 如果最终的检测结果 O 大于事先确定的阈值, 则对此意见信息识别为欺 骗性垃圾意见。 0079 将经过上述步骤识别为欺骗性垃圾意见的用户意见信息, 按照标准统一标注为欺 骗性垃圾意见。 0080 (9) 欺骗性垃圾意见检测模型更新 0081 考虑到欺骗性垃圾意见、 非欺骗性垃圾意见动态变化所带来的影响, 在执行欺骗 性垃圾意见的检测过程中定期执行检测模型和意见信息集合更新工作(含更新max参数)。 说 明 书 CN 103854063 A 11 8/14 页 12 过程如下所述 : 0082 将经过步骤 (8) 识别、 标注的欺骗性垃圾意见按照和步骤 (2) 相同的方式进行审 核确认, 将通过上述方法确认的信息进行标注, 并形成新的准确欺骗性垃圾意见集合 ( 对 于经常发布欺骗性垃圾意见的用户, 将其加到黑名单以备。