事件演化关系分析方法及装置.pdf

上传人:jo****n 文档编号:11219506 上传时间:2021-09-12 格式:PDF 页数:15 大小:562.49KB
收藏 版权申诉 举报 下载
事件演化关系分析方法及装置.pdf_第1页
第1页 / 共15页
事件演化关系分析方法及装置.pdf_第2页
第2页 / 共15页
事件演化关系分析方法及装置.pdf_第3页
第3页 / 共15页
文档描述:

《事件演化关系分析方法及装置.pdf》由会员分享,可在线阅读,更多相关《事件演化关系分析方法及装置.pdf(15页完成版)》请在专利查询网上搜索。

1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 201910038942.1 (22)申请日 2019.01.16 (71)申请人 清华大学 地址 100084 北京市海淀区清华园北京 100084-82信箱 (72)发明人 李涓子张斌侯磊张鹏 (74)专利代理机构 北京路浩知识产权代理有限 公司 11002 代理人 王莹吴欢燕 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/28(2019.01) (54)发明名称 事件演化关系分析方法及装置 (57)摘要 本发明实施例提供一种事件演化关系分析。

2、 方法及装置, 所述方法包括: 对输入的两个事件 分别进行事件要素的抽取, 生成所述两个事件各 自的事件要素集合; 基于所述事件要素集合获取 用于分析所述两个事件之间演化关系的演化特 征, 计算各个演化特征随时间变化的偏移程度, 获得所述两个事件的演化关系分析结果。 本发明 实施例提供的事件演化关系分析方法及装置, 利 用新闻事件的实体、 关键词等事件要素对事件的 演化关系进行分析, 得到了事件之间的动态关 系, 解决了已有分析方法只描述事件内部的静态 关系的问题, 使用户能够迅速掌握事件全局信息 以及演化的脉络, 对事件的发展趋势的判断具有 重要意义。 权利要求书2页 说明书9页 附图3页 。

3、CN 111444347 A 2020.07.24 CN 111444347 A 1.一种事件演化关系分析方法, 其特征在于, 包括: 对输入的两个事件分别进行事件要素的抽取, 生成所述两个事件各自的事件要素集 合; 基于所述事件要素集合获取用于分析所述两个事件之间演化关系的演化特征, 计算各 个演化特征随时间变化的偏移程度, 获得所述两个事件的演化关系分析结果。 2.根据权利要求1所述的方法, 其特征在于, 所述对输入的两个事件分别进行事件要素 的抽取, 生成所述两个事件各自的事件要素集合的步骤, 具体为: 对事件内的新闻文档进行预处理, 将非结构化的文本数据转化为结构化的文本数据; 计算所。

4、述结构化的文本数据中各分词的TF-IDF值, 选取TF-IDF值较大的前N个非实体 分词组成事件的关键词集合, 选取TF-IDF值较大的前N个实体分词组成事件的实体集合, 所 述关键词集合和实体集合构成了事件要素集合; 其中, N为大于1的自然数。 3.根据权利要求2所述的方法, 其特征在于, 所述对事件内的新闻文档进行预处理, 将 非结构化的文本数据转化为结构化的文本数据的步骤, 具体为: 利用自然语言处理工具对事件内的新闻文档进行分词和词性标注; 利用预先构建的停用词词典对经过分词和词性标注处理后的新闻文档进行过滤, 去除 信息含量较低的词语。 4.根据权利要求2所述的方法, 其特征在于,。

5、 所述基于所述事件要素集合获取用于分析 所述两个事件之间演化关系的演化特征, 计算各个演化特征随时间变化的偏移程度, 获得 所述两个事件的演化关系分析结果的步骤, 具体为: 基于所述事件要素集合提取事件要素的变化情况作为用于分析所述两个事件之间演 化关系的演化特征; 计算各个所述演化特征随时间变化的偏移程度, 并综合所述各个演化特征随时间变化 的偏移程度, 获得所述两个事件的演化关系分析结果。 5.根据权利要求4所述的方法, 其特征在于, 所述基于所述事件要素集合提取事件要素 的变化情况作为用于分析所述两个事件之间演化关系的演化特征的步骤, 具体为: 所述两个事件包括本事件和父事件, 分析所述。

6、本事件的关键词集合相对于所述父事件 的关键词集合的变化情况, 获取变化的关键词集合; 分析所述本事件的实体集合相对于所述父事件的实体集合的变化情况, 获得变化的实 体集合; 相应地, 所述用于分析所述两个事件之间演化关系的演化特征的类型具体包括: 变化 的关键词的数量、 变化的关键词的重要性、 变化的关键词的语义相关度、 变化的实体的数量 和变化的实体的重要性。 6.根据权利要求5所述的方法, 其特征在于, 所述计算各个所述演化特征随时间变化的 偏移程度, 并综合所述各个演化特征随时间变化的偏移程度, 获得所述两个事件的演化关 系分析结果的步骤, 具体为: 对所述变化的关键词集合中的关键词进行。

7、词类分析, 以使得一个词类中只保留一个变 化的关键词, 更新所述变化的关键词集合; 基于更新后的所述变化的关键词集合, 计算关键词变化数量和变化的关键词的TF-IDF 权利要求书 1/2 页 2 CN 111444347 A 2 值之和; 根据所述关键词变化数量和变化的关键词的TF-IDF值之和, 以及预设的关键词变化数 量阈值和关键词分值阈值, 计算获得变化的关键词对演化关系的影响分值; 基于所述变化的实体集合, 计算获得实体变化数量和变化的实体的TF-IDF值之和; 根据所述实体变化数量和变化的实体的TF-IDF值之和, 以及预设的实体变化数量阈值 和实体分值阈值, 计算获得变化的实体对演。

8、化关系的影响分值; 根据所述变化的关键词对演化关系的影响分值和变化的实体对演化关系的影响分值, 计算获得所述两个事件的演化关系结果。 7.根据权利要求6所述的方法, 其特征在于, 所述计算获得所述两个事件的演化关系结 果的步骤之后, 还包括: 计算所述两个事件的演化关系结果的置信度。 8.一种事件演化关系分析装置, 其特征在于, 包括: 要素抽取模块, 用于对输入的两个事件分别进行事件要素的抽取, 生成所述两个事件 各自的事件要素集合; 演化分析模块, 用于基于所述事件要素集合获取用于分析所述两个事件之间演化关系 的演化特征, 计算各个演化特征随时间变化的偏移程度, 获得所述两个事件的演化关系。

9、分 析结果。 9.一种电子设备, 其特征在于, 包括: 至少一个处理器; 以及 与所述处理器通信连接的至少一个存储器, 其中: 所述存储器存储有可被所述处理器执行的程序指令, 所述处理器调用所述程序指令能 够执行如权利要求1至7任一所述的方法。 10.一种非暂态计算机可读存储介质, 其特征在于, 所述非暂态计算机可读存储介质存 储计算机指令, 所述计算机指令使所述计算机执行如权利要求1至7任一所述的方法。 权利要求书 2/2 页 3 CN 111444347 A 3 事件演化关系分析方法及装置 技术领域 0001 本发明实施例涉及计算机技术领域, 更具体地, 涉及一种事件演化关系分析方法 及装。

10、置。 背景技术 0002 事件演化分析主要是根据事件内的新闻报道分析找出事件的发展脉络, 描述事件 的发展演化趋势。 新闻事件是动态发展的, 新闻事件的主旨会随着时间的推移发生偏移。 新 闻分析不能将事件孤立起来, 仅仅关注某一事件, 而是应该关注事件的整体发展脉络。 如果 仅仅将新闻文档按照事件进行组织, 则无法体现新闻事件之间动态发展变化的关系。 如 “汶 川地震” 发生时, 主要关注地震以及伤亡的情况, 随着时间的推移主要关注救援情况以及群 众生活情况, 再随着时间的推移可能关注灾后的重建工作等。 0003 已有的事件演化分析工作主要集中在事件结构的分析上, 如事件随时间发生 “产 生”。

11、 、“分裂” 、“合并” 、“消失” 等关系, 对事件主旨随着时间偏移程度的分析较少。 已有分析 方法只描述事件内部的静态关系, 无法体现事件在演化过程中主旨随着时间的偏移程度, 无法反映事件之间的语义相关性。 发明内容 0004 本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的事件演化 关系分析方法及装置。 0005 第一方面, 本发明实施例提供一种事件演化关系分析方法, 包括: 0006 对输入的两个事件分别进行事件要素的抽取, 生成所述两个事件各自的事件要素 集合; 0007 基于所述事件要素集合获取用于分析所述两个事件之间演化关系的演化特征, 计 算各个演化特征随时间变化的。

12、偏移程度, 获得所述两个事件的演化关系分析结果。 0008 第二方面, 本发明实施例提供一种事件演化关系分析装置, 包括: 0009 要素抽取模块, 用于对输入的两个事件分别进行事件要素的抽取, 生成所述两个 事件各自的事件要素集合; 0010 演化分析模块, 用于基于所述事件要素集合获取用于分析所述两个事件之间演化 关系的演化特征, 计算各个演化特征随时间变化的偏移程度, 获得所述两个事件的演化关 系分析结果。 0011 第三方面, 本发明实施例提供一种电子设备, 包括存储器、 处理器及存储在存储器 上并可在处理器上运行的计算机程序, 所述处理器执行所述程序时实现如第一方面所提供 的事件演化。

13、关系分析方法的步骤。 0012 第四方面, 本发明实施例提供一种非暂态计算机可读存储介质, 其上存储有计算 机程序, 该计算机程序被处理器执行时实现如第一方面所提供的事件演化关系分析方法的 步骤。 说明书 1/9 页 4 CN 111444347 A 4 0013 本发明实施例提供的事件演化关系分析方法及装置, 利用新闻事件的实体、 关键 词等事件要素对事件的演化关系进行分析, 得到了事件之间的动态关系, 解决了已有分析 方法只描述事件内部的静态关系, 使用户能够迅速掌握事件全局信息以及演化的脉络, 对 事件的发展趋势的判断具有重要意义。 附图说明 0014 为了更清楚地说明本发明实施例或现有。

14、技术中的技术方案, 下面将对实施例或现 有技术描述中所需要使用的附图作一简单地介绍, 显而易见地, 下面描述中的附图是本发 明的一些实施例, 对于本领域普通技术人员来讲, 在不付出创造性劳动的前提下, 还可以根 据这些附图获得其他的附图。 0015 图1为本发明实施例提供的事件演化关系分析方法的流程示意图; 0016 图2为本发明实施例提供的对输入的两个事件分别进行事件要素的抽取, 生成所 述两个事件各自的事件要素集合的步骤的流程示意图; 0017 图3为本发明实施例提供的基于所述事件要素集合获取用于分析所述两个事件之 间演化关系的演化特征, 计算各个演化特征随时间变化的偏移程度, 获得所述两。

15、个事件的 演化关系分析结果的步骤的流程示意图; 0018 图4为本发明实施例提供的事件演化关系分析装置的结构示意图; 0019 图5为本发明实施例提供的事件演化关系脉络的示意图; 0020 图6为本发明实施例提供的电子设备的实体结构示意图。 具体实施方式 0021 为使本发明实施例的目的、 技术方案和优点更加清楚, 下面将结合本发明实施例 中的附图, 对本发明实施例中的技术方案进行清楚、 完整地描述, 显然, 所描述的实施例是 本发明一部分实施例, 而不是全部的实施例。 基于本发明中的实施例, 本领域普通技术人员 在没有做出创造性劳动前提下所获得的所有其他实施例, 都属于本发明保护的范围。 0。

16、022 为了便于理解, 在此先对本实施例及后续实施例中可能涉及到的相关概念进行解 释说明。 本发明给出事件演化的相关概念定义, 并对事件演化的问题进行形式化描述: 0023 事件(Event), 定义为发生在特定的时间、 地点由某些原因、 条件引起的涉及到某 些对象的事情。 其形式化定义可表示为ED1,D2,Di, 其中E表示事件, Di表示报道该 事件的一系列新闻文档。 0024 话题(topic), 定义为由一个核心事件或活动以及与之相关或由其引起的一系列 事件或活动组成的集合。 其形式化定义可表示为TE1,E2,Ei, 其中T表示该话题, Ei 表示与该话题相关的一系列事件或活动。 00。

17、25 以 “汶川地震” 为例。 在地震初期, 新闻集中于对震源描述以及人员伤亡情况等方 面的报道, 随着时间的发展后续可能更关注救援情况以及群众安置工作, 最后可能是针对 灾后重建的相关报道。 本发明实施例将针对 “汶川地震” 不同方面的具体报道称为事件, 如 地震描述、 伤亡统计、 救援工作、 群众安置以及灾后重建等活动。“汶川地震” 是由核心事件 地震与一系列的相关事件如救援、 安置、 重建等事件所组成, 本发明实施例将其称为话题。 0026 主题(subject), 定义为由一系列相似或相关话题或活动组成的集合。 其形式化定 说明书 2/9 页 5 CN 111444347 A 5 义S。

18、T1,T2,Ti, 其中S表示该主题, Ti表示该主题下的一系列相关或相似话题。 0027 同样以 “汶川地震” 为例, 与 “汶川地震” 相似的话题有 “玉树地震” 、“鲁甸地震” 等。 “汶川地震” 、“鲁甸地震” 以及 “玉树地震” 等话题共同组成了地震主题。 0028 本发明实施例根据输入事件的时间先后顺序, 将ti时间片的事件Ei(以事件Ei为研 究对象, 称事件Ei为本事件)与上一时间片ti-1的事件Ej(称事件Ej为事件Ei的父事件)存在 着相关性, 本发明实施例主要针对该类事件之间存在的相关性进行深入研究。 0029 事件演化关系的分析就是研究随着时间的发展本事件与父事件以及更。

19、上一层事 件之间的关系。 通过分析事件的演化过程, 本发明实施例定义了四种演化关系: 同一事件、 同一话题、 同一主题和非同一主题。 0030 同一事件: 本事件与父事件为同一事件, 事件的中心未发生偏移。 0031 例如, 本事件与父事件描述的均为地震造成的伤亡情况。 因此, 本事件与父事件的 演化关系为同一事件。 0032 同一话题: 随着时间的推移, 事件中心发生了偏移, 本事件与父事件非同一事件, 但仍然属于同一话题下的不同侧面事件。 0033 例如, 父事件为震源描述, 本事件为地震造成的伤亡情况, 本事件与父事件描述的 为不同的事件, 但震源描述事件与伤亡情况事件均属于 “汶川地震。

20、” 话题下的不同侧面的事 件。 因此, 本事件与父事件的演化关系为同一话题。 0034 同一主题: 随着时间的推移, 事件中心发生了较大的偏移, 本事件与父事件既非同 一事件也非同一话题, 但仍然属于同一主题下的事件。 0035 例如, 本事件为汶川地震的救援, 父事件为玉树地震救援。 本事件属于 “汶川地震” 话题下的事件, 而父事件属于 “玉树地震” 话题下的事件, 二者属于不同的话题, 但是二者均 属于地震主题下的事件。 因此, 本事件与父事件的演化关系为同一主题。 0036 非同一主题: 随着时间的推移, 事件中心发生了很大的偏移, 虽然事件具有一定的 相似性, 但本事件与父事件描述内。

21、容为非同一事件、 非同一话题也非同一主题的内容。 0037 例如, 本事件为汶川地震伤亡情况, 而父事件为交通事故伤亡情况。 事件均为对人 员伤亡的相关报道, 事件之间具有一定的相似性, 但是事件描述的具体内容相差较大, 本事 件与父事件既非同一话题也非同一主题。 因此, 本事件与父事件的演化关系为非同一主题。 0038 图1为本发明实施例提供的事件演化关系分析方法的流程示意图, 如图所示, 包 括: 0039 步骤100、 对输入的两个事件分别进行事件要素的抽取, 生成所述两个事件各自的 事件要素集合; 0040 可以理解的是, 根据输入的两个事件的时间先后顺序, 将ti时间片的事件Ei称为。

22、本 事件, 将上一时间片ti-1的事件Ej称为事件Ei的父事件, 本发明实施例的目的是对本事件与 父事件之间的演化关系进行分析。 0041 事件要素能够反映事件的核心内容, 其中, 关键词可以表示事件的主旨, 实体可以 反映事件的人物、 地点以及组织机构等核心内容。 因此, 本发明实施例以关键词以及实体作 为主要分析对象, 可以理解为, 事件要素包括事件的关键词和实体, 对输入的两个事件分别 进行事件要素的抽取也即对输入的两个事件进行关键词和实体的抽取。 0042 如图2所示, 所述步骤100具体为: 说明书 3/9 页 6 CN 111444347 A 6 0043 步骤101、 对事件内的。

23、新闻文档进行预处理, 将非结构化的文本数据转化为结构化 的文本数据; 0044 文本数据的处理与传统数据的处理的一个重要的区别是文本数据为非结构化的 数据, 所以在进行文本数据信息挖掘之前, 需要进行文本数据的预处理, 将非结构化的文本 数据转化为一种结构化的数据表示形式, 并且此结构化的数据能够充分体现所表示文本数 据对象自身的特点及文档之间的差异。 0045 其中, 所述对事件内的新闻文档进行预处理, 将非结构化的文本数据转化为结构 化的文本数据的步骤, 具体为: 0046 利用自然语言处理工具对事件内的新闻文档进行分词和词性标注; 0047 利用预先构建的停用词词典对经过分词和词性标注处。

24、理后的新闻文档进行过滤, 去除信息含量较低的词语。 0048 本发明实施例利用常用的自然语言处理工具对事件内的新闻文档进行分词和词 性标注。 0049 新闻文档中通常会包含一些信息含量较低的高频词, 本发明实施例通过构建停用 词词典对该类词进行过滤, 去除信息含量较低的词汇, 保留对文档语义起重要作用的词。 0050 步骤102、 计算所述结构化的文本数据中各分词的TF-IDF值, 选取TF-IDF值较大的 前N个非实体分词组成事件的关键词集合, 选取TF-IDF值较大的前N个实体分词组成事件的 实体集合, 所述关键词集合和实体集合构成了事件要素集合。 0051 TF-IDF值反映分词在事件中。

25、的重要性, TF-IDF值的定义如下: 0052 0053 其中, tf(d,t)为词t在文档d中的出现次数,|D|为事件内的总文档数, |Dt|为事件 内的所有文档中出现词t的文档数。 0054 本发明实施例根据词性标注选取TF-IDF值较大的前N个非实体分词, 作为事件的 关键词集合, 选取TF-IDF值较大的前N个实体分词, 作为事件的实体集合, 其中, N为大于1的 自然数。 0055 步骤200、 基于所述事件要素集合获取用于分析所述两个事件之间演化关系的演 化特征, 计算各个演化特征随时间变化的偏移程度, 获得所述两个事件的演化关系分析结 果。 0056 事件演化分析的关键在于事件。

26、演化过程中的特征选取、 偏移度量, 分析所选取的 特征随着时间推移的变化量, 获得事件的演化关系, 从而得到事件的整体发展脉络和趋势。 0057 如图3所示, 所述步骤200具体为: 0058 步骤201、 基于所述事件要素集合提取事件要素的变化情况作为用于分析所述两 个事件之间演化关系的演化特征。 0059 具体地, 所述两个事件包括本事件和父事件, 分析所述本事件的关键词集合ki相 对于所述父事件的关键词集合kj的变化情况, 获取变化的关键词集合k; 0060 分析所述本事件的实体集合ei相对于所述父事件的实体集合ej的变化情况, 获得 变化的实体集合e; 0061 相应地, 所述用于分析。

27、所述两个事件之间演化关系的演化特征的类型具体包括: 说明书 4/9 页 7 CN 111444347 A 7 变化的关键词的数量、 变化的关键词的重要性、 变化的关键词的语义相关度、 变化的实体的 数量和变化的实体的重要性。 0062 事件要素中, 本发明实施例主要以关键词以及实体作为主要分析对象, 选取变化 的关键词的数量、 变化的关键词的重要性、 变化的关键词的语义相关度、 变化的实体的数量 以及变化的实体的重要性作为演化特征, 演化特征用于分析事件演化关系。 0063 变化关键词的数量: 选取事件的前N个非实体分词作为最能反映该事件内容的关 键词。 通过对比本事件与父事件的关键词集合, 。

28、可以得到本事件相比于父事件关键词变化 的数量。 随着时间的推移, 当事件中心产生较大偏移时, 本事件与父事件关键词变化的数量 较大; 随着时间的推移, 当事件中心产生较小偏移时, 本事件与父事件关键词变化的数量较 小。 0064 变化的关键词的重要性: 本发明实施例中根据关键词相对于事件关系的重要程 度, 对关键词进行评分, 通过关键词的评分来反映关键词在事件中的重要程度。 关键词集合 中重要程度较高的关键词发生变化, 事件可能发生较大的偏移; 而关键词集合中重要程度 较低的关键词发生变化, 事件可能发生较小的偏移。 因此, 不同重要程度的关键词的变化对 事件偏移的影响程度也不同。 0065 。

29、变化的关键词的语义相关度: 在演化的过程中, 虽然一些关键词变化可能较大, 但 其中许多关键词的语义十分相近, 事件可能未发生偏移或发生很小的偏移。 因此, 需要充分 考虑词的语义相关性。 当关键词集合中变化的关键词属于同一词类时, 事件发生较小的偏 移; 当关键词集合中变化的关键词不属于同一词类时, 事件发生较大的偏移。 0066 变化实体的数量: 实体在事件中有着重要的作用, 事件的核心实体可以反映事件 的人物、 地点以及组织机构等核心内容。 因此, 利用实体来区分不同的事件, 可以较好的解 决语义相似度对相似事件区分较差的问题。 在事件的演化分析过程中, 通过对比本事件与 父事件实体变化。

30、情况来分析事件随着时间推移发生的偏移情况。 当本事件与父事件的实体 变化较大时, 两个事件的描述的内容相差较大, 即事件随着时间的推移与父事件相比发生 了较大的偏移; 当本事件与父事件的实体变化较小时, 两个事件描述的内容较接近, 即事件 随着时间的推移与父事件相比未发生较大的变化。 0067 变化实体的重要性: 根据实体与事件关系的相关程度, 对实体进行评分, 通过实体 的评分来反映实体在事件中的重要程度以及与事件的相关性。 实体集合中重要程度较高的 实体发生变化, 事件可能发生较大的偏移; 而实体集合中重要程度较低的实体发生变化, 事 件可能发生较小的偏移。 因此, 不同重要程度实体的变化。

31、对事件偏移的影响程度也不同。 0068 步骤202, 计算各个所述演化特征随时间变化的偏移程度, 并综合所述各个演化特 征随时间变化的偏移程度, 获得所述两个事件的演化关系分析结果。 0069 具体地, 利用分数来衡量上述各个演化特征随时间变化的偏移程度。 0070 其中, 计算各个所述演化特征随时间变化的偏移程度的步骤, 具体为: 0071 对所述变化的关键词集合中的关键词进行词类分析, 以使得一个词类中只保留一 个变化的关键词, 更新所述变化的关键词集合; 0072 基于更新后的所述变化的关键词集合, 计算关键词变化数量和变化的关键词的 TF-IDF值之和; 0073 根据所述关键词变化数。

32、量和变化的关键词的TF-IDF值之和, 以及预设的关键词变 说明书 5/9 页 8 CN 111444347 A 8 化数量阈值和关键词分值阈值, 计算获得变化的关键词对演化关系的影响分值; 0074 基于所述变化的实体集合, 计算获得实体变化数量和变化的实体的TF-IDF值之 和; 0075 根据所述实体变化数量和变化的实体的TF-IDF值之和, 以及预设的实体变化数量 阈值和实体分值阈值, 计算获得变化的实体对演化关系的影响分值。 0076 具体地, 对于所述变化的关键词集合k中的关键词, 选取两个关键词进行词类分 析, 当两个关键词属于同一词类时, 一个词类中只保留分值最高的词, 最终得。

33、到更新后的变 化的关键词集合。 0077 基于更新后的所述变化的关键词集合, 计算关键词变化数量和变化的关键词的 TF-IDF值之和。 也即统计更新后的所述变化的关键词集合中关键词的数量, 对更新后的所 述变化的关键词集合中关键词的分值极限求和, 得到变化关键词的分值之和。 0078 然后, 根据所述关键词变化数量和预设的关键词变化数量阈值, 计算关键词数量 变化对应的演化关系分值; 0079 根据所述变化的关键词的TF-IDF值之和, 以及预设的关键词分值阈值, 计算变化 的关键词分值对应的演化关系分值; 0080 根据所述关键词数量变化对应的演化关系分值和所述变化的关键词分值对应的 演化关。

34、系分值, 计算获得变化的关键词对演化关系的影响分值。 0081 相应地, 基于所述变化的实体集合, 计算获得实体变化数量和变化的实体的TF- IDF值之和; 0082 根据所述实体变化数量和预设的实体变化数量阈值, 计算实体数量变化对应的演 化关系分值; 0083 根据所述变化的实体的TF-IDF值之和, 以及预设的实体分值阈值, 计算变化的实 体分值对应的演化关系分值; 0084 根据所述实体数量变化对应的演化关系分值和所述变化的实体分值对应的演化 关系分值, 计算变化的实体对演化关系的影响分值。 0085 其中, 综合所述各个演化特征随时间变化的偏移程度, 获得所述两个事件的演化 关系分析。

35、结果的步骤, 具体包括: 0086 根据所述变化的关键词对演化关系的影响分值和变化的实体对演化关系的影响 分值, 计算获得所述两个事件的演化关系结果。 0087 然后, 将所获得的变化的关键词对演化关系的影响分值与预先设定的四种演化关 系的取值进行对比, 获得最终演化关系的分析结果, 本发明实施例定义了四种演化关系: 同 一事件、 同一话题、 同一主题和非同一主题。 0088 其中, 预先设定的四种演化关系对应的分值分别为: 00.5对应于同一事件, 0.5 1.5对应于同一话题, 1.52.5对应于同一主题, 2.5对应于非同一主题。 0089 在一个实施例中, 所述计算获得所述两个事件的演。

36、化关系结果的步骤之后, 还包 括: 0090 计算所述两个事件的演化关系结果的置信度。 0091 本发明实施例给出事件演化关系置信度, 其中, 对于演化关系较清晰的, 演化关系 的结果具有较高的置信度; 对于演化关系较模糊的, 演化关系的结果具有较低的置信度。 用 说明书 6/9 页 9 CN 111444347 A 9 户可以根据置信度更加准确合理地获得两个事件的演化关系。 0092 本发明实施例提供的事件演化关系分析方法, 利用新闻事件的实体、 关键词等事 件要素对事件的演化关系进行分析, 得到了事件之间的动态关系, 解决了已有分析方法只 描述事件内部的静态关系, 使用户能够迅速掌握事件全。

37、局信息以及演化的脉络, 对事件的 发展趋势的判断具有重要意义。 0093 作为本发明实施例的另一方面, 如图4所示, 为本发明实施例提供的事件演化关系 分析装置的结构示意图, 包括: 要素抽取模块410和演化分析模块420, 0094 要素抽取模块410, 用于对输入的两个事件分别进行事件要素的抽取, 生成所述两 个事件各自的事件要素集合; 0095 根据输入的两个事件的时间先后顺序, 将ti时间片的事件Ei称为本事件, 将上一时 间片ti-1的事件Ej称为事件Ei的父事件, 本发明实施例的目的是对本事件与父事件之间的演 化关系进行分析。 0096 事件要素能够反映事件的核心内容, 其中, 关。

38、键词可以表示事件的主旨, 实体可以 反映事件的人物、 地点以及组织机构等核心内容。 因此, 本发明实施例以关键词以及实体作 为主要分析对象, 可以理解为, 事件要素包括事件的关键词和实体, 对输入的两个事件分别 进行事件要素的抽取也即对输入的两个事件进行关键词和实体的抽取。 0097 演化分析模块420, 用于基于所述事件要素集合获取用于分析所述两个事件之间 演化关系的演化特征, 计算各个演化特征随时间变化的偏移程度, 获得所述两个事件的演 化关系分析结果。 0098 事件演化分析的关键在于事件演化过程中的特征选取、 偏移度量, 分析所选取的 特征随着时间推移的变化量, 获得事件的演化关系, 。

39、从而得到事件的整体发展脉络和趋势。 0099 演化分析模块420具体用于基于所述事件要素集合提取事件要素的变化情况作为 用于分析所述两个事件之间演化关系的演化特征, 计算各个所述演化特征随时间变化的偏 移程度, 并综合所述各个演化特征随时间变化的偏移程度, 获得所述两个事件的演化关系 分析结果。 0100 本发明实施例提供的事件演化关系分析组装置, 利用新闻事件的实体、 关键词等 事件要素对事件的演化关系进行分析, 得到了事件之间的动态关系, 解决了已有分析方法 只描述事件内部的静态关系的问题, 使用户能够迅速掌握事件全局信息以及演化的脉络, 对事件的发展趋势的判断具有重要意义。 0101 下。

40、面通过一个实例将本发明提供的事件演化关系分析方法与现有事件演化关系 分析方法进行对比。 0102 NewsMiner数据集包含NewsMiner系统中截止至2018年8月, 共150多万个中文事 件。 本发明对其中通过事件发现形成的事件发展脉络的事件进行分析, 分析其随着时间的 推移形成的事件之间的演化关系。 0103 为了能够更直观体现实验的效果以及本发明所提出的方法在分析事件演化关系 过程中的有效性, 图5为事件演化关系脉络的示意图, 列举了其中一些具有代表性的例子。 0104 以 “汶川地震” 话题为例, 事件发现过程得到了 “汶川发生地震” 、“地震强度报道” 、 “地震伤亡报道” 、。

41、“救援情况报道” 、“社会各界捐赠” 以及与之相似的 “玉树地震伤亡报道” 、 “扶贫移民安置” 等事件, 并且得到这些事件随着时间推移其存在一定的关系。 本发明提出 说明书 7/9 页 10 CN 111444347 A 10 的事件演化关系分析就是研究该类事件之间具体的演化关系。 0105 “汶川地震” 话题初期, 通过事件发现得到地震强度以及地震伤亡等事件, 地震伤 亡与地震情况是对 “汶川地震” 的不同侧面的具体报道, 同属于 “汶川地震” 话题, 但是对地 震不同侧面的报道。 因此, 二者的演化关系为同一话题。“救援队伍报道” 事件与 “解放军救 援” 事件, 均属于对在地震救援的报。

42、道, 同属于一个事件。 因此二者的演化关系为 “同一事 件” 。“汶川地震伤亡报道” 与 “玉树地震伤亡报道” 报道的内容具有相似性, 分属于不同的话 题, 但均为地震主题。 因此, 二者的演化关系为同一主题。“地震原因分析” 与 “板块运动知 识” 虽然有一定的相关性, 但是事件的偏移较大, 两个事件分属于不同的主题。 因此, 二者的 演化关系为非同一主题。 0106 通过实验的结果看可以看出, 利用本发明提出的方法所判断的事件演化关系与实 际事件之间的关系一致, 验证了所提方法的有效性。 由于有些事件之间的演化关系较为模 糊, 很难准确判断两个事件之间的演化关系。 因此, 本发明给出事件演。

43、化关系置信度, 对于 演化关系较清晰的, 演化关系的结果具有较高的置信度; 对于演化关系较模糊的, 演化关系 的结果具有较低的置信度。 用户可以根据置信度更加准确合理地获得两个事件的演化关 系。 0107 图6为本发明实施例提供的电子设备的实体结构示意图, 如图6所示, 该电子设备 可以包括: 处理器(processor)610、 通信接口(Communications Interface)620、 存储器 (memory)630和通信总线640, 其中, 处理器610, 通信接口620, 存储器630通过通信总线640 完成相互间的通信。 处理器610可以调用存储在存储器630上并可在处理器。

44、610上运行的计 算机程序, 以执行上述各方法实施例提供的事件演化关系分析方法, 例如包括: 对输入的两 个事件分别进行事件要素的抽取, 生成所述两个事件各自的事件要素集合; 基于所述事件 要素集合获取用于分析所述两个事件之间演化关系的演化特征, 计算各个演化特征随时间 变化的偏移程度, 获得所述两个事件的演化关系分析结果。 0108 此外, 上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为 独立的产品销售或使用时, 可以存储在一个计算机可读取存储介质中。 基于这样的理解, 本 发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分 可以以软件产品的形式。

45、体现出来, 该计算机软件产品存储在一个存储介质中, 包括若干指 令用以使得一台计算机设备(可以是个人计算机, 服务器, 或者网络设备等)执行本发明各 个实施例所述方法的全部或部分步骤。 而前述的存储介质包括: U盘、 移动硬盘、 只读存储器 (ROM, Read-Only Memory)、 随机存取存储器(RAM, Random Access Memory)、 磁碟或者光盘 等各种可以存储程序代码的介质。 0109 本发明实施例还提供一种非暂态计算机可读存储介质, 其上存储有计算机程序, 该计算机程序被处理器执行时实现上述各方法实施例提供的事件演化关系分析方法, 例如 包括: 对输入的两个事件。

46、分别进行事件要素的抽取, 生成所述两个事件各自的事件要素集 合; 基于所述事件要素集合获取用于分析所述两个事件之间演化关系的演化特征, 计算各 个演化特征随时间变化的偏移程度, 获得所述两个事件的演化关系分析结果。 0110 以上所描述的装置实施例仅仅是示意性的, 其中所述作为分离部件说明的单元可 以是或者也可以不是物理上分开的, 作为单元显示的部件可以是或者也可以不是物理单 元, 即可以位于一个地方, 或者也可以分布到多个网络单元上。 可以根据实际的需要选择其 说明书 8/9 页 11 CN 111444347 A 11 中的部分或者全部模块来实现本实施例方案的目的。 本领域普通技术人员在不。

47、付出创造性 的劳动的情况下, 即可以理解并实施。 0111 通过以上的实施方式的描述, 本领域的技术人员可以清楚地了解到各实施方式可 借助软件加必需的通用硬件平台的方式来实现, 当然也可以通过硬件。 基于这样的理解, 上 述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来, 该 计算机软件产品可以存储在计算机可读存储介质中, 如ROM/RAM、 磁碟、 光盘等, 包括若干指 令用以使得一台计算机设备(可以是个人计算机, 服务器, 或者网络设备等)执行各个实施 例或者实施例的某些部分所述的方法。 0112 最后应说明的是: 以上实施例仅用以说明本发明的技术方案, 而非对其限制; 尽管 参照前述实施例对本发明进行了详细的说明, 本领域的普通技术人员应当理解: 其依然可 以对前述各实施例所记载的技术方案进行修改, 或者对其中部分技术特征进行等同替换; 而这些修改或者替换, 并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和 范围。 说明书 9/9 页 12 CN 111444347 A 12 图1 图2 图3 说明书附图 1/3 页 13 CN 111444347 A 13 图4 图5 说明书附图 2/3 页 14 CN 111444347 A 14 图6 说明书附图 3/3 页 15 CN 111444347 A 15 。

展开阅读全文
内容关键字: 事件 演化 关系 分析 方法 装置
关于本文
本文标题:事件演化关系分析方法及装置.pdf
链接地址:https://www.zhuanlichaxun.net/pdf/11219506.html
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1