面向开放域的实体关系抽取方法、装置及终端设备.pdf

上传人:一**** 文档编号:10384981 上传时间:2021-06-19 格式:PDF 页数:16 大小:530.70KB
收藏 版权申诉 举报 下载
面向开放域的实体关系抽取方法、装置及终端设备.pdf_第1页
第1页 / 共16页
面向开放域的实体关系抽取方法、装置及终端设备.pdf_第2页
第2页 / 共16页
面向开放域的实体关系抽取方法、装置及终端设备.pdf_第3页
第3页 / 共16页
文档描述:

《面向开放域的实体关系抽取方法、装置及终端设备.pdf》由会员分享,可在线阅读,更多相关《面向开放域的实体关系抽取方法、装置及终端设备.pdf(16页完成版)》请在专利查询网上搜索。

1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202010540594.0 (22)申请日 2020.06.12 (71)申请人 广州多益网络股份有限公司 地址 510000 广东省广州市黄埔区伴河路 90号 申请人 广东利为网络科技有限公司 多益网络有限公司 (72)发明人 徐波 (74)专利代理机构 广州三环专利商标代理有限 公司 44202 代理人 麦小婵郝传鑫 (51)Int.Cl. G06F 16/36(2019.01) G06F 40/211(2020.01) G06F 40/253(2020.01) G06F 。

2、40/295(2020.01) G06F 40/30(2020.01) G06F 16/35(2019.01) G06N 3/04(2006.01) (54)发明名称 一种面向开放域的实体关系抽取方法、 装置 及终端设备 (57)摘要 本发明涉及计算机自然语言处理技术领域, 公开了一种面向开放域的实体关系抽取方法、 装 置及终端设备, 所述方法包括: 获取待处理的开 放域数据; 将所述开放域数据输入训练好的实体 关系抽取模型, 获得所述开放域数据中的实体关 系; 其中, 所述实体关系抽取模型采用有监督学 习算法进行训练。 本发明提供的一种面向开放域 的实体关系抽取方法、 装置及终端设备, 能够。

3、提 高面向开放域的实体关系抽取结果的准确率。 权利要求书2页 说明书10页 附图3页 CN 111831829 A 2020.10.27 CN 111831829 A 1.一种面向开放域的实体关系抽取方法, 其特征在于, 所述方法包括: 获取待处理的开放域数据; 将所述开放域数据输入训练好的实体关系抽取模型, 获得所述开放域数据中的实体关 系; 其中, 所述实体关系抽取模型采用有监督学习算法进行训练。 2.根据权利要求1所述的面向开放域的实体关系抽取方法, 其特征在于, 所述实体关系 抽取模型预先通过以下步骤进行训练: 获取原始数据; 对所述原始数据进行预处理, 获取标注数据; 根据所述标注数。

4、据对预设的实体关系抽取模型进行训练。 3.根据权利要求2所述的面向开放域的实体关系抽取方法, 其特征在于, 所述对所述原 始数据进行预处理, 获取标注数据, 具体包括: 对所述原始数据中的N个句子分别进行复合句拆分, 获得M个拆分后的句子, MN; 对M个所述拆分后的句子分别进行标注, 获取M组所述标注数据。 4.根据权利要求3所述的面向开放域的实体关系抽取方法, 其特征在于, 所述标注数据 包括第一标注序列、 第二标注序列以及第三标注序列; 则, 所述对M个所述拆分后的句子分别进行标注, 获取M组标注数据, 具体包括: 根据预设的标注类别对M个所述拆分后的句子分别进行标注, 对应获得M个第一。

5、标注序 列; 其中, 每一个所述第一标注序列为每一个拆分后的句子中的所有实体的标注序列; 根据预设的标注类别对M个所述拆分后的句子分别进行标注, 对应获得M个第二标注序 列; 其中, 每一个所述第二标注序列为每一个拆分后的句子中的实体关系的标注序列; 根据预设的标注类别对M个所述拆分后的句子分别进行标注, 对应获得M个第三标注序 列; 其中, 每一个所述第三标注序列为每一个拆分后的句子中的尾实体的标注序列。 5.根据权利要求4所述的面向开放域的实体关系抽取方法, 其特征在于, 所述预设的标 注类别为LB,I,E,O; 其中, B表示实体词首, I表示实体词中间, E表示实体词尾, O表示非 实。

6、体词。 6.根据权利要求3至5任一项所述的面向开放域的实体关系抽取方法, 其特征在于, 所 述对所述原始数据中的N个句子分别进行复合句拆分, 获得M个拆分后的句子, 具体包括: 根据依存句法分析器分析所述原始数据中的N个句子的结构; 基于所述结构, 根据句法分析标签设计规则对所述原始数据中的N个句子进行复合句 拆分, 获得M个所述拆分后的句子。 7.根据权利要求6所述的面向开放域的实体关系抽取方法, 其特征在于, 所述方法还包 括: 对实体关系相同的拆分后的句子, 进行头实体替换以及尾实体替换。 8.根据权利要求1所述的面向开放域的实体关系抽取方法, 其特征在于, 所述训练好的 实体关系抽取模。

7、型包括头实体预测模块、 实体关系和尾实体联合预测模块; 则, 所述将所述开放域数据输入训练好的实体关系抽取模型, 抽取所述开放域数据中 的实体关系, 具体包括: 将所述开放域数据输入所述头实体预测模块获取第一预测标注序列、 句子特征向量以 及头实体表示向量; 权利要求书 1/2 页 2 CN 111831829 A 2 将所述句子特征向量与所述头实体表示向量拼接得到拼接向量; 将所述拼接向量输入所述实体关系和尾实体联合预测模块获取第二预测标注序列、 第 三预测标注序列; 将所述第一预测标注序列、 所述第二预测标注序列以及所述第三预测标注序列依次连 接获得所述开放域数据中的实体关系。 9.一种面。

8、向开放域的实体关系抽取装置, 其特征在于, 所述装置包括: 数据获取模块, 用于获取待处理的开放域数据; 关系抽取模块, 用于将所述开放域数据输入训练好的实体关系抽取模型, 获得所述开 放域数据中的实体关系; 其中, 所述实体关系抽取模型采用有监督学习算法进行训练。 10.一种终端设备, 其特征在于, 所述终端设备包括处理器、 存储器以及存储在所述存 储器中且被配置为由所述处理器执行的计算机程序, 所述计算机程序被所述处理器执行时 实现如权利要求1至8任一项所述的面向开放域的实体关系抽取方法。 权利要求书 2/2 页 3 CN 111831829 A 3 一种面向开放域的实体关系抽取方法、 装。

9、置及终端设备 技术领域 0001 本发明涉及计算机自然语言处理技术领域, 特别是涉及一种面向开放域的实体关 系抽取方法、 装置及终端设备。 背景技术 0002 关系抽取目的在于从互联网大量存在的非结构化文本中抽取实体的语义关系, 用 于构建知识图谱或者为人们提供更高效的信息获取工具。 关系抽取通常以三元组为一个基 本数据单位, 形如, 其中subject为头实体, object为尾实体, predicate为两个实体之间的关系。 通常头实体都是指代具体的人或事物, 而尾实体除了可 以指代具体的人或事物外, 还可以是一些属性。 0003 目前常用的实体关系抽取方法, 根据关系类别是否预定义, 可。

10、以分为限定域关系 抽取和开放域关系抽取两种。 0004 在限定域关系抽取中, 系统所抽取的关系类别是预先定义好的, 比如 “亲属” 、“所 属公司” 、“地理位置” 等的几种预定义关系, 抽取的关系种类较为局限。 0005 开放域关系抽取由于没有预先设定的关系种类, 抽取关系更加自由, 主要使用无 监督的方法来抽取关系三元组, 如句法分析和模式匹配等, 并且通常是以句子中的某个词 语来代表实体之间的关系类型。 这种方法的优点是可以发现更多新的关系, 抽取更加自由。 但是由于自然语言表达的多样性和实体关系的复杂性, 使用句法分析和模式匹配的方法准 确率往往不高。 发明内容 0006 本发明实施例。

11、所要解决的技术问题是: 提出一种面向开放域的实体关系抽取方 法、 装置及终端设备, 采用有监督学习算法进行实体关系抽取, 提高面向开放域的实体关系 抽取结果的准确率。 0007 为了解决上述技术问题, 第一方面, 本发明实施例提供一种面向开放域的实体关 系抽取方法, 所述方法包括: 0008 获取待处理的开放域数据; 0009 将所述开放域数据输入训练好的实体关系抽取模型, 获得所述开放域数据中的实 体关系; 其中, 所述实体关系抽取模型采用有监督学习算法进行训练。 0010 作为一个优选方案, 所述实体关系抽取模型预先通过以下步骤进行训练: 0011 获取原始数据; 0012 对所述原始数据。

12、进行预处理, 获取标注数据; 0013 根据所述标注数据对预设的实体关系抽取模型进行训练。 0014 作为一个优选方案, 所述对所述原始数据进行预处理, 获取标注数据, 具体包括: 0015 对所述原始数据中的N个句子分别进行复合句拆分, 获得M个拆分后的句子, MN; 0016 对M个所述拆分后的句子分别进行标注, 获取M组所述标注数据。 说明书 1/10 页 4 CN 111831829 A 4 0017 作为一个优选方案, 所述标注数据包括第一标注序列、 第二标注序列以及第三标 注序列; 0018 则, 所述对M个所述拆分后的句子分别进行标注, 获取M组标注数据, 具体包括: 0019 。

13、根据预设的标注类别对M个所述拆分后的句子分别进行标注, 对应获得M个第一标 注序列; 其中, 每一个所述第一标注序列为每一个拆分后的句子中的所有实体的标注序列; 0020 根据预设的标注类别对M个所述拆分后的句子分别进行标注, 对应获得M个第二标 注序列; 其中, 每一个所述第二标注序列为每一个拆分后的句子中的实体关系的标注序列; 0021 根据预设的标注类别对M个所述拆分后的句子分别进行标注, 对应获得M个第三标 注序列; 其中, 每一个所述第三标注序列为每一个拆分后的句子中的尾实体的标注序列。 0022 作为一个优选方案, 所述预设的标注类别为LB,I,E,O; 其中, B表示实体词首, 。

14、I表示实体词中间, E表示实体词尾, O表示非实体词。 0023 作为一个优选方案, 所述对所述原始数据中的N个句子分别进行复合句拆分, 获得 M个拆分后的句子, 具体包括: 0024 根据依存句法分析器分析所述原始数据中的N个句子的结构; 0025 基于所述结构, 根据句法分析标签设计规则对所述原始数据中的N个句子进行复 合句拆分, 获得M个所述拆分后的句子。 0026 作为一个优选方案, 所述方法还包括: 0027 对实体关系相同的拆分后的句子, 进行头实体替换以及尾实体替换。 0028 作为一个优选方案, 所述训练好的实体关系抽取模型包括头实体预测模块、 实体 关系和尾实体联合预测模块;。

15、 0029 则, 所述将所述开放域数据输入训练好的实体关系抽取模型, 抽取所述开放域数 据中的实体关系, 具体包括: 0030 将所述开放域数据输入所述头实体预测模块获取第一预测标注序列、 句子特征向 量以及头实体表示向量; 0031 将所述句子特征向量与所述头实体表示向量拼接得到拼接向量; 0032 将所述拼接向量输入所述实体关系和尾实体联合预测模块获取第二预测标注序 列、 第三预测标注序列; 0033 将所述第一预测标注序列、 所述第二预测标注序列以及所述第三预测标注序列依 次连接获得所述开放域数据中的实体关系。 0034 为了解决上述技术问题, 第二方面, 本发明实施例提供一种面向开放域。

16、的实体关 系抽取装置, 所述装置包括: 0035 数据获取模块, 用于获取待处理的开放域数据; 0036 关系抽取模块, 用于将所述开放域数据输入训练好的实体关系抽取模型, 获得所 述开放域数据中的实体关系; 其中, 所述实体关系抽取模型采用有监督学习算法进行训练。 0037 为了解决上述技术问题, 第三方面, 本发明实施例提供一种终端设备, 所述终端设 备包括处理器、 存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程 序, 所述计算机程序被所述处理器执行时实现如第一方面任一项所述的面向开放域的实体 关系抽取方法。 0038 与现有技术相比, 本发明实施例提供的一种面向开放域的。

17、实体关系抽取方法、 装 说明书 2/10 页 5 CN 111831829 A 5 置及终端设备, 其有益效果在于: 将实体关系抽取视为有监督的序列标注任务, 使得关系抽 取既可以充分利用标注数据保证抽取准确率, 又可以不限制抽取的关系类别, 利用模型的 泛化能力发现更多新的关系, 实现较高准确率的开放域关系抽取, 同时, 针对实际抽取环境 中句子多样性问题对句子进行拆分, 降低了待抽取句子的复杂度, 进一步保证抽取准确率, 还解决了关系抽取实体的一对多问题。 附图说明 0039 为了更清楚地说明本发明实施例的技术特征, 下面将对本发明实施例中所需要使 用的附图做简单地介绍, 显而易见地, 下。

18、面所描述的附图仅仅是本发明的一些实施例, 对于 本领域技术人员来说, 在不付出创造性劳动的前提下, 还可以根据这些附图获得其他的附 图。 0040 图1是本发明提供的一种面向开放域的实体关系抽取方法的一个优选实施例的流 程示意图; 0041 图2是本发明提供的依存句法分析器分析过程的一个优选实施例的示意图; 0042 图3是本发明提供的实体关系抽取模型的一个优选实施例的结构示意图; 0043 图4是本发明提供的一种面向开放域的实体关系抽取装置的一个优选实施例的结 构示意图; 0044 图5是本发明提供的一种终端设备的一个优选实施例的结构示意图。 具体实施方式 0045 为了对本发明的技术特征、。

19、 目的、 效果有更加清楚的理解, 下面结合附图和实施 例, 对本发明的具体实施方式作进一步详细描述。 以下实施例仅用于说明本发明, 但是不用 来限制本发明的保护范围。 基于本发明的实施例, 本领域技术人员在没有付出创造性劳动 的前提下所获得的其他实施例, 都应属于本发明的保护范围。 0046 在本发明的描述中, 应当理解的是, 本文中的编号本身, 例如 “第一” 、“第二” 等, 仅 用于区分所描述的对象, 不具有顺序或者技术含义, 不能理解为规定或者暗示所描述的对 象的重要性。 0047 图1所示为本发明提供的一种面向开放域的实体关系抽取方法的一个优选实施例 的流程示意图。 0048 如图1。

20、所示, 所述方法包括: 0049 S10: 获取待处理的开放域数据; 0050 S20: 将所述开放域数据输入训练好的实体关系抽取模型, 获得所述开放域数据中 的实体关系; 其中, 所述实体关系抽取模型采用有监督学习算法进行训练。 0051 具体而言, 本实施例采用空洞卷积神经网络(Dilated Convolutional Neural Networks, DCNN)算法对实体关系抽取模型进行训练, 但是本发明实施例不限于此。 0052 本发明实施例的实体关系抽取模型是预先训练好的, 当用户需要对开放域数据进 行关系抽取时, 只需将所述开放域数据输入训练好的实体关系抽取模型即可, 无需进行过。

21、 多操作即可获得所述开放域数据中的实体关系。 0053 本发明实施例的一种面向开放域的实体关系抽取方法, 采用了有监督学习算法训 说明书 3/10 页 6 CN 111831829 A 6 练实体关系抽取模型, 将开放域数据的实体关系抽取视为有监督的序列标注任务, 既能够 保证关系抽取的准确率, 又可以不预设实体关系类别, 实体关系的抽取更加自由。 0054 在一个优选实施例中, 所述实体关系抽取模型预先通过以下步骤进行训练: 0055 获取原始数据; 0056 对所述原始数据进行预处理, 获取标注数据; 0057 根据所述标注数据对预设的实体关系抽取模型进行训练。 0058 具体而言, 首先。

22、通过网络爬虫爬取公开的关系抽取数据, 获得一定量用于训练模 型的原始数据, 由于数据为开放域数据, 对关系类别没有限制, 故不同来源、 不同种类的关 系抽取数据集可以合并在一起。 对所述原始数据进行一系列的预处理获取满足模型训练格 式的标注数据, 然后根据所述标注数据训练实体关系抽取模型, 获得训练好的实体关系抽 取模型。 0059 在一个优选实施例中, 所述对所述原始数据进行预处理, 获取标注数据, 具体包 括: 0060 对所述原始数据中的N个句子分别进行复合句拆分, 获得M个拆分后的句子, MN; 0061 对M个所述拆分后的句子分别进行标注, 获取M组所述标注数据。 0062 可以理解。

23、地, 复合句大致分为并列复合句和主从复合句, 这些句子相对复杂, 往往 会存在实体关系相对位置分隔较远或者句子语义难以分析等问题, 而实体关系抽取任务的 难度和输入数据的复杂度有一定的关系, 若将复合句拆分成若干个简单句, 则可以在一定 程度上简化数据, 有助于从数据的角度降低任务难度, 从而进一步保证关系抽取模型的准 确率。 0063 作为一个举例,“ 功夫足球 于2001年上映, 参演者有周星驰、 吴孟达等人。 ” 就是 一个并列复合句, 可以将其拆分为S1:“ 功夫足球 于2001年上映。 ” 和S2:“ 功夫足球 参演 者有周星驰、 吴孟达等人。 ” 两句。 0064 需要说明的是, 。

24、在复合句进行拆后分的句子中, 有的是不包含实体关系的, 此时则 需要将这些不包含实体关系的句子进行滤除, 如上述的S1即不包含实体关系, 需要将其滤 除, 只保留下S2。 0065 进一步地, 可以将S2转换成如下格式: 0066 text:”功夫足球 参演者有周星驰、 吴孟达等人。 ” 0067 Items: 0068 功夫足球,参演者,周星驰, 0069 功夫足球,参演者,吴孟达, 0070 0071 在一个优选实施例中, 所述标注数据包括第一标注序列、 第二标注序列以及第三 标注序列; 0072 则, 所述对M个所述拆分后的句子分别进行标注, 获取M组标注数据, 具体包括: 0073 根。

25、据预设的标注类别对M个所述拆分后的句子分别进行标注, 对应获得M个第一标 注序列; 其中, 每一个所述第一标注序列为每一个拆分后的句子中的所有实体的标注序列; 0074 根据预设的标注类别对M个所述拆分后的句子分别进行标注, 对应获得M个第二标 注序列; 其中, 每一个所述第二标注序列为每一个拆分后的句子中的实体关系的标注序列; 说明书 4/10 页 7 CN 111831829 A 7 0075 根据预设的标注类别对M个所述拆分后的句子分别进行标注, 对应获得M个第三标 注序列; 其中, 每一个所述第三标注序列为每一个拆分后的句子中的尾实体的标注序列。 0076 具体而言, 对上述S2进行标。

26、注, 则可获得S2的第一标注序列(即S2中所有实体的标 注序列)、 第二标注序列(即S2中实体关系的标注序列)以及第三标注序列(即S2中尾实体的 标注序列)。 0077 在一个优选实施例中, 所述预设的标注类别为LB,I,E,O; 其中, B表示实体词 首, I表示实体词中间, E表示实体词尾, O表示非实体词。 0078 具体而言, 按照所述标注类别LB,I,E,O对S2:“ 功夫足球 参演者有周星驰、 吴孟达等人。 ” 标注后, 得到S2的第一标注序列为: 0079 O,B,I,I,E,O,O,O,O,O,B,I,E,O,B,I,E,O,O,O; 0080 将其记为seq1, 其中, 序列。

27、长度为text的长度, 表示text中的实体有 “功夫足球” 、 “周星驰” 、“吴孟达” , 其他字符为非实体词。 0081 得到S2的第二标注序列为: 0082 O,O,O,O,O,O,B,I,E,O,O,O,O,O,O,O,O,O,O,O; 0083 将其记为seq2, 表示头实体为 “功夫足球” 的关系为 “参演者” 。 0084 得到S2的第三标注序列为: 0085 O,O,O,O,O,O,O,O,O,O,B,I,E,O,B,I,E,O,O,O; 0086 将其记为seq3, 表示头实体为 “功夫足球” , 关系为 “参演者” 的尾实体为 “周星驰” 、 “吴孟达” 。 0087 进。

28、一步地, 将上述标注数据整理成数据样本, 格式如下: 0088 text: “ 功夫足球 参演者有周星驰、 吴孟达等人。 ” 0089 entities:seq1, 0090 Items: 0091 “功夫足球” :seq2,seq3 0092 0093 0094 本实施例采用的标注方式自然地解决了实体关系抽取中, 头实体和尾实体的一对 多和多对一问题。 其中, 头实体和尾实体的一对多的解决体现为: 在seq3中可以包含多个尾 实体标注, 即头实体 “功夫足球” 可以对应多个尾实体。 0095 在一个优选实施例中, 所述对所述原始数据中的N个句子分别进行复合句拆分, 获 得M个拆分后的句子, 。

29、具体包括: 0096 根据依存句法分析器分析所述原始数据中的N个句子的结构; 0097 基于所述结构, 根据句法分析标签设计规则对所述原始数据中的N个句子进行复 合句拆分, 获得M个所述拆分后的句子。 0098 具体而言, 本实施例通过LTP(Language Technology Platform, 语言技术平台)依 存句法分析器来分析所述原始数据中的句子结构, 但本发明实施例不限于此, 再根据句法 分析标签设计规则对其进行拆分, 其中, 所述句法分析标签设计规则可以根据需求进行开 发设置, 本发明实施例对此不做限制。 0099 作为一个举例, 句子A为:“我吃饭, 喝水” , 对其使用依存。

30、句法分析器分析过程如图 说明书 5/10 页 8 CN 111831829 A 8 2所示, 其中, HED对应的词语为句子的核心词, COO为并列关系, SBV为主谓关系。 若核心词存 在并列关系, 则按照标点, 将句子拆分成 “我吃饭” 、“喝水” 两个分句, 分别记为A1和A2。 此时 A1的核心词为 “吃饭” , A2的核心词为与HED指向的词语互为并列关系的 “喝水” , 同时由SBV关 系可知, A1存在主语 “我” , A2没有主语, 故在A2句首直接添加A1的主语 “我” 。 于是并列句便被 拆分成两个分句, 并且拥有相同的主语, 两句分句分别为A1:“我吃饭” 和A2:“我喝。

31、水” 。 0100 本实施例通过依存句法分析器对复合句进行拆分, 能够将复杂的句子拆分成简单 句, 提高实体关系抽取的准确率。 0101 在一个优选实施例中, 所述方法还包括: 0102 对实体关系相同的拆分后的句子, 进行头实体替换以及尾实体替换。 0103 需要说明的是, 相同实体关系所对应的头实体、 尾实体之间的类型通常都是类似 的, 为了获得更多的标注数据, 可以进行相同实体关系的实体替换来扩展出更多的构造数 据, 具体步骤如下: 0104 1)将标注的数据按照实体关系进行归类并提取实体关系。 0105 2)将句子中的实体用相同关系的其他实体进行替换。 0106 相同实体关系的句子进行。

32、实体替换之后, 其句子结构是基本不变的, 于是, 通过相 同实体关系的实体替换便构造出了新的标注数据, 能够获取更多的标注数据, 也可以减轻 获取原始数据时的任务量。 0107 在一个优选实施例中, 如图3所示, 所述训练好的实体关系抽取模型包括头实体预 测模块、 实体关系和尾实体联合预测模块; 0108 则, 所述将所述开放域数据输入训练好的实体关系抽取模型, 抽取所述开放域数 据中的实体关系, 具体包括: 0109 将所述开放域数据输入所述头实体预测模块获取第一预测标注序列、 句子特征向 量以及头实体表示向量; 0110 将所述句子特征向量与所述头实体表示向量拼接得到拼接向量; 0111 。

33、将所述拼接向量输入所述实体关系和尾实体联合预测模块获取第二预测标注序 列、 第三预测标注序列; 0112 将所述第一预测标注序列、 所述第二预测标注序列以及所述第三预测标注序列依 次连接获得所述开放域数据中的实体关系。 0113 其中, 所述头实体预测模块和所述实体关系和尾实体联合预测模块的输出都是与 句子等长的向量, 分别标记了头实体、 实体关系和尾实体在句子中的位置。 0114 具体而言, 本发明实施例的实体关系抽取模型的具体训练过程如下: 0115 M1: 采用空洞卷积神经网络DCNN1拼接attention1层作为句子实体抽取模块, 获得 句子特征向量, 再拼接softmax1输出层输。

34、出第一预测标注序列(即头实体预测标注序列), 其对应的真实标注序列为seq1。 0116 其中, 该模块为头实体预测模块, 记该模块的损失函数为loss1, loss1为交叉熵损 失函数: 0117 说明书 6/10 页 9 CN 111831829 A 9 0118 其中, N为句子长度; |C|为标注类别的数量, 例如, 标注类别包括B、 I、 O、 E时, |C| 4, 标注类别包括B、 O、 E时, |C|3; i为标注类别的编号, 例如, 标注类别B的编号为i0, 表 示第0类为标注类别B; yi是样本标签的one-hot表示, 当样本属于第i类标注类别时, yi为1, 否则为0; 。

35、pi为softmax1分类器在第i类标注类别的输出概率; pc为sofmax1分类器在yc1的 标注类别的输出概率。 0119 M2: 抽取出句子实体后, 对于每一个实体, 将该实体视为头实体, 使用GRU(Gate Recurrent Unit, 门控循环单元)对其进行编码, 获得实体表示向量。 0120 M3: 将步骤M1的attention1层获得的句子特征向量和步骤M2获得的实体表示向量 进行拼接, 输入到DCNN2+attention2的网络中, 并在该模型输出端设置softmax2输出层以 及softmax3输出层, 分别输出第二预测标注序列(即实体关系预测标注序列)以及第三预测 。

36、标注序列(即尾实体预测标注序列)。 0121 其中, 该DCNN2+attention2网络结构与步骤M1的网络结构相同, 但两者为两个相 互独立的网络, 权重参数不共享。 softmax2输出层、 以及softmax3输出层和步骤M1的 softmax1输出层相同, 标注类别也相同, 区别在于DCNN2+attention2网络有两个输出层, 分 别输出实体关系预测标注序列以及尾实体预测标注序列, 对应的真实标注序列分别为seq2 以及seq3。 0122 该模块为实体关系和尾实体联合预测模块, 由于分别输出了实体关系预测标注序 列以及尾实体预测标注序列, 该模块共有两个损失函数, 记实体关。

37、系损失函数为loss2, 记 尾实体损失函数为loss3, 其中, 0123 0124 0125 各个参数的含义与步骤M1中loss1的相同, 在此不再赘述。 0126 M4: 整个实体关系抽取模型(头实体预测模块+实体关系和尾实体联合预测模块) 的损失函数为: lossloss1+loss2+loss3, 最小化该损失函数即可训练出可进行实体关系 抽取的实体关系抽取模型。 0127 M5: 分别从实体关系预测序列和尾实体预测序列中找到对应的实体关系以及尾实 体, 构成的三元组作为模型抽取出的三元组信息。 0128 由于整个实体关系抽取模型是标注序列模型, 可以拟合训练集以获得较高的抽取 准确。

38、率。 并且, 由于抽取的实体关系都是从输入文本中的词汇得来, 使得实体关系的抽取不 限于特定的类别, 模型可以通过增加泛化性来学习句子的语义和语法结构, 以抽取出更多 种类的实体关系。 0129 具体实施时, 所述实体关系抽取模型首先用头实体识别模块抽取出句子中的实 体, 标注出实体在句子中的位置, 其次, 对于句子中的各个实体, 使用所述实体关系和尾实 体联合预测模块同时标注出实体关系和尾实体的位置。 0130 对于一个实体, 若没有预测出相应的实体关系或尾实体, 则表示不存在以该实体 说明书 7/10 页 10 CN 111831829 A 10 为头实体的实体关系; 若在同一实体关系预测。

39、标注序列中出现多个候选实体关系, 由于无 法确定多个实体关系与尾实体的对应关系, 也视为不存在实体关系; 若在同一尾实体预测 标注序列中出现多个候选实体, 则视为头实体与多个尾实体都存在同一关系。 0131 本实施例提供的一种面向开放域的实体关系抽取方法, 将实体关系抽取视为有监 督的序列标注任务, 使得关系抽取既可以充分利用标注数据保证抽取准确率, 又可以不限 制抽取的关系类别, 利用模型的泛化能力发现更多新的关系, 实现较高准确率的开放域关 系抽取, 同时, 针对实际抽取环境中句子多样性问题对句子进行拆分, 降低了待抽取句子的 复杂度, 进一步保证抽取准确率, 还解决了实体关系抽取过程中实。

40、体的一对多问题。 0132 应当理解, 本发明实现上述面向开放域的实体关系抽取方法中的全部或部分流 程, 也可以通过计算机程序来指令相关的硬件来完成, 计算机程序可存储于一计算机可读 存储介质中, 该计算机程序在被处理器执行时, 可实现上述面向开放域的实体关系抽取方 法的步骤。 其中, 计算机程序包括计算机程序代码, 计算机程序代码可以为源代码形式、 对 象代码形式、 可执行文件或某些中间形式等。 计算机可读存储介质可以包括: 能够携带所述 计算机程序代码的任何实体或装置、 记录介质、 U盘、 移动硬盘、 磁碟、 光盘、 计算机存储器、 只读存储器(ROM, Read-Only Memory)。

41、、 随机存取存储器(RAM, Random Access Memory)、 电 载波信号、 电信信号以及软件分发介质等。 需要说明的是, 计算机可读存储介质包含的内容 可以根据司法管辖区内立法和专利实践的要求进行适当的增减, 例如在某些司法管辖区, 根据立法和专利实践, 计算机可读存储介质不包括电载波信号和电信信号。 0133 图4所示为本发明提供的一种面向开放域的实体关系抽取装置的一个优选实施例 的结构示意图, 所述装置能够实现上述任一实施例所述的面向开放域的实体关系抽取方法 的所有流程。 0134 如图4所示, 所述装置包括: 0135 数据获取模块, 用于获取待处理的开放域数据; 013。

42、6 关系抽取模块, 用于将所述开放域数据输入训练好的实体关系抽取模型, 获得所 述开放域数据中的实体关系; 其中, 所述实体关系抽取模型采用有监督学习算法进行训练。 0137 具体实施时, 将待处理的开放域数据输入所述装置后, 所述数据获取模块便会获 取所述开放域数据, 并将其传输至所述关系抽取模块, 所述关系抽取模快将所述开放域数 据输入训练好的实体关系抽取模型, 获得所述开放域数据中的实体关系, 并输出所述实体 关系。 0138 优选地, 所述装置还包括模型训练模块, 所述模型训练模块用于: 0139 获取原始数据; 0140 对所述原始数据进行预处理, 获取标注数据; 0141 根据所述。

43、标注数据对预设的实体关系抽取模型进行训练。 0142 优选地, 所述对所述原始数据进行预处理, 获取标注数据, 具体包括: 0143 对所述原始数据中的N个句子分别进行复合句拆分, 获得M个拆分后的句子, MN; 0144 对M个所述拆分后的句子分别进行标注, 获取M组所述标注数据。 0145 优选地, 所述标注数据包括第一标注序列、 第二标注序列以及第三标注序列; 0146 则, 所述对M个所述拆分后的句子分别进行标注, 获取M组标注数据, 具体包括: 0147 根据预设的标注类别对M个所述拆分后的句子分别进行标注, 对应获得M个第一标 说明书 8/10 页 11 CN 111831829 。

44、A 11 注序列; 其中, 每一个所述第一标注序列为每一个拆分后的句子中的所有实体的标注序列; 0148 根据预设的标注类别对M个所述拆分后的句子分别进行标注, 对应获得M个第二标 注序列; 其中, 每一个所述第二标注序列为每一个拆分后的句子中的实体关系的标注序列; 0149 根据预设的标注类别对M个所述拆分后的句子分别进行标注, 对应获得M个第三标 注序列; 其中, 每一个所述第三标注序列为每一个拆分后的句子中的尾实体的标注序列。 0150 优选地, 所述预设的标注类别为LB,I,E,O; 其中, B表示实体词首, I表示实体 词中间, E表示实体词尾, O表示非实体词。 0151 优选地,。

45、 所述对所述原始数据中的N个句子分别进行复合句拆分, 获得M个拆分后 的句子, 具体包括: 0152 根据依存句法分析器分析所述原始数据中的N个句子的结构; 0153 基于所述结构, 根据句法分析标签设计规则对所述原始数据中的N个句子进行复 合句拆分, 获得M个所述拆分后的句子。 0154 优选地, 所述装置还包括实体替换模块, 用于对实体关系相同的拆分后的句子, 进 行头实体替换以及尾实体替换。 0155 优选地, 所述训练好的实体关系抽取模型包括头实体预测模块、 实体关系和尾实 体联合预测模块; 0156 则, 所述关系抽取模块具体用于: 0157 将所述开放域数据输入所述头实体预测模块获。

46、取第一预测标注序列、 句子特征向 量以及头实体表示向量; 0158 将所述句子特征向量与所述头实体表示向量拼接得到拼接向量; 0159 将所述拼接向量输入所述实体关系和尾实体联合预测模块获取第二预测标注序 列、 第三预测标注序列; 0160 将所述第一预测标注序列、 所述第二预测标注序列以及所述第三预测标注序列依 次连接获得所述开放域数据中的实体关系。 0161 本实施例提供的一种面向开放域的实体关系抽取装置, 将实体关系抽取视为有监 督的序列标注任务, 使得关系抽取既可以充分利用标注数据保证抽取准确率, 又可以不限 制抽取的关系类别, 利用模型的泛化能力发现更多新的关系, 实现较高准确率的开。

47、放域关 系抽取, 同时, 针对实际抽取环境中句子多样性问题对句子进行拆分, 降低了待抽取句子的 复杂度, 进一步保证抽取准确率, 还解决了实体关系抽取过程中实体的一对多问题。 0162 图5所示为本发明提供的一种终端设备的一个优选实施例的结构示意图, 所述终 端设备能够实现如上述任一实施例所述的面向开放域的实体关系抽取方法的所有流程。 0163 如图5所示, 所述终端设备包括处理器、 存储器, 以及存储在所述存储器中且被配 置为由所述处理器执行的计算机程序, 所述计算机程序被所述处理器执行时实现如上述任 一实施例所述的面向开放域的实体关系抽取方法。 0164 示例性的, 所述计算机程序可以被分。

48、割成一个或多个模块/单元, 所述一个或者多 个模块/单元被存储在所述存储器中, 并由所述处理器执行, 以完成本发明。 所述一个或多 个模块/单元可以是能够完成特定功能的一系列计算机程序指令段, 该指令段用于描述所 述计算机程序在所述终端设备中的执行过程。 0165 所称处理器可以是中央处理单元(Central Processing Unit, CPU), 还可以是其 说明书 9/10 页 12 CN 111831829 A 12 他通用处理器、 数字信号处理器(Digital Signal Processor, DSP)、 专用集成电路 (Application Specific Integr。

49、ated Circuit, ASIC)、 现场可编程门阵列(Field- Programmable Gate Array, FPGA)或者其他可编程逻辑器件、 分立门或者晶体管逻辑器件、 分立硬件组件等。 通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器 等。 0166 所述存储器可用于存储所述计算机程序和/或模块, 所述处理器通过运行或执行 存储在所述存储器内的计算机程序和/或模块, 以及调用存储在存储器内的数据, 实现所述 终端设备的各种功能。 所述存储器可主要包括存储程序区和存储数据区, 其中, 存储程序区 可存储操作系统、 至少一个功能所需的应用程序(比如声音播放功能、 图。

50、像播放功能等)等; 存储数据区可存储根据手机的使用所创建的数据(比如音频数据、 电话本等)等。 此外, 存储 器可以包括高速随机存取存储器, 还可以包括非易失性存储器, 例如硬盘、 内存、 插接式硬 盘, 智能存储卡(Smart Media Card,SMC), 安全数字(Secure Digital,SD)卡, 闪存卡 (Flash Card)、 至少一个磁盘存储器件、 闪存器件、 或其他易失性固态存储器件。 0167 需要说明的是, 上述终端设备包括, 但不仅限于, 处理器、 存储器, 本领域技术人员 可以理解, 图5结构示意图仅仅是上述终端设备的示例, 并不构成对终端设备的限定, 可以 。

展开阅读全文
内容关键字: 面向 开放 实体 关系 抽取 方法 装置 终端设备
关于本文
本文标题:面向开放域的实体关系抽取方法、装置及终端设备.pdf
链接地址:https://www.zhuanlichaxun.net/pdf/10384981.html
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1