电力科技成果知识图谱补全方法.pdf

上传人:v**** 文档编号:10510459 上传时间:2021-06-22 格式:PDF 页数:10 大小:500.75KB
收藏 版权申诉 举报 下载
电力科技成果知识图谱补全方法.pdf_第1页
第1页 / 共10页
电力科技成果知识图谱补全方法.pdf_第2页
第2页 / 共10页
电力科技成果知识图谱补全方法.pdf_第3页
第3页 / 共10页
文档描述:

《电力科技成果知识图谱补全方法.pdf》由会员分享,可在线阅读,更多相关《电力科技成果知识图谱补全方法.pdf(10页完成版)》请在专利查询网上搜索。

1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202010288192.6 (22)申请日 2020.04.14 (71)申请人 国网内蒙古东部电力有限公司 地址 010000 内蒙古自治区呼和浩特市赛 罕区鄂尔多斯东街11号 申请人 国网内蒙古东部电力有限公司电力 科学研究院 合肥工业大学 中科院合肥技术创新工程院 (72)发明人 刘海波姜国义孙敏敏苏林华 李文波毛雪岷高春辉曹阳 史昌王海雷孙睿吴雪莲 (74)专利代理机构 合肥国和专利代理事务所 (普通合伙) 34131 代理人 张祥骞 (51)Int.Cl. G06F 。

2、16/36(2019.01) G06Q 50/06(2012.01) G06N 3/04(2006.01) (54)发明名称 一种电力科技成果知识图谱补全方法 (57)摘要 本发明涉及一种电力科技成果知识图谱补 全方法, 与现有技术相比解决了难以针对电力科 技成果知识图谱进行补全的缺陷。 本发明包括以 下步骤: 电力科技成果数据的获取; 初始三元组 向量化; 设定Transformers模型; 生成新的三元 组数据; 电力科技成果知识图谱补全结果的获 得。 本发明在应对数据稀疏问题时可以自动挖掘 知识图谱中的隐含关系, 弥补了大多数基于表示 学习模型完成电力科技成果知识图谱补全任务 耗时耗力的。

3、缺点, 极大地提高了电力科技成果知 识图谱补全的效率和质量。 权利要求书2页 说明书6页 附图1页 CN 111552817 A 2020.08.18 CN 111552817 A 1.一种电力科技成果知识图谱补全方法, 其特征在于, 包括以下步骤: 11)电力科技成果数据的获取: 获取电力科技成果中文语料库并作预处理, 利用现有抽 取技术从中文语料库中抽取出初始三元组数据; 12)初始三元组向量化: 将初始三元组数据向量化处理为Transformers模型能够直接 处理的文本词向量矩阵; 13)设定Transformers模型: 对Transformers模型进行预设定; 14)生成新的三元。

4、组数据: 基于已抽取的初始三元组使用Transformers模型进行建模, 生成新的三元组; 15)电力科技成果知识图谱补全结果的获得: 设定生成结果投影至Vocab层, 整理生成 的三元组, 结合初始三元组与新三元组实现知识图谱的补全。 2.根据权利要求1所述的一种电力科技成果知识图谱补全方法, 其特征在于, 所述初始 三元组向量化包括以下步骤: 21)设定电力科技成果中文语料库中三元组X是由n个单词组成, 其表达式如下: Xx0,xi,xn, 其中, 第i个词xi被映射为一个连续且带语义信息的低维稠密实数向量, 对于每个词有 对应的文本词向量矩阵W, 其中V*是词表大小, d是词向量的维度。

5、; 22)将文本词向量矩阵W中每个单词均转换成词向量的表示ei, 其表达式如下: eiWxi; 23)将电力科技成果中文语料库中三元组X转化为以下形式: Ie0,ei,en, htet+pt, (1) 其中, et是经过t-1时刻转换模型得到的序列中的某个词向量, pt表示t-1时刻转换模型 的某个词向量的位置编码, ht是transformerblock中t时刻的输入。 3.根据权利要求1所述的一种电力科技成果知识图谱补全方法, 其特征在于, 所述设定 Transformers模型包括以下步骤: 31)设定输入层: 设定预处理文本数据集将训练文本输送到文本词嵌入层, 将句子转换 成注意力层能。

6、够直接处理的文本词向量矩阵; 32)设定注意力层: 设定注意力机制对输入文本信息的特征矩阵多次计算注意力, 用以 捕获句子的长距离依赖性、 学习不同位置的不同语义空间的序列信息; 33)设定多层transformerblock计算次数; 34)设定线性层与softmax层, 对模型的输出结果用线性层将其映射到vocab的维度, 得 到每个单词的可能性, 最终经过softmax层输出单词。 4.根据权利要求1所述的一种电力科技成果知识图谱补全方法, 其特征在于, 所述生成 新的三元组数据包括以下步骤: 41)将电 力科技成果中文语料库中三元组向量集合与前一个 transformerblock输出。

7、向量相加, 得到三元组向量集合输入 至transformerblock中; 权利要求书 1/2 页 2 CN 111552817 A 2 42)三元组向量集合 首先经过注意力层的注意力机制, 并相继经过多层transformerblock计算分别得到向 量g1、hl, 具体计算过程如下: 421)注意力机制的输入, 具体为以下形式: Ie0,ei,en QWQI KWKI VWVI 其中, I是三元组X的向量表示; 每个单词在注意力机制中的输入为Q、 K、 V,WQ、 WK、 WV分别 为Q、 K、 V的权重; 422)注意力机制的每个Head计算公式为: 公式(2)计算句子中其他单词对某个位。

8、置单词的得分, 该分数决定了编码该单词时对 句子中其他单词的注意程度; softmax层计算公式为: 其中, dk是输入向量的维数; 423)使得出的分数值均为正值且和为1, 决定了每个单词对某位置单词的贡献; 424)多个transformerblock的计算过程: 将上一层transformerblock的输出作为Multi-Head Attention机制的输入, 即 其中, 对于Multi-HeadAttention机制的每个Head的计算输出向量为: HiATTENTION(Q,K,V) 以每个Head的输出Hi为列向量, 将多个Head输出向量联结为以下矩阵: MultiH(Q,K。

9、,V)H1; ; HbWO 其中, WO是关注头的联结输出的输出投影; 425)transformerblock中存在以下变换: 经过以上计算, 最终产生新的三元组 权利要求书 2/2 页 3 CN 111552817 A 3 一种电力科技成果知识图谱补全方法 技术领域 0001 本发明涉及电力科技知识图谱技术领域, 具体来说是一种电力科技成果知识图谱 补全方法。 背景技术 0002 知识图谱的概念最早于2012年由Google公司提出, 在该概念的技术支持上, 搜索 引擎实现了由 “strings” 向 “things” 转变, 这使得机器能够更好地理解得出用户搜索词代 表的真实含义。 知识。

10、图谱这一技术目前已广泛应用于人工智能的多个领域, 包括自动问答、 信息抽取等, 是人工智能研究领域的重要部分, 也是当前各行各业实现更佳数据处理能力 的重要手段。 0003 然而在大规模的知识图谱中, 其知识往往是不完备的, 需要不断地补充其中的实 体关系。 知识图谱补全算法就是在解决知识图谱中的数据稀疏问题, 从而使知识图谱更加 完整。 知识图谱补全方法中常见方法有学习知识嵌入的模型如距离模型、 张量神经网络模 型、 Trans系列模型等。 已成功应用于各种任务, 如图片分类、 神经机器翻译、 文本分类等。 特 别是Trans系列模型结构简单, 不需要依赖于其他的语法树、 外部特征或者知识库。

11、, 具有良 好的泛化性。 0004 电力科技成果知识图谱不同于其他领域的数据库内容, 电力科技成果涉及的学 科、 专业范围过于庞杂, 且随着科学技术的发展不断变化, 不间断地出现新实体和新关系, 是个复杂的知识系统工程。 而大部分知识图谱补全方法存在共同的局限性, 即只能在已知 的知识图谱中的实体和关系基础之上进行补全, 无法自动获取新的实体或关系。 如果直接 应用trans系列模型等方法, 很显然将无法满足电力科技成果知识图谱的自动添加新实体 及新关系的需求, 限制了电力科技成果知识图谱的自动更新和扩展, 造成电力科技成果知 识图谱补全工作呈现低效率、 高计算难度和复杂度的现象, 致使电力科。

12、技成果知识图谱难 以实用。 0005 因此, 如何有效实现电力科技成果知识图谱的有效补全已经成为急需解决的技术 问题。 发明内容 0006 本发明的目的是为了解决现有技术中难以针对电力科技成果知识图谱进行补全 的缺陷, 提供一种电力科技成果知识图谱补全方法来解决上述问题。 0007 为了实现上述目的, 本发明的技术方案如下: 0008 一种电力科技成果知识图谱补全方法, 包括以下步骤: 0009 电力科技成果数据的获取: 获取电力科技成果中文语料库并作预处理, 利用现有 抽取技术从中文语料库中抽取出初始三元组数据; 0010 初始三元组向量化: 将初始三元组数据向量化处理为transforme。

13、r模型能够直接 处理的文本词向量矩阵; 说明书 1/6 页 4 CN 111552817 A 4 0011 设定Transformers模型: 对Transformers模型进行预设定; 0012 生成新的三元组数据: 基于已抽取的初始三元组使用Transformers模型进行建 模, 生成新的三元组; 0013 电力科技成果知识图谱补全结果的获得: 设定生成结果投影至Vocab层, 整理生成 的三元组, 结合初始三元组与新三元组实现知识图谱的补全。 0014 所述初始三元组向量化包括以下步骤: 0015 设定电力科技成果中文语料库中三元组X是由n个单词组成, 其表达式如下: 0016 Xx0。

14、,xi,xn, 0017 其中, 第i个词xi被映射为一个连续且带语义信息的低维稠密实数向量, 对于每个 词有对应的文本词向量矩阵W, 0018 其中V*是词表大小, d是词向量的维度; 0019 将文本词向量矩阵W中每个单词均转换成词向量的表示ei, 其表达式如下: 0020 eiWxi; 0021 将电力科技成果中文语料库中三元组X转化为以下形式: 0022 Ie0,ei,en, 0023 htet+pt, (1) 0024 其中, et是经过t-1时刻转换模型得到的序列中的某个词向量, pt表示t-1时刻转换 模型的某个词向量的位置编码, ht是transformerblock中t时刻的。

15、输入。 0025 所述设定Transformers模型包括以下步骤: 0026 设定输入层: 设定预处理文本数据集将训练文本输送到文本词嵌入层, 将句子转 换成注意力层能够直接处理的文本词向量矩阵; 0027 设定注意力层: 设定注意力机制对输入文本信息的特征矩阵多次计算注意力, 用 以捕获句子的长距离依赖性、 学习不同位置的不同语义空间的序列信息; 0028 设定多层transformerblock计算次数; 0029 设定线性层与softmax层, 对模型的输出结果用线性层将其映射到vocab的维度, 得到每个单词的可能性, 最终经过softmax层输出单词。 0030 所述生成新的三元组。

16、数据包括以下步骤: 0031将电力科技成果中文语料库中三元组向量集合与前一个 transformerblock输出向量相加, 得到三元组向量集合 0032输入至transformerblock中; 0033三元组向量集合 0034 首先经过注意力层的注意力机制, 并相继经过多层transformerblock计算分别得 到向量gl、hl, 具体计算过程如下: 0035 注意力机制的输入, 具体为以下形式: 0036 Ie0,ei,en 0037 QWQI 0038 KWKI 说明书 2/6 页 5 CN 111552817 A 5 0039 VWVI 0040 其中, I是三元组X的向量表示;。

17、 每个单词在注意力机制中的输入为Q、 K、 V,WQ、 WK、 WV 分别为Q、 K、 V的权重; 0041 注意力机制的每个Head计算公式为: 0042 0043 公式(2)计算句子中其他单词对某个位置单词的得分, 该分数决定了编码该单词 时对句子中其他单词的注意程度; 0044 softmax层计算公式为: 0045 0046 其中, dk是输入向量的维数; 0047 使得出的分数值均为正值且和为1, 决定了每个单词对某位置单词的贡献; 0048 多个transformerblock的计算过程: 0049 将上一层transformerblock的输出作为Multi-Head Atten。

18、tion机制的输入, 即 0050 0051 其中, 对于Multi-HeadAttention机制的每个Head的计算输出向量为: 0052 HiATTENTION(Q,K,V) 0053 以每个Head的输出Hi为列向量, 将多个Head输出向量联结为以下矩阵: 0054 MultiH(Q,K,V)H1; ; HbWO 0055 其中, WO是关注头的联结输出的输出投影; 0056 transformerblock中存在以下变换: 0057 0058 0059 0060 0061经过以上计算, 最终产生新的三元组有益效果 0062 本发明的一种电力科技成果知识图谱补全方法, 与现有技术相比。

19、在应对数据稀疏 问题时可以自动挖掘知识图谱中的隐含关系, 弥补了大多数基于表示学习模型完成电力科 技成果知识图谱补全任务耗时耗力的缺点, 极大地提高了电力科技成果知识图谱补全的效 率和质量。 0063 本发明涉及的基于Transformers网络的知识图谱补全算法, 与现有方法使用的神 经网络如RNN相比, 该网络不需要循环计算, 而是直接进行并行处理序列中所有的单词, 同 时借助自注意力机制可以从距离较远的词中提取含义, 使得模型运行速度快且生成三元组 质量高。 本发明可应用于除电力行业的其他行业的行业知识图谱补全, 实现各行各业数据 间的互联互通、 高速反馈, 提供更强有力、 更具价值的技。

20、术支持。 说明书 3/6 页 6 CN 111552817 A 6 附图说明 0064 图1为本发明的方法顺序图。 具体实施方式 0065 为使对本发明的结构特征及所达成的功效有更进一步的了解与认识, 用以较佳的 实施例及附图配合详细的说明, 说明如下: 0066 通常处理Seq2Seq序列问题的解决办法是基于RNN的算法, 但是该算法存在序列依 赖关系, 下一个时间步的隐藏计算依赖于上一步的计算, 限制了模型的并行能力, 且其运算 能力也不是很理想。 基于LSTM模型不能很好地并行, 造成训练的时间往往很长; 基于CNN的 算法也需要增加卷积层数来扩大视野, 同样运算量过于庞大, 无法应用到。

21、电力科技成果知 识图谱。 0067 如图1所示, 本发明所述的一种电力科技成果知识图谱补全方法, 包括以下步骤: 0068 第一步, 电力科技成果数据的获取: 获取电力科技成果中文语料库并作预处理, 利 用现有抽取技术从中文语料库中抽取出初始三元组数据。 0069 第二步, 初始三元组向量化: 将初始三元组数据向量化处理为Transformers模型 能够直接处理的文本词向量矩阵。 其包括以下步骤: 0070 (1)设定电力科技成果中文语料库中三元组X是由n个单词组成, 其表达式如下: 0071 Xx0,xi,xn, 0072 其中, 第i个词xi被映射为一个连续且带语义信息的低维稠密实数向量。

22、, 对于每个 词有对应的文本词向量矩阵W, 0073 其中V*是词表大小, d是词向量的维度; 0074 (2)将文本词向量矩阵W中每个单词均转换成词向量的表示ei, 其表达式如下: ei Wxi; 0075 (3)将电力科技成果中文语料库中三元组X转化为以下形式: 0076 Ie0,ei,en, 0077 htet+pt, (1) 0078 其中, et是经过t-1时刻转换模型得到的序列中的某个词向量, pt表示t-1时刻转换 模型的某个词向量的位置编码, ht是transformerblock中t时刻的输入。 0079 第三步, 设定Transformers模型: 对Transformer。

23、s模型进行预设定。 该模型相较于 其他模型而言, 可在不依赖任何外部数据的情况下, 利用其中多个transformerblock网络 捕获上下文信息和结构信息, 保留原始三元组的特征, 并行处理序列中的所有单词, 自动挖 掘已有数据中的信息, 学习能力更佳, 处理速度更快; 在模型结构设计上, 可自主设计注意 力机制的层数等参数, 更灵活地应对不同的学习任务。 其包括以下步骤: 0080 (1)设定输入层: 设定预处理文本数据集将训练文本输送到文本词嵌入层, 将句子 转换成注意力层能够直接处理的文本词向量矩阵; 0081 (2)设定注意力层: 设定注意力机制对输入文本信息的特征矩阵多次计算注意。

24、力, 用以捕获句子的长距离依赖性、 学习不同位置的不同语义空间的序列信息; 0082 (3)设定多层transformerblock计算次数; 0083 (4)设定线性层与softmax层, 对模型的输出结果用线性层将其映射到vocab的维 说明书 4/6 页 7 CN 111552817 A 7 度, 得到每个单词的可能性, 最终经过softmax层输出单词。 0084 第四步, 生成新的三元组数据: 基于已抽取的初始三元组使用Transformers模型 进行建模, 生成新的三元组。 0085 目前电力科技成果领域数据丰富庞大, 传统模型面对大规模的电力科技成果知识 图谱构建任务, 其需要。

25、计算大量参数, 且需要根据初始语料库更新不断调整参数与模型结 构, 而其生成的新三元组准确率不高。 0086 本发明针对电力科技成果语料的丰富性和庞大性, 设计多层并行处理文本的网络 模型, 运行模型时参数大大减少, 可灵活处理电力科技成果领域的庞大语料库。 同时设计多 层注意力机制将电力科技成果语料做上下文与长距离文本注意, 做到自动挖掘初始数据中 的隐含关系, 生成有意义的正确三元组, 实现电力科技成果知识图谱的补全。 其具体步骤如 下: 0087(1)将电力科技成果中文语料库中三元组向量集合与前一个 transformerblock输出向量相加, 得到三元组向量集合输入 至transfo。

26、rmerblock中。 0088(2)三元组向量集合 0089 首先经过注意力层的注意力机制, 并相继经过多层transformerblock计算分别得 到向量g1、h1, 具体计算过程如下: 0090 A1)注意力机制的输入, 具体为以下形式: 0091 Ie0,ei,en 0092 QWQI 0093 KWKI 0094 VWVI 0095 其中, I是三元组X的向量表示; 每个单词在注意力机制中的输入为Q、 K、 V,WQ、 WK、 WV 分别为Q、 K、 V的权重; 0096 A2)注意力机制的每个Head计算公式为: 0097 0098 公式(2)计算句子中其他单词对某个位置单词的得。

27、分, 该分数决定了编码该单词 时对句子中其他单词的注意程度; 0099 softmax层计算公式为: 0100 0101 其中, dk是输入向量的维数; 0102 A3)使得出的分数值均为正值且和为1, 决定了每个单词对某位置单词的贡献; 0103 A4)多个transformerblock的计算过程: 0104 将上一层transformerblock的输出作为Multi-Head Attention机制的输入, 即 0105 说明书 5/6 页 8 CN 111552817 A 8 0106 其中, 对于Multi-HeadAttention机制的每个Head的计算输出向量为: 0107 。

28、HiATTENTION(Q,K,V) 0108 以每个Head的输出Hi为列向量, 将多个Head输出向量联结为以下矩阵: 0109 MultiH(Q,K,V)H1; ; HbWO 0110 其中, WO是关注头的联结输出的输出投影; 0111 A5)transformerblock中存在以下变换: 0112 0113 0114 0115 0116经过以上计算, 最终产生新的三元组 0117 第五步, 电力科技成果知识图谱补全结果的获得。 设定生成结果投影至Vocab层, 整理生成的三元组, 结合初始三元组与新三元组实现知识图谱的补全。 0118 以上显示和描述了本发明的基本原理、 主要特征和本发明的优点。 本行业的技术 人员应该了解, 本发明不受上述实施例的限制, 上述实施例和说明书中描述的只是本发明 的原理, 在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进, 这些变化和 改进都落入要求保护的本发明的范围内。 本发明要求的保护范围由所附的权利要求书及其 等同物界定。 说明书 6/6 页 9 CN 111552817 A 9 图1 说明书附图 1/1 页 10 CN 111552817 A 10 。

展开阅读全文
内容关键字: 电力 科技成果 知识 图谱 方法
关于本文
本文标题:电力科技成果知识图谱补全方法.pdf
链接地址:https://www.zhuanlichaxun.net/pdf/10510459.html
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1