医疗术语知识库完善的方法和装置.pdf

上传人:倪** 文档编号:11114978 上传时间:2021-09-04 格式:PDF 页数:14 大小:906.44KB
收藏 版权申诉 举报 下载
医疗术语知识库完善的方法和装置.pdf_第1页
第1页 / 共14页
医疗术语知识库完善的方法和装置.pdf_第2页
第2页 / 共14页
医疗术语知识库完善的方法和装置.pdf_第3页
第3页 / 共14页
文档描述:

《医疗术语知识库完善的方法和装置.pdf》由会员分享,可在线阅读,更多相关《医疗术语知识库完善的方法和装置.pdf(14页完成版)》请在专利查询网上搜索。

1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 201910775383.2 (22)申请日 2019.08.21 (71)申请人 华东理工大学 地址 200237 上海市徐汇区梅陇路130号 申请人 上海申康医院发展中心 (72)发明人 叶琪张佳影何萍阮彤 张知行张欢欢马致远 (51)Int.Cl. G06F 17/27(2006.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种医疗术语知识库完善的方法和装置 (57)摘要 本发明属于计算机应用领域, 公开了一种医 疗。

2、术语知识库完善的方法。 所述方法包括: 从医 疗术语集合中提取任意一个术语作为候选术语, 然后从医疗术语知识库中任意提取一个术语构 成术语对集; 抽取所述术语对集中的任意一个术 语对, 计算术语对的相关性; 将术语对集中所有 术语对的相关性排序, 按相关性排序的结果将术 语对作为同义词融合进入所述医疗术语知识库。 实验表明, 采用本发明实施例, 可以准确地进行 术语对齐, 有效地完善知识库。 权利要求书3页 说明书7页 附图3页 CN 110580339 A 2019.12.17 CN 110580339 A 1.一种医疗术语知识库完善的方法, 其特征在于, 所述方法包括: 从至少包含医疗术语。

3、的术语集合S中提取任意一个术语作为候选术语, 然后从医疗术 语知识库KB中任意提取一个术语, 将所述候选术语与医疗术语库中提取的每个术语构成术 语对集, 所述医疗术语知识库由医疗领域中标准的术语、 术语的同义词关系、 上下位词关系 构成; 抽取所述术语对集中的任意一个术语对, 计算所述术语对的相关性; 将所述术语对集中所有术语对的相关性排序, 按相关性排序的结果将术语对作为同义 词融合进入所述医疗术语知识库。 2.根据权利要求1所述的方法, 其特征在于, 计算所述术语对的相关性的过程包括: 将所述术语对输入到BERT模型计算得到所述语义相关性表示和训练后的BERT模型, 所 述语义相关性表示是。

4、融合语义信息的知识表示; 将所述术语对中的两个术语分别输入到所述训练后的BERT模型得到两个术语的初始 表示, 然后将两个术语的初始表示再分别输入GCN模型获得两个术语的结构信息的表示, 再 把两个术语的结构表示点积得到最终的术语对的结构相关性表示, 所述结构相关性表示是 融合结构信息的知识表示; 将所述语义相关性表示和所述结构相关性表示融合得到术语对的术语相关性。 3.根据权利要求2所述的方法, 其特征在于, 将所述术语对输入到BERT模型计算得到所 述语义相关性表示, 所述语义相关性表示是融合语义信息的知识表示, 包括: 将术语对中的医疗术语知识库KB的实体ei和候选术语sj输入被合并为序。

5、列CLSx SEPySEP, 其中xsj, yei, 其中, 序列中每一个字符的特征向量都由它所对应的字向 量、 分割向量和位置向量累加求和得到; 将所述序列送入BERT模型进行训练, BERT模型由多个双向Transformer的编码器构成, 并根据第l层的输出来计算第l+1层, 公式如下: 其中, MhAtt()为多头自注意力机制, LayerNorm()为层标准化方法, x+表示选择0 和x中的最大值; 损失函数为: 其中, yse为ei和sj是否为同义词的真实标签, 为预测标签; 最后取出符号CLS的特征向量作为所述语义相关性表示。 4.根据权利要求2所述的方法, 其特征在于, 两个术。

6、语的初始表示再分别输入GCN模型 获得两个术语的结构信息的表示, 包括: 计算节点特征向量H, 其中H(0)由所述训练后的BERT模型, 然后将输入序列转换为 CLSxSEPSEP, 并使xsj, xei, 然后取出符号CLS的向量表示分别得到了ei和sj 初始化节点特征向量; 计算邻接矩阵A, 其中所述医疗术语知识库KB的邻接矩阵为: 如果ei到ej之间存在边, Aij 权利要求书 1/3 页 2 CN 110580339 A 2 就置为1, 术语集S的邻接矩阵为一个全零矩阵, 表示候选术语之间没有边; 通过GCN分别得到ei和sj两个术语的结构信息的表示, 其中, GCN包含l层, 每一层。

7、需要2 个输入, 分别是所述节点特征矩阵H和所述邻接矩阵A, 隐层计算方式如下: 其中, ()为非线性激活函数; 为对角矩阵,A为nn的邻接 矩阵, I为单位矩阵; W(l)为第l层的权重矩阵; 损失函数采用最大间隔损失, 公式为: 其中, P+为预对齐的同义词术语对集合, P-为非同义词术语对集合; D(ei, sj)|ei-sj| |n, 表示距离函数为n阶矩; 被设置为正例距离和负例距离之间间隔大小的超参数。 5.根据权利要求2所述的方法, 其特征在于, 将所述语义相关性表示和所述结构相关性 表示融合得到术语对的术语相关性, 包括: 采用全连接模型融合所述语义相关性表示Xse和所述结构相。

8、关性Xst, 公式如下: H(0)Xse; Xst H(f)sigmoid(W(f-1)H(f-1)+b(f-1) 其中, H(0)为模型的输入, H(f)为模型的输出; 损失函数是二元交叉熵, 公式如下: 其中, yin为ei和sj是否为同义词的真实标签, 为预测标签。 6.一种医疗术语知识库库完善的装置, 其特征在于, 所述方法包括: 输入模块, 用于从至少包含医疗术语的术语集合中提取任意一个术语作为候选术语, 然后从医疗术语知识库中任意提取一个术语, 将所述候选术语与医疗术语库中提取的每个 术语构成术语对集, 所述医疗术语知识库由医疗领域中标准的术语、 术语的同义词关系、 上 下位词关系。

9、构成; 计算模块, 用于计算输入模块中得到术语对集中的所述术语对的相关性; 融合模块, 用于将计算模块得到的所有术语对的相关性排序, 按相关性排序的结果将 术语对作为同义词融合进入所述医疗术语知识库。 7.根据权利要求6所述的方法, 其特征在于, 计算模块包括: 语义相关性表示计算模块, 用于将所述术语对输入到BERT模型计算得到所述语义相关 性表示和训练后的BERT模型, 所述语义相关性表示是融合语义信息的知识表示; 结构相关性表示计算模块, 将所述术语对中的两个术语分别输入到所述训练后的BERT 模型得到两个术语的初始表示, 然后将两个术语的初始表示再分别输入GCN模型获得两个 术语的结构。

10、信息的表示, 再把两个术语的结构表示点积得到最终的术语对的结构相关性表 示, 所述结构相关性表示是融合结构信息的知识表示; 权利要求书 2/3 页 3 CN 110580339 A 3 术语相关性融合模块, 用于将语义相关性表示计算模块输出的所述语义相关性表示结 果与结构相关性表示计算模块输出的所述结构相关性表示进行融合, 得到术语对的术语相 关性。 权利要求书 3/3 页 4 CN 110580339 A 4 一种医疗术语知识库完善的方法和装置 技术领域 0001 本发明属于医疗信息处理领域, 更为具体地, 尤其涉及一种医疗术语知识库完善 的方法。 背景技术 0002 目前, 临床术语知识库。

11、被广泛应用于临床领域。 然而, 临床术语库无法一次构建完 成, 需要不断地完善。 主要包括两方面的原因: 术语重命名和添加同义词。 一方面由于标准 术语名称不是永久性的, 会随着时间的推移被更准确的名称所代替。 例如, 在静脉全血样本 中, 临床指标 “血色素” 曾经是中文中 “血红蛋白” (血红蛋白, HGB)的传统名称。 另一方面, 由 于不同地区的各家医院, 都有相同术语的不同名称, 并且不可能同时将所有同义词合并到 一个KB中。 例如, 从不同医院收集的静脉血清标本中, 临床指标 “泌乳素” (催乳素, PRL)可能 有多个同义名, 例如 “催乳素” (lactogen),“垂体泌乳素。

12、” (垂体催乳素),“泌乳素测定” 等。 图1给出医疗术语知识库完善的实例。 0003 目前, 医疗术语知识库的完善主要是利用基于嵌入(embedding)的方法进行实体 对齐, 例如朱等人在2017年IJCAI(International Joint Conference on Artificial Intelligence)国际会议的论文 “Iterative entity alignment via joint knowledge embeddings” 中提出的一种迭代和参数共享方法, 利用TransE和PTransE对异构知识库的实 体和关系进行编码, 以获得知识嵌入, 并将这些嵌入。

13、连接到一个统一的语义空间。 张等人在 2019年IJCAI(International Joint Conference on Artificial Intelligence)国际会 议的论文 “Multi-view knowledge graph embedding for entity alignment” 给出了一种 多视图嵌入方法, 该方法的视图包括名称视图, 关系视图和属性视图, 通过Skip-gram、 TransE和卷积神经网络学习它们的嵌入, 然后再进行实体对齐。 但这些方法主要存在两方 面的不足: (1)现有方法是针对不同知识库的融合, 无法将一组术语与知识库进行对齐; (2。

14、) 现有方法中语义信息不足。 发明内容 0004 有鉴于此, 本发明公开了一种医疗术语知识库完善的方法和装置。 其具体方案如 下: 0005 首先, 从术语集合S中提取任意一个术语作为候选术语, 然后从医疗术语知识库KB 中任意提取一个术语, 将所述候选术语与医疗术语库中提取的每个术语构成术语对集, 所 述医疗术语知识库由医疗领域中标准的术语、 术语的同义词关系、 上下位词关系构成; 接 着, 抽取所述术语对集中的任意一个术语对, 计算所述术语对的相关性; 最后, 将所述术语 对集中所有术语对的相关性排序, 按相关性排序的结果将术语对作为同义词融合进入所述 医疗术语知识库。 0006 在其中的。

15、一实施例, 计算所述术语对的相关性的过程包括: 将术语对输入到BERT 模型计算得到所述语义相关性表示和训练后的BERT模型, 所述语义相关性表示是融合语义 说明书 1/7 页 5 CN 110580339 A 5 信息的知识表示; 将所述术语对中的两个术语分别输入到所述训练后的BERT模型得到两个 术语的初始表示, 然后将两个术语的初始表示再分别输入GCN模型获得两个术语的结构信 息的表示, 再把两个术语的结构表示点积得到最终的术语对的结构相关性表示, 所述结构 相关性表示是融合结构信息的知识表示; 将所述语义相关性表示和所述结构相关性表示融 合得到术语对的术语相关性。 0007 其中, 将。

16、所述术语对输入到BERT模型计算得到所述语义相关性表示, 所述语义相 关性表示是融合语义信息的知识表示, 包括: 0008 将术语对中的医疗术语知识库KB的实体ei和候选术语sj输入被合并为序列CLS xSEPySEP, 其中xsj, yei, 其中, 序列中每一个字符的特征向量都由它所对应的字 向量、 分割向量和位置向量累加求和得到; 0009 将所述序列送入BERT模型进行训练, BERT模型由多个双向Transformer的编码器 构成, 并根据第l层的输出来计算第l+1层, 公式如下: 0010 0011 0012 其中, MhAtt()为多头自注意力机制, LayerNorm()为层。

17、标准化方法, x+表示 选择0和x中的最大值; 0013 损失函数为: 0014 0015其中, yse为ei和sj是否为同义词的真实标签,为预测标签; 0016 最后取出符号CLS的特征向量作为所述语义相关性表示。 0017 进一步, 两个术语的初始表示再分别输入GCN模型获得两个术语的结构信息的表 示, 包括: 0018 计算节点特征向量H, 其中H(0)由所述训练后的BERT模型, 然后将输入序列转换为 CLSxSEPSEP, 并使xsj, xei, 然后取出符号CLS的向量表示分别得到了ei和sj 初始化节点特征向量; 0019 计算邻接矩阵A, 其中所述医疗术语知识库KB的邻接矩阵为。

18、: 如果ei到ej之间存在 边, Aij就置为1, 术语集S的邻接矩阵为一个全零矩阵, 表示候选术语之间没有边; 0020 通过GCN分别得到ei和sj两个术语的结构信息的表示, 其中, GCN包含l层, 每一层需 要2个输入, 分别是所述节点特征矩阵H和所述邻接矩阵A, 隐层计算方式如下: 0021 0022其中, ()为非线性激活函数; 为对角矩阵,A为n n的邻接矩阵, I为单位矩阵; W(l)为第l层的权重矩阵; 0023 损失函数采用最大间隔损失, 公式为: 说明书 2/7 页 6 CN 110580339 A 6 0024 0025 其中, P+为预对齐的同义词术语对集合, P-为。

19、非同义词术语对集合; D(ei, sj)| ei-sj|n, 表示距离函数为n阶矩; 被设置为正例距离和负例距离之间间隔大小的超参数。 0026 进一步, 将所述语义相关性表示和所述结构相关性表示融合得到术语对的术语相 关性, 包括: 0027 采用全连接模型融合所述语义相关性表示Xse和所述结构相关性Xst, 公式如下: 0028 H(0)Xse; Xst 0029 0030 0031 H(f)sigmoid(W(f-1)H(f-1)+b(f-1) 0032 其中, H(0)为模型的输入, H(f)为模型的输出; 0033 损失函数是二元交叉熵, 公式如下: 0034 0035其中, yin。

20、为ei和sj是否为同义词的真实标签,为预测标签。 0036 本发明还公开了一种医疗术语知识库库完善的装置, 包括: 0037 输入模块, 用于从至少包含医疗术语的术语集合中提取任意一个术语作为候选术 语, 然后从医疗术语知识库中任意提取一个术语, 将所述候选术语与医疗术语库中提取的 每个术语构成术语对集, 所述医疗术语知识库由医疗领域中标准的术语、 术语的同义词关 系、 上下位词关系构成; 0038 计算模块, 用于计算输入模块中得到术语对集中的所述术语对的相关性; 0039 融合模块, 用于将计算模块得到的所有术语对的相关性排序, 按相关性排序的结 果将术语对作为同义词融合进入所述医疗术语知。

21、识库。 0040 其中, 计算模块包括: 0041 语义相关性表示计算模块, 用于将所述术语对输入到BERT模型计算得到所述语义 相关性表示和训练后的BERT模型, 所述语义相关性表示是融合语义信息的知识表示; 0042 结构相关性表示计算模块, 将所述术语对中的两个术语分别输入到所述训练后的 BERT模型得到两个术语的初始表示, 然后将两个术语的初始表示再分别输入GCN模型获得 两个术语的结构信息的表示, 再把两个术语的结构表示点积得到最终的术语对的结构相关 性表示, 所述结构相关性表示是融合结构信息的知识表示; 0043 术语相关性融合模块, 用于将语义相关性表示计算模块输出的所述语义相关。

22、性表 示结果与结构相关性表示计算模块输出的所述结构相关性表示进行融合, 得到术语对的术 语相关性。 0044 从以上技术方案可以看出, 本申请实施例具有以下优点: (1)能满足一组术语与知 识库进行对齐的需求; (2)使用预先训练的语言模型同时热启动知识库嵌入、 并增强语义信 息, 使得对齐结果更准确。 实验表明, 本发明公开的方法实体对齐的准确性更高, 完善知识 说明书 3/7 页 7 CN 110580339 A 7 库效果更优。 附图说明 0045 读者在参照附图阅读了本发明的具体实施方式以后, 将会更清楚地了解本发明的 各个方面。 其中, 0046 图1示出依据本发明的医疗术语完善的实。

23、例; 0047 图2示出依据本发明的一实施方式, 基于医疗术语知识库完善的方法的流程图; 0048 图3示出依据本发明的另一实施方式, 基于医疗术语知识库完善的方法的示意图; 0049 图4示出依据本发明的另一实施方式, BERT模型的示意图; 0050 图5示出依据本发明的另一实施方式, GCN模型的示意图。 具体实施方式 0051 参照图2, 图2为本申请实施提供的一种医疗术语知识库完善的方法的流程图, 在 该实施方式中, 包括以下步骤: 0052 步骤S1, 从术语集合S中提取任意一个术语作为候选术语, 然后从医疗术语知识库 KB中任意提取一个术语, 将所述候选术语与医疗术语库中提取的每。

24、个术语构成术语对集, 所述医疗术语知识库由医疗领域中标准的术语、 术语的同义词关系、 上下位词关系构成; 0053 步骤S2, 抽取所述术语对集中的任意一个术语对, 计算所述术语对的相关性; 0054 步骤S3, 将所述术语对集中所有术语对的相关性排序, 按相关性排序的结果将术 语对作为同义词融合进入所述医疗术语知识库。 0055 参照图3, 图3为本申请实施提供的一种医疗术语知识库完善的方法的示意图。 在 该实施方式中, 计算所述术语对的相关性的过程包括: 0056 将术语对输入到BERT模型计算得到所述语义相关性表示和训练后的BERT模型, 所 述语义相关性表示是融合语义信息的知识表示; 。

25、0057 将所述术语对中的两个术语分别输入到所述训练后的BERT模型得到两个术语的 初始表示, 然后将两个术语的初始表示再分别输入GCN模型获得两个术语的结构信息的表 示, 再把两个术语的结构表示点积得到最终的术语对的结构相关性表示, 所述结构相关性 表示是融合结构信息的知识表示; 0058 将所述语义相关性表示和所述结构相关性表示融合得到术语对的术语相关性。 0059 为了充分利用无监督预训练和有监督训练数据, 从而更好地丰富训练内容, 本发 明提供另一实施例。 参照图4, 在该实施方式中, 将所述术语对输入到BERT模型计算得到所 述语义相关性表示, 所述语义相关性表示是融合语义信息的知识。

26、表示, 包括: 0060 将术语对中的医疗术语知识库KB的实体ei和候选术语sj输入被合并为序列CLS xSEPySEP, 其中xsj, yei, 其中, 序列中每一个字符的特征向量都由它所对应的字 向量、 分割向量和位置向量累加求和得到; 0061 将所述序列送入BERT模型进行训练, BERT模型由多个双向Transformer的编码器 构成, 并根据第l层的输出来计算第l+1层, 公式如下: 0062 说明书 4/7 页 8 CN 110580339 A 8 0063 0064 其中, MhAtt()为多头自注意力机制, LayerNorm()为层标准化方法, x+表示 选择0和x中的最。

27、大值; 0065 损失函数为: 0066 0067其中, yse为ei和sj是否为同义词的真实标签,为预测标签; 0068 最后取出符号CLS的特征向量作为所述语义相关性表示。 0069 参照图5, 在该实施方式中, 两个术语的初始表示再分别输入GCN模型获得两个术 语的结构信息的表示, 包括: 0070 计算节点特征向量H, 其中H(0)由所述训练后的BERT模型, 然后将输入序列转换为 CLSxSEPSEP, 并使xsj, xei, 然后取出符号CLS的向量表示分别得到了ei和sj 初始化节点特征向量; 0071 计算邻接矩阵A, 其中所述医疗术语知识库KB的邻接矩阵为: 如果ei到ej之。

28、间存在 边, Aij就置为1, 术语集S的邻接矩阵为一个全零矩阵, 表示候选术语之间没有边; 0072 通过GCN分别得到ei和sj两个术语的结构信息的表示, 其中, GCN包含l层, 每一层需 要2个输入, 分别是所述节点特征矩阵H和所述邻接矩阵A, 隐层计算方式如下: 0073 0074其中, ()为非线性激活函数; 为对角矩阵,A为n n的邻接矩阵, I为单位矩阵; W(l)为第l层的权重矩阵; 0075 损失函数采用最大间隔损失, 公式为: 0076 0077 其中, P+为预对齐的同义词术语对集合, P-为非同义词术语对集合; D(ei, sj)| ei-sj|n, 表示距离函数为n。

29、阶矩; 被设置为正例距离和负例距离之间间隔大小的超参数。 0078 进一步, 将所述语义相关性表示和所述结构相关性表示融合得到术语对的术语相 关性, 包括: 0079 采用全连接模型融合所述语义相关性表示Xse和所述结构相关性Xst, 公式如下: 0080 H(0)Xse; Xst 0081 0082 0083 H(f)sigmoid(W(f-1)H(f-1)+b(f-1) 0084 其中, H(0)为模型的输入, H(f)为模型的输出; 0085 损失函数是二元交叉熵, 公式如下: 说明书 5/7 页 9 CN 110580339 A 9 0086 0087其中, yin为ei和sj是否为同。

30、义词的真实标签,为预测标签。 0088 此外, 本发明还公开了一种医疗术语知识库库完善的装置, 包括: 0089 输入模块, 用于从至少包含医疗术语的术语集合中提取任意一个术语作为候选术 语, 然后从医疗术语知识库中任意提取一个术语, 将所述候选术语与医疗术语库中提取的 每个术语构成术语对集, 所述医疗术语知识库由医疗领域中标准的术语、 术语的同义词关 系、 上下位词关系构成; 0090 计算模块, 用于计算输入模块中得到术语对集中的所述术语对的相关性; 0091 融合模块, 用于将计算模块得到的所有术语对的相关性排序, 按相关性排序的结 果将术语对作为同义词融合进入所述医疗术语知识库。 00。

31、92 其中, 计算模块包括: 0093 语义相关性表示计算模块, 用于将所述术语对输入到BERT模型计算得到所述语义 相关性表示和训练后的BERT模型, 所述语义相关性表示是融合语义信息的知识表示; 0094 结构相关性表示计算模块, 将所述术语对中的两个术语分别输入到所述训练后的 BERT模型得到两个术语的初始表示, 然后将两个术语的初始表示再分别输入GCN模型获得 两个术语的结构信息的表示, 再把两个术语的结构表示点积得到最终的术语对的结构相关 性表示, 所述结构相关性表示是融合结构信息的知识表示; 0095 术语相关性融合模块, 用于将语义相关性表示计算模块输出的所述语义相关性表 示结果。

32、与结构相关性表示计算模块输出的所述结构相关性表示进行融合, 得到术语对的术 语相关性。 0096 本发明的实验结果如表1所示, 结果显示本发明的实施例具有更高的Hits1、 Hits5、 Hits10值。 0097 表1 0098 方法Hits1Hits5Hits10 基本方法20.1050.9263.96 本发明的方法59.5884.0187.63 0099 本发明实施例实验结果如表2所示, 本发明中的技术特征是不可或缺的, 缺少 BERT、 缺少GCN、 没有BERT情况下随机生成GCN表示、 忽略fine-tuning过程时, Hits1、 Hits 5、 Hits10值均低于本发明的方。

33、法。 0100 表2 0101 组件Hits1Hits5Hits10 本发明的方法59.5884.0187.63 无BERT40.2468.1172.85 无GCN52.8881.6086.69 无BERT初始化, 随机GCN49.0481.6986.78 无fine-tuning过程56.4183.1187.32 0102 本发明的领域中的普通技术人员能够理解, 在不偏离本发明的精神和范围的情况 下, 还可以对本发明的具体实施方式作各种变更和替换。 这些变更和替换都落在本发明权 说明书 6/7 页 10 CN 110580339 A 10 利要求书所限定的范围内。 说明书 7/7 页 11 CN 110580339 A 11 图1 图2 说明书附图 1/3 页 12 CN 110580339 A 12 图3 图4 说明书附图 2/3 页 13 CN 110580339 A 13 图5 说明书附图 3/3 页 14 CN 110580339 A 14 。

展开阅读全文
内容关键字: 医疗 术语 知识库 完善 方法 装置
关于本文
本文标题:医疗术语知识库完善的方法和装置.pdf
链接地址:https://www.zhuanlichaxun.net/pdf/11114978.html
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1