用于实体识别和实体消歧的联合训练方法、装置及介质.pdf
《用于实体识别和实体消歧的联合训练方法、装置及介质.pdf》由会员分享,可在线阅读,更多相关《用于实体识别和实体消歧的联合训练方法、装置及介质.pdf(21页完成版)》请在专利查询网上搜索。
1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 201911094561.1 (22)申请日 2019.11.11 (71)申请人 中山大学 地址 510275 广东省广州市海珠区新港西 路135号 (72)发明人 任江涛高海洋 (74)专利代理机构 深圳市赢源知识产权代理事 务所(普通合伙) 44590 代理人 胡明苏迎 (51)Int.Cl. G06F 40/295(2020.01) G06F 40/30(2020.01) (54)发明名称 用于实体识别和实体消歧的联合训练方法、 装置及介质 (57)摘要 本发明公开了一种。
2、用于实体识别和实体消 歧的联合训练方法、 装置及介质, 所述方法包括: 基于实体识别模型, 对文本进行命名实体识别, 得到待消歧实体; 在已构建的知识库中, 进行待 消歧实体的实体映射, 得到用于实体消歧的候选 实体; 将待消歧实体和候选实体输入实体消歧模 型进行实体预测, 得到消歧实体, 并根据消歧实 体调整实体消歧模型的第一参数; 通过实体识别 模型中增设的实体注意力机制层, 将消歧实体反 馈给实体识别模型, 并根据消歧实体调整实体识 别模型的第二参数; 当第一参数和第二参数使得 第一、 第二损失函数的损失值之和满足最小化条 件, 则联合训练完成。 采用本发明解决了现有技 术中单模型学习中。
3、实体识别和实体消歧的准确 率不高的问题。 权利要求书2页 说明书12页 附图6页 CN 110852108 A 2020.02.28 CN 110852108 A 1.一种用于实体识别和实体消歧的联合训练方法, 其特征在于, 包括: 基于实体识别模型, 对训练数据集合中的文本进行命名实体识别, 得到待消歧实体; 在已构建的知识库中, 进行所述待消歧实体的实体映射, 得到用于实体消歧的候选实 体; 将所述待消歧实体和所述候选实体输入实体消歧模型进行实体预测, 得到消歧实体, 并根据所述消歧实体调整所述实体消歧模型的第一参数; 通过所述实体识别模型中增设的实体注意力机制层, 将所述消歧实体反馈给所。
4、述实体 识别模型, 并根据所述消歧实体调整所述实体识别模型的第二参数; 当调整后的第一参数和调整后的第二参数, 使得第一损失函数的损失值与第二损失函 数的损失值之和满足最小化条件, 则用于实体识别和实体消歧的联合训练完成, 所述第一 损失函数对应于所述实体消歧模型, 所述第二损失函数对应于所述实体识别模型。 2.如权利要求1所述的方法, 其特征在于, 所述文本包括已标注边界的无歧义实体; 所述根据所述消歧实体调整所述实体消歧模型的第一参数, 或者, 所述根据所述消歧 实体调整所述实体识别模型的第二参数, 包括: 计算所述消歧实体与所述无歧义实体之间的误差; 根据所述误差调整所述实体消歧模型的第。
5、一参数, 或者, 所述实体识别模型的第二参 数。 3.如权利要求1所述的方法, 其特征在于, 所述方法还包括: 当调整后的第一参数和调整后的第二参数, 未使得第一损失函数的损失值与第二损失 函数的损失值之和满足最小化条件, 则从所述训练数据集合中获取区别于所述文本的另一 条文本, 并基于所述另一条文本再次启动用于实体识别和实体消歧的联合训练。 4.如权利要求1至3任一项所述的方法, 其特征在于, 所述实体识别模型还包括编码层、 嵌入层、 双向长短时记忆层、 自注意力机制层和条件随机场层; 所述基于实体识别模型, 对训练数据集合中的文本进行命名实体识别, 得到待消歧实 体, 包括: 将所述文本输。
6、入所述编码层进行字级别编码, 得到所述文本的数字编码; 通过所述嵌入层, 对所述文本的数字编码进行字向量初始化, 得到所述文本的字向量 序列; 在所述双向长短时记忆层和所述自注意力机制层中, 依次对所述文本的字向量序列进 行特征提取; 将提取到的特征输入所述条件随机场层进行实体标签预测, 得到所述待消歧实体。 5.如权利要求1至3任一项所述的方法, 其特征在于, 所述在已构建的知识库中, 进行所 述待消歧实体的实体映射, 得到用于实体消歧的候选实体, 包括: 基于所述知识库中的标准实体, 在所述知识库中搜索与所述待消歧实体相似的标准实 体; 计算搜索到的标准实体与所述待消歧实体之间的相似度; 。
7、根据计算得到的相似度, 由搜索到的标准实体筛选得到用于实体消歧的所述候选实 体。 6.如权利要求1至3任一项所述的方法, 其特征在于, 所述实体消歧模型包括相似度计 权利要求书 1/2 页 2 CN 110852108 A 2 算层、 前馈神经网络层和预测输出层; 所述将所述待消歧实体和所述候选实体输入实体消歧模型进行实体预测, 得到消歧实 体, 包括: 通过所述相似度计算层, 计算所述候选实体与所述待消歧实体之间的相似度, 并根据 计算得到的相似度确定所述候选实体的第一分数; 在所述前馈神经网络层中, 计算所述候选实体与所述待消歧实体之间的先验概率, 并 根据计算得到的先验概率确定所述候选实。
8、体的第二分数; 根据所述候选实体的第一分数和第二分数确定所述候选实体的综合分数, 将综合分数 最高的候选实体作为所述消歧实体从所述预测输出层输出, 并反馈至所述实体注意力机制 层。 7.如权利要求1至3任一项所述的方法, 其特征在于, 所述基于实体识别模型, 对训练数 据集合中的文本进行命名实体识别, 得到待消歧实体之前, 所述方法还包括: 构建所述训练数据集合, 所述训练数据集合包括多条携带标签的文本, 所述标签用于 标注文本中实体的边界。 8.一种用于实体识别和实体消歧的联合训练装置, 其特征在于, 包括: 实体识别模块, 用于基于实体识别模型, 对训练数据集合中的文本进行命名实体识别, 。
9、得到待消歧实体; 实体映射模块, 用于在已构建的知识库中, 进行所述待消歧实体的实体映射, 得到用于 实体消歧的候选实体; 实体预测模块, 用于将所述待消歧实体和所述候选实体输入实体消歧模型进行实体预 测, 得到消歧实体, 并根据所述消歧实体调整所述实体消歧模型的第一参数; 实体反馈模块, 用于通过所述实体识别模型中增设的实体注意力机制层, 将所述消歧 实体反馈给所述实体识别模型, 并根据所述消歧实体调整所述实体识别模型的第二参数; 联合训练判断模块, 用于当调整后的第一参数和调整后的第二参数, 使得第一损失函 数的损失值与第二损失函数的损失值之和满足最小化条件, 则用于实体识别和实体消歧的 。
10、联合训练完成。 9.一种用于实体识别和实体消歧的联合训练装置, 其特征在于, 包括: 处理器; 及存储器, 所述存储器上存储有计算机可读指令, 所述计算机可读指令被所述 处理器执行时实现如权利要求1至7中任一项所述的用于实体识别和实体消歧的联合训练 方法。 10.一种存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序被处理器执 行时实现如权利要求1至7中任一项所述的用于实体识别和实体消歧的联合训练方法。 权利要求书 2/2 页 3 CN 110852108 A 3 用于实体识别和实体消歧的联合训练方法、 装置及介质 技术领域 0001 本发明涉及信息检索技术领域, 尤其涉及一种用。
11、于实体识别和实体消歧的联合训 练方法、 装置及介质。 背景技术 0002 在文本大数据的时代, 海量的文本都有待利用。 在自然语言处理领域, 我们通过挖 掘文本中蕴藏的语义信息, 让机器可以学习到文本的语义知识, 从而理解文本内容。 在此过 程中, 识别文本中的实体(mention), 如人名、 地名、 组织结构, 并对实体进行消歧, 以消除文 本句子中的歧义, 这是让机器理解文本内容的重要步骤。 0003 目前, 基于单模型学习, 在实体识别阶段, 加入了很多人工操作来对文本中潜在的 实体进行发掘, 并通过语义模板的设置来得到文本中的待消歧实体, 而在实体消歧阶段, 默 认前述实体识别的准确。
12、性, 这不仅存在实体识别的准确性不可靠, 且明显低效的问题, 而且 由于未能确保实体识别的准确性, 也将难以保证实体消歧的准确性。 0004 由此可知, 单模型学习中的实体识别和实体消歧仍存在准确率不高的问题。 发明内容 0005 本发明各实施例提供一种用于实体识别和实体消歧的联合训练方法、 装置及介 质, 以解决相关技术中存在的单模型学习中实体识别和实体消歧准确率不高的问题。 0006 其中, 本发明所采用的技术方案为: 0007 根据本发明的一个方面, 一种用于实体识别和实体消歧的联合训练方法, 包括: 基 于实体识别模型, 对训练数据集合中的文本进行命名实体识别, 得到待消歧实体; 在已。
13、构建 的知识库中, 进行所述待消歧实体的实体映射, 得到用于实体消歧的候选实体; 将所述待消 歧实体和所述候选实体输入实体消歧模型进行实体预测, 得到消歧实体, 并根据所述消歧 实体调整所述实体消歧模型的第一参数; 通过所述实体识别模型中增设的实体注意力机制 层, 将所述消歧实体反馈给所述实体识别模型, 并根据所述消歧实体调整所述实体识别模 型的第二参数; 当调整后的第一参数和调整后的第二参数, 使得第一损失函数的损失值与 第二损失函数的损失值之和满足最小化条件, 则用于实体识别和实体消歧的联合训练完 成, 所述第一损失函数对应于所述实体消歧模型, 所述第二损失函数对应于所述实体识别 模型。 。
14、0008 根据本发明的一个方面, 一种用于实体识别和实体消歧的联合训练装置, 包括: 实 体识别模块, 用于基于实体识别模型, 对训练数据集合中的文本进行命名实体识别, 得到待 消歧实体; 实体映射模块, 用于在已构建的知识库中, 进行所述待消歧实体的实体映射, 得 到用于实体消歧的候选实体; 实体预测模块, 用于将所述待消歧实体和所述候选实体输入 实体消歧模型进行实体预测, 得到消歧实体, 并根据所述消歧实体调整所述实体消歧模型 的第一参数; 实体反馈模块, 用于通过所述实体识别模型中增设的实体注意力机制层, 将所 述消歧实体反馈给所述实体识别模型, 并根据所述消歧实体调整所述实体识别模型的。
15、第二 说明书 1/12 页 4 CN 110852108 A 4 参数; 联合训练判断模块, 用于当调整后的第一参数和调整后的第二参数, 使得第一损失函 数的损失值与第二损失函数的损失值之和满足最小化条件, 则用于实体识别和实体消歧的 联合训练完成。 0009 根据本发明的一个方面, 一种用于实体识别和实体消歧的联合训练装置, 包括处 理器及存储器, 所述存储器上存储有计算机可读指令, 所述计算机可读指令被所述处理器 执行时实现如上所述的用于实体识别和实体消歧的联合训练方法。 0010 根据本发明的一个方面, 一种存储介质, 其上存储有计算机程序, 所述计算机程序 被处理器执行时实现如上所述的。
16、用于实体识别和实体消歧的联合训练方法。 0011 在上述技术方案中, 在实体识别阶段, 基于命名实体识别和实体映射, 得到待消歧 实体及其对应的候选实体, 在实体消歧阶段, 基于实体消歧模型, 由待消歧实体及其对应的 候选实体预测得到消歧实体, 再通过实体识别模型中增设的实体注意力机制层, 将消歧实 体反馈给实体识别模型, 在此过程中, 根据消歧实体分别调整实体消歧模型的第一参数和 实体识别模型的第二参数, 以在调整后的第一参数和调整后的第二参数使得第一损失函数 的损失值和第二损失函数的损失值之和满足最小化条件时, 停止用于实体识别和实体消歧 的联合训练, 由此, 对于实体消歧阶段而言, 利用。
17、了实体识别阶段输出的待消歧实体和候选 实体, 对于实体识别阶段而言, 则利用了实体消歧阶段输出的消歧实体, 使得实体识别和实 体消歧得以相互补充, 不仅运用实体消歧反向增强了实体识别的准确性, 而且更好地实体 识别也能够提升实体消歧的准确性, 从而解决的现有技术中存在的单模型学习中实体识别 和实体消歧的准确率不高的问题。 0012 应当理解的是, 以上的一般描述和后文的细节描述仅是示例性和解释性的, 并不 能限制本发明。 附图说明 0013 此处的附图被并入说明书中并构成本说明书的一部分, 示出了符合本发明的实施 例, 并于说明书一起用于解释本发明的原理。 0014 图1是根据一示例性实施例示。
18、出的一种服务器的硬件结构框图。 0015 图2是根据一示例性实施例示出的一种用于实体识别和实体消歧的联合训练方法 的流程图。 0016 图3是根据一示例性实施例示出的另一种用于实体识别和实体消歧的联合训练方 法的流程图。 0017 图4为根据一示例性实施例示出的实体识别模型和实体消歧模型的结构示意图。 0018 图5是图3对应实施例中步骤310在一个实施例的流程图。 0019 图6是图3对应实施例中步骤330在一个实施例的流程图。 0020 图7是图3对应实施例中步骤350在一个实施例的流程图。 0021 图8是根据一示例性实施例示出的一种用于实体识别和实体消歧的联合训练装置 的框图。 002。
19、2 图9是根据一示例性实施例示出的一种用于实体识别和实体消歧的联合训练装置 的框图。 0023 通过上述附图, 已示出本发明明确的实施例, 后文中将有更详细的描述, 这些附图 说明书 2/12 页 5 CN 110852108 A 5 和文字描述并不是为了通过任何方式限制本发明构思的范围, 而是通过参考特定实施例为 本领域技术人员说明本发明的概念。 具体实施方式 0024 这里将详细地对示例性实施例执行说明, 其示例表示在附图中。 下面的描述涉及 附图时, 除非另有表示, 不同附图中的相同数字表示相同或相似的要素。 以下示例性实施例 中所描述的实施方式并不代表与本发明相一致的所有实施方式。 相。
20、反, 它们仅是与如所附 权利要求书中所详述的、 本发明的一些方面相一致的装置和方法的例子。 0025 如前所述, 现有技术中, 尤其是单模型学习中, 实体识别和实体消歧过于独立, 不 仅实体识别的准确性难以保证, 而且实体消歧也未能够充分利用实体识别学到的语义知 识, 从而导致存在实体消歧的准确率不高的问题。 0026 为此, 本发明特提出了一种用于实体识别和实体消歧的联合训练方法, 在模型训 练过程中, 就使得实体识别和实体消歧充分地结合, 从而有效地同步地提高实体识别的准 确率和实体消歧的准确率, 相应地, 用于实体识别和实体消歧的联合训练装置被部署于具 备冯诺依曼体系结构的电子设备, 例。
21、如, 电子设备包括但不限于台式电脑、 笔记本电脑、 服 务器等, 以此实现用于实体识别和实体消歧的联合训练方法。 0027 图1是根据一示例性实施例示出的一种服务器的硬件结构框图。 该种服务器可用 于部署用于实体识别和实体消歧的联合训练装置, 以此实现用于实体识别和实体消歧的联 合训练方法。 0028 需要说明的是, 该种服务器只是一个适配于本发明的示例, 不能认为是提供了对 本发明的使用范围的任何限制。 该种服务器也不能解释为需要依赖于或者必须具有图1中 示出的示例性的服务器100中的一个或者多个组件。 0029 服务器100的硬件结构可因配置或者性能的不同而产生较大的差异, 如图1所示, 。
22、服务器100包括: 电源110、 接口130、 至少一存储器150、 以及至少一中央处理器(CPU, Central Processing Units)170。 0030 具体地, 电源110用于为服务器100上的各硬件设备提供工作电压。 0031 接口130包括至少一有线或无线网络接口, 用于与外部设备交互。 当然, 在其余本 发明适配的示例性实施例中, 接口130还可以进一步包括至少一串并转换接口133、 至少一 输入输出接口135以及至少一USB接口137等, 如图1所示, 在此并非对此构成具体限定。 0032 存储器150作为资源存储的载体, 可以是只读存储器、 随机存储器、 磁盘或者。
23、光盘 等, 其上所存储的资源包括操作系统151、 应用程序153及数据155等, 存储方式可以是短暂 存储或者永久存储。 0033 其中, 操作系统151用于管理与控制服务器100上的各硬件设备以及应用程序153, 以实现中央处理器170对存储器150中海量数据155的运算与处理, 其可以是Windows ServerTM、 Mac OS XTM、 UnixTM、 LinuxTM、 FreeBSDTM等。 0034 应用程序153是基于操作系统151之上完成至少一项特定工作的计算机程序, 其可 以包括至少一模块(图1中未示出), 每个模块都可以分别包含有对服务器100的一系列计算 机可读指令。。
24、 例如, 用于实体识别和实体消歧的联合训练装置可视为部署于服务器100的应 用程序153。 说明书 3/12 页 6 CN 110852108 A 6 0035 数据155可以是存储于磁盘中的照片、 图片等, 还可以是知识库、 训练数据集合中 的文本等, 存储于存储器150中。 0036 中央处理器170可以包括一个或多个以上的处理器, 并设置为通过至少一通信总 线与存储器150通信, 以读取存储器150中存储的计算机可读指令, 进而实现对存储器150中 海量数据155的运算与处理。 例如, 通过中央处理器170读取存储器150中存储的一系列计算 机可读指令的形式来完成用于实体识别和实体消歧的。
25、联合训练方法。 0037 此外, 通过硬件电路或者硬件电路结合软件也能同样实现本发明, 因此, 实现本发 明并不限于任何特定硬件电路、 软件以及两者的组合。 0038 请参阅图2, 在一示例性实施例中, 一种用于实体识别和实体消歧的联合训练方法 适用于部署了用于实体识别和实体消歧的联合训练装置的服务器, 该服务器的结构可以如 图1所示。 0039 该种用于实体识别和实体消歧的联合训练方法可以由服务器执行, 也可以理解为 由服务器中运行的应用程序(即用于实体识别和实体消歧的联合训练装置)执行。 在下述方 法实施例中, 为了便于描述, 以各步骤的执行主体为服务器加以说明, 但是并不对此构成限 定。。
26、 0040 该种用于实体识别和实体消歧的联合训练方法可以包括以下步骤: 0041 步骤310, 基于实体识别模型, 对训练数据集合中的文本进行命名实体识别, 得到 待消歧实体。 0042 首先说明的是, 联合训练, 指的是基于实体识别和实体消歧在训练数据上的相关 性和串行关系, 利用同一个训练数据集合中的文本联合训练实体识别模型和实体消歧模 型, 由此既可以避免独立学习的不合理性以及对实体识别和实体消歧知识相关性的忽略, 同时通过联合训练使得实体识别和实体消歧充分地结合, 同步地提升了实体识别的准确率 和实体消歧的准确率。 0043 基于此, 训练数据集合, 包括了多条携带标签的文本, 所述标。
27、签用于标注文本中实 体的边界。 也可以理解为, 对于联合训练而言, 训练数据集合中的每一条文本包括已标注边 界的无歧义实体。 0044 其中, 标签, 实质是标注记号, 用于唯一地标记文本中实体的开始位置和结束位 置。 具体地, 标注记号, 包括但不限于B、 I、 E、 O, B代表实体的开始位置, I代表实体的中间部 分, E代表实体的结束位置, O则代表非实体。 当然, 在其他实施例中, 也可以采用其余标注方 案, 只要可以唯一地识别出文本中实体的边界即可, 此处并非对此构成具体限定。 0045 其次, 文本中的待消歧实体, 指的是文本中关键的主题词, 例如, 文本中的人名、 地 名、 组。
28、织机构等等, 通过命名实体识别获得。 0046 本实施例中, 命名实体识别, 旨在识别出文本中人名、 地名、 组织机构等待消歧实 体, 基于实体识别模型实现。 此实体识别模型, 便是基于训练数据集合中的文本对深度学习 模型进行联合训练生成的。 例如, 深度学习模型可以是keras、 tensorflow、 pytorch等深度 学习模型。 0047 步骤330, 在已构建的知识库中, 进行所述待消歧实体的实体映射, 得到用于实体 消歧的候选实体。 0048 如前所述, 在实体消歧阶段, 默认实体识别的正确性。 在此, 发明人意识到, 实体识 说明书 4/12 页 7 CN 110852108 。
29、A 7 别和实体消歧在训练数据上是具有一定相关性和串行关系的, 默认实体识别的正确性并不 合理, 不仅忽略了实体识别和实体消歧知识相关性, 而且浪费了实体识别学习到的语义知 识。 0049 为此, 本实施例中, 通过实体映射, 将待消歧实体链接至知识库, 以从知识库中获 取标准实体作为用于实体消歧的候选实体。 0050 其中, 知识库, 由标准实体构建, 那么, 通过实体映射, 候选实体, 实质上是与待消 歧实体相似的标准实体, 也可以认为, 候选实体, 具有与待消歧实体相似的语义表达。 0051 由此, 实体识别学习到的语义知识, 即待消歧实体的语义表达, 便可通过候选实体 从实体识别阶段传。
30、递至实体消歧阶段, 以此实现实体识别和实体消歧的充分结合。 0052 补充说明的是, 候选实体的个数可以根据应用场景的实际需求灵活地调整, 在此 并未加以限定。 例如, 本实施例中, 候选实体的个数为30个。 0053 步骤350, 将所述待消歧实体和所述候选实体输入实体消歧模型进行实体预测, 得 到消歧实体, 并根据所述消歧实体调整所述实体消歧模型的第一参数。 0054 首先, 实体预测, 旨在对文本中人名、 地名、 组织机构等待消歧实体进行消歧, 以得 到无歧义实体, 即消歧实体, 本实施例中, 基于实体消歧模型实现。 此实体消歧模型, 便是基 于训练数据集合中的文本对深度学习模型进行联合。
31、训练生成的。 例如, 深度学习模型可以 是keras、 tensorflow、 pytorch等深度学习模型。 0055 应当说明的是, 为了便于描述, 本发明中实体识别和实体消歧是分别基于实体识 别模型和实体消歧模型, 但该实体识别模型和实体消歧模型是基于深度学习模型进行联合 训练生成的, 仍应当视为单模型学习。 0056 其次, 应当理解, 模型, 实质是构建了文本与实体之间的数学映射关系, 而训练, 则 是为了使文本与实体之间的该数学映射关系达到最优。 相应地, 训练, 本质上是不断地调整 模型的参数, 以根据调整后的参数计算模型所对应损失函数的损失值, 使得该损失函数的 损失值尽可能达。
32、到最小, 则训练完成, 模型视为收敛, 即文本与实体之间的数学映射关系达 到最优。 0057 基于此, 联合训练, 则是不断地调整第一参数和第二参数, 使得第一损失函数的损 失值与第二损失函数的损失值之和尽可能达到最小。 其中, 所述第一损失函数对应于所述 实体消歧模型, 所述第二损失函数对应于所述实体识别模型。 0058 故而, 本实施例中, 在得到消歧实体之后, 需要根据消歧实体调整实体消歧模型的 第一参数, 以便于后续第一损失函数的损失值与第二损失函数的损失值之和能够随着第一 参数的调整尽可能达到最小。 0059 补充说明的是, 发明人意识到, 对于训练数据集合中的文本而言, 势必存在基。
33、于知 识库无法消歧的待消歧实体, 为此, 本实施例中, 无论是第一损失函数, 亦或者是第二损失 函数, 均采用binary交叉熵作为联合训练的损失函数, 那么, 只有消歧实体存在于知识库的 待消歧实体, 才会用于实体识别和实体消歧的联合训练, 从而充分保障了训练数据的利用 率以及联合训练的效率。 0060 步骤370, 通过所述实体识别模型中增设的实体注意力机制层, 将所述消歧实体反 馈给所述实体识别模型, 并根据所述消歧实体调整所述实体识别模型的第二参数。 0061 首先, 实体注意力机制层, 用于将消歧实体反馈给实体识别模型, 以使实体消歧模 说明书 5/12 页 8 CN 1108521。
34、08 A 8 型的输出(即消歧实体)能够反向增强实体识别效果。 0062 具体地, 基于消歧实体, 调整实体识别模型的第二参数, 也就是注意力权重值。 0063 下面具体描述实体识别模型中增设实体注意力机制层前后的区别。 0064 0065 其中, K、 Q、 V表示文本中实体的语义表达, softmax表示激活函数。 0066 那么, 在实体识别模型中未增设实体注意力机制层时, K、 Q、 V相同, 均为待消歧实 体的语义表达。 0067 而在实体识别模型中增设实体注意力机制层之后, 通过实体注意力机制层, 消歧 实体被反馈给实体识别模型, 此时, K由待消歧实体的语义表达替换为消歧实体的语。
35、义表 达, Q、 V则保持不变, 仍为待消歧实体的语义表达。 0068 由此, 实体识别模型的第二参数的调整过程, 将随着待消歧实体与消歧实体之间 的误差减小而愈发地精准, 从而使得实体识别的准确率得以提升, 以此达到反向增强实体 识别效果的目的。 其次, 随着第一参数和第二参数的不断调整, 将根据调整后的第一参数计 算实体消歧模型所对应第一损失函数的损失值, 以及根据调整后的第二参数计算实体识别 模型所对应第二损失函数的损失值, 以便于判断联合训练是否完成, 即判断该第一损失函 数的损失值与该第二损失函数的损失值之和是否满足最小化条件。 0069 当调整后的第一参数和调整后的第二参数, 使得。
36、第一损失函数的损失值与第二损 失函数的损失值之和满足最小化条件, 表示第一损失函数的损失值与第二损失函数的损失 值之和达到最小, 则判定用于实体识别和实体消歧的联合训练完成, 即执行步骤390。 0070 反之, 当调整后的第一参数和调整后的第二参数, 未使得第一损失函数的损失值 与第二损失函数的损失值之和满足最小化条件, 表示第一损失函数的损失值与第二损失函 数的损失值之和尚未达到最小, 则判定继续进行实体识别和实体消歧的联合训练, 即从所 述训练数据集合中获取区别于所述文本的另一条文本, 并基于所述另一条文本再次启动用 于实体识别和实体消歧的联合训练, 即返回执行步骤310。 0071 步。
37、骤390, 当调整后的第一参数和调整后的第二参数, 使得第一损失函数的损失值 与第二损失函数的损失值之和满足最小化条件, 则用于实体识别和实体消歧的联合训练完 成。 0072 待联合训练完成, 实体识别模型和实体消歧模型便具有了预测能力, 即能够对未 知实体边界的文本进行实体识别和实体消歧, 预测过程如下: 0073 (1)在实体识别阶段, 将未知实体边界的文本输入实体识别模型, 得到待消歧实 体。 0074 (2)基于知识库中的实体映射, 由待消歧实体生成对应的候选实体。 0075 (3)在实体消歧阶段, 基于实体消歧模型, 由待消歧实体及其对应的候选实体, 预 测得到消歧实体, 亦已标注边。
38、界的无歧义实体。 0076 由此, 经过实体识别模型和实体消歧模型之后, 便由未知实体边界的文本预测得 到包含已标注边界的无歧义实体的文本。 0077 值得一提的是, 根据实际运营需求, 实体识别模型和实体消歧模型可以分别部署 于不同服务器, 也可以作为一个完整的联合模型部署于同一个服务器, 本实施例并非对此 说明书 6/12 页 9 CN 110852108 A 9 构成具体限定。 0078 通过如上所述的过程, 相较于传统单模型学习中将实体识别与实体消歧独立训练 学习, 本发明利用实体识别和实体消歧在训练数据上的相关性和串行关系, 基于同一个训 练数据集合中的文本进行实体识别和实体消歧的联。
39、合训练, 一方面避免了独立学习的不合 理性以及对实体识别和实体消歧知识相关性的忽略, 另一方面联合训练也将实体识别与实 体消歧充分地结合起来, 并通过实体注意力机制层的反馈机制, 使得实体消歧模型的输出 可以反向增强实体识别效果, 提升实体识别的准确率, 而更好的实体识别模型的输出则可 以正向增强实体消歧效果, 提升实体消歧的准确率。 0079 此外, 随着实体识别和实体消歧的相互补充、 相互促进, 有利于增强实体识别和实 体消歧的鲁棒性, 进一步提升实体消歧的准确率。 0080 请参阅图3, 在一示例性实施例中, 步骤350中所述根据所述消歧实体调整所述实 体消歧模型的第一参数步骤, 或者,。
40、 步骤370中所述根据所述消歧实体调整所述实体识别模 型的第二参数步骤, 可以包括以下步骤: 0081 步骤410, 计算所述消歧实体与所述无歧义实体之间的误差。 0082 步骤430, 根据所述误差调整所述实体消歧模型的第一参数, 或者, 所述实体识别 模型的第二参数。 0083 如前所述, 对于训练数据集合中的文本而言, 实质上是包含了已标注边界的无歧 义实体。 也就是说, 在联合训练过程中, 基于知识库中的标准实体, 无歧义实体是真实的标 准实体, 而消歧实体是预测得到的标准实体, 故而, 消歧实体与无歧义实体之间势必存在着 误差。 0084 基于此, 无论是第一参数, 还是第二参数, 。
41、参数调整过程, 便是基于消歧实体与无 歧义实体之间的误差进行的。 随着消歧实体与无歧义实体之间的误差逐步减小, 跟随调整 后的第一参数、 第二参数便能够逐步使得第一损失函数的损失值与第二损失函数的损失值 之和尽可能达到最小。 0085 在上述实施例的作用下, 实现了基于误差的参数调整, 使得第一损失函数的损失 值与第二损失函数的损失值之和能够逐步达到最小, 进而使得联合训练得以完成。 0086 请参阅图4, 在一示例性实施例中, 所述实体识别模型包括编码层、 嵌入层、 双向长 短时记忆层(LSTM)、 自注意力机制层、 实体注意力机制层和条件随机场层(CRF)。 0087 基于实体识别模型的上。
42、述结构, 对实体识别过程加以说明如下。 0088 具体地, 在一实施例的实现中, 如图5所示, 步骤310可以包括以下步骤: 0089 步骤311, 将所述文本输入所述编码层进行字级别编码, 得到所述文本的数字编 码。 0090 对于服务器而言, 直接进行文本处理的效率要低于直接进行数字处理, 也可以认 为是, 服务器作为计算机设备的一种更容易理解数字语言, 因此, 文本在进行实体识别之 前, 需要进行数字编码。 然而, 发明人意识到, 由于实体识别的特殊性, 编码粒度会影响实体 识别效率。 0091 基于此, 本实施例中, 编码层采用的编码粒度为字级别编码, 也即是, 将文本中的 每一个单字。
43、或者字符转化为数字, 不同的数字代表不同的单字或者字符, 那么, 在经过编码 层之后, 一条文本即转化为一组数字, 视为文本的数字编码。 说明书 7/12 页 10 CN 110852108 A 10 0092 当然, 很可能存在某一个单字不存在相应的数字表示, 本实施例中, 使用特殊字符 表示该单字, 例如, 特殊字符为UNK, 进而将单字借由该特殊字符转为相应的数字表示。 0093 同时, 发明人还发现, 对于训练数据集合中的文本来说, 每一条文本的长度不尽相 同, 将不利于编码层进行字级别编码。 0094 为此, 在文本进入编码层进行字级别编码之前, 还需要进行长度填充。 0095 具体。
44、地, 使用特殊字符填充文本, 以此保证每一条文本的固定长度一致。 例如, 特 殊字符为PAD。 其中, 固定长度可以根据应用场景的实际需求灵活地调整, 此处并未加以限 定。 0096 步骤313, 通过所述嵌入层, 对所述文本的数字编码进行字向量初始化, 得到所述 文本的字向量序列。 0097 嵌入层的作用, 主要在于将文本的数字编码表示为一个多维的浮点数向量, 即文 本的字向量序列。 0098 本实施例中, 上述过程是通过字向量初始化实现的。 其中, 字向量初始化, 可以基 于预训练的字向量, 也可以是随机初始化字向量。 0099 由此, 在经过字向量初始化之后, 便能够得到文本的字向量序列。
45、。 0100 发明人发现, 对于训练数据集合而言, 其所产生的文本的字向量序列通常很大, 在 联合训练过程中, 服务器总是并行处理多任务, 直接处理此维度数据, 可能影响处理效率。 0101 因此, 本实施例中, 在输入双向长短时记忆层之前, 此维度数据将根据设定参数进 行切分, 例如, 允许服务器一次处理K条文本, 以方便于服务器进行后续的特征提取。 其中, K 可以根据应用场景的实际需求灵活地设置, 此处并未加以限定。 0102 步骤315, 在所述双向长短时记忆层和所述自注意力机制层中, 依次对所述文本的 字向量序列进行特征提取。 0103 双向长短时记忆层, 主要作用在于提取文本的字向。
46、量序列的局部特征, 以此较为 粗略地表达文本的语义。 0104 自注意力机制层, 主要作用在于进一步得到文本的字向量序列的全局特征, 从而 更为精细地表达文本的语义。 0105 其中, 发明人意识到, 对于每一条文本而言, 期望实体识别模型更加关注的是文本 中的实体, 而降低对文本中非实体的关注度。 然而, 文本中不可避免地存在非实体, 也不可 避免地可能存在多个实体。 0106 为此, 本实施例中, 自注意力机制层, 实质是一个多头自注意力机制层, 其本质是 通过每一个头在不同空间上对同一条文本进行学习, 进而通过组合多个头的学习结果, 最 终学习得到文本的语义表达。 0107 步骤317,。
47、 将提取到的特征输入所述条件随机场层进行实体标签预测, 得到所述待 消歧实体。 0108 实体标签预测, 实质是基于提取到的特征, 计算文本中每一个单字或者字符属于 不同实体标签的概率, 并选择概率最大的实体标签作为文本中每一个单字或者字符的所属 标签, 由此即预测得到待消歧实体。 也可以理解为, 待消歧实体, 是实体识别模型预测得到 的已标注边界的无歧义实体。 0109 其中, 实体标签包括但不限于B标签、 I标签、 E标签、 O标签。 那么, 属于B标签的单字 说明书 8/12 页 11 CN 110852108 A 11 或者字符代表实体的开始位置, 属于I标签的单字或者字符代表实体的中。
48、间部分, 属于E标 签的单字或者字符代表实体的结束位置, 而属于O标签的单字或者字符则代表非实体。 0110 在上述实施例的作用下, 实现了基于实体识别模型的命名实体识别, 为后续实体 映射提供了依据, 使得实体识别阶段学习到的语义知识传递至实体消歧阶段得以实现, 进 而使得实体识别和实体消歧的联合训练得以实现。 0111 回请参阅图4, 在一示例性实施例中, 实体识别模型还包括实体及其上下文信息抽 取层和实体映射层。 0112 实体及其上下文信息抽取层, 主要作用是基于文本中每一个单字或者字符的所属 标签, 抽取出文本中的实体及其上下文信息, 以便于后续的相似度计算。 0113 以前述例子进。
49、行说明, 文本中每一个单字或者字符的所属标签包括但不限于B标 签、 I标签、 E标签、 O标签。 那么, 介于B标签与E标签之间的单字或者字符即视为一个实体, 而 在B标签与E标签之外的所有单字或者字符则视为该实体的上下文信息。 0114 实体映射层, 主要作用是将待消歧实体链接至知识库, 以从知识库中获取标准实 体作为用于实体消歧的候选实体。 0115 基于实体识别模型的上述结构, 对实体映射过程加以说明如下。 0116 具体地, 在一实施例的实现中, 如图6所示, 步骤330可以包括以下步骤: 0117 步骤331, 基于所述知识库中的标准实体, 在所述知识库中搜索与所述待消歧实体 相似的。
50、标准实体。 0118 步骤333, 计算搜索到的标准实体与所述待消歧实体之间的相似度。 0119 相似度, 表示搜索到标准实体所表达语义与待消歧实体所表达语义之间的相似程 度, 语义相似程度越高, 相似度越高。 0120 相似度的计算, 可以采用余弦相似度方法, 还可基于欧式距离, 或者编辑距离等 等, 此处并未加以限定。 0121 步骤335, 根据计算得到的相似度, 由搜索到的标准实体筛选得到用于实体消歧的 所述候选实体。 0122 本实施例中, 候选实体, 是基于相似度, 对搜索到的标准实体进行筛选得到的。 0123 具体地, 获取搜索到的各标准实体与待消歧实体之间的相似度, 并基于该相。
- 内容关键字: 用于 实体 识别 联合 训练 方法 装置 介质
新能源汽车用直流充电座.pdf
汽车智能避碰装置.pdf
骨料分选系统.pdf
片材生产用冷却设备.pdf
排水管道定位结构.pdf
一体式地面操作控制台.pdf
调色色浆过滤装置.pdf
干式变压器线圈吊具.pdf
下肢体能训练机器人.pdf
具有振动功能的发声装置.pdf
方便调整的缝纫机卷布装置.pdf
通讯接口.pdf
挤浆机加料装置.pdf
检测光刻胶适用性的方法及装置.pdf
齿轮箱生产用滚齿装置.pdf
基于动态规划和量子退火的RNA结构预测方法及系统.pdf
基于大数据的电力数据监管系统及方法.pdf
基于UWB的音频传输方法、装置、终端及存储介质.pdf
铸造铝合金及其制备方法和应用.pdf
内置光纤电缆导体的制作方法.pdf
基于神经网络的噪声等级监测装置、监测方法及电子设备.pdf
轨道交通车辆电连接器用固定框装置.pdf
碳氮共渗的加热装置.pdf
油田隐患井报废的连续注浆封堵设备及方法.pdf
多角度辐照抗菌装置及其在制备抗菌面料中的应用.pdf
流星雨页面生成方法、装置、设备及存储介质.pdf
航路与平台之间安全距离的评估方法、电子设备.pdf
混凝土密实用混凝土振动装置.pdf
基于NS3网络仿真平台的数据链仿真方法.pdf
双重降低残碱的高镍无钴正极材料及其制备方法.pdf
PTFE膜自动缠卷设备及缠卷方法.pdf
装配式断热桥楼宇景观亮化结构及其应用.pdf