语料识别方法和装置.pdf
《语料识别方法和装置.pdf》由会员分享,可在线阅读,更多相关《语料识别方法和装置.pdf(20页完成版)》请在专利查询网上搜索。
1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202010188814.8 (22)申请日 2020.03.17 (71)申请人 北京捷通华声科技股份有限公司 地址 100193 北京市海淀区东北旺西路8号 中关村软件园2号楼A座一层2101 (72)发明人 吴帅李健武卫东 (74)专利代理机构 北京润泽恒知识产权代理有 限公司 11319 代理人 莎日娜 (51)Int.Cl. G10L 15/06(2013.01) G10L 15/26(2006.01) G10L 15/22(2006.01) (54)发明名称 一种语料。
2、识别方法和装置 (57)摘要 本发明提供了一种语料识别方法和装置, 涉 及计算机技术领域。 本发明提供的语料识别方 法, 通过根据专有名词所属的专有名词类别的类 标记, 在语料数据中对专有名词进行替换、 占位 得到第一训练数据, 并根据第一训练数据训练得 到主语言模型后, 依据类标记与对应子语言模型 进行合并, 而子语言模型是根据类标记对应专有 名词类别的训练数据训练得到的。 因此, 本发明 实施例中, 将类标记作为专有名词占位符在语料 数据中对专有名词进行替换, 并在后续模型构建 中根据子语言模型将类标记对应专有名词类别 的专有名词进行扩展, 从而扩大了目标语言模型 中专有名词语料的广度, 。
3、解决了传统方法中专有 名词上下文覆盖不全面的问题, 提升了专有名词 语料识别的准确率。 权利要求书3页 说明书11页 附图5页 CN 111540343 A 2020.08.14 CN 111540343 A 1.一种语料识别方法, 其特征在于, 所述方法包括: 根据预置的专有名词类别, 训练所述专有名词类别对应的子语言模型; 获取包含专有名词的语料数据; 将所述语料数据中的专有名词按照所述专有名词类别替换为对应的类标记, 获得第一 训练数据; 根据所述第一训练数据进行模型训练, 获得主语言模型; 确定所述主语言模型中类标记的第一标记位置; 在所述第一标记位置合并所述类标记对应的子语言模型, 。
4、获得目标语言模型; 根据所述目标语言模型, 对待识别语料中的专有名词进行识别。 2.根据权利要求1所述的方法, 其特征在于, 所述根据预置的专有名词类别, 训练所述 专有名词类别对应的子语言模型, 包括: 根据所述预置的专有名词类别, 分别获取每一种专有名词类别对应的第二训练数据; 根据所述每一种专有名词类别对应的第二训练数据, 分别训练不同类别的子语言模 型。 3.根据权利要求2所述的方法, 其特征在于, 所述确定所述主语言模型中类标记的第一 标记位置, 包括: 将所述主语言模型转换为第一状态转移图, 所述第一状态转移图中包括表示所述第一 训练数据状态变化的边; 遍历所述第一状态转移图中带有。
5、所述类标记的边, 记为标记边; 根据所述标记边的位置确定所述第一标记位置; 所述在所述第一标记位置合并所述类标记对应的子语言模型, 获得目标语言模型, 包 括: 将所述类标记对应的子语言模型转换为第二状态转移图, 所述第二状态转移图中包括 表示所述第二训练数据状态变化的边; 根据所述第二状态转移图中边的位置确定第二标记位置; 根据所述第一标记位置, 以及所述第二标记位置, 对所述第一状态转移图和所述第二 状态转移图进行合并, 获得第三状态转移图; 将所述第三状态转移图对应的语言模型作为目标语言模型。 4.根据权利要求3所述的方法, 其特征在于, 所述第一标记位置包括第一起始位置和第 一终止位置。
6、, 所述第二标记位置包括第二起始位置和第二终止位置, 所述根据所述第一标 记位置, 以及所述第二标记位置, 对所述第一状态转移图和所述第二状态转移图进行合并, 获得第三状态转移图, 包括: 从所述第一起始位置复制所述标记边, 复制的标记边指向所述第二起始位置; 从所述第二终止位置增加空白边, 增加的空白边指向所述第一终止位置, 从而合并所 述第一状态转移图和所述第二状态转移图, 获得第三状态转移图。 5.根据权利要求1所述的方法, 其特征在于, 所述获取包含专有名词的语料数据之前, 所述方法还包括: 确定至少一个预置的专有名词类别; 对所述专有名词类别进行标记, 获得与所述专有名词类别一一对应。
7、的类标记; 权利要求书 1/3 页 2 CN 111540343 A 2 建立所述专有名词类别与所述类标记之间的映射关系; 所述将所述语料数据中的专有名词按照所述专有名词类别替换为对应的类标记, 获得 第一训练数据, 包括: 提取所述语料数据中的专有名词, 识别所述专有名词对应的专有名词类别; 根据所述映射关系, 确定所述专有名词类别对应的类标记; 根据所述类标记, 对所述语料数据中的专有名词进行替换, 获得第一训练数据。 6.一种语料识别装置, 其特征在于, 所述装置包括: 第一模型训练模块, 用于根据预置的专有名词类别, 训练所述专有名词类别对应的子 语言模型; 数据采集模块, 用于获取包。
8、含专有名词的语料数据; 数据处理模块, 用于将所述语料数据中的专有名词按照所述专有名词类别替换为对应 的类标记, 获得第一训练数据; 第二模型训练模块, 用于根据所述第一训练数据进行模型训练, 获得主语言模型; 位置确定模块, 用于确定所述主语言模型中类标记的第一标记位置; 模型合并模块, 用于在所述第一标记位置合并所述类标记对应的子语言模型, 获得目 标语言模型; 名词识别模块, 用于根据所述目标语言模型, 对待识别语料中的专有名词进行识别。 7.根据权利要求6所述的装置, 其特征在于, 所述第一模型训练模块包括: 第二训练数据采集子模块, 用于根据所述预置的专有名词类别, 分别获取每一种专。
9、有 名词类别对应的第二训练数据; 子语言模型训练子模块, 用于根据所述每一种专有名词类别对应的第二训练数据, 分 别训练不同类别的子语言模型。 8.根据权利要求7所述的装置, 其特征在于, 所述位置确定模块, 包括: 第一转换子模块, 用于将所述主语言模型转换为第一状态转移图, 所述第一状态转移 图中包括表示所述第一训练数据状态变化的边; 标记边确定子模块, 用于遍历所述第一状态转移图中带有所述类标记的边, 记为标记 边; 第一标记位置确定子模块, 用不根据所述标记边的位置确定所述第一标记位置; 所述模型合并模块, 包括: 第二转换子模块, 用于将所述类标记对应的子语言模型转换为第二状态转移图。
10、, 所述 第二状态转移图中包括表示所述第二训练数据状态变化的边; 第二标记位置确定子模块, 用于根据所述第二状态转移图中边的位置确定第二标记位 置; 图合并子模块, 用于根据所述第一标记位置, 以及所述第二标记位置, 对所述第一状态 转移图和所述第二状态转移图进行合并, 获得第三状态转移图; 目标模型确定子模块, 还用于将所述第三状态转移图对应的语言模型作为目标语言模 型。 9.根据权利要求8所述的装置, 其特征在于, 所述第一标记位置包括第一起始位置和第 一终止位置, 所述第二标记位置包括第二起始位置和第二终止位置, 所述图合并子模块包 权利要求书 2/3 页 3 CN 111540343 。
11、A 3 括: 标记边复制单元, 用于从所述第一起始位置复制所述标记边, 复制的标记边指向所述 第二起始位置; 空白边增加单元, 用于从所述第二终止位置增加空白边, 增加的空白边指向所述第一 终止位置, 从而合并所述第一状态转移图和所述第二状态转移图, 获得第三状态转移图。 10.根据权利要求6所述的装置, 其特征在于, 所述装置还包括: 预置类别确定模块, 用于确定至少一个预置的专有名词类别; 预置类别标记模块, 用于对所述专有名词类别进行标记, 获得与所述专有名词类别一 一对应的类标记; 类别标记对应模块, 用不建立所述专有名词类别与所述类标记之间的映射关系; 所述数据处理模块, 包括: 名。
12、词类别识别子模块, 用不提取所述语料数据中的专有名词, 识别所述专有名词对应 的专有名词类别; 类标记确定子模块, 用于根据所述映射关系, 确定所述专有名词类别对应的类标记; 数据处理子模块, 用于根据所述类标记, 对所述语料数据中的专有名词进行替换, 获得 第一训练数据。 权利要求书 3/3 页 4 CN 111540343 A 4 一种语料识别方法和装置 技术领域 0001 本发明涉及计算机技术领域, 特别是涉及一种语料识别方法和装置。 背景技术 0002 在语音文本即语料的识别中, 识别的效果通常依赖于对应的语言模型的性能, 而 语言模型的性能与训练语料的覆盖广度、 深度有关。 0003。
13、 然而, 对于一些比较稀少的专有名词, 由于应用较少, 因此在挑选训练语料时很难 覆盖所有相关的专有名词, 从而使得语言模型针对专有名词没有得到充分训练, 识别专有 名词的准确率较低。 发明内容 0004 鉴于上述问题, 提出了本发明以便提供一种克服上述问题或者至少部分地解决上 述问题的一种语料识别方法和装置。 0005 依据本发明的第一方面, 提供了一种语料识别方法, 该方法包括: 0006 根据预置的专有名词类别, 训练所述专有名词类别对应的子语言模型; 0007 获取包含专有名词的语料数据; 0008 将所述语料数据中的专有名词按照所述专有名词类别替换为对应的类标记, 获得 第一训练数据。
14、; 0009 根据所述第一训练数据进行模型训练, 获得主语言模型; 0010 确定所述主语言模型中类标记的第一标记位置; 0011 在所述第一标记位置合并所述类标记对应的子语言模型, 获得目标语言模型; 0012 根据所述目标语言模型, 对待识别语料中的专有名词进行识别。 0013 依据本发明的第二方面, 提供了一种语料识别装置, 该装置包括: 0014 第一模型训练模块, 用于根据预置的专有名词类别, 训练所述专有名词类别对应 的子语言模型; 0015 数据采集模块, 用于获取包含专有名词的语料数据; 0016 数据处理模块, 用于将所述语料数据中的专有名词按照所述专有名词类别替换为 对应的。
15、类标记, 获得第一训练数据; 0017 第二模型训练模块, 用于根据所述第一训练数据进行模型训练, 获得主语言模型; 0018 位置确定模块, 用于确定所述主语言模型中类标记的第一标记位置; 0019 模型合并模块, 用于在所述第一标记位置合并所述类标记对应的子语言模型, 获 得目标语言模型; 0020 名词识别模块, 用于根据所述目标语言模型, 对待识别语料中的专有名词进行识 别。 0021 本发明实施例中, 通过根据专有名词所属的专有名词类别的类标记, 在语料数据 中对专有名词进行替换、 占位得到第一训练数据, 并根据第一训练数据训练得到主语言模 说明书 1/11 页 5 CN 11154。
16、0343 A 5 型后, 依据类标记与对应子语言模型进行合并, 而子语言模型是根据类标记对应专有名词 类别的训练数据训练得到的。 因此, 本发明实施例中, 将类标记作为专有名词占位符在语料 数据中对专有名词进行替换, 并在后续模型构建中根据子语言模型将类标记对应专有名词 类别的专有名词进行扩展, 从而扩大了目标语言模型中专有名词语料的广度, 解决了传统 方法中专有名词上下文覆盖不全面的问题, 提升了专有名词语料识别的准确率。 0022 上述说明仅是本发明技术方案的概述, 为了能够更清楚了解本发明的技术手段, 而可依照说明书的内容予以实施, 并且为了让本发明的上述和其它目的、 特征和优点能够 更。
17、明显易懂, 以下特举本发明的具体实施方式。 附图说明 0023 通过阅读下文优选实施方式的详细描述, 各种其他的优点和益处对于本领域普通 技术人员将变得清楚明了。 附图仅用于示出优选实施方式的目的, 而并不认为是对本发明 的限制。 而且在整个附图中, 用相同的参考符号表示相同的部件。 在附图中: 0024 图1是本发明实施例提供的一种语料识别方法的步骤流程图; 0025 图2是本发明实施例提供的另一种语料识别方法的步骤流程图; 0026 图3是本发明实施例提供的一种第一状态转移图的示意图; 0027 图4是本发明实施例提供的一种第二状态转移图的示意图; 0028 图5是本发明实施例提供的一种第。
18、一状态转移图与第二状态转移图合并的过程示 意图; 0029 图6是本发明实施例提供的一种语料识别装置的框图。 具体实施方式 0030 下面将参照附图更详细地描述本发明的示例性实施例。 虽然附图中显示了本发明 的示例性实施例, 然而应当理解, 可以以各种形式实现本发明而不应被这里阐述的实施例 所限制。 相反, 提供这些实施例是为了能够更透彻地理解本发明, 并且能够将本发明的范围 完整的传达给本领域的技术人员。 0031 图1是本发明实施例提供的一种语料识别方法的步骤流程图, 如图1所示, 该方法 可以包括: 0032 步骤101、 根据预置的专有名词类别, 训练所述专有名词类别对应的子语言模型。。
19、 0033 本发明实施例中, 专有名词类别可以包括人名、 地名、 机构名、 数字等, 其中, 人名 可以包括中文名、 英文名、 日文名等, 地名可以包括国家名、 城市名、 景观名等, 机构名可以 包括政府机构、 公益机构等, 数字可以包括阿拉伯数字、 罗马数字、 汉字数字、 英文数字等。 专有名词用于指代特定的人或物与普通名词对应, 如 “人” 为普通名词, 而 “张三” 为专有名 词, 指代特定的名为 “张三” 的人, 属于专有名词类别中的人名。 0034 本发明实施例中, 子语言模型指针对一种专有名词类别的语料训练得到的语言模 型, 训练子语言模型的语料数据中仅包括该专有名词类别的语料数据。
20、, 如人名类别张四、 李 四、 刘德华、 杜甫、 秦始皇等, 地名类别包括上海、 纽约、 海淀区、 明德路等。 其中, 语言模型是 自然语言或者说人类交流语言处理中的核心问题, 用于描述自然语言中的特定关系, 通常 是描述自然语言单元出现的概率, 从而根据该概率进行抽象建模得到的数学模型。 传统的 说明书 2/11 页 6 CN 111540343 A 6 语言模型可以包括多元模型、 指数回归模型和隐马尔科夫模型等, 新兴的语言模型可以包 括神经网络模型, 如循环神经网络模型、 长短期记忆模型、 注意力模型等。 可选地, 可以根据 不同的专有名词类别对应的语料数据训练上述模型的至少一种作为对应。
21、的子语言模型, 如 采用神经网络模型针对人名专有名词训练对应的人名子语言模型等。 另外, 可以训练已知 的所有专有名词类别分别对应的子语言模型, 以保证子语言模型能够更全面的覆盖专有名 词的类别。 0035 步骤102、 获取包含专有名词的语料数据。 0036 本发明实施例中, 语料数据中可以是语音文本数据, 可以获取包含专有名词的语 料数据, 语料数据中应包含专有名词, 可选地, 语料数据中专有名词的数量和类别不作限 制; 或者, 也可以使得语料数据中包含的专有名词, 其专有名词类别的数量小于或等于预置 的专有名词类别的数量, 从而保证子语言模型能够覆盖语料数据中包含的专有名词的类 别; 或。
22、者, 也可以使得语料数据中专有名词, 其专有名词类别以及专有名词类别的数量符合 对语料数据识别、 分类的需求, 此时, 当语料数据中的专有名词类别超出预置的专有名词类 别范围时, 可以补充训练该超出范围的专有名词类别的子语言模型。 0037 另外, 本发明实施例中不限制各步骤之间的执行顺序, 可选地, 也可以先执行步骤 102获得包含专有名词的语料数据, 再执行步骤101根据预置的专有名词类别, 训练所述专 有名词类别对应的子语言模型。 此时, 预置的专有名词类别可以根据语料数据中专有名词 所属的专有名词类别确定, 从而避免子语言模型的遗漏造成的补充训练, 降低模型训练的 效率, 或者子语言模。
23、型的冗余造成资源的浪费。 0038 步骤103、 将所述语料数据中的专有名词按照所述专有名词类别替换为对应的类 标记, 获得第一训练数据。 0039 本发明实施例中, 不同专有名词类别可以对应不同的类标记, 以在语料数据中对 不同的专有名词类别进行区分, 可选地, 类标记的形式可以是序号、 名称等, 如人名类别的 类标记可以为1、 等, 地名类别的类标记可以为2、 等, 数字类别的类标记可以为 3、 等。 在对语料数据的处理过程中, 可以将语料数据中的专有名词按照专有名词类别 替换为对应的类标记, 将类标记作为对应专有名词的占位符在语料数据中占位, 得到对应 第一训练数据。 如语料数据 “小明。
24、不来了啊: -)” , 其中包括人名类别的专有名词 “小明” , 因 此, 将 “小明” 替换为对应类标记 “” , 获得对应的第一训练数据 “不来了 啊: -)” ; 以此类推, 语料数据 “北京是国家中心城市、 超大城市” 经处理后获得对应的第一训 练数据 “是国家中心城市、 超大城市” 。 0040 本发明实施例中, 对于语料数据可以进行格式转换、 清洗过滤、 符号转换等。 其中, 格式转换可以是对语料数据的编码格式进行统一, 可选地, UTF-8(8位元, Universal Character Set/Unicode Transformation Format)是格式针对Unicod。
25、e的一种可变长度字 符编码, 可以用来表示Unicode(统一码)标准中的任何字符, 由于UTF-8不需要BOM(Byte Order Mark, 字节顺序标记)来表明字节顺序, 因此可以将语料数据的编码格式统一转换为 无BOM的UTF-8格式; 清洗过滤可以包括对语料数据中标点、 火星文、 无意义字符、 特殊字串 等, 从而避免上述字符对模型训练的干扰; 符号转换可以是将语料数据中的表情符号、 表情 图片等转换为对应含义的代表词语, 从而在明确语料数据含义的同时, 统一格式提高模型 训练的效率。 进一步的, 还可以对语料数据进行分词, 本发明实施例对此不作具体限定。 说明书 3/11 页 7。
26、 CN 111540343 A 7 0041 本发明实施例中, 对语料数据的格式转换、 清洗过滤、 符号转换等可以在类标记占 位之前完成, 也可以在类标记占位之后完成。 在类标记占位之后可以将获得第一训练数据 “不来了啊: -)” 转换为 “不来了啊” 、“是国家中心城市、 超大城市” 转换 为 “是国家中心城市超大城市” ; 在类标记占位之前, 可以将语料数据 “小明不来了 啊: -)” 转换为 “小明不来了啊” ,“北京是国家中心城市、 超大城市” 转换为 “北京是国家中心 城市超大城市” 等, 以提升后续类标记占位时专有名词的替换效率。 0042 步骤104、 根据所述第一训练数据进行模。
27、型训练, 获得主语言模型。 0043 本发明实施例中, 基于类标记对对应专有名词进行占位的第一训练数据进行模型 训练获得了主语言模型, 其中, 主语言模型的训练过程与子语言模型类似, 具体可参照步骤 101的说明内容, 为避免重复, 在此不再赘述。 0044 步骤105、 确定所述主语言模型中类标记的第一标记位置。 0045 本发明实施例中, 由于训练主语言模型的第一训练模型带有类标记, 因此, 根据类 标记可以在主语言模型中确定第一标记位置。 其中, 第一标记位置标示主语言模型中该类 标记对应的专有名词在模型结构中所处的位置。 0046 步骤106、 在所述第一标记位置合并所述类标记对应的子。
28、语言模型, 获得目标语言 模型。 0047 本发明实施例中, 根据类标记可以确定其对应的专有名词类别, 从而根据专有名 词类别确定对应的子语言模型, 如根据类标记确定人名类别的人名子语言模型为对 应的子语言模型。 之后, 可以将该人名子语言模型合并在主语言模型中的第一标记位置, 从 而在第一标记位置对语料数据中的人名类别专有名词进行扩充, 地名子语言模型、 国家名 子语言模型等与主语言模型合并的过程与上述过程类似。 另外, 语料数据中同种类标记可 能在多处占位, 此时, 可以在每一个同种类标记的标记位置合并对应的子语言模型, 保证对 每一个专有名词都进行了对应扩充。 0048 步骤107、 根。
29、据所述目标语言模型, 对待识别语料中的专有名词进行识别。 0049 本发明实施例中, 在获得目标语言模型后即可投入使用对待识别语料进行识别, 目标语言模型的第一训练数据中包括类标记以及普通名词、 动词、 形容词等, 因此, 可以对 待识别语料中的所有字词进行识别。 但是, 由于专有名词类别对应的子语言模型的语料数 据中仅包括该专有名词类别的语料数据, 因此, 子语言模型能够更大范围的、 更精准的识别 对应专有名词类别的语料数据, 在此基础上, 将该子语言模型与主语言模型在第一标记位 置上合并, 能够有效提升合并得到的目标语言模型的对该专有名词类别识别的准确率。 目 标语言模型在语料识别中, 在。
30、满足基本的包括普通名词、 动词、 形容词等的识别外, 还对专 有名词的识别表现出更高的识别准确率。 另外, 在对待识别语料进行识别后, 可以根据待识 别语料中的专有名词对目标语言模型进行更新, 以便保证目标语言模型在长期使用过程中 的性能。 0050 综上所述, 本发明实施例提供的语料识别方法, 通过根据专有名词所属的专有名 词类别的类标记, 在语料数据中对专有名词进行替换、 占位得到第一训练数据, 并根据第一 训练数据训练得到主语言模型后, 依据类标记与对应子语言模型进行合并, 而子语言模型 是根据类标记对应专有名词类别的训练数据训练得到的。 因此, 本发明实施例中, 将类标记 作为专有名词。
31、占位符在语料数据中对专有名词进行替换, 并在后续模型构建中根据子语言 说明书 4/11 页 8 CN 111540343 A 8 模型将类标记对应专有名词类别的专有名词进行扩展, 从而扩大了目标语言模型中专有名 词语料的广度, 解决了传统方法中专有名词上下文覆盖不全面的问题, 提升了专有名词语 料识别的准确率。 0051 图2是本发明实施例提供的另一种语料识别方法的步骤流程图, 如图2所示, 该方 法可以包括: 0052 步骤201、 根据预置的专有名词类别, 训练所述专有名词类别对应的子语言模型。 0053 步骤202、 获取包含专有名词的语料数据。 0054 步骤203、 将所述语料数据中。
32、的专有名词按照所述专有名词类别替换为对应的类 标记, 获得第一训练数据。 0055 步骤204、 根据所述第一训练数据进行模型训练, 获得主语言模型。 0056 步骤205、 确定所述主语言模型中类标记的第一标记位置。 0057 步骤206、 在所述第一标记位置合并所述类标记对应的子语言模型, 获得目标语言 模型。 0058 步骤207、 根据所述目标语言模型, 对待识别语料中的专有名词进行识别。 0059 本发明实施例中, 步骤201至步骤207的说明内容与步骤101至步骤107的说明内容 类似, 为避免重复, 在此不再赘述。 0060 可选地, 所述步骤201包括: 0061 子步骤S11。
33、、 根据所述预置的专有名词类别, 分别获取每一种专有名词类别对应的 第二训练数据。 0062 本发明实施例中, 根据预置的专有名词类别可以分别获取对应的第二训练数据, 其中, 第二训练数据中仅包括对应专有名词类别的语料数据, 如人名类别对应的第二训练 数据中仅包括人名, 地名类别对应的第二训练数据中仅包括地名等, 不同的专有名词类别 其对应第二训练数据可以通过不同的方式获取, 如人名类别可以通过访问互联网上的人名 库获取, 地名类别可以绘制、 测量地图的机构获取; 或者也可以采用NER(Named Entity Recognition, 命名实体识别)方法, NER能够识别出文本数据中的实体类。
34、、 时间类和数字类 三大类, 以及人名、 机构名、 地名、 时间、 日期、 货币和百分比等七小类命名实体, 可选地, 可 以通过隐马尔可夫模型、 深度学习算法模型等实现命名实体识别; 或者, 在通过对语料数据 进行聚类获得预置的专有名词类别时, 可以将聚类的专有名词作为该专有名词类别的第二 训练数据, 其中, 聚类的语料数据可以是用于训练主语言模型的语料数据, 也可以是其他的 语料数据。 0063 子步骤S12、 根据所述每一种专有名词类别对应的第二训练数据, 分别训练不同类 别的子语言模型。 0064 本发明实施例中, 根据获取到的单一专有名词类别的第二训练数据, 分别训练不 同类别的子语言。
35、模型。 由于仅通过单一专有名词类别的第二训练数据训练得到, 该子语言 模型可以对对应专有名词类别的专有名词进行高效、 准确的识别。 0065 可选地, 所述步骤205包括: 0066 子步骤S21、 将所述主语言模型转换为第一状态转移图, 所述第一状态转移图中包 括表示所述第一训练数据状态变化的边。 0067 本发明实施例中, 第一状态转移图指由主语言模型转换得到的状态转移图, 其中, 说明书 5/11 页 9 CN 111540343 A 9 状态转移图包括节点、 边、 箭头。 节点用于表示状态, 边表示转移即状态的变化, 边上存储有 模型的输入、 输出和权重信息等, 箭头表示转移方向。 在。
36、本发明实施例的第一状态转移图中 节点可以简单理解为分词的间隔, 边可以简单理解为第一训练数据中不同的分词。 0068 图3是本发明实施例中一种第一状态转移图的示意图, 如图3所示, 第一状态转移 图中包括表示分词间隔的圈(节点), 以及表示第一训练数据中分词状态变化的边, 箭头表 示模型中第一训练数据状态转移的方向, 虚线表示省略即不限制第一状态转移图中边的个 数, 通过第一状态转移图可以清晰、 明确的看出主语言模型的模型结构、 输入输出等信息。 0069 子步骤S22、 遍历所述第一状态转移图中带有所述类标记的边, 记为标记边。 0070 本发明实施例中, 由于第一状态转移图中所有的边都与主。
37、语言模型中的第一训练 数据不同分词对应, 因此, 对应占位的类标记, 在第一状态转移图中有对应的标记边。 在获 得第一状态转移图后, 对第一状态转移图中所有的边进行遍历, 确定其中所有带有类标记 的边记为标记边, 从而确定主语言模型的第一状态转移图中专有名词类别对应的边。 如图3 所示, 边301包括类标记, 因此, 将边301记为一个标记边。 0071 子步骤S23、 根据所述标记边的位置确定所述第一标记位置。 0072 本发明实施例中, 根据在第一状态转移图中记录的标记边, 可以确定第一状态转 移图中的第一标记位置, 从而将标记边的类标记对应的子语言模型合并到对应的第一标记 位置, 达到对。
38、类标记对应的专有名词类别进行专有名词语料的扩充。 0073 可选地, 所述步骤206包括: 0074 子步骤S31、 将所述类标记对应的子语言模型转换为第二状态转移图, 所述第二状 态转移图中包括表示所述第二训练数据状态变化的边。 0075 本发明实施例中, 子步骤S31对子语言模型向第一状态转移图转换的步骤, 与步骤 子步骤S21中对主语言模型向第二状态转移图转换的步骤类似, 可对应参考, 为避免重复, 在此不再赘述。 0076 图4是本发明实施例中一种第二状态转移图的示意图, 如图4所示, 第二状态转移 图中包括表示分词间隔的圈(节点), 以及表示第二训练数据中分词状态变化的边, 箭头表 。
39、示模型中第二训练数据状态转移的方向, 虚线表示省略即不限制第二状态转移图中边的个 数, 通过第二状态转移图可以清晰、 明确的看出子语言模型的模型结构、 输入输出等信息。 0077 子步骤S32、 根据所述第二状态转移图中边的位置确定第二标记位置。 0078 本发明实施例中, 由于第二状态转移图对应的子语言模型, 其第二训练数据中仅 包括对应专有名词类别的语料数据, 因此, 可以认为第二状态转移图中所有的边都表示同 一种专有名词的状态变化, 从而可以根据第二状态转移图中所有的边确定第二标记位置, 第二标记位置用于确定与第一状态转移图合并的方向、 位置等。 0079 子步骤S33、 根据所述第一标。
40、记位置, 以及所述第二标记位置, 对所述第一状态转 移图和所述第二状态转移图进行合并, 获得第三状态转移图。 0080 本发明实施例中, 通过图合并的方式, 在第一状态转移图的第一标记位置, 按照第 二状态转移图中的第二标记位置, 对第一状态转移图和第二状态转移图进行合并, 获得第 三状态转移图, 第三状态转移图中包括第一状态转移图, 以及第一状态转移图中标记边的 第一标记位置合并的对应的第二状态转移图。 0081 子步骤S34、 将所述第三状态转移图对应的语言模型作为目标语言模型。 说明书 6/11 页 10 CN 111540343 A 10 0082 本发明实施例中, 第三状态转移图表示。
41、了不同于主语言模型、 子语言模型的第三 种语言模型, 该第三种语言模型可以作为目标语言模型进行后续语料识别, 能够在满足基 本语料识别功能的基础上, 有效提升语料数据中专有名词的识别准确率。 0083 可选地, 所述第一标记位置包括第一起始位置和第一终止位置, 所述第二标记位 置包括第二起始位置和第二终止位置。 0084 本发明实施例中, 第一标记位置可以为标记边的第一起始位置、 第一终止位置, 用 于表示该主语言模型中针对该分词的输入、 输出过程。 可选地, 可以根据标记边箭头的方 向, 将标记边两端的节点分别作为标记边的第一起始位置和第一终止位置, 从而确定标记 边的第一标记位置。 008。
42、5 本发明实施例中, 由于第二状态转移图对应的子语言模型, 其第二训练数据中仅 包括对应专有名词类别的语料数据, 因此, 可以认为根据边箭头的方向, 第二状态转移图中 整张图边的起始位置为第二起始位置, 第二状态转移图中整张图边的终止位置为第二终止 位置, 从而确定第二状态转移图中边的第二标记位置。 0086 可选地, 所述子步骤S34包括: 0087 子步骤S341、 从所述第一起始位置复制所述标记边, 复制的标记边指向所述第二 起始位置。 0088 本发明实施例中, 在对第一状态转移图和第二状态转移图合并时, 可以从第一起 始位置复制该标记边, 该标记边到第二终止位置结束。 并将该标记边指。
43、向第二转移图中的 第二起始位置, 使得第一状态转移图在第一标记位置与第二状态转移图初步合并。 0089 子步骤S342、 从所述第二终止位置增加空白边, 增加的空白边指向所述第一终止 位置, 从而合并所述第一状态转移图和所述第二状态转移图, 获得第三状态转移图。 0090 本发明实施例中, 空白边指边上不表示任何分词的输入、 输出等, 仅起到连接作用 的边, 在第二终止位置增加空白边, 并使得空白边指向第一终止位置, 从而连接第二终止位 置, 从而使得第一起始位置与第二起始位置通过标记边相连, 第一终止位置与第二终止位 置通过空白边相连。 此时, 由于第二起始位置与第二终止位置由原本第二状态转。
44、移图中的 边相连, 因此, 第二状态转移图已合并在第一状态转移图的第一标记位置, 从而获得了第三 状态转移图。 0091 图5是本发明实施例中一种第一状态转移图与第二状态转移图合并的过程示意 图, 如图5所示, 在第一状态转移图501中, 将标记边记为5011, 用符号表示, 标记边的 第一起始位置记为5012, 用符号表示, 第一终止位置记为5013, 用符号; 在 第二状态转移图502中的第二起始位置记为5021, 用符号表示, 第二终止位置记为 5022, 用符号表示。 0092 在第一状态转移图501中, 从5012开始复制5011, 并将复制的5011的箭头指向5021。 之后, 再。
45、从5022增加空白边5023, 并将5023的箭头指向5013, 从而合并第一状态转移图501和第二状态转移图502。 0093 本发明实施例中, 也可以不生成状态转移图对主语言模型和子语言模型直接进行 合并, 或根据主语言模型和子语言模型直接生成类似的第三状态转移图, 本发明实施例中 对模型合并的方式不作具体限制。 0094 可选地, 所述步骤202之前, 所述方法还可以包括: 说明书 7/11 页 11 CN 111540343 A 11 0095 步骤208、 确定至少一个预置的专有名词类别。 0096 本发明实施例中, 预置的专有名词类别可以在子语言模型训练之前预先设置, 可 选地, 。
46、可以由用户根据语料数据中专有名词类别识别的需求进行预置, 如用户对语料数据 中的专有名词需要区分出人名、 地名两类, 则确定预置的专有名词类别为人名、 地名; 或者, 也可以根据历史语料识别的结果中获得专有名词类别, 确定预置的专有名词类别; 或者, 也 可以通过对语料数据中的专有名词进行聚类得到, 本发明实施例对此不作具体限制。 0097 步骤209、 对所述专有名词类别进行标记, 获得与所述专有名词类别一一对应的类 标记。 0098 步骤210、 建立所述专有名词类别与所述类标记之间的映射关系。 0099 本发明实施例中, 在确定预置的专有名词类别后, 可以分别对专有名词类别进行 标记, 。
47、获得类标记, 该类标记只需保证唯一对应专有名词类别即可, 本发明实施例对类标记 的形式不作具体限定。 根据类标记与专有名词的一一对应关心, 可以建立专有名词类别与 类标记之间的映射关系, 从而便于后续类标记的替换, 以及模型的合并。 0100 可选地, 所述步骤203包括: 0101 步骤2031、 提取所述语料数据中的专有名词, 识别所述专有名词对应的专有名词 类别。 0102 步骤2032、 根据所述映射关系, 确定所述专有名词类别对应的类标记。 0103 步骤2033、 根据所述类标记, 对所述语料数据中的专有名词进行替换, 获得第一训 练数据。 0104 本发明实施例中, 可以对语料数。
48、据中的专有名词进行类别识别、 提取、 替换, 其中, 可以采用预先训练的语言模型对语料数据中的专有名词类别进行识别, 从而替换为与专有 名词类别具有映射关系的类标记, 或者, 也可以通过人工筛选的方式对语料数据中的专有 名词进行提取, 本发明实施例对提取语料数据中专有名词的方法不做具体限定。 0105 综上所述, 本发明实施例提供的语料识别方法, 通过根据专有名词所属的专有名 词类别的类标记, 在语料数据中对专有名词进行替换、 占位得到第一训练数据, 并根据第一 训练数据训练得到主语言模型后, 依据类标记与对应子语言模型进行合并, 而子语言模型 是根据类标记对应专有名词类别的训练数据训练得到的。
49、。 因此, 本发明实施例中, 将类标记 作为专有名词占位符在语料数据中对专有名词进行替换, 并在后续模型构建中根据子语言 模型将类标记对应专有名词类别的专有名词进行扩展, 从而扩大了目标语言模型中专有名 词语料的广度, 解决了传统方法中专有名词上下文覆盖不全面的问题, 提升了专有名词语 料识别的准确率。 0106 图6是本发明实施例提供的一种语料识别装置的结构框图, 如图6所示, 该装置600 可以包括: 0107 第一模型训练模块601, 用于根据预置的专有名词类别, 训练所述专有名词类别对 应的子语言模型。 0108 数据采集模块602, 用于获取包含专有名词的语料数据。 0109 数据处。
50、理模块603, 用于将所述语料数据中的专有名词按照所述专有名词类别替 换为对应的类标记, 获得第一训练数据。 0110 第二模型训练模块604, 用于根据所述第一训练数据进行模型训练, 获得主语言模 说明书 8/11 页 12 CN 111540343 A 12 型。 0111 位置确定模块605, 用于确定所述主语言模型中类标记的第一标记位置。 0112 模型合并模块606, 用于在所述第一标记位置合并所述类标记对应的子语言模型, 获得目标语言模型。 0113 名词识别模块607, 用于根据所述目标语言模型, 对待识别语料中的专有名词进行 识别。 0114 可选地, 所述第一模型训练模块60。
- 内容关键字: 语料 识别 方法 装置
纳米气泡布面除油预缩设备.pdf
半导体老化冷热测试装置.pdf
RFID芯片剪切力测试仪.pdf
可按摩式颈托睡眠头枕及汽车座椅.pdf
汽车点火装饰圈.pdf
起落架部件机加工同心度辅助工装.pdf
园林绿化垃圾处理装置.pdf
施工物料分筛装置.pdf
鸡粪螺旋挤出设备.pdf
用于分砖的压砖装置.pdf
故障电池包防护箱.pdf
耐磨型泥沙挖掘齿.pdf
阀门锁盖设备.pdf
用于多肽固相合成的后处理系统及多肽固相合成设备.pdf
高压线圈导线拉紧装置.pdf
可调式带锯机切割辅助工装.pdf
温度压力一体化检测的波码通信控制装置.pdf
屋面防水卷材辅助施工设备.pdf
桥梁支座变形角度测量装置.pdf
便于冷却烘干的塑料玩具注塑机.pdf
防护插板.pdf
基于特征融合Transformer的多对比度核磁共振图像超分辨率方法.pdf
复叠制冷压缩机组.pdf
盾构管片拼装定位分体测量装置.pdf
自组装多肽RAKA 16的合成方法.pdf
基于机器学习的盾构掘进机姿态分项预测方法.pdf
宫颈TCT切片的多类型细胞核标注及多任务处理方法.pdf
基于自然资源工程勘测面积的测量装置.pdf
数据处理方法、装置及电子设备.pdf
基于人工智能的生物质电厂燃烧控制决策优化方法及系统.pdf
低功率的医院污水处理装置.pdf
基于FV-MViT的指静脉识别方法、装置及相关介质.pdf
一种16Α羟基泼尼松龙的合成方法.pdf
新型无卤阻燃环氧树脂密封胶.pdf
一种阻燃双组分聚硫中空玻璃弹性密封胶及制备方法.pdf
用于表达MPHOSPH1或DEPDC1多肽的癌症的肽疫苗.pdf
功能性微粒及其制造方法.pdf
一种钢砂胶及其制备方法.pdf
防火、灭火固定自开灭火器.pdf
一种消防监控系统.pdf
洒水消防车.pdf
一种在线去除RH真空室冷钢的方法.pdf
一种苯胺类衍生物引入巯基的方法.pdf
一种生产高氮IF钢的方法.pdf
高效水驱钻头消防枪.pdf
胍基乙酸硝酸盐的制备方法.pdf
胍基丙酸硝酸盐的制备方法.pdf
一种高抗磨特种金属材料铸钢及其制造方法.pdf
排除假阴性的PCR检测方法和其中使用的引物.pdf
使用远程等离子体源的介电沉积.pdf
2,3,2,3四氟二苯乙烷类负性液晶材料及其制备方法.pdf