书签 分享 收藏 举报 版权申诉 / 14

模型训练方法及装置和语句业务类型的识别方法及装置.pdf

  • 上传人:柴****2
  • 文档编号:6020621
  • 上传时间:2019-04-03
  • 格式:PDF
  • 页数:14
  • 大小:1.05MB
  • 摘要
    申请专利号:

    CN201510850386.X

    申请日:

    2015.11.27

    公开号:

    CN106815198A

    公开日:

    2017.06.09

    当前法律状态:

    实审

    有效性:

    审中

    法律详情:

    实质审查的生效IPC(主分类):G06F 17/27申请日:20151127|||公开

    IPC分类号:

    G06F17/27; G06K9/62

    主分类号:

    G06F17/27

    申请人:

    北京国双科技有限公司

    发明人:

    刘粉香

    地址:

    100086 北京市海淀区双榆树小区知春路76号翠宫饭店8层A间

    优先权:

    专利代理机构:

    北京康信知识产权代理有限责任公司 11240

    代理人:

    韩建伟;张永明

    PDF完整版下载: PDF下载
    内容摘要

    本申请公开了一种模型训练方法及装置和语句业务类型的识别方法及装置。其中,该方法包括:采集多个业务类型中每个业务类型的多条文本信息,并标注采集到的文本信息中每条语句所属的业务类型,得到第一训练集;确定第一训练集中每条语句对应的语句向量,其中,语句向量为用于唯一表示对应的语句的多维数组;利用支持向量机对多个业务类型中每个业务类型的语句对应的语句向量分别进行训练,得到每个业务类型对应的支持向量机的训练模型,其中,支持向量机的训练模型用于识别语句的业务类型。本申请解决了现有技术中语句的业务类型识别的准确性低的技术问题。

    权利要求书

    1.一种模型训练方法,其特征在于,包括:
    采集多个业务类型中每个业务类型的多条文本信息,并标注采集到的文本信
    息中每条语句所属的业务类型,得到第一训练集;
    确定所述第一训练集中每条语句对应的语句向量,其中,所述语句向量为用
    于唯一表示对应的语句的多维数组;
    利用支持向量机对多个业务类型中每个业务类型的语句对应的语句向量分别
    进行训练,得到每个业务类型对应的支持向量机的训练模型,其中,所述支持向
    量机的训练模型用于识别语句的业务类型。
    2.根据权利要求1所述的模型训练方法,其特征在于,利用支持向量机对多个业务
    类型中每个业务类型的语句对应的语句向量分别进行训练,得到每个业务类型对
    应的支持向量机的训练模型包括:
    对于所述多个业务类型中每个业务类型,分别执行以下步骤,直到训练得到
    每个业务类型对应的支持向量机的训练模型:
    将标注为当前业务类型的语句对应的语句向量作为正样本,将标注为所述多
    个业务类型中其他的业务类型的语句对应的语句向量作为负样本,输入到支持向
    量机的初始模型中,训练得到当前业务类型对应的支持向量机的训练模型。
    3.根据权利要求1所述的模型训练方法,其特征在于,确定所述第一训练集中每条
    语句对应的语句向量包括:
    对所述第一训练集中每条语句进行分词处理;
    查找每条语句分词后每个词语对应的词向量,其中,所述词向量为用于唯一
    表示对应的词语的多维数组;
    根据每条语句中每个词语对应的词向量确定出相应语句的语句向量。
    4.根据权利要求3所述的模型训练方法,其特征在于,在查找每条语句分词后每个
    词语对应的词向量之前,所述模型训练方法还包括:
    采集多个业务类型中每个业务类型的预设数据量的文本信息,得到文本信息
    集合;
    利用机器学习方式生成所述文本信息集合中每个词语的词向量,得到每个业
    务类型的词向量集合;
    其中,查找每条语句分词后每个词语对应的词向量包括:从每个业务类型的
    词向量集合查找出所述分词后每个词语对应的词向量。
    5.一种语句业务类型的识别方法,其特征在于,包括:
    确定待测语句对应的语句向量;
    将待测语句对应的语句向量输入到权利要求1至4中任一项所述的模型训练
    方法训练得到的支持向量机的训练模型中,利用所述支持向量机的训练模型识别
    出所述待测语句的业务类型。
    6.一种模型训练装置,其特征在于,包括:
    第一采集单元,用于采集多个业务类型中每个业务类型的多条文本信息,并
    标注采集到的文本信息中每条语句所属的业务类型,得到第一训练集;
    确定单元,用于确定所述第一训练集中每条语句对应的语句向量,其中,所
    述语句向量为用于唯一表示对应的语句的多维数组;
    训练单元,用于利用支持向量机对多个业务类型中每个业务类型的语句对应
    的语句向量分别进行训练,得到每个业务类型对应的支持向量机的训练模型,其
    中,所述支持向量机的训练模型用于识别语句的业务类型。
    7.根据权利要求6所述的模型训练装置,其特征在于,所述训练单元具体用于执行
    以下步骤直到训练得到每个业务类型对应的支持向量机的训练模型:
    将标注为当前业务类型的语句对应的语句向量作为正样本,将标注为所述多
    个业务类型中其他的业务类型的语句对应的语句向量作为负样本,输入到支持向
    量机的初始模型中,训练得到当前业务类型对应的支持向量机的训练模型。
    8.根据权利要求6所述的模型训练装置,其特征在于,所述确定单元包括:
    分词模块,用于对所述第一训练集中每条语句进行分词处理;
    查询模块,用于查找每条语句分词后每个词语对应的词向量,其中,所述词
    向量为用于唯一表示对应的词语的多维数组;
    确定模块,用于根据每条语句中每个词语对应的词向量确定出相应语句的语
    句向量。
    9.根据权利要求8所述的模型训练装置,其特征在于,所述模型训练装置还包括:
    第二采集单元,用于在查找每条语句分词后每个词语对应的词向量之前,采
    集多个业务类型中每个业务类型的预设数据量的文本信息,得到文本信息集合;
    生成单元,用于利用机器学习方式生成所述文本信息集合中每个词语的词向
    量,得到每个业务类型的词向量集合;
    其中,所述查询模块具体用于从每个业务类型的词向量集合查找出所述分词
    后每个词语对应的词向量。
    10.一种语句业务类型的识别装置,其特征在于,包括:
    向量确定单元,用于确定待测语句对应的语句向量;
    识别单元,用于将待测语句对应的语句向量输入到权利要求1至4中任一项
    所述的模型训练方法训练得到的支持向量机的训练模型中,利用所述支持向量机
    的训练模型识别出所述待测语句的业务类型。

    说明书

    模型训练方法及装置和语句业务类型的识别方法及装置

    技术领域

    本申请涉及文本处理领域,具体而言,涉及一种模型训练方法及装置和语句业务
    类型的识别方法及装置。

    背景技术

    目前,计算机系统能够识别出用户咨询的问题,并确定出用户所要咨询的业务类
    型,业务类型是指该计算机系统所提供的业务的类型,例如,某网站业务分为交通、
    旅游等类型。计算机系统识别出用户咨询的业务类型之后,会搜索相关的信息以对用
    户进行答复,例如,当用户在线咨询“故宫怎么去?”计算机系统识别信息类型,回复
    交通类业务的信息,并进入相关流程,如调用地图等;而当用户咨询“故宫门票多少钱”,
    计算机系统应回复旅游类业务信息。

    对于用户咨询的业务类型的识别,目前主要是对用户输入的文本进行识别,对文
    本的语句中关键词匹配,输出关键词相关结果,然而,这种通过关键词来识别语句对
    应的业务类型的方式,通常是将与该关键词相关的所有业务类型输出,而非语句的业
    务类型,导致识别准确性低,例如将“故宫怎么去?”可能识别出“故宫”,然后输出旅
    游类或者门票类信息等各种业务类型信息。

    针对上述的问题,目前尚未提出有效的解决方案。

    发明内容

    本申请实施例提供了一种模型训练方法及装置和语句业务类型的识别方法及装置,
    以至少解决现有技术中语句的业务类型识别的准确性低的技术问题。

    根据本申请实施例的一个方面,提供了一种模型训练方法,包括:采集多个业务
    类型中每个业务类型的多条文本信息,并标注采集到的文本信息中每条语句所属的业
    务类型,得到第一训练集;确定所述第一训练集中每条语句对应的语句向量,其中,
    所述语句向量为用于唯一表示对应的语句的多维数组;利用支持向量机对多个业务类
    型中每个业务类型的语句对应的语句向量分别进行训练,得到每个业务类型对应的支
    持向量机的训练模型,其中,所述支持向量机的训练模型用于识别语句的业务类型。

    进一步地,利用支持向量机对多个业务类型中每个业务类型的语句对应的语句向
    量分别进行训练,得到每个业务类型对应的支持向量机的训练模型包括:对于所述多
    个业务类型中每个业务类型,分别执行以下步骤直到训练得到每个业务类型对应的支
    持向量机的训练模型:将标注为当前业务类型的语句对应的语句向量作为正样本,将标
    注为所述多个业务类型中其他的业务类型的语句对应的语句向量作为负样本,输入到
    支持向量机的初始模型中,训练得到当前业务类型对应的支持向量机的训练模型。

    进一步地,确定所述第一训练集中每条语句对应的语句向量包括:对所述第一训
    练集中每条语句进行分词处理;查找每条语句分词后每个词语对应的词向量,其中,
    所述词向量为用于唯一表示对应的词语的多维数组;根据每条语句中每个词语对应的
    词向量确定出相应语句的语句向量。

    进一步地,在查找每条语句分词后每个词语对应的词向量之前,所述模型训练方
    法还包括:采集多个业务类型中每个业务类型的预设数据量的文本信息,得到文本信
    息集合;利用机器学习方式生成所述文本信息集合中每个词语的词向量,得到每个业
    务类型的词向量集合;其中,查找每条语句分词后每个词语对应的词向量包括:从每
    个业务类型的词向量集合查找出所述分词后每个词语对应的词向量。

    根据本申请实施例的另一方面,还提供了一种语句业务类型的识别方法,包括:
    确定待测语句对应的语句向量;将待测语句对应的语句向量输入到支持向量机的训练
    模型中,利用所述支持向量机的训练模型识别出所述待测语句的业务类型。

    根据本申请实施例的另一方面,还提供了一种模型训练装置,包括:第一采集单
    元,用于采集多个业务类型中每个业务类型的多条文本信息,并标注采集到的文本信
    息中每条语句所属的业务类型,得到第一训练集;确定单元,用于确定所述第一训练
    集中每条语句对应的语句向量,其中,所述语句向量为用于唯一表示对应的语句的多
    维数组;训练单元,用于利用支持向量机对多个业务类型中每个业务类型的语句对应
    的语句向量分别进行训练,得到每个业务类型对应的支持向量机的训练模型,其中,
    所述支持向量机的训练模型用于识别语句的业务类型。

    进一步地,所述训练单元具体用于执行以下步骤直到训练得到每个业务类型对应
    的支持向量机的训练模型:将标注为当前业务类型的语句对应的语句向量作为正样本,
    将标注为所述多个业务类型中其他的业务类型的语句对应的语句向量作为负样本,输
    入到支持向量机的初始模型中,训练得到当前业务类型对应的支持向量机的训练模型。

    进一步地,所述确定单元包括:分词模块,用于对所述第一训练集中每条语句进
    行分词处理;查询模块,用于查找每条语句分词后每个词语对应的词向量,其中,所
    述词向量为用于唯一表示对应的词语的多维数组;确定模块,用于根据每条语句中每
    个词语对应的词向量确定出相应语句的语句向量。

    进一步地,所述模型训练装置还包括:第二采集单元,用于在查找每条语句分词
    后每个词语对应的词向量之前,采集多个业务类型中每个业务类型的预设数据量的文
    本信息,得到文本信息集合;生成单元,用于利用机器学习方式生成所述文本信息集
    合中每个词语的词向量,得到每个业务类型的词向量集合;其中,所述查询模块具体
    用于从每个业务类型的词向量集合查找出所述分词后每个词语对应的词向量。

    根据本申请实施例的另一方面,还提供了一种语句业务类型的识别装置,包括:
    向量确定单元,用于确定待测语句对应的语句向量;识别单元,用于将待测语句对应
    的语句向量输入到支持向量机的训练模型中,利用所述支持向量机的训练模型识别出
    所述待测语句的业务类型。

    根据本申请实施例,通过采集多个业务类型中每个业务类型的多条文本信息,并
    标注采集到的文本信息中每条语句所属的业务类型,得到第一训练集;确定第一训练
    集中每条语句对应的语句向量,其中,语句向量为用于唯一表示对应的语句的多维数
    组;利用支持向量机对多个业务类型中每个业务类型的语句对应的语句向量分别进行
    训练,得到每个业务类型对应的支持向量机的训练模型,以便于利用支持向量机的训
    练模型识别语句的业务类型。由于训练得到的训练模型是以语句单位来识别其对应的
    业务类型,相对于现有技术中通过语句中的关键词来识别业务类型的方式,其识别的
    准确性高,解决了现有技术中语句的业务类型识别的准确性低的技术问题,提高了语
    句的业务类型识别的准确性。

    附图说明

    此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申
    请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图
    中:

    图1是根据本申请实施例的模型训练方法的流程图;

    图2是根据本申请实施例的语句业务类型的识别方法的流程图;

    图3是根据本申请实施例的模型训练装置的示意图;

    图4是根据本申请实施例的语句业务类型的识别装置的示意图。

    具体实施方式

    为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的
    附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例
    仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领
    域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于
    本申请保护的范围。

    需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第
    二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这
    样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在
    这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的
    任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方
    法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚
    地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

    根据本申请实施例,提供了一种模型训练方法的方法实施例,需要说明的是,在
    附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并
    且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序
    执行所示出或描述的步骤。

    图1是根据本申请实施例的模型训练方法的流程图,如图1所示,该方法包括如
    下步骤:

    步骤S102,采集多个业务类型中每个业务类型的多条文本信息,并标注采集到的
    文本信息中每条语句所属的业务类型,得到第一训练集。

    本申请实施例中的业务类型可以是任意一种计算机系统内设置分类方式分成的业
    务类型,例如,业务类型可以为按视频类型、文本类型、领域类型分类等各种分类方
    式。以某政府部门的网站为例,可以将用户问题按领域分为“交通、旅游、政务、办事”
    等类型。本申请实施例中的业务类型不限定于上述几种情况,只要是按照业务划分,
    均属于本申请的保护范围。

    本实施例中,对于已经划分好的多个业务类型,采集其中每个业务类型的文本信
    息,且对每个业务类型采集多条该业务类型的文本信息。对于采集到的文本信息,以
    语句为单位标注每条语句的业务类型,从而得到第一训练集。

    例如,目标系统中,将业务划分成“交通”、“旅游”两个业务类型,并用“J”表
    示“交通”,“L”表示“旅游”,对“交通”的业务类型采集多条文本信息,将采集到
    的文本信息中每条语句标注“J”;对“旅游”的业务类型采集多条文本信息,将采集
    到的文本信息中每条语句标注“L”。

    步骤S104,确定第一训练集中每条语句对应的语句向量,其中,语句向量为用于
    唯一表示对应的语句的多维数组。

    第一训练集中每条语句对应的语句向量可以是按照预先定义的规则生成的语句向
    量,不同语句对应的语句向量各不相同。由于第一训练集中每条语句携带有与标注对
    应的业务类型,因此,每条语句对应的语句向量也对应着与该语句相同的业务类型。

    步骤S106,利用支持向量机对多个业务类型中每个业务类型的语句对应的语句向
    量分别进行训练,得到每个业务类型对应的支持向量机的训练模型,其中,支持向量
    机的训练模型用于识别语句的业务类型。

    在确定出每条语句之后,利用支持向量机(Support Vector Machine,简称为SVM)
    对每个业务类型的语句对应的语句向量进行训练,得到与每个业务类型一一对应的多
    个支持向量机的训练模型,其中,每个业务类型对应一个支持向量机的训练模型,然
    后通过训练得到的支持向量机的训练模型来识别待测语句的业务类型。通过支持向量
    机来来训练得到训练模型,机器可以以训练模型中的参数来记忆每个业务类型中词语
    及其组合形式,当再次接收到相关业务类型的语句时,就能够识别出该语句的业务类
    型。

    根据本申请实施例,通过采集多个业务类型中每个业务类型的多条文本信息,并
    标注采集到的文本信息中每条语句所属的业务类型,得到第一训练集;确定第一训练
    集中每条语句对应的语句向量,其中,语句向量为用于唯一表示对应的语句的多维数
    组;利用支持向量机对多个业务类型中每个业务类型的语句对应的语句向量分别进行
    训练,得到每个业务类型对应的支持向量机的训练模型,以便于利用支持向量机的训
    练模型识别语句的业务类型。由于训练得到的训练模型是以语句单位来识别其对应的
    业务类型,相对于现有技术中通过语句中的关键词来识别业务类型的方式,其识别的
    准确性高,解决了现有技术中语句的业务类型识别的准确性低的技术问题,提高了语
    句的业务类型识别的准确性。

    优选地,利用支持向量机对多个业务类型中每个业务类型的语句对应的语句向量
    进行训练,得到每个业务类型对应的支持向量机的训练模型包括:对于多个业务类型
    中每个业务类型,分别执行以下步骤直到训练得到每个业务类型对应的支持向量机的
    训练模型;将标注为当前业务类型的语句对应的语句向量作为正样本,将标注为多个
    业务类型中其他的业务类型的语句对应的语句向量作为负样本,输入到支持向量机的
    初始模型中,训练得到当前业务类型对应的支持向量机的训练模型。

    本实施例中的当前业务类型依次取上述多个业务类型中的每个业务类型,直到每
    个业务类型都训练得到对应的支持向量机的训练模型。

    对于当前业务类型,将该业务类型所采集到的语句对应的语句向量作为正样本,
    其他业务类型的语句对应的语句向量作为负样本,输入到支持向量机的初始模型中进
    行训练,得到当前业务类型的支持向量机的训练模型。

    以上述中“交通”、“旅游”两个业务类型为例,在训练“交通”的业务类型的支
    持向量机的训练模型时,将采集到的“交通”的业务类型的语句对应的语句向量作为
    正样本,将采集到的“旅游”的业务类型的语句对应的语句向量作为负样本,输入到
    支持向量机的初始模型中进行训练,得到“交通”的业务类型的支持向量机的训练模
    型。这样,当将待测语句输入到“交通”的业务类型的支持向量机的训练模型中之后,
    如果该待测语句属于“交通”的业务类型,则在输出该语句属于“交通”的业务类型
    的输出结果,反之,则输出不属于“交通”的业务类型的输出结果。例如,通过训练
    模型识别之后得到每个语句的标记,例如,属于某类型业务标记为1,不属于的标记
    为0,进而可根据该业务类型设定的计算机程序进行应答。

    根据本申请实施例,以语句向量为支持向量机的初始模型的输入内容,机器可以
    记忆每个类型业务语句中的词及其组合形式,并以模型中的参数记忆这些组合。

    优选地,确定第一训练集中每条语句对应的语句向量包括:对第一训练集中每条
    语句进行分词处理;查找每条语句分词后每个词语对应的词向量,其中,词向量为用
    于唯一表示对应的词语的多维数组;根据每条语句中每个词语对应的词向量确定出相
    应语句的语句向量。

    本实施例中,对于语句向量的确定,可以是将第一训练集中每条语句进行分词处
    理,然后查询每条语句中每个词语对应的词向量。其中,分词结果为按照原有语句将
    词进行顺序排列,包括标点符号例如,将“故宫怎么去?”分词为“故宫 怎么 去?”
    或者为“故宫 怎么去?”。其中,每个词语的词向量可以从预先生成的词向量集合
    中查询每个词语对应的词向量,也可以利用预先生成的规则生成每个词语对应的词向
    量。

    根据语句中的词语对应的词向量生成该语句对应的语句向量可以是把该语句中每
    个词对应的词向量相加得到该语句对应的语句向量,即将每个词向量相应位置上的数
    值相加得到的值作为语句向量该相应位置上的数值;或者,把该语句中每个词对应的
    词向量相加之后除以词向量个数,即将每个词向量相应位置上的数值相加再除以词向
    量个数,得到的值作为语句向量该相应位置上的数值。

    进一步地,在查找每条语句分词后每个词语对应的词向量之前,模型训练方法还
    包括:采集多个业务类型中每个业务类型的预设数据量的文本信息,得到文本信息集
    合;利用机器学习方式生成文本信息集合中每个词语的词向量,得到每个业务类型的
    词向量集合;其中,查找每条语句分词后每个词语对应的词向量包括:从每个业务类
    型的词向量集合查找出分词后每个词语对应的词向量。

    本实施例中,采集与每个业务类型相关的大量文本,利用机器学习方法生成词向
    量,得到每个业务类型相关文本的词向量集合。其中,用机器学习方法生成词向量,
    可以是利用谷歌word2vec进行词向量训练等方法得到。

    通过预先生成每个业务类型的词向量集合,以便于在根据词向量生成语句向量时,
    可以直接从词向量集合中查询相应词语的词向量,从而提高语句向量的确定的效率。

    本申请实施例的模型训练方法的一种可选方式包括:

    步骤一、对每个业务类型采集多条文本信息,并标注每个业务分类,作为训练集
    1即第一训练集。其中,业务类型可以为按视频类型、文本类型、领域类型分类等各
    种分类方式。如某政府部门将用户问题按领域分为“交通、旅游、政务、办事”等类型。

    步骤二、对训练集1中每条文本以语句为单位进行分词,作为业务分类训练集2。
    其中,分词结果为按照原有语句将词进行顺序排列,包括标点符号。如,将用户询问
    的问题“故宫怎么去?”可能分词为“故宫 怎么 去?”或者为“故宫 怎么去?”。

    步骤三、采集与每个业务类型相关的大量文本,利用机器学习方法生成词向量,
    得到每个业务类型相关文本的词向量集合,作为词向量训练集3。其中,用机器学习
    方法生成词向量,可以是利用谷歌word2vec进行词向量训练等方法得到。

    步骤四、根据上述中带有业务类型的词向量训练集3,找出训练集2中每条语句
    对应的语句向量。其中,语句向量的计算方法可以为把句中每个词对应的词向量相加
    除以此向量个数。

    步骤五、对每个类型业务,将步骤四中的该业务类型的语句向量作为正样本,其
    他业务类型的语句向量作为负样本,输入支持向量机的初始模型,得到每个业务类型
    的SVM训练模型(模型中参数确定)。其中,以语句向量为SVM(支持向量机)初始模
    型的输入内容,机器可以记忆每个类型业务语句中的词及其组合形式,并以模型中的
    参数记忆这些组合。

    根据本申请实施例还提供了一种语句业务类型的识别方法,该语句业务类型的识
    别方法可以用于通过本申请上述实施例的模型训练方法训练得到的支持向量机来识别
    待测语句的业务类型。如图2所示,该语句业务类型的识别方法包括:

    步骤S202,确定待测语句对应的语句向量。

    对于待测语句对应的语句向量的确定,可以参照本申请上述实施例中关于采集的
    业务类型的文本中的语句对应的语句向量的确定方式,这里不做赘述。

    步骤S204,将待测语句对应的语句向量输入到支持向量机的训练模型中,利用支
    持向量机的训练模型识别出待测语句的业务类型。

    本申请实施例的支持向量机的训练模型为本申请上述实施例的模型训练方法训练
    得到的支持向量机的训练模型。

    由于通过支持向量机来来训练得到训练模型,机器可以以训练模型中的参数来记
    忆每个业务类型中词语及其组合形式,当再次接收到相关业务类型的语句时,就能够
    识别出该语句的业务类型。其中,当将待测的大量目标语句的词向量输入每个业务类
    型的SVM训练模型,通过模型的计算,将得到每个语句的标记,例如,属于某类型业
    务标记为1,不属于标记为0,进而可根据该业务类型设定的计算机程序进行应答。

    由于训练得到的训练模型是以语句单位来识别其对应的业务类型,相对于现有技
    术中通过语句中的关键词来识别业务类型的方式,其识别的准确性高,解决了现有技
    术中语句的业务类型识别的准确性低的技术问题,提高了语句的业务类型识别的准确
    性。

    本申请实施例还提供了一种模型训练装置,该装置可以用于执行本申请实施例的
    模型训练方法,如图3所示,该装置包括:第一采集单元301、确定单元303和训练
    单元305。

    第一采集单元301用于采集多个业务类型中每个业务类型的多条文本信息,并标
    注采集到的文本信息中每条语句所属的业务类型,得到第一训练集。

    本申请实施例中的业务类型可以是任意一种计算机系统内设置分类方式分成的业
    务类型,例如,业务类型可以为按视频类型、文本类型、领域类型分类等各种分类方
    式。以某政府部门的网站为例,可以将用户问题按领域分为“交通、旅游、政务、办事”
    等类型。本申请实施例中的业务类型不限定于上述几种情况,只要是按照业务划分,
    均属于本申请的保护范围。

    本实施例中,对于已经划分好的多个业务类型,采集其中每个业务类型的文本信
    息,且每个业务类型采集多条该业务类型的文本信息。对于采集到的文本信息,以语
    句为单位标注每条语句的业务类型,从而得到第一训练集。

    例如,目标系统中,将业务划分成“交通”、“旅游”两个业务类型,并用“J”表
    示“交通”,“L”表示“旅游”,对“交通”的业务类型采集多条文本信息,将采集到
    的文本信息中每条语句标注“J”;对“旅游”的业务类型采集多条文本信息,将采集
    到的文本信息中每条语句标注“L”。

    确定单元303用于确定第一训练集中每条语句对应的语句向量,其中,语句向量
    为用于唯一表示对应的语句的多维数组。

    第一训练集中每条语句对应的语句向量可以是按照预先定义的规则生成的语句向
    量,不同语句对应的语句向量各不相同。由于第一训练集中每条语句携带有与标注对
    应的业务类型,因此,每条语句对应的语句向量也对应着与该语句相同的业务类型。

    训练单元305用于利用支持向量机对多个业务类型中每个业务类型的语句对应的
    语句向量分别进行训练,得到每个业务类型对应的支持向量机的训练模型,其中,支
    持向量机的训练模型用于识别语句的业务类型。

    在确定出每条语句之后,利用支持向量机(Support Vector Machine,简称为SVM)
    对每个业务类型的语句对应的语句向量进行训练,得到与每个业务类型一一对应的多
    个支持向量机的训练模型,其中,每个业务类型对应一个支持向量机的训练模型,然
    后通过训练得到的支持向量机的训练模型来识别待测语句的业务类型。通过支持向量
    机来来训练得到训练模型,机器可以以训练模型中的参数来记忆每个业务类型中词语
    及其组合形式,当再次接收到相关业务类型的语句时,就能够识别出该语句的业务类
    型。

    根据本申请实施例,通过采集多个业务类型中每个业务类型的多条文本信息,并
    标注采集到的文本信息中每条语句所属的业务类型,得到第一训练集;确定第一训练
    集中每条语句对应的语句向量,其中,语句向量为用于唯一表示对应的语句的多维数
    组;利用支持向量机对多个业务类型中每个业务类型的语句对应的语句向量分别进行
    训练,得到每个业务类型对应的支持向量机的训练模型,以便于利用支持向量机的训
    练模型识别语句的业务类型。由于训练得到的训练模型是以语句单位来识别其对应的
    业务类型,相对于现有技术中通过语句中的关键词来识别业务类型的方式,其识别的
    准确性高,解决了现有技术中语句的业务类型识别的准确性低的技术问题,提高了语
    句的业务类型识别的准确性。

    优选地,训练单元具体用于执行以下步骤直到训练得到每个业务类型对应的支持
    向量机的训练模型:将标注为当前业务类型的语句对应的语句向量作为正样本,将标注
    为多个业务类型中其他的业务类型的语句对应的语句向量作为负样本,输入到支持向
    量机的初始模型中,训练得到当前业务类型对应的支持向量机的训练模型。

    本实施例中的当前业务类型依次取上述多个业务类型中的每个业务类型,直到每
    个业务类型都训练得到对应的支持向量机的训练模型。

    对于当前业务类型,将该业务类型所采集到的语句对应的语句向量作为正样本,
    其他业务类型的语句对应的语句向量作为负样本,输入到支持向量机的初始模型中进
    行训练,得到当前业务类型的支持向量机的训练模型。

    以上述中“交通”、“旅游”两个业务类型为例,在训练“交通”的业务类型的支
    持向量机的训练模型时,将采集到的“交通”的业务类型的语句对应的语句向量作为
    正样本,将采集到的“旅游”的业务类型的语句对应的语句向量作为负样本,输入到
    支持向量机的初始模型中进行训练,得到“交通”的业务类型的支持向量机的训练模
    型。这样,当将待测语句输入到“交通”的业务类型的支持向量机的训练模型中之后,
    如果该待测语句属于“交通”的业务类型,则在输出该语句属于“交通”的业务类型
    的输出结果,反之,则输出不属于“交通”的业务类型的输出结果。例如,通过训练
    模型识别之后得到每个语句的标记,例如,属于某类型业务标记为1,不属于的标记
    为0,进而可根据该业务类型设定的计算机程序进行应答。

    根据本申请实施例,以语句向量为支持向量机的初始模型的输入内容,机器可以
    记忆每个类型业务语句中的词及其组合形式,并以模型中的参数记忆这些组合。

    优选地,确定单元包括:分词模块,用于对第一训练集中每条语句进行分词处理;
    查询模块,用于查找每条语句分词后每个词语对应的词向量,其中,词向量为用于唯
    一表示对应的词语的多维数组;确定模块,用于根据每条语句中每个词语对应的词向
    量确定出相应语句的语句向量。

    本实施例中,对于语句向量的确定,可以是将第一训练集中每条语句进行分词处
    理,然后查询每条语句中每个词语对应的词向量。其中,分词结果为按照原有语句将
    词进行顺序排列,包括标点符号例如,将“故宫怎么去?”分词为“故宫 怎么 去?”
    或者为“故宫 怎么去?”。其中,每个词语的词向量可以从预先生成的词向量集合
    中查询每个词语对应的词向量,也可以利用预先生成的规则生成每个词语对应的词向
    量。

    根据语句中的词语对应的词向量生成该语句对应的语句向量可以是把该语句中每
    个词对应的词向量相加得到该语句对应的语句向量,即将每个词向量相应位置上的数
    值相加得到的值作为语句向量该相应位置上的数值;或者,把该语句中每个词对应的
    词向量相加之后除以词向量个数,即将每个词向量相应位置上的数值相加再除以词向
    量个数,得到的值作为语句向量该相应位置上的数值。

    进一步地,模型训练装置还包括:第二采集单元,用于在查找每条语句分词后每
    个词语对应的词向量之前,采集多个业务类型中每个业务类型的预设数据量的文本信
    息,得到文本信息集合;生成单元,用于利用机器学习方式生成文本信息集合中每个
    词语的词向量,得到每个业务类型的词向量集合;其中,查询模块具体用于从每个业
    务类型的词向量集合查找出分词后每个词语对应的词向量。

    本实施例中,采集与每个业务类型相关的大量文本,利用机器学习方法生成词向
    量,得到每个业务类型相关文本的词向量集合。其中,用机器学习方法生成词向量,
    可以是利用谷歌word2vec进行词向量训练等方法得到。

    通过预先生成每个业务类型的词向量集合,以便于在根据词向量生成语句向量时,
    可以直接从词向量集合中查询相应词语的词向量,从而提高语句向量的确定的效率。

    所述模型训练装置包括处理器和存储器,上述第一采集单元301、确定单元303
    和训练单元305等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的
    上述程序单元。

    处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个
    或以上,通过调整内核参数来训练每个业务类型的支持向量机的训练模型。

    存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/
    或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一
    个存储芯片。

    本申请还提供了一种计算机程序产品的实施例,当在数据处理设备上执行时,适
    于执行初始化有如下方法步骤的程序代码:采集多个业务类型中每个业务类型的多条
    文本信息,并标注采集到的文本信息中每条语句所属的业务类型,得到第一训练集;
    确定第一训练集中每条语句对应的语句向量,其中,语句向量为用于唯一表示对应的
    语句的多维数组;利用支持向量机对多个业务类型中每个业务类型的语句对应的语句
    向量分别进行训练,得到每个业务类型对应的支持向量机的训练模型,其中,支持向
    量机的训练模型用于识别语句的业务类型。

    本申请实施例还提供了一种语句业务类型的识别装置,该装置可以用于执行本申
    请实施例的语句业务类型的识别方法,如图4所示,该装置包括:向量确定单元401
    和识别单元403。

    向量确定单元401用于确定待测语句对应的语句向量。

    对于待测语句对应的语句向量的确定,可以参照本申请上述实施例中关于采集的
    业务类型的文本中的语句对应的语句向量的确定方式,这里不做赘述。

    识别单元403用于将待测语句对应的语句向量输入到支持向量机的训练模型中,
    利用支持向量机的训练模型识别出待测语句的业务类型。

    本申请实施例的支持向量机的训练模型为本申请上述实施例的模型训练方法训练
    得到的支持向量机的训练模型。

    由于通过支持向量机来来训练得到训练模型,机器可以以训练模型中的参数来记
    忆每个业务类型中词语及其组合形式,当再次接收到相关业务类型的语句时,就能够
    识别出该语句的业务类型。其中,当将待测的大量目标语句的词向量输入每个业务类
    型的SVM训练模型,通过模型的计算,将得到每个语句的标记,例如,属于某类型业
    务标记为1,不属于标记为0,进而可根据该业务类型设定的计算机程序进行应答。

    由于训练得到的训练模型是以语句单位来识别其对应的业务类型,相对于现有技
    术中通过语句中的关键词来识别业务类型的方式,其识别的准确性高,解决了现有技
    术中语句的业务类型识别的准确性低的技术问题,提高了语句的业务类型识别的准确
    性。

    所述语句业务类型的识别装置包括处理器和存储器,上述向量确定单元401和识
    别单元403等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述
    程序单元。处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设
    置一个或以上,通过调整内核参数来识别待测语句的业务类型。

    存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/
    或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一
    个存储芯片。

    本申请还提供了一种计算机程序产品的实施例,当在数据处理设备上执行时,适
    于执行初始化有如下方法步骤的程序代码:确定待测语句对应的语句向量;将待测语
    句对应的语句向量输入到支持向量机的训练模型中,利用支持向量机的训练模型识别
    出待测语句的业务类型。

    上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。

    在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有
    详述的部分,可以参见其他实施例的相关描述。

    在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它
    的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,
    可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件
    可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所
    显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模
    块的间接耦合或通信连接,可以是电性或其它的形式。

    所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显
    示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到
    多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案
    的目的。

    另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以
    是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成
    的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

    所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,
    可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质
    上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的
    形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一
    台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所
    述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only
    Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘
    等各种可以存储程序代码的介质。

    以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人
    员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润
    饰也应视为本申请的保护范围。

    关 键  词:
    模型 训练 方法 装置 语句 业务 类型 识别
      专利查询网所有文档均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    0条评论

    还可以输入200字符

    暂无评论,赶快抢占沙发吧。

    关于本文
    本文标题:模型训练方法及装置和语句业务类型的识别方法及装置.pdf
    链接地址:https://www.zhuanlichaxun.net/p-6020621.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
    经营许可证编号:粤ICP备2021068784号-1