《一种设定CRF预测值的方法和装置.pdf》由会员分享,可在线阅读,更多相关《一种设定CRF预测值的方法和装置.pdf(14页完整版)》请在专利查询网上搜索。
1、10申请公布号CN104142916A43申请公布日20141112CN104142916A21申请号201410007419X22申请日20140108G06F17/2720060171申请人腾讯科技(深圳)有限公司地址518044广东省深圳市福田区振兴路赛格科技园2栋东403室72发明人吴小平74专利代理机构北京德琦知识产权代理有限公司11018代理人阎敏宋志强54发明名称一种设定CRF预测值的方法和装置57摘要本发明提出一种设定条件随机域(CRF)预测值的方法和装置,其中方法包括获取训练语料和特征抓取算法;修改所述训练语料和特征抓取算法,使采用修改后的训练语料和特征抓取算法所抓取的特征中。
2、包含预设值的特征;采用所述特征训练CRF预测所使用的模型;在测试语料中增加预设值的信息,将所述测试语料采用所述模型进行预测,得到满足预设值的预测结果。本发明能够达到预测结果满足预设值,同时使整体的预测结果最优。51INTCL权利要求书2页说明书9页附图2页19中华人民共和国国家知识产权局12发明专利申请权利要求书2页说明书9页附图2页10申请公布号CN104142916ACN104142916A1/2页21一种设定条件随机域CRF预测值的方法,其特征在于,所述方法包括获取训练语料和特征抓取算法;修改所述训练语料和特征抓取算法,使采用修改后的训练语料和特征抓取算法所抓取的特征中包含预设值的特征;。
3、采用所述特征训练CRF预测所使用的模型;在测试语料中增加预设值的信息,将所述测试语料采用所述模型进行预测,得到满足预设值的预测结果。2根据权利要求1所述的方法,其特征在于,当采用CRF方式实现CRF分词时,所述预测语料包括文本信息列和对应的标记值列;所述修改训练语料的方式为在所述训练语料中增加预设值列,所述预设值的取值为预先设定的无效值;并增加M份训练语料,每份训练语料包括文本信息列、标记值列和预设值列,标记值列和预设值列的取值相同,并且每份训练语料中标记值列和预设值列的取值分别为标记值的各个可能取值;其中,所述M为标记值的可能取值的个数;所述特征抓取算法采用特征模板实现;所述修改特征抓取算法。
4、的方式为在所述特征模板的最后一项之后增加当前行的预设值列;并新增一行特征模块,其内容为当前行的预设值列;所述测试语料包括文本信息列;所述在测试语料中增加预设值的信息的方式为在所述测试语料中增加预设值列;针对文本信息列中的任意一行文本信息,当不需要设定该文本信息的预测结果时,将所述预设值列中该行的预设值设置为预先设定的无效值;当需要设定该文本信息的预测结果时,将所述预设值列中该行的预设值设置为需要设定的预测值。3一种设定条件随机域CRF预测值的装置,其特征在于,所述装置包括获取模块,用于获取训练语料和特征抓取算法;修改模块,用于修改所述训练语料和特征抓取算法,使采用修改后的训练语料和特征抓取算法。
5、所抓取的特征中包含预设值的特征;并采用所述特征训练CRF预测所使用的模型;预测模块,用于在测试语料中增加预设值的信息,将所述测试语料采用所述模型进行预测,得到满足预设值的预测结果。4根据权利要求3所述的装置,其特征在于,当采用CRF方式实现CRF分词时,所述预测语料包括文本信息列和对应的标记值列;所述修改模块修改训练语料的方式为在所述训练语料中增加预设值列,所述预设值的取值为预先设定的无效值;并增加M份训练语料,每份训练语料包括文本信息列、标记值列和预设值列,标记值列和预设值列的取值相同,并且每份训练语料中标记值列和预设值列的取值分别为标记值的各个可能取值;其中,所述M为标记值的可能取值的个数。
6、;所述特征抓取算法采用特征模板实现;所述修改模块修改特征抓取算法的方式为在所述特征模板的最后一项之后增加当前行的预设值列;并新增一行特征模块,其内容为当前行的预设值列;所述测试语料包括文本信息列;所述测试模块在测试语料中增加预设值的信息的方式为在所述测试语料中增加预设权利要求书CN104142916A2/2页3值列;针对文本信息列中的任意一行文本信息,当不需要设定该文本信息的预测结果时,将所述预设值列中该行的预设值设置为预先设定的无效值;当需要设定该文本信息的预测结果时,将所述预设值列中该行的预设值设置为需要设定的预测值。权利要求书CN104142916A1/9页4一种设定CRF预测值的方法和。
7、装置技术领域0001本发明涉及条件随机域(CRF,CONDITIONALRANDOMFIELDS)技术领域,尤其涉及一种设定CRF预测值的方法和装置。背景技术0002CRF是一种判别式概率模型,是随机场的一种,常用于标注或分析序列资料,如自然语言文字或是生物序列。0003CRF算法是序列标注的主要算法,其数学公式为0004其中,00050006其中,FKY,X表示特征向量,X表示特征,Y表示标记值,(Y,X)表示特征标记值对,K表示特征标记值对的个数。1,2,K是模型的参数。0007如图1为现有技术中的CRF算法使用流程示意图,包括训练和预测两个部分。其中,训练的任务就是从相互独立的训练语料中。
8、估计参数1,2,K的值,训练时通过大量的训练语料和标记值利用CRF的训练算法训练出模型,首先根据特征抓取算法抓取训练语料的特征,再把特征和标记值一起送入训练算法迭代训练直到满足需求,得到训练出的模块。模型中存放的是各个FKY,X对应的K值。预测时利用和训练时同样的特征抓取算法抓取预测语料的特征,把特征和模型一起送入CRF预测算法来预测标记值,得到的标记值即为其预测值。预测值除与该项的特征有关之外,还与前一预测结果有关。例如,将CRF算法用于分词时,预测语料中的每一个文字会得到一个相应的预测值,预测值可能有“0”和“1”两种取值,其中“0”表示该文字之后不切开,“1”表示该文字之后切开;前一个文。
9、字的预测值会影响到后一个文字的预测值。0008CRF是一套简单的、可定制的CRF开源代码,是一种实现CRF算法的工具。0009CRF利用特征模板来抓取训练语料和测试语料的特征,例如对“这是一个例子”这句话进行分词时,其输入训练语料中的文本信息的形式为(每一行一个汉字)0010说明书CN104142916A2/9页50011如果定义特征模板为X0,0其中,X0,0表示当前行的第1列,采用该特征模块对每一行文本信息作特征提取,最后提取的所有特征为“这”、“是”、“一”、“个”、“例”、“子”。0012如果定义特征模板为X1,0/X0,0/X1,0(其中,X1,0表示当前行的前一行的第1列,X1,0。
10、表示当前行的后一行的第1列,采用该特征模板对每一行文本信息作特征提取,最后提取的所有特征为“F1/这/是”、“这/是/一”、“是/一/个”、“一/个/例”、“个/例/子”、“例/子/F1”,其中,F1表示第一行的前一行;,F1表示最后一行的后一行。0013也可以定义特征模板为0014X1,0/X0,0/X1,00015X0,00016则提取的所有特征为“F1/这/是”、“这/是/一”、“是/一/个”、“一/个/例”、“个/例/子”、“例/子/F1”、“这”、“是”、“一”、“个”、“例”、“子”。0017可见,对同样的输入语料,其特征模板不相同则最后提取的特征也不相同,修改特征模板可方便地提取。
11、需要的特征。0018CRF训练时,需要输入特征模板和训练语料,其中训练语料包括文本信息列和对应的标记值列。假设上面的例子为一训练语料的文本信息,其标定的分词为“这/是/一/个/例子”,每个文字对应的标记值的取值可以为“0”和“1”,其中,“0”表示不切开,“1”表示切开,则输入的训练语料为00190020上述训练语料中,第一列为文本信息列,第二列为标记值列。说明书CN104142916A3/9页60021CRF预测时,测试语料仅包括文本信息列;通过预测算法后,输出文本信息列中的每一行的预测值,其预测值与当前行的特征值以及前一行的预测值有关。0022在实际使用中,希望测试语料中文本的预测值为某一。
12、已知值而对预测值进行的干扰称为设定预测值。常因前置系统的输出或者实际运用而需要对预测的结果设定预测值。现有的设定预测值的方法一般是直接将预测值修改为需要设定的值,如图2为现有的设定预测值的方式示意图。比如,利用某一模型预测的预测值为0,而前置系统表明该处应该为1,则直接将预测结果修改为1。但是,这种直接修改某一个预测值的方式可能使得全局预测值不是最优。因为在一次CRF预测中,前一个预测值会概率上影响当前的预测值及随后的预测值,而直接修改的方式没有把这种影响计入其中,从而使修改后的预测值不是全局最优。例如对“球拍卖完了”进行分词,模型预测的结果为“球拍/卖/完了”,由前置系统已知“球”为主语,为。
13、单独的一个词,则采用直接修改后的分词为“球/拍/卖/完了”,很明显这不是整体最优的预测结果。发明内容0023本发明提供了一种设定CRF预测值的方法,能够将预先设定的预测值(简称预设值)作为输入参与到CRF的预测运算中,而不是在预测结束之后修改预测值,从而达到预测结果满足预设值,同时使整体的预测结果最优。0024本发明还提供了一种设定CRF预测值的装置,能够将预先设定的预测值(简称预设值)作为输入参与到CRF的预测运算中,而不是在预测结束之后修改预测值,从而达到预测结果满足预设值,同时使整体的预测结果最优。0025本发明的技术方案是这样实现的0026一种设定条件随机域(CRF)预测值的方法,其特。
14、征在于,所述方法包括0027获取训练语料和特征抓取算法;0028修改所述训练语料和特征抓取算法,使采用修改后的训练语料和特征抓取算法所抓取的特征中包含预设值的特征;0029采用所述特征训练CRF预测所使用的模型;0030在测试语料中增加预设值的信息,将所述测试语料采用所述模型进行预测,得到满足预设值的预测结果。0031上述方法中,当采用CRF方式实现CRF分词时,0032所述预测语料包括文本信息列和对应的标记值列;0033所述修改训练语料的方式为在所述训练语料中增加预设值列,所述预设值的取值为预先设定的无效值;并增加M份训练语料,每份训练语料包括文本信息列、标记值列和预设值列,标记值列和预设值。
15、列的取值相同,并且每份训练语料中标记值列和预设值列的取值分别为标记值的各个可能取值;其中,所述M为标记值的可能取值的个数;0034所述特征抓取算法采用特征模板实现;0035所述修改特征抓取算法的方式为在所述特征模板的最后一项之后增加当前行的预设值列;并新增一行特征模块,其内容为当前行的预设值列;0036所述测试语料包括文本信息列;0037所述在测试语料中增加预设值的信息的方式为在所述测试语料中增加预设值说明书CN104142916A4/9页7列;针对文本信息列中的任意一行文本信息,当不需要设定该文本信息的预测结果时,将所述预设值列中该行的预设值设置为预先设定的无效值;当需要设定该文本信息的预测。
16、结果时,将所述预设值列中该行的预设值设置为需要设定的预测值。0038一种设定条件随机域(CRF)预测值的装置,包括0039获取模块,用于获取训练语料和特征抓取算法;0040修改模块,用于修改所述训练语料和特征抓取算法,使采用修改后的训练语料和特征抓取算法所抓取的特征中包含预设值的特征;并采用所述特征训练CRF预测所使用的模型;0041预测模块,用于在测试语料中增加预设值的信息,将所述测试语料采用所述模型进行预测,得到满足预设值的预测结果。0042上述装置中,当采用CRF方式实现CRF分词时,0043所述预测语料包括文本信息列和对应的标记值列;0044所述修改模块修改训练语料的方式为在所述训练语。
17、料中增加预设值列,所述预设值的取值为预先设定的无效值;并增加M份训练语料,每份训练语料包括文本信息列、标记值列和预设值列,标记值列和预设值列的取值相同,并且每份训练语料中标记值列和预设值列的取值分别为标记值的各个可能取值;其中,所述M为标记值的可能取值的个数;0045所述特征抓取算法采用特征模板实现;0046所述修改模块修改特征抓取算法的方式为在所述特征模板的最后一项之后增加当前行的预设值列;并新增一行特征模块,其内容为当前行的预设值列;0047所述测试语料包括文本信息列;0048所述测试模块在测试语料中增加预设值的信息的方式为在所述测试语料中增加预设值列;针对文本信息列中的任意一行文本信息,。
18、当不需要设定该文本信息的预测结果时,将所述预设值列中该行的预设值设置为预先设定的无效值;当需要设定该文本信息的预测结果时,将所述预设值列中该行的预设值设置为需要设定的预测值。0049可见,本发明提出的设定CRF预测值的方法和装置,在CRF训练时,通过修改训练语料和特征抓取算法,使得采用修改后的训练语料和特征抓取算法所抓取的特征中增加了预设值的特征,并用该特征训练模块;在CRF预测时,在测试语料中增加预设值的信息,采用该模型预测测试语料,从而得到满足预设值的预测结果。由于在预测时综合了原始特征和预设值的信息,故其预测值为整体最优解。附图说明0050图1为现有技术中的CRF算法使用流程示意图;00。
19、51图2为现有的设定预测值的方式示意图;0052图3为本发明提出的设定CRF预测值的方法的设计思路示意图;0053图4为本发明提出的设定CRF预测值的方法实现流程图。具体实施方式0054本发明提出一种设定CRF预测值的方法,如图3为该方法的设计思路示意图。其基本思路是在训练和预测过程中将预先设定的预测值(简称预设值)作为输入参与CRF预测说明书CN104142916A5/9页8运算中,而不是在预测结束后修改预测值,从而可以达到预测结果为预测值,同时使整体的预测结果最优。0055如图4为该方法的实现流程图,包括0056步骤401获取训练语料和特征抓取算法;0057步骤402修改所述训练语料和特征。
20、抓取算法,使采用修改后的训练语料和特征抓取算法所抓取的特征中包含预设值的特征;0058步骤403采用所述特征训练CRF预测所使用的模型;0059步骤404在测试语料中增加预设值的信息,将所述测试语料采用所述模型进行预测,得到满足预设值的预测结果。0060当采用CRF方式实现CRF分词时,上述预测语料包括文本信息列和对应的标记值列;0061步骤402中修改训练语料的方式具体可以为在所述训练语料中增加预设值列,所述预设值的取值为预先设定的无效值;并增加M份训练语料,每份训练语料包括文本信息列、标记值列和预设值列,标记值列和预设值列的取值相同,并且每份训练语料中标记值列和预设值列的取值分别为标记值的。
21、各个可能取值;其中,所述M为标记值的可能取值的个数;0062上述特征抓取算法采用特征模板实现;0063步骤402中修改特征抓取算法的方式具体可以为在所述特征模板的最后一项之后增加当前行的预设值列;并新增一行特征模块,其内容为当前行的预设值列;0064测试语料包括文本信息列;0065步骤404中在测试语料中增加预设值的信息的方式为在所述测试语料中增加预设值列;针对文本信息列中的任意一行文本信息,当不需要设定该文本信息的预测结果时,将所述预设值列中该行的预设值设置为预先设定的无效值;当需要设定该文本信息的预测结果时,将所述预设值列中该行的预设值设置为需要设定的预测值。0066以下举具体的实施例详细。
22、说明。0067实施例一0068本实施例以采用CRF方式实现分词为例,介绍设定CRF预测值的一种具体实现方式。本实施例包括以下三个步骤0069步骤一0070根据实际系统需要预测的目标设计输入语料和特征模板,采用输入语料和特征模板训练模型,使训练得到的模型的预测准确率满足实际系统的要求。0071假定其中一句训练语料的文本为“这/是/一/个/例子”,则其输入训练语料的内容为00720073说明书CN104142916A6/9页90074其中,第一列为文本信息列,第二列为标记值列;标记值列中的“0”表示不切开,“1”表示切开。0075假定特征模板为X1,0/X0,0/X1,0,其意义同前。0076在下。
23、文中,将本步骤中设计的特征模板和输入语料抓取的特征记为原始特征。0077步骤二0078修改上述训练语料和特征模板,从而使抓取的特征中加入增加预设值的特征,采用该特征重新训练模型。00791)训练语料的修改0080在训练语料中增加预设值列;预设值的取值范围包括标记值的所有可能取值,还包括一个预先设定的无效值。0081假定标记值的可能取值的个数为M,则预设值的取值个数为(M1)。所有的训练语料都由原来的一份变为(M1)份;所有的(M1)份中,文本信息列的内容相同。每一份的预设值列各不相同,当预设值列的所有值都取预先设定的无效值时,标记值列保持不变,仍为该训练语料中文本信息的真实标记值;当预设值列的。
24、所有值都取其他预设值时,标记值列与预设值列相同。0082例如,沿用上面的例子,其标记值的取值可以为“0”和“1”,M2;预设值的取值可以为“0”、“1”和“1”,其中,“1”为预先设定的无效值。训练语料由原来的1份变为3份,假定其切分仍为“这/是/一/个/例子”,则修改后的训练语料包括以下三份0083A、预设值取预先设定的无效值“1”时,训练语料为(第二列表示预设值列)008400850086B、预设值取“0”时,训练语料为0087说明书CN104142916A7/9页100088C、预设值取“1”时,训练语料为008900902)特征模板的修改0091在特征模板的最后一项之后增当前行的预设值。
25、列;同时增加一行特征模板,其内容为当前行的预设值列。假定预设值列为第N列,则在原有的每一模板项后添加内容为“/X0,N1”,增加的特征模板行为“X0,N1”。0092沿用上面的例子,原特征模板为“X1,0/X0,0/X1,0”,由于训练语料中预设值为第二列,则修改后的特征模板为0093X1,0/X0,0/X1,0/X0,10094X0,10095采用修改后的训练语料和特征模板抓取特征后,抓取总特征将比没有预设值时更多。以第二行“是”和倒数第二行“例”为例0096采用步骤一中的训练语料和特征模板抓取的特征为“这/是/一”、“个/例/子”,其中没有预设值的信息。特征与标记值一起组成的特征标记值对为。
26、0097(这/是/一,1)、(个/例/子,0)。0098采用步骤二中修改后的训练语料和特征模板抓取的特征为“这/是/一/1”、“这/是/一/0”、“这/是/一/1”、“个/例/子/1”、“个/例/子/0”、“个/例/子/1”,“1”,“0”,“1”,其中包含预设值的信息。特征与标记值一起组成的特征标记值对为0099(这/是/一/1,1)、(这/是/一/0,0)、(这/是/一/1,1)、0100(个/例/子/1,0)、(个/例/子/0,0)、(个/例/子/1,1)、0101(1,0)、(1,1)、(0,0)、(1、1)说明书CN104142916A108/9页110102通过比较可见,当预设值取。
27、无效值时(上例为“1”),其特征标记值对与无预设值的特征标记值对一样,预设值不影响原始特征与标记值的关系,因此其训练的模型中的参数中仍保留了原始特征训练出的模型中的参数;当预设值取有效值时(上例为“0”和“1”),无论其原始特征是什么,其标记值与预设值一样,预设值影响了标记值的结果,其训练出的模型的参数中新增了与预设值相关的模型参数。0103在原来的特征上都附加有预设值的特征,预设值的特征作为特征的一部分参与模型训练的运算中,训练出的模型参数中综合了与原始特征和预设值相关的参数。0104第三步0105采用上述步骤二中训练的模型进行预测。对于输入的测试语料,在测试语料中增加预设值列,其形式及取值。
28、范围与训练语料中的预设值列相同。0106预设值列的具体取值根据实际的需要而定。如果希望某行预设值不影响该行的预测结果,而是由原始特征确定,其预设值就取无效值;如果希望预测值为某一特定的标记值,则其预设值就取该标记值。0107以对“球拍卖完了”作分词为例0108A、如果希望预设值不影响预测值,则将预设值列都设为无效值(本例中无效值为“1”),该测试语料为01090110每一行都根据其原始特征和前一行的输出对本行做预测,与没有预设值时的预测结果完全一样。0111B、如果希望第一行的预设值影响预测值,则将第一行的预设值设为某一特定的标记值(本例中取“1”),则能够得到该行的预测结果为该特定的标记值;。
29、其他行的预测值都设为无效值(本例中无效值为“1”),该测试语料为01120113第一行的预测值为预设值,其他各行均与没有预设值时一样,根据原始特征和前一行的输出对本行做预测。说明书CN104142916A119/9页120114因此,采用上述步骤二训练的CRF模型预测时,综合了原始特征和预设值的信息,其预测值为整体最优解。0115需要说明的是,上述实施例是以CRF实现分词为例进行说明的。本发明也可以应用与其他基于CRF理论的CRF工具中,并且适用于分词以外的其他应用。0116本发明还提出一种设定CRF预测值的装置,该装置包括0117获取模块,用于获取训练语料和特征抓取算法;0118修改模块,用。
30、于修改所述训练语料和特征抓取算法,使采用修改后的训练语料和特征抓取算法所抓取的特征中包含预设值的特征;并采用所述特征训练CRF预测所使用的模型;0119预测模块,用于在测试语料中增加预设值的信息,将所述测试语料采用所述模型进行预测,得到满足预设值的预测结果。0120当采用CRF方式实现CRF分词时,所述预测语料包括文本信息列和对应的标记值列;0121所述修改模块修改训练语料的方式为在所述训练语料中增加预设值列,所述预设值的取值为预先设定的无效值;并增加M份训练语料,每份训练语料包括文本信息列、标记值列和预设值列,标记值列和预设值列的取值相同,并且每份训练语料中标记值列和预设值列的取值分别为标记。
31、值的各个可能取值;其中,所述M为标记值的可能取值的个数;0122所述特征抓取算法采用特征模板实现;0123所述修改模块修改特征抓取算法的方式为在所述特征模板的最后一项之后增加当前行的预设值列;并新增一行特征模块,其内容为当前行的预设值列;0124所述测试语料包括文本信息列;0125所述测试模块在测试语料中增加预设值的信息的方式为在所述测试语料中增加预设值列;针对文本信息列中的任意一行文本信息,当不需要设定该文本信息的预测结果时,将所述预设值列中该行的预设值设置为预先设定的无效值;当需要设定该文本信息的预测结果时,将所述预设值列中该行的预设值设置为需要设定的预测值。0126以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。说明书CN104142916A121/2页13图1图2图3说明书附图CN104142916A132/2页14图4说明书附图CN104142916A14。