基于最优值迭代的多任务学习模型训练以及预测方法.pdf

上传人：狗** 文档编号：10926170 上传时间：2021-08-27 格式：PDF 页数：14 大小：624.46KB

收藏版权申诉举报下载

第1页 / 共14页

第2页 / 共14页

第3页 / 共14页

下载文档到电脑，查找使用更方便

30 金币

下载文档

文档描述：

《基于最优值迭代的多任务学习模型训练以及预测方法.pdf》由会员分享，可在线阅读，更多相关《基于最优值迭代的多任务学习模型训练以及预测方法.pdf（14页完成版）》请在专利查询网上搜索。

1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 201911003058.0 (22)申请日 2019.10.22 (71)申请人中国人民解放军国防科技大学地址 410073 湖南省长沙市开福区德雅路 109号 (72)发明人周鋆孙立健王建江朱承张维明 (74)专利代理机构长沙国科天河知识产权代理有限公司 43225 代理人周达 (51)Int.Cl. G06K 9/62(2006.01) (54)发明名称基于最优值迭代的多任务学习模型训练以及预测方法 (57)摘要一种基于最优值迭代的多任务学习模型训练以。

2、及预测方法，先获取多个任务的样本数据集，并将各任务的样本数据集均划分为训练集和测试集。对于每一个任务，利用其对应的训练集得到各任务上各类标签的先验概率以及各任务中各特征变量在各类标签上的条件概率，计算每一个任务对应的测试集中各实例的类标签。基于最优值迭代方法更新各任务上各类标签的先验概率。不断循环迭代，直至不同任务上类标签的先验概率误差的绝对值之和小于设定的阈值时收敛，得到训练好的多任务学习模型。本发明可以显著提高多任务学习的效率。同时,本发明可以更加充分利用任务之间的共享信息和数据的先验知识,利用较少的计算资源便可以达到更佳的分类效果。权利要。

3、求书3页说明书9页附图1页 CN 110766069 A 2020.02.07 CN 110766069 A 1.一种基于最优值迭代的多任务学习模型训练方法，其特征在于，包括： (1)设有T个任务，对于各任务t(t1， 2， 3T)分别采集含D个特征变量的多个实例，同时获取每一个任务的各实例所对应的类标签，得到各任务的样本数据集；将各任务t的样本数据集均划分为训练集和测试集； (2)训练多任务学习模型； (2.1)对于每一个任务，利用其对应的训练集得到各任务上各类标签的先验概率以及各任务中各特征变量在各类标签上的条件概率； (2.2)根据各任务上各类标签的先验概率以及各。

4、任务中各特征变量在各类标签上的条件概率计算每一个任务对应的测试集中各实例的类标签； (2.3)将步骤(2.2)计算得到的各任务测试集中各实例的类标签与步骤(1)中采集得到的对应类标签进行比较，得到步骤(2.2)计算得到的分类结果的准确率或者F1值，根据准确率或者F1值确定当前的分类结果评分； (2.4)根据步骤(2.2)计算得到的所有任务对应的测试集的分类结果，基于最优值迭代方法更新各任务上各类标签的先验概率，返回步骤(2.2)； (2.5)在循环迭代过程中，如果第m次迭代过程中得到的分类结果评分大于m-1次迭代过程中得到的分类结果评分，则将第m次迭代过程中所采用的各任务。

5、上类标签的先验概率作为当前的各任务上类标签的最优先验值；在循环迭代过程中，计算第m次和第m-1次迭代时的不同任务上类标签的先验概率误差的绝对值之和，当小于设定的超参数时收敛，得到训练好的多任务学习模型，输出最终的各任务上各类标签的最优先验值。 2.根据权利要求1所述的基于最优值迭代的多任务学习模型训练方法，其特征在于，步骤(1)中，每一个任务的所有实例的类标签用C1， C2， .， CK表示， K表示所有实例的类标签的总个数， x1， x2， .， xD表示每一个实例的特征变量，特征变量的总数为D；对于第t个任务的样本数据集，将其划分为训练集和测试集， Tra。

6、int表示第t个任务对应的训练集，其中的实例数分别有Traint(all)个， Testt表示第t个任务对应的测试集，其中的实例数分别有Testt(all)个；第t个任务的样本数据集中的所有实例的总数Nt即为Traint (all)+Testt(all)。 T个任务总的训练集Train即为Train1， .， Traint， .， TrainT， T个任务总的测试集Test即为Test1， .， Testt， .， TestT。 3.根据权利要求2所述的基于最优值迭代的多任务学习模型训练方法，其特征在于，步骤(2.1)中，利用各任务对应的训练集计算各任务上各类标签的先验概率。

7、的方法如下：对于第t个任务对应的训练集Traint，令Traint(Ck)表示Traint的所有实例中类标签为 Ck的实例数量，则第t个任务中的第k个类标签Ck的先验概率为： Pt(Ck)Traint(Ck)/Traint(all) 步骤(2.1)中，各任务中各特征变量在各类标签上的条件概率的计算方法如下：对于第t个任务对应的训练集Traint， Traint(Ck， xd)表示Traint的所有实例中类标签为 Ck且第d个特征变量xd的取值相同的实例数量，则第t个任务中的第d个的特征变量xd在第k 个类标签Ck上的条件概率为： Pt(xd|Ck)Traint(Ck， xd)/Tr。

8、aint(Ck)。权利要求书 1/3 页 2 CN 110766069 A 2 4.根据权利要求3所述的基于最优值迭代的多任务学习模型训练方法，其特征在于，步骤(2.1)中，采用拉普拉斯修正各任务上各类标签的先验概率以及各任务中各特征变量在各类标签上的条件概率，方法如下：令kd表示训练集Train中的第d个特征变量xd可能的取值的总数量，修正后的第t个任务中的第k个类标签Ck的先验概率Pt(Ck)以及第t个任务中的第d个的特征变量xd在第k个类标签Ck上的条件概率Pt(xd|Ck)，分别为： Pt(Ck)(Traint(Ck)+1)/(Traint(all)+K) Pt。

9、(xd|Ck)(Traint(Ck， xd)+1)/(Traint(Ck)+kd)。 5.根据权利要求4所述的基于最优值迭代的多任务学习模型训练方法，其特征在于，步骤(2.2)中，计算每一个任务对应的测试集中各实例的类标签的方法如下：对于第t个任务对应的测试集Testt中的各实例的类标签通过下式计算得到：其中：表示从K个类标签C1， C2， .， CK中选取概率值最大的那一个类标签作为当前实例计算得到的类标签。 6.根据权利要求5所述的基于最优值迭代的多任务学习模型训练方法，其特征在于，步骤(2.4)中，基于最优值迭代方法更新各任务上各类标签的先验概率的方法如下： (2.。

10、4.1)重新计算各任务上各类标签的先验概率，方法如下： i)设置用于评价步骤(2.2)中对各任务对应的测试集中各实例进行分类后的分类效果的score函数，计算得到各任务对应的score函数值score(y1)， .， score(yT)；对于第t个任务对应的测试集Testt，其score函数值score(yt)的计算方法为： score(yt)tt 其中t为第t个任务对应的权重值； t为经步骤(2.2)对t个任务对应的测试集中各实例进行分类后得到的分类结果的准确率； t通过下式计算： ii)选择出score(y1)， .， score(yT)中最大的score函数值Max_scor。

11、e(yt)： Max_score(yt)max(score(y1)， .， score(yT) iii)根据下式重新计算第t个任务中的第k个类标签Ck的先验概率Pt(Ck)：其中Testt(Ck)表示与Max_score(yt)对应的第t个任务的测试集Testt的所有实例中经步骤(2.2)计算分类为类标签Ck的实例数量， Testt(all)表示与Max_score(yt)对应的第t 个任务的测试集Testt中的实例数目； (2.4.2)对(2.4.1)中重新计算得到的各任务上各类标签的先验概率进行调整，调整后的各任务上各类标签的先验概率作为第m次迭代循环过程中所采用的各任务上各类标签。

12、的先验概率；权利要求书 2/3 页 3 CN 110766069 A 3 按照下式对重新计算得到的第t个任务中的第k个类标签Ck的先验概率Pt(Ck)进行调整，得到第m次迭代循环过程中第t个任务中的第k个类标签Ck的先验概率： Pm(Ck) Pt(Ck)+(1- )Pm-1(Ck) 其中设置为0.3； Pm(Ck)表示第m次迭代过程中第t个任务中的第k个类标签Ck的先验概率Pm-1(Ck)表示第m-1次迭代过程中第t个任务中的第k个类标签Ck的先验概率如果当前m1，则即表示利用第t个任务对应的训练集Traint计算得到的第t个任务中的第k个类标签Ck的先验概率Pt(Ck)。。

13、7.根据权利要求6所述的基于最优值迭代的多任务学习模型训练方法，其特征在于，步骤(2.5)中，超参数设置为10-5。 8.一种基于多任务学习模型的预测方法，其特征在于，包括采用如权利要求1至7中任一权利要求所述的基于最优值迭代的多任务学习模型训练方法，得到训练好的多任务学习模型；对于T个任务中的第t(t1， 2， 3T)个任务中待进行预测的实例n，获取该实例的D个特征变量x1， n， x2， n， .， xD， n，基于训练好的多任务学习模型最终输出的第t(t1， 2， 3T) 个任务上各类标签的最优先验值和第t(t1， 2， 3T)个任务中各特征变量在各类标签上的。

14、条件概率Pt(xd|Ck)，根据下式即可得到该实例n的类标签， 9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求8所述基于多任务学习模型的预测方法的步骤。 10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求8所述基于多任务学习模型的预测方法的步骤。权利要求书 3/3 页 4 CN 110766069 A 4 基于最优值迭代的多任务学习模型训练以及预测方法技术领域 0001 本发明涉及大数据处理技术领域，特别是涉及一种多任务学习模型训练以及。

15、预测方法。背景技术 0002 随着信息技术的发展与大数据时代的到来，机器学习成为解决实际问题的重要方法之一。目前大多数机器学习方法采用的都是单任务学习(Single-task Learning， STL) 方法，即多个任务之间的学习过程是相互独立的，这种方法忽略了任务之间的相关性。单任务学习方法在解决复杂问题时，往往将问题分解为简单且相互独立的子问题，然后再通过合并结果得到复杂问题的解。 0003 然而，这样做看似合理，实则是不正确的。因为现实世界中很多问题不能简单地分解为一个个独立的子问题，这些子问题通常是相互关联的，即通过一些共享因素或共享表。

16、示联系在一起。把现实世界中的问题当作相互独立的单任务处理，忽略了问题之间的关联信息。为弥足单任务学习方法的不足，多任务学习 (Multi-task Learning， MTL)方法同时对这些任务进行学习，通过提取和利用任务之间的共享信息，分类器中的参数更新相互影响，从而改善分类器的泛化性能。当任务中已知标记样本数较少时，多任务学习可以有效地增加样本数，从而使分类结果更加准确。 0004 一些早期的多任务学习方法假设不同任务的目标函数参数是相似的或多个相关任务共享同一特征子集，这些多任务方法均通过正则项约束使相关任务之间的不同尽可能小。目前，多任务。

17、学习主要基于稀疏表示。 2008年， Argyriou等人提出MTL-FEAT模型，该模型通过学习多任务之间的稀疏表示来共享信息。 2011 年， Kang等人对MTL-FEAT模型的约束进行松弛，提出了DG-MTL模型，该模型通过将多任务学习问题转化为混合整数规划问题，显著提高了多任务学习模型的性能。 0005 在MTL-FEAT和DG-MTL模型的基础上， 2012年Abhishek等人提出GO-MTL 模型， GO- MTL模型采用一种新的多任务学习分组和重叠组结构，每个任务组的参数位于一个低维子空间中，不同分组的任务通过共享一个或多个潜在的基任务来共享信息。

18、。 2018年， Jeong等人在上述模型的基础上进行了改进，提出 VSTG-MTL模型，该模型在学习任务间重叠组结构的同时引入变量选择，模型将系数矩阵分解成两个低秩矩阵的乘积，从而更加合理地利用多个相关任务之间的共享信息。 0006 2017年，一种区别于传统稀疏表示策略的自步多任务学习spMTFL模型被提出， Murugesan等人采用一种类人学习策略，将自定步长的任务选择方法引入到多任务学习中，模型通过迭代选择最合适的任务来学习任务参数和更新共享信息。遗憾的是，在现有的多任务学习方法中，普遍存在模型运行效率低，数据的利用不充分，特别是对数据的先。

19、验知识利用不充分等问题。上述模型主要缺陷如下，在单任务学习模型中，如朴素贝叶斯学习模型，忽略了多个学习任务下不同任务之间的相关性，导致学习得到的模型拥有较差的分类结果；在上述多任务学习模型中，模型需要消耗大量的计算资源和计算时间，计算说明书 1/9 页 5 CN 110766069 A 5 效率低。发明内容 0007 针对现有技术多任务学习方法运行效率低和数据信息利用不足的缺陷，本发明提供一种基于最优值迭代的多任务学习模型训练以及预测方法。 0008 一种基于最优值迭代的多任务学习模型训练方法，包括以下步骤： 0009 (1)获取多个任务的样本数据集，并。

20、将各任务的样本数据集均划分为训练集和测试集。 0010 设有T个任务，对于各任务t(t1， 2， 3T)分别采集含D个特征变量的多个实例，同时获取每一个任务的各实例所对应的类标签，得到各任务的样本数据集；将各任务的样本数据集均划分为训练集和测试集。 0011 (2)训练多任务学习模型。 0012 (2.1)对于每一个任务，利用其对应的训练集得到各任务上各类标签的先验概率以及各任务中各特征变量在各类标签上的条件概率。 0013 (2.2)根据各任务上各类标签的先验概率以及各任务中各特征变量在各类标签上的条件概率计算每一个任务对应的测试集中各实例的类标签； 0014 (2。

21、.3)将步骤(2.2)计算得到的各任务测试集中各实例的类标签与步骤(1) 中采集得到的对应类标签进行比较，得到步骤(2.2)计算得到的分类结果的准确率或者F1值，根据准确率或者F1值确定当前的分类结果评分； 0015 (2.4)根据步骤(2.2)计算得到的所有任务对应的测试集的分类结果，基于最优值迭代方法更新各任务上各类标签的先验概率，返回步骤(2.2)； 0016 (2.5)在循环迭代过程中，如果第m次迭代过程中得到的分类结果评分大于m-1次迭代过程中得到的分类结果评分，则将第m次迭代过程中所采用的各任务上类标签的先验概率作为当前的各任务上类标签的最优先验值； 0。

22、017 在循环迭代过程中，计算第m次和第m-1次迭代时的不同任务上类标签的先验概率误差的绝对值之和，当小于设定的超参数时收敛，得到训练好的多任务学习模型，输出最终的各任务上各类标签的最优先验值。 0018 本发明步骤(1)中，设有T个任务，对于各任务t(t1， 2， 3T)分别采集含 D个特征变量的多个实例，同时获取每一个任务的各实例所对应的类标签，各实例所对应的类标签可用C1， C2， .， CK表示， K表示所有实例的类标签的总个数。 x1， x2， .， xD表示每一个实例的特征变量，特征变量的总数为D。 0019 对于第t个任务的样本数据集， Trai。

23、nt表示第t个任务对应的训练集，其中的实例数有Traint(all)个。 Testt表示第t个任务对应的测试集，其中的实例数有Testt(all)个。第t个任务的样本数据集中的所有实例的总数Nt即为 Traint(all)+Testt(all)。 0020 T个任务总的训练集Train即为Train1， .， Traint， .， TrainT， T个任务总的测试集Test即为Test1， .， Testt， .， TestT。 0021 本发明步骤(2.1)中，利用各任务对应的训练集得到各任务上各类标签的先验概率以及各任务中各特征变量在各类标签上的条件概率，方法如下：。

24、 0022 对于第t个任务对应的训练集Traint，令Traint(Ck)表示Traint的所有实例中类说明书 2/9 页 6 CN 110766069 A 6 标签为Ck的实例数量，则第t个任务中的第k个类标签Ck的先验概率为： 0023 Pt(Ck)Traint(Ck)/Traint(all) 0024 对于第t个任务对应的训练集Traint， Traint(Ck， xd)表示Traint的所有实例中类标签为Ck且第d个特征变量xd的取值相同的实例数量，则第t个任务中的第 d个的特征变量 xd在第k个类标签Ck上的条件概率为： 0025 Pt(xd|Ck)Traint(Ck，。

25、 xd)/Traint(Ck) 0026 进一步地，为了避免其它特征变量所携带的信息被训练集中未出现的特征变量所 “抹去” ，采用拉普拉斯修正各任务上各类标签的先验概率以及各任务中各特征变量在各类标签上的条件概率，方法如下： 0027 令kd表示训练集Train中的第d个特征变量xd可能的取值的总数量，修正后的第t 个任务中的第k个类标签Ck的先验概率Pt(Ck)以及第t个任务中的第d个的特征变量xd在第 k个类标签Ck上的条件概率Pt(xd|Ck)，分别为： 0028 Pt(Ck)(Traint(Ck)+1)/(Traint(all)+K) 0029 Pt(xd|Ck)。

26、(Traint(Ck， xd)+1)/(Traint(Ck)+kd) 0030 本发明步骤(2.2)中，根据各任务上各类标签的先验概率以及各任务中各特征变量在各类标签上的条件概率计算每一个任务对应的测试集中各实例的类标签的方法如下： 0031 对于第t个任务对应的测试集Testt中的各实例的类标签通过下式计算得到： 0032 0033其中：表示从K个类标签C1， C2， .， CK中选取概率值最大的那一个类标签作为当前实例计算得到的类标签。 0034 本发明步骤(2.4)中，将步骤(2.2)计算得到的所有任务对应的测试集的分类结果集成成总的分类结果，基于最优值迭代方法更新。

27、各任务上各类标签的先验概率，方法如下： 0035 (2.4.1)重新计算各任务上各类标签的先验概率。 0036 i)设置用于评价步骤(2.2)中对各任务对应的测试集中各实例进行分类后的分类效果的score函数，计算得到各任务对应的score函数值 score(y1)， .， score(yT)； 0037 对于第t个任务对应的测试集Testt，其score函数值score(yt)的计算方法为： 0038 score(yt)tt 0039 其中t为第t个任务对应的权重值； t为经步骤(2.2)对t个任务对应的测试集中各实例进行分类后得到的分类结果的准确率。 t通过下式计算：。

28、0040 0041 ii)选择出score(y1)， .， score(yT)中最大的score函数值Max_score(yt)： 0042 Max_score(yt)max(score(y1)， .， score(yT) 说明书 3/9 页 7 CN 110766069 A 7 0043 iii)根据下式重新计算第t个任务中的第k个类标签Ck的先验概率Pt(Ck)： 0044 0045 其中Testt(Ck)表示与Max_score(yt)对应的第t个任务的测试集Testt的所有实例中经步骤(2.2)计算分类为类标签Ck的实例数量， Testt(all)表示与 Max_score(yt)。

29、对应的第t个任务的测试集Testt中的实例数目。 0046 (2.4.2)对(2.4.1)中重新计算得到的各任务上各类标签的先验概率进行调整，调整后的各任务上各类标签的先验概率作为第m次迭代循环过程中所采用的各任务上各类标签的先验概率。 0047 按照下式对重新计算得到的第t个任务中的第k个类标签Ck的先验概率 Pt(Ck)进行调整，得到第m次迭代循环过程中第t个任务中的第k个类标签Ck的先验概率： 0048 Pm(Ck) Pt(Ck)+(1- )Pm-1(Ck) 0049 其中设置为0.3； Pm(Ck)表示第m次迭代过程中第t个任务中的第k个类标签 Ck的先验概率Pm-1。

30、(Ck)表示第m-1次迭代过程中第t个任务中的第k个类标签Ck的先验概率如果当前m1，则即表示利用第t个任务对应的训练集Traint 计算得到的第t个任务中的第k个类标签Ck的先验概率 Pt(Ck)。 0050 本发明步骤(2.5)中，计算第m次和第m-1次迭代时的不同任务上类标签的先验概率误差的绝对值之和，超参数设置为10-5。当小于设定的超参数时收敛，得到训练好的多任务学习模型，输出最终的各任务上各类标签的最优先验值以及各任务中各特征变量在各类标签上的条件概率Pt(xd| Ck)。 0051根据最终输出的各任务上各类标签的最优先验值以及各任务中各特征变量。

31、在各类标签上的条件概率Pt(xd|Ck)，就能够实现对多任务中待进行预测的实例进行类标签预测。因此，本发明还提供一种基于多任务学习模型的预测方法，包括： 0052 基于前述所提供的基于最优值迭代的多任务学习模型训练方法，得到训练好的多任务学习模型； 0053 对于T个任务中的第t(t1， 2， 3T)个任务中待进行预测的实例n，获取该实例的D个特征变量x1， n， x2， n， .， xD， n，基于训练好的多任务学习模型最终输出的第t(t1， 2， 3T)个任务上各类标签的最优先验值和第t(t1， 2， 3T)个任务中各特征变量在各类标签上的条件概率Pt(xd。

32、|Ck)，根据下式即可得到该实例 n的类标签。 0054 说明书 4/9 页 8 CN 110766069 A 8 0055 本发明还提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现所述基于多任务学习模型的预测方法的步骤。 0056 本发明还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现所述基于多任务学习模型的预测方法的步骤。 0057 本发明可以显著提高多任务学习的效率。同时，本发明可以更加充分利用任务之间的共享信息和数据的先验知识，利用较少的计算资源便可以达到更佳的分。

33、类效果。附图说明 0058 图1为一个实施例中的流程图；具体实施方式 0059 为使本发明实施例的目的、技术方案和优点更加清楚明白，下面将以附图及详细叙述清楚说明本发明所揭示内容的精神，任何所属技术领域技术人员在了解本发明内容的实施例后，当可由本发明内容所教示的技术，加以改变及修饰，其并不脱离本发明内容的精神与范围。本发明的示意性实施例及其说明用于解释本发明，但并不作为对本发明的限定。 0060 实施例1： 0061 一种基于最优值迭代的多任务学习模型训练方法，包括以下步骤： 0062 (1)获取多个任务的样本数据集，并将各任务的样本数据集均划分为训练。

34、集和测试集。 0063 设有T个任务，对于各任务t(t1， 2， 3T)分别采集含D个特征变量的多个实例，同时获取每一个任务的各实例所对应的类标签，得到各任务的样本数据集。其中：各实例所对应的类标签可用C1， C2， .， CK表示， K表示所有实例的类标签的总个数。 x1， x2， .， xD表示每一个实例的特征变量，特征变量的总数为D。 0064 将各任务的样本数据集均划分为训练集和测试集。对于第t个任务的样本数据集， Traint表示第t个任务对应的训练集，其中的实例数有Traint(all)个。 Testt表示第t)个任务对应的测试集，其中的实例数有Te。

35、stt(all)个。第t个任务的样本数据集中的所有实例的总数Nt即为Traint(all)+Testt(all)。 0065 T个任务总的训练集Traon即为Train1， .， Traint， .， TrainT， T个任务总的测试集Test即为Test1， .， Testt， .， TestT。 0066 (2)训练多任务学习模型。 0067 (2.1)对于每一个任务，利用其对应的训练集得到各任务上各类标签的先验概率以及各任务中各特征变量在各类标签上的条件概率。 0068 对于第t个任务对应的训练集Traint，令Traint(Ck)表示Traint的所有实例中类标签。

36、为Ck的实例数量，则第t个任务中的第k个类标签Ck的先验概率为： 0069 Pt(Ck)Traint(Ck)/Traint(all) (1) 0070 对于第t个任务对应的训练集Traint， Traint(Ck， xd)表示Traint的所有实例中类标签为Ck且第d个特征变量xd的取值相同的实例数量，则第t个任务中的第 d个的特征变量说明书 5/9 页 9 CN 110766069 A 9 xd在第k个类标签Ck上的条件概率为： 0071 Pt(xd|Ck)Traint(Ck， xd)/Traint(Ck) (2) 0072 为了避免其它特征变量所携带的信息被训练集中未出现的特征变。

37、量所 “抹去” ，采用拉普拉斯修正各任务上各类标签的先验概率以及各任务中各特征变量在各类标签上的条件概率，方法如下： 0073 令kd表示训练集Train中的第d个特征变量xd可能的取值的总数量，修正后的第t 个任务中的第k个类标签Ck的先验概率Pt(Ck)以及第t个任务中的第d个的特征变量xd在第 k个类标签Ck上的条件概率Pt(xd|Ck)，分别为： 0074 Pt(Ck)(Traint(Ck)+1)/(Traint(all)+K) (3) 0075 Pt(xd|Ck)(Traint(Ck， xd)+1)/(Traint(Ck)+kd) (4) 0076 (2.2)根据各。

38、任务上各类标签的先验概率以及各任务中各特征变量在各类标签上的条件概率计算每一个任务对应的测试集中各实例的类标签。 0077 朴素贝叶斯模型假设各个特征变量之间是相互独立的，即x1， x2， .， xD相互独立。所有特征变量的条件概率为： 0078 0079 当给定类标签时，所有特征变量的联合概率Pt(x1， x2， .， xD)即可计算得到。因此，在第t个任务对应的测试集Testt中各实例上，每一个类标签的后验概率可以表示为类标签的先验和所有特征变量的条件概率的乘积，即 0080 Pt(Ck|x1， x2， .， xD)Pt(x1， x2， .， xD|Ck)Pt(C。

39、k)/Pt(x1， x2， .， xD) (6) 0081 具体计算过程中对于第t个任务中，为了防止连乘操作造成浮点下溢，通常采用对数似然的方式进行计算，使乘法转换为加法。此时，计算公式为 0082 0083 根据最大后验准则，第t个任务对应的测试集Testt中各实例从各个类标签中选取后验概率最大的类标签作为它的类标签。由于给定的第t个任务对应的测试集 Testt中各实例是确定的，对于所有的标签类别， P(x1， x2， .， xD)均为常数，故在计算过程中通常省略计算。 0084 最终得到，第t个任务对应的测试集Testt中的各实例的类标签的计算方式为： 00。

40、85 0086其中：表示从K个类标签C1， C2， .， CK中选取概率值最大的那一个类标签作为当前实例计算得到的类标签。 0087 (2.3)将步骤(2.2)计算得到的各任务测试集中各实例的类标签与步骤(1) 中采集得到的对应类标签进行比较，如果计算得到的类标签和步骤(1)中采集得到的对应类标说明书 6/9 页 10 CN 110766069 A 10 签一致，则表示分类结果正确，否则，分类结果不正确，以此得到步骤(2.2)分类结果的准确率，根据准确率确定当前的分类结果评分。 0088 (2.4)将步骤(2.2)计算得到的所有任务对应的测试集的分类结果集成成总的分。

41、类结果，基于最优值迭代方法更新各任务上各类标签的先验概率，返回步骤(2.2)。 0089 其中，基于最优值迭代方法更新各任务上各类标签的先验概率的方法如下： 0090 (2.4.1)重新计算各任务上各类标签的先验概率。 0091 i)设置用于评价步骤(2.2)中对各任务对应的测试集中各实例进行分类后的分类效果的score函数，计算得到各任务对应的score函数值 score(y1)， .， score(yT)； 0092 对于第t个任务对应的测试集Testt，其score函数值score(yt)的计算方法为： 0093 score(yt)tt 0094 其中t为第t个任务对。

42、应的权重值； t为经步骤(2.2)对t个任务对应的测试集中各实例进行分类后得到的分类结果的准确率； t通过下式计算： 0095 0096 ii)选择出score(y1)， .， score(yT)中最大的score函数值Max_score(yt)： 0097 Max_score(yt)max(score(y1)， .， score(yT) 0098 iii)根据下式重新计算第t个任务中的第k个类标签Ck的先验概率Pt(Ck)： 0099 0100 其中Testt(Ck)表示与Max_score(yt)对应的第t个任务的测试集Testt的所有实例中经步骤(2.2)计算分类为类标签Ck的实。

43、例数量， Testt(all)表示与 Max_score(yt)对应的第t个任务的测试集Testt中的实例数目。 0101 (2.4.2)对(2.4.1)中重新计算得到的各任务上各类标签的先验概率进行调整，调整后的各任务上各类标签的先验概率作为第m次迭代循环过程中所采用的各任务上各类标签的先验概率。 0102 按照下式对重新计算得到的第t个任务中的第k个类标签Ck的先验概率 Pt(Ck)进行调整，得到第m次迭代循环过程中第t个任务中的第k个类标签Ck的先验概率： 0103 Pm(Ck) Pt(Ck)+(1- )Pm-1(Ck) (10) 0104 其中设置为0.3； Pm(Ck。

44、)表示第m次迭代过程中第t个任务中的第k个类标签 Ck的先验概率Pm-1(Ck)表示第m-1次迭代过程中第t个任务中的第k个类标签Ck的先验概率如果当前m1，则即表示利用第t个任务对应的训练集Traint 计算得到的第t个任务中的第k个类标签Ck的先验概率 Pt(Ck)。 0105 随着各任务上各类标签的先验概率的不断更新，不同任务上先验补充信息Pt(Ck) 的比重将不断增加。随着循环迭代次数的增多，各个任务的将逐渐趋于一致。 0106 (2.5)在循环迭代过程中，如果第m次迭代过程中得到的分类结果评分大于m-1次迭代过程中得到的分类结果评分，则将第m次迭代过程中所采。

45、用的各任务上类标签的先验说明书 7/9 页 11 CN 110766069 A 11 概率作为当前的各任务上类标签的最优先验值 0107 在循环迭代过程中，计算第m次和第m-1次迭代时的不同任务上类标签的先验概率误差的绝对值之和，超参数设置为 10-5。当小于设定的超参数时收敛，得到训练好的多任务学习模型，输出最终的各任务上各类标签的最优先验值以及各任务中各特征变量在各类标签上的条件概率Pt(xd| Ck)。 0108 实施例2： 0109 参照图1，为一种基于多任务学习模型的预测方法的流程图，方法包括： 0110 基于实施例1所提供的基于最优值迭代的多任务学习模。

46、型训练方法，得到训练好的多任务学习模型. 0111 对于T个任务中的第t(t1， 2， 3T)个任务中待进行预测的实例n，获取该实例的D个特征变量x1， n， x2， n， .， xD， n，基于训练好的多任务学习模型最终输出的第t(t1， 2， 3T)个任务上各类标签的最优先验值和第t(t1， 2， 3T)个任务中各特征变量在各类标签上的条件概率Pt(xd|Ck)，根据公式(11)即可得到该实例n的类标签。 0112 0113 本实施例3： 0114 一种多数据集学生成绩预测模型的训练方法，包括 0115 (1)设有多所学校(一所学校对应一个任务)，对于各学校分别。

47、采集含D个特征变量的多个实例。实例即学生，学生对应的D个特征变量分别可以包括考试年份、有资格获得免费校餐的学生百分比、 VR第一等级(口头推理测试的最高等级)学生百分比、学校性别 (S.GN.)、学校教派、学生性别，学生民族、 VR波段(可以取值1、 2或3)。同时获取每一个任务的各实例所对应的类标签，得到各任务的样本数据集。将各任务t的样本数据集均划分为训练集和测试集； 0116 (2)训练多任务学习模型； 0117 (2.1)对于每一个任务，利用其对应的训练集得到各任务上各类标签的先验概率以及各任务中各特征变量在各类标签上的条件概率； 0118 。

48、(2.2)根据各任务上各类标签的先验概率以及各任务中各特征变量在各类标签上的条件概率计算每一个任务对应的测试集中各实例的类标签； 0119 (2.3)将步骤(2.2)计算得到的各任务测试集中各实例的类标签与步骤(1) 中采集得到的对应类标签进行比较，得到步骤(2.2)计算得到的分类结果的F1 值，根据F1值确定当前的分类结果评分； 0120 (2.4)根据步骤(2.2)计算得到的所有任务对应的测试集的分类结果，基于最优说明书 8/9 页 12 CN 110766069 A 12 值迭代方法更新各任务上各类标签的先验概率，返回步骤(2.2)； 0121 (2.5)在循环迭代过。

49、程中，如果第m次迭代过程中得到的分类结果评分大于m-1次迭代过程中得到的分类结果评分，则将第m次迭代过程中所采用的各任务上类标签的先验概率作为当前的各任务上类标签的最优先验值； 0122 在循环迭代过程中，计算第m次和第m-1次迭代时的不同任务上类标签的先验概率误差的绝对值之和，当小于设定的超参数时收敛，得到训练好的多任务学习模型，输出最终的各任务上各类标签的最优先验值。 0123 将来自伦敦教育管理局的数据作为数据集，采用实施例1中提供的方法训练得到对应的多数据集学生成绩预测分类器。数据集由伦敦139所中学的15362名学生在1985年、 1986年和1。

50、987年间的考试成绩组成。因此，伦敦139所中学对应139 个任务，对应于预测学生的表现。特征变量包括考试年份(YR)、 4个学校属性和3 个学生属性。每一所学校在某一年不变的属性是：有资格获得免费校餐的学生百分比、 VR第一等级(口头推理测试的最高等级)学生百分比、学校性别(S.GN.)和学校教派(S.DN.)。学生特有的属性有：性别(GEN)、 VR波段(可以取值1、 2或3)、民族 (ETH)。 0124 在本实施例中，为每个可能的属性值使用一个二进制变量替换了分类属性 (即所有不是百分比的属性)，总共得到27个属性。同时对该数据集进行划分，当成。

展开阅读全文

内容关键字: 基于最优值迭代任务学习模型训练以及预测方法