《一种基于网格搜索技术用于支持向量机的参数寻优方法.pdf》由会员分享,可在线阅读,更多相关《一种基于网格搜索技术用于支持向量机的参数寻优方法.pdf(11页完整版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 103744978 A (43)申请公布日 2014.04.23 CN 103744978 A (21)申请号 201410016619.1 (22)申请日 2014.01.14 G06F 17/30(2006.01) (71)申请人 清华大学 地址 100084 北京市海淀区清华园 1 号 (72)发明人 杨广文 季颖生 王小鸽 陈宇樹 薛志辉 (74)专利代理机构 北京清亦华知识产权代理事 务所 ( 普通合伙 ) 11201 代理人 廖元秋 (54) 发明名称 一种基于网格搜索技术用于支持向量机的参 数寻优方法 (57) 摘要 本发明涉及一种基于网格搜索技术用于 。
2、SVM 的参数优化方法, 属于机器学习的参数寻优领域。 本方法包括抽样, 寻优以及选举三个阶段 ; 具体 包括 : 抽样生成多个训练集 : 从一个给定的完整 样本集中随机抽取样本P次组成P个子集, 作为训 练集, P 为正整数 ; 确保每一个子集中的正负样本 比例与全集中的正负样本比例保持一致 ; 每个子 集规模大小根据完整样本集的大小预先给定, 子 集数目 P 的大小确保反应全集的概率分布 ; 每个 子集进行参数寻优 : 利用网格搜索技术, 分别对 抽样得到的 P 个子集并行地进行参数寻优, 完整 遍历整个参数空间 ; 汇总性能结果并且采用选举 的方式选出参数组合作为最终的结果输出。本发 明。
3、旨在提升参数寻优过程中的计算效率。 (51)Int.Cl. 权利要求书 1 页 说明书 7 页 附图 2 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书1页 说明书7页 附图2页 (10)申请公布号 CN 103744978 A CN 103744978 A 1/1 页 2 1. 一种基于网格搜索技术用于 SVM 的参数优化方法, 其特征在于, 对于给定的样本集, 采用优化的网格搜索技术进行参数寻优, 同时采用 N 折交叉验证来确保得到可靠稳定的 SVM 模型 ; 该方法包括抽样, 寻优以及选举三个阶段 ; 具体包括以下步骤 : 步骤 1) 抽样生成多个训练集 : 。
4、从完整样本集中随机抽取样本 P 次组成 P 个子集, 作为 训练集, P 为正整数 ; 确保每一个子集中的正负样本比例与全集中的正负样本比例保持一 致 ; 每个子集规模大小根据完整样本集的大小预先给定, 子集数目 P 的大小确保反应全集 的概率分布 ; 步骤 2) 每个子集进行参数寻优 : 利用网格搜索技术, 分别对抽样得到的 P 个子集并行 地进行参数寻优, 完整遍历整个参数空间 ; 步骤 3) 汇总性能结果并且采用选举的方式选出参数组合作为最终的结果输出, 具体包 括以下两个子步骤 : 步骤 3-1) 收集每一个计算任务的最优参数组合作为候选参数组合 ; 每个计算任务采用相同的指标来度量在。
5、该任务所负责的数据集上的所有参数组合产 生的 SVM 模型的性能, 从中选择性能最优的参数组合, 输出到文件中 ; 参数寻优结束后, 收 集每个计算任务输出的文件, 汇总每个计算任务的最优参数组合, 构成候选集 ; 步骤 3-2) 从候选集中选举得到性能最优的参数组合 : 将候选集中每个参数组合用一个点表示, 候选集中所有参数组合在空间上的分布形成 一个概率云模型图, 找出所有参数点中距离云模型所有点的质心最近的那个点为汇聚点, 该汇聚点就是所求最佳参数组合, 如果存在多个汇聚点, 将汇聚点取出查看明细投票数, 得 出最佳参数组合。 2. 如权利要求 1 所述方法, 其特征在于, 所述步骤 2。
6、) 具体包括以下两种并行化方式 : 方式 1 : 每个子集作为单个独立的计算任务进行参数寻优计算, 每个子集分配到计算 机集群中的一个核上进行参数寻优, 各计算任务是并行执行, 在 P 个核上同时进行参数寻 优 ; 方式 2 : 每个子集并行地进行 N 折交叉验证的计算过程, 每个子集分为 N 个次子集, 其 中N-1个作为训练集, 1个作为测试集, 总共进行N轮交叉验证的计算, 每个计算任务配到计 算机集群中的一个核上进行参数寻优, 各计算任务并行执行, 每个子集进行 N 折交叉验证, 每一轮的 N 个计算任务分配到 N 个核上进行计算, 共 NP 个计算任务分配到 NP 个核上 同时进行参。
7、数寻优, N 为正整数。 权 利 要 求 书 CN 103744978 A 2 1/7 页 3 一种基于网格搜索技术用于支持向量机的参数寻优方法 技术领域 0001 本发明属于机器学习的参数寻优领域, 特别涉及一种基于网格搜索技术用于支持 向量机的参数寻优方法。 背景技术 0002 支持向量机 (SVM) 是一种广泛应用的机器学习算法, 其在解决小规模样本、 非线性 以及高维数据的模式识别问题中具有良好的性能表现, 处理的问题主要包括了统计分类和 回归分析。 归因于良好的泛化性能, SVM被广泛应用在各种领域, 诸如, 文本分类、 模式识别、 故障诊断等。SVM 是基于统计学习理论发展出来的学。
8、习算法, 现在以二分类问题为例介绍 SVM 算法, 其它问题在算法上有一定的差异, 但是基本思路是一致的。 0003 首先给出问题定义, 假设一组样本集(xi,yi)|xiRd,i1,2,.,n, 其中xi是 d 维的特征向量, yi表示样本类别, 二分类问题有两个类别标识 +1,-1, +1 为正类, -1 为 负类) 。通常情况下, 样本数据是线性不可分的, SVM 通过将样本数据从原始的不可分空间 映射到一个高维可分空间中, 将原来线性不可分的样本数据转化成了线性可分的, 然后建 立一个最大间隔超平面, 这个最大间隔超平面通过一个决策函数来表示, 就是 SVM 训练得 到的模型或称为模型。
9、 (任何机器学习算法训练得到的都称之为模型) , 使得两边的样本数据 到超平面的距离最大化, 如图 1(a) 所示, 中间虚线是超平面, 两边平行的实线是样本数据 距离超平面最近的点 (图中的小圆圈和小三角) , SVM 要求的是最大化这两条实线间隔距离 的那个虚线代表的超平面。SVM 模型的建立和使用包括以下两个阶段 : 0004 阶段 1 : 训练阶段, 通过训练数据, 求解最大间隔超平面 (即得到模型, 算法本质是 解如下的二次规划问题) : 0005 0006 s.t yi(T(xi)+b) 1-i 0007 i 0,i 1,2,.,n 0008 其中, 表示垂直于超平面的法向量, b。
10、 表示偏移, 松弛变量 i和惩罚因子 C 用 于处理硬间隔问题, 硬间隔分类容易受到少数样本影响而改变最大间隔超平面从而导致误 差增大, 如图 1(b) 所示, 通过松弛变量和惩罚因子建立软间隔, 允许一定分类错误的存在, 最大间隔超平面就不会根据少数样本而改变了。此外, 在实际计算过程中, SVM 不需要真正 将样本数据从原始的不可分空间映射到高维可分空间, 而是通过核函数 K 来近似两个样本 数据在高维可分空间中的点积 ((xi)T(xj)) 。 0009 阶段 2 : 测试阶段, 通过训练阶段解二次规划问题得到的求解最大间隔超平面, 构 造成一个如下的决策函数, 用来预测未知样本数据的所。
11、属类别。 0010 0011 其中, 对于指示函数 sign(), 当上述括号内的计算结果大于等于 0 时, 指示函数 说 明 书 CN 103744978 A 3 2/7 页 4 输出 +1(正类) , 否则指示函数输出 -1(负类) 。 0012 为了避免过拟合问题, 在上述 SVM 训练阶段通常会采用交叉验证的精度测试方法 来得到一个可靠稳定的模型。交叉验证是一个循环估计的训练过程, 现在以 10- 折交叉验 证为例来阐述基本内容 : 将样本集分成大小相同的 10 个子集, 每一轮将其中 9 个子集作为 训练集生成 SVM 模型, 将剩下的 1 个子集作为测试集, 将训练得到的 SVM 。
12、模型在测试集上进 行性能验证, 总共进行 10 轮, 每一轮分别取不同的子集进行测试验证, 最终确定总体性能。 0013 SVM 模型的性能主要取决于它的参数配置, 采用不同的参数组合生成得到的 SVM 模型往往具有很大的性能差异, 参数寻优对于生成一个良好性能的 SVM 模型而言至关重 要。参数寻优的目标就是从参数空间中找到使得 SVM 模型在样本集上性能最优的参数组 合, 由于每一个参数组合都需要通过建立相应的 SVM 模型来验证性能, 所以参数寻优的开 销是非常大的, 参数寻优的效率直接决定了生成 SVM 模型的效率。 0014 网格搜索是一种最基本的参数寻优技术, 现在以径向基函数RB。
13、F作为SVM核函数, 介绍网格搜索的基本步骤。SVM 采用核函数 RBF 主要包括了两个影响性能的参数 : 惩罚因 子 C 和核参数 。 0015 步骤 1 : 设定一个参数空间。所述惩罚因子 C 选取 2-10,2-8.,24, 核参数 选取 2-16,2-14.,2-4(这是常用的 SVM 参数设定方式) , 这两个参数构成了一个二维平面的参数空 间, 如图2所示, 在图中参数以log形式呈现, 二维平面的参数空间进行了网格划分, 每个格 点表示一个参数组合 (C,) , 如图中黑点所示的为参数组合 (20,210) ; 0016 步骤 2 : 将参数空间中的每个参数组合用 SVM 进行训。
14、练, 生成相应的模型并验证其 性能, 评价模型的性能可采用已有的机器学习性能指标, 如准确度、 精度、 召回率, 等, 也可 根据需求自行定义性能指标作为统一的度量准则 ; 0017 步骤 3 : 遍历整个参数空间, 尝试所有的参数组合, 最终输出导致 SVM 模型性能最 优的参数组合, 即为最优结果。 0018 网格搜索技术与其它参数寻优技术相比, 其优势在于 : 网格搜索技术实现简单, 通 用性好, 确保在给定的参数空间内找到全局最优解。 然而, 网格搜索技术的缺点在于计算开 销大。其主要原因在于网格搜索技术采用了穷尽的搜索方式, 需要测试参数空间中每一个 参数组合, 训练得到对应的 SV。
15、M 模型, 其运行开销是非常大的。根据参数的个数, 计算量会 按指数规模不断扩大, 例如, 每个参数取 10 个值, 2 个参数 100 个组合对应 100 个模型, 3 个 参数 1000 个组合对应 1000 个模型。相比于其它机器学习技术, SVM 需要调优的参数不多, 所以参数个数不是制约网格搜索技术应用的瓶颈。此外, 根据网格粗细 (参数粒度的设定) , 越细的网格, 得到的最优解越精准, 参数组合越多, 需要生成的 SVM 模型越多。例如, 若是每 个参数取 10 个值, 2 个参数有 100 种参数组合, 若是每个参数取 20 个值, 2 个参数就有 400 种参数组合。因此, 。
16、参数粒度的设定会导致参数寻优的计算规模大量增加。 0019 由于网格搜索技术的基本原理导致了其参数寻优的计算开销是非常大的, 需要一 种有效的优化方法来提高网格寻优搜索技术的效率, 从而更快更好地对 SVM 进行参数寻 优, 这样的优化方法是十分必要的。 发明内容 0020 本发明的目的是为克服已有技术的不足, 提出了一种基于网格搜索技术用于 SVM 说 明 书 CN 103744978 A 4 3/7 页 5 参数寻优的优化方法, 旨在提升参数寻优过程中的计算效率。 0021 本发明提出的一种基于网格搜索技术用于 SVM 的参数优化方法, 其特征在于, 对 于给定的样本集, 采用优化的网格搜。
17、索技术进行参数寻优, 同时采用 N 折交叉验证来确保 得到可靠稳定的 SVM 模型 ; 0022 该方法包括抽样, 寻优以及选举三个阶段 ; 如图 3 所示, 具体包括以下步骤 : 0023 步骤 1) 抽样生成多个训练集 : 从一个给定的完整样本集中随机抽取样本 P 次组成 P 个子集, 作为训练集, P 为正整数 ; 确保每一个子集中的正负样本比例与全集中的正负样 本比例保持一致 ; 每个子集规模大小根据完整样本集的大小预先给定, 子集数目 P 的大小 确保反应全集的概率分布 (子集规模越小性能越好, 但是更难反应全集的样本分布 ; 如果子 集规模太大, SVM 训练就慢, 一般采样尽可能。
18、多的子集, 每个子集尽可能少的样本做参数寻 优) ; 0024 步骤 2) 每个子集进行参数寻优 : 利用网格搜索技术, 分别对抽样得到的 P 个子集 并行地进行参数寻优, 完整遍历整个参数空间 ; 0025 具体包括以下两种并行化方式 : 0026 方式 1 : 每个子集作为单个独立的计算任务进行参数寻优, 每个子集分配到计算 机集群中的一个核上进行参数寻优, 各计算任务是并行执行的, 如图 3(a) 所示, 虚线框内 P 个子集在 P 个核上同时进行参数寻优 ; 0027 方式 2 : 每个子集并行地进行 N 折交叉验证的计算过程, 每个子集分为 N 个次子 集, 其中 N-1 个作为训练。
19、集, 1 个作为测试集, 总共进行 N 轮交叉验证的计算 (即每个子集进 行 N 轮独立的计算, 因此包括 N 个计算任务) , 每个计算任务配到计算机集群中的一个核上 进行参数寻优, 各计算任务并行执行, 如图3 (b) , 虚线框内P个子集, 每个子集进行N折交叉 验证, 每一轮的 N 个计算任务分配到 N 个核上进行计算, 共 NP 个计算任务分配到 NP 个 核上同时进行参数寻优, N 为正整数 (N 越大精度越高, 但计算时间越长, 一般 N 为 5 或 10) ; 0028 (实际使用过程中, 根据计算资源决定采用哪一种并行化) 0029 步骤 3) 汇总性能结果并且采用选举的方式。
20、选出参数组合作为最终的结果输出, 具 体包括以下两个子步骤 : 0030 步骤 3-1) 收集每一个计算任务的最优参数组合作为候选参数组合 ; 0031 每个计算任务采用相同的指标来度量在该任务所负责的数据集上的所有参数组 合产生的 SVM 模型的性能, 从中选择性能最优的参数组合, 输出到文件中 ; 参数寻优结束 后, 收集每个计算任务的输出文件, 汇总每个计算任务的最优参数组合, 构成候选集 ; 0032 (若是采用方式 1 进行并行计算, 得到 P 个参数组合构成候选集 ; 若是采用方式 2 进行并行计算, 得到NP个参数组合构成候选集。 选用方式1的候选集规模虽小, 但是N折 交叉验证。
21、的计算结果已经在性能评估过程中进行了一次筛选, 候选集的质量高, 选用方式 2 的候选集规模充足, 两者最终得到的结果是一致的) 0033 步骤 3-2) 从候选集中选举得到性能最优的参数组合 : 0034 将候选集中每个参数组合用一个点表示, 候选集中所有参数组合在空间上的分布 形成一个概率云模型图, 找出所有参数点中距离云模型所有点的质心最近的那个点为汇聚 点, 该汇聚点就是所求最佳参数组合, 如果存在多个汇聚点, 将汇聚点取出查看明细投票 数, 得出最佳参数组合。 说 明 书 CN 103744978 A 5 4/7 页 6 0035 本发明的特点及有益效果 : SVM 是使用最为广泛的。
22、机器学习技术之一, 网格搜索 是最常用的参数寻优技术之一, 实现简单并且确保找到全局最优解。 然而, 该算法穷尽的搜 索方式会导致高昂的计算开销。本发明提出了一种基于网格搜索技术的 SVM 参数寻优方 法。该方法基于抽样 - 选举机制, 用于减少 SVM 训练过程中的数据量 ; 该方法建立了一个并 行框架, 主要针对普通的集群系统, 节点之间的互连网络性能差, 例如, 网格计算系统, 所以 并行框架不涉及SVM内核优化, 主要用于挖掘SVM参数寻优过程中的任务级并行 ; 该方法主 要针对网格计算系统或者普通的计算机集群, 这种计算机系统的特点是, 通常有大量异构 计算机组成, 单个节点的计算资。
23、源存在差异且计算能力普遍不高, 节点间通常是局域网连 接, 没有配置高性能的互连设备用于传输数据, 当然对于高性能的计算集群, 该方法同样适 用。 0036 该方法提供了一个优化的网格搜索技术, 通过减少样本集来减少 SVM 模型的训练 时间, 同时采用任务级并行进一步加快参数寻优的计算效率。具体来说, 首先, 该方法采用 抽样方式从完整的样本集中抽取多个子集, 由于采用规模小的子集进行参数寻优从而大大 减少了每一个参数组合生成 SVM 模型的训练时间 ; 其次, 该方法建立了一个并行框架用于 挖掘 SVM 参数寻优过程中的任务级并行, 每个子集的参数寻优过程可以同时执行, 如果计 算资源允许。
24、, 可以对交叉验证的计算过程进行并行计算 ; 最后, 该方法汇总每个计算任务 的参数寻优结果构成候选集, 然后通过投票方式选举出导致大部分子集性能最优的参数组 合, 从而保证了该优化方法的正确性。 该方法主要针对互连设备较差的计算机集群, 如网格 计算系统, 同时适用于高性能的计算集群。该方法用于 SVM 的参数寻优, 旨在提升参数寻优 过程中的计算效率。 附图说明 0037 图 1 为 SVM 二分类问题示例图 :(a) 线性可分情况,(b) 软间隔情况 ; 0038 图 2 为网格搜索的二维参数空间示例图 ; 0039 图 3 为本发明参数寻优方法的流程图 :(a) 对子集参数进行并行计算。
25、,(b) 对交叉 验证进行并行计算。 具体实施方式 0040 本发明提出了一种基于网格搜索技术的 SVM 参数寻优方法, 下面结合附图并通过 实施例来阐述本发明的具体实施方式。 0041 本发明提出的一种基于网格搜索技术用于 SVM 的参数优化方法, 其特征在于, 对 于给定的样本集, 采用优化的网格搜索技术进行参数寻优, 同时采用 N 折交叉验证来确保 得到可靠稳定的 SVM 模型 ; 0042 该方法包括抽样, 寻优以及选举三个阶段 ; 如图 3 所示, 具体包括以下步骤 : 0043 本方法包括抽样, 寻优以及选举三个阶段 ; 如图 3 所示, 具体包括以下步骤 : 0044 步骤 1)。
26、 抽样生成多个训练集 : 从一个给定的完整样本集中随机抽取样本 P 次组成 P 个子集, 作为训练集, P 为正整数 ; 确保每一个子集中的正负样本比例与全集中的正负样 本比例保持一致 ; 每个子集规模大小根据完整样本集的大小预先给定, 子集数目 P 的大小 确保反应全集的概率分布 (子集规模越小性能越好, 但是更难反应全集的样本分布 ; 如果子 说 明 书 CN 103744978 A 6 5/7 页 7 集规模太大, SVM 训练就慢, 一般采样尽可能多的子集, 每个子集尽可能少的样本做参数寻 优) ; 0045 步骤 2) 每个子集进行参数寻优 : 利用网格搜索技术, 分别对抽样得到的 。
27、P 个子集 并行地进行参数寻优, 完整遍历整个参数空间 ; 0046 具体包括以下两种并行化方式 : 0047 方式 1 : 每个子集作为单个独立的计算任务进行参数寻优, 每个子集分配到计算 机集群中的一个核上进行参数寻优, 各计算任务是并行执行的, 如图 3(a) 所示, 虚线框内 P 个子集在 P 个核上同时进行参数寻优 ; 0048 方式 2 : 每个子集并行地进行 N 折交叉验证的计算过程, 每个子集分为 N 个次子 集, 其中 N-1 个作为训练集, 1 个作为测试集, 总共进行 N 轮交叉验证的计算 (即每个子集进 行 N 轮独立的计算, 因此包括 N 个计算任务) , 每个计算任。
28、务配到计算机集群中的一个核上 进行参数寻优, 各计算任务并行执行, 如图3 (b) , 虚线框内P个子集, 每个子集进行N折交叉 验证, 每一轮的 N 个计算任务分配到 N 个核上进行计算, 共 NP 个计算任务分配到 NP 个 核上同时进行参数寻优, N 为正整数 (N 越大精度越高, 但计算时间越长, 一般 N 为 5 或 10) ; 0049 (实际使用过程中, 根据计算资源决定采用哪一种并行化) 0050 步骤 3) 汇总性能结果并且采用选举的方式选出参数组合作为最终的结果输出, 具 体包括以下两个子步骤 : 0051 步骤 3-1) 收集每一个计算任务的最优参数组合作为候选参数组合 。
29、; 0052 每个计算任务采用相同的指标来度量在该任务所负责的数据集上的所有参数组 合产生的 SVM 模型的性能, 从中选择性能最优的参数组合, 输出到文件中 ; 参数寻优结束 后, 收集每个计算任务输出的文件, 汇总每个计算任务的最优参数组合, 构成候选集 ; 0053 (若是采用方式 1 进行并行计算, 得到 P 个参数组合构成候选集 ; 若是采用方式 2 进行并行计算, 得到NP个参数组合构成候选集。 选用方式1的候选集规模虽小, 但是N折 交叉验证的计算结果已经在性能评估过程中进行了一次筛选, 候选集的质量高, 选用方式 2 的候选集规模充足, 两者最终得到的结果是一致的) 0054 。
30、步骤 3-2) 从候选集中选举得到性能最优的参数组合 : 0055 将候选集中每个参数组合用一个点表示, 候选集中所有参数组合在空间上的分布 形成一个概率云模型图, 找出所有参数点中距离云模型所有点的质心最近的那个点为汇聚 点, 该汇聚点就是所求最佳参数组合, 如果存在多个汇聚点, 将汇聚点取出查看明细投票 数, 得出最佳参数组合。 0056 实施例 0057 本实施例以二分类 SVM 为例, 采用 RBF 核函数进行参数调优用于生成性能最优的 SVM 模型, 需要进行调优的参数包括两个 : 惩罚因子 C 和核参数 , 这两个参数构成了一个 二维的参数空间 , 粒度的设定方式采用指数增长的方式。
31、定义可变的参数步长进行寻优, 同 时采用了 N 折交叉验证来确保得到可靠稳定的 SVM 模型 ; 0058 本实施例的惩罚因子 C 取 2-10,2-8,210, 核参数 取 2-16,2-14,2-4。抽样阶 段, 抽取 36 个子集, 每个子集大小为全集的 1/10 ; 寻优阶段, 采用 10 折交叉验证来确保生 成可靠稳定的 SVM 模型 ; 选举阶段, 采用准确度作为指标来度量模型性能。 0059 本实施例包括抽样, 寻优以及选举三个阶段 ; 具体包括以下步骤 :(见附图 3) 。 说 明 书 CN 103744978 A 7 6/7 页 8 0060 步骤 1) 抽样生成多个训练集 。
32、: 从给定的完整样本集中随机抽取样本组成 36 个子 集, 作为训练集 ; 每个子集规模大小为全集的 1/10, 同时确保每一个子集中的正负样本比 例与全集中的正负样本比例保持一致 ; 0061 步骤 2) 对步骤 1) 得到的 36 个子集, 利用网格搜索技术分别对每个子集进行参数 寻优, 完成遍历整个参数空间 ; 具体包括以下两种并行化方式 : 0062 方式 1 : 每个子集作为单个独立的计算任务进行参数寻优, 36 个子集分配到 36 个 核上进行参数寻优, 36 个任务同时进行计算 ; 0063 方式 2 : 每个子集并行地进行 10 折交叉验证的计算过程, 每个子集分为 10 个次。
33、子 集, 其中 9 个作为训练集, 1 个作为测试集, 总共进行 10 轮交叉验证的计算, 36 个子集, 每个 子集包括 10 个计算任务 (即每个子集进行 10 轮计算) , 每个计算任务配到计算机集群中的 一个核上进行参数寻优, 总共 360 个任务分配到 360 个核上同时进行参数寻优计算 ; 0064 (实际使用过程中, 根据可分配到的计算资源决定采用哪一种并行化方式, 根据本 用例, 若是能分配到 360 个核, 可以选用方式 2, 若是分配不到, 则选用方式 1) 0065 步骤 3) 汇总性能结果并且采用选举的方式选出参数组合作为最终的结果输出, 具 体包括以下两个子步骤 : 。
34、0066 步骤 3-1) 收集每一个任务的最优参数组合作为候选参数组合。 0067 每个计算任务采用准确度对所有参数组合生成得到的 SVM 模型的进行性能度量, 进行比较, 从中选择性能最优的参数组合, 输出到文件中 ; 参数寻优结束后, 收集每一个计 算任务输出的文件, 汇总每个计算任务的最优参数组合, 构成候选集 ; 0068 (这里注意, 若是采用方式 1 进行并行计算, 得到 36 个参数组合构成候选集 ; 若是 采用方式 2 进行并行计算, 得到 360 个参数组合构成候选集。选用方式 1 的候选集规模虽 小, 但是 10 验证的计算结果已经在性能评估过程中进行了一次筛选, 候选集的。
35、质量高, 选 用方式 2 的候选集规模充足, 两者最终得到的结果是一致的) 0069 步骤 3-2) 从候选集中选举得到性能最优的参数组合 : 0070 采用 36 子集和 10- 折交叉验证得到了 360 个候选参数组合, 每个参数组合用一个 点表示, 其在空间上的分布形成一个概率云模型图, 子集对应的最佳参数组合会向全集对 应的最佳参数汇聚, 找出所有参数点中距离云模型所有点的质心最近的那个点就是所求最 佳参数组合, 如果存在多个汇聚点, 将汇聚点取出查看明细投票数, 得出最佳参数组合。 0071 本实施例用针对 SVM 的高效的参数寻优方法的区别技术特征是 : 首先, 该方法利 用抽样方。
36、式随机生成个正负样本比相同的 36 个数据子集 ; 其次, 并行框架根据分配计算 资源不同, 采取针对性的并行方式, 每个抽样得到的子集作为独立的任务, 共 36 个任务进 行并行计算, 或者进一步并行化每个子集的交叉验证过程, 若采用 10 折交叉验证, 即得到 1036 个任务进行并行计算, 每个任务采用网格搜索技术进行参数寻优, 遍历整个参数空 间 ; 最后, 汇总每个计算任务输出的最优参数组合构成候选集, 从候选集中投票选举出最优 的参数组合, 作为该方法的最终结果输出。 0072 本发明的特点及增益效果 : 首先, 该方法采用抽样方式从完整的样本集中抽取多 个子集, 由于采用规模小的。
37、子集进行参数寻优从而大大减少了每一个参数组合生成 SVM 模 型的训练时间 ; 其次, 该方法建立了一个并行框架用于挖掘 SVM 参数寻优过程中的任务级 并行, 每个子集的参数寻优过程可以同时执行, 如果计算资源允许, 可以对交叉验证的计算 说 明 书 CN 103744978 A 8 7/7 页 9 过程进行并行计算, 从而进一步提高网格搜索的计算效率 ; 最后, 该方法汇总每个计算任务 的参数寻优结果构成候选集, 然后通过投票方式选举出导致大部分子集性能最优的参数组 合, 从而保证了该优化方法的正确性。 0073 该方法主要针对互连设备较差的计算机集群, 如网格计算系统, 同时适用于高性 能的计算集群。由于网格搜索算法具有普适性, 该优化方法同样适合其它机器学习算法的 参数寻优, 任何熟悉该技术的人在本发明所揭露的技术范围内, 可轻易想到的变化或替换, 都应涵盖在本发明的保护之内。 说 明 书 CN 103744978 A 9 1/2 页 10 图 1 图 2 说 明 书 附 图 CN 103744978 A 10 2/2 页 11 图 3 说 明 书 附 图 CN 103744978 A 11 。