模型校准方法及装置.pdf
![模型校准方法及装置.pdf_第1页](https://img.zhuanlichaxun.net/fileroot5/2021-8/6/11c85792-63da-4626-a900-631c9396297e/11c85792-63da-4626-a900-631c9396297e1.gif)
![模型校准方法及装置.pdf_第2页](https://img.zhuanlichaxun.net/fileroot5/2021-8/6/11c85792-63da-4626-a900-631c9396297e/11c85792-63da-4626-a900-631c9396297e2.gif)
![模型校准方法及装置.pdf_第3页](https://img.zhuanlichaxun.net/fileroot5/2021-8/6/11c85792-63da-4626-a900-631c9396297e/11c85792-63da-4626-a900-631c9396297e3.gif)
《模型校准方法及装置.pdf》由会员分享,可在线阅读,更多相关《模型校准方法及装置.pdf(21页完成版)》请在专利查询网上搜索。
1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 201910122496.2 (22)申请日 2019.02.19 (71)申请人 阿里巴巴集团控股有限公司 地址 英属开曼群岛大开曼资本大厦一座四 层847号邮箱 (72)发明人 阮怀玉章鹏杨志雄 (74)专利代理机构 北京国昊天诚知识产权代理 有限公司 11315 代理人 许振新朱文杰 (51)Int.Cl. G06Q 10/04(2012.01) G06Q 10/06(2012.01) G06N 20/00(2019.01) (54)发明名称 模型校准方法及装置 (57)摘。
2、要 本说明书一个或多个实施例公开了一种模 型校准方法及装置, 用以实现模型自动化校准及 提高模型校准的精确度。 所述方法包括: 获取初 始模型对应的更新模型; 及, 获取对所述更新模 型进行校准的验证集; 所述验证集包括多个样本 数据; 将各所述样本数据输入所述更新模型, 以 得到所述验证集对应的输出集; 所述输出集中包 括各所述样本数据分别对应的预测值; 根据指定 分割点搜索算法, 从各所述预测值中搜索X个分 割点; 及, 利用各所述分割点将所述输出集划分 为多个分段区间; 所述X的取值小于所述预测值 的数量; 根据各所述分段区间内的预测值及所述 初始模型在各所述分段区间内的指标分布, 确定。
3、 各所述分段区间分别对应的校准结果。 权利要求书3页 说明书13页 附图4页 CN 110033117 A 2019.07.19 CN 110033117 A 1.一种模型校准方法, 包括: 获取初始模型对应的更新模型; 及, 获取对所述更新模型进行校准的验证集; 所述验证 集包括多个样本数据; 将各所述样本数据输入所述更新模型, 以得到所述验证集对应的输出集; 所述输出集 中包括各所述样本数据分别对应的预测值; 根据指定分割点搜索算法, 从各所述预测值中搜索X个分割点; 及, 利用各所述分割点 将所述输出集划分为多个分段区间; 所述X的取值小于所述预测值的数量; 根据各所述分段区间内的预测值。
4、及所述初始模型在各所述分段区间内的指标分布, 确 定各所述分段区间分别对应的校准结果; 所述校准结果用于对落入所述分段区间内的所述 预测值进行校准。 2.根据权利要求1所述的方法, 所述获取初始模型对应的更新模型, 包括: 按照预设切分规则对采集到的多个历史数据进行切分, 得到多个数据切片; 其中, 所述 预设切分规则包括按照数据采集时间的先后顺序进行切分的规则; 从所述多个数据切片中选择至少一个第一数据切片作为所述初始模型的训练集; 利用所述训练集对所述初始模型进行更新, 得到所述更新模型。 3.根据权利要求2所述的方法, 所述获取对所述更新模型进行校准的验证集, 包括: 从所述多个数据切片。
5、中选择至少一个第二数据切片作为所述验证集; 其中, 所述第二 数据切片与所述第一数据切片不同。 4.根据权利要求1所述的方法, 所述指定分割点搜索算法包括最优分割点贪心搜索算 法。 5.根据权利要求4所述的方法, 所述根据指定分割点搜索算法, 从各所述预测值中搜索 X个分割点, 包括: 根据各所述预测值由大到小的顺序对各所述预测值进行排序, 得到有序的各所述预测 值; 循环执行以下步骤, 直至所述X个分割点均被搜索到: 从有序的各所述预测值中选择所述预测值最大、 且未被搜索为所述分割点的第一预测 值; 确定所述更新模型在所述第一预测值对应的第一区间内的第一分布值; 及, 计算所述第 一分布值和。
6、所述初始模型在所述第一区间内的指标分布之间的第一误差; 从有序的各所述预测值中选择与所述第一预测值相邻的、 小于所述第一预测值的第二 预测值; 确定所述更新模型在所述第二预测值对应的第二区间内的第二分布值; 及, 计算所 述第二分布值和所述初始模型在所述第二区间内的指标分布之间的第二误差; 确定所述第一误差和所述第二误差中的较小误差所对应的预测值为所述分割点。 6.根据权利要求5所述的方法, 当搜索到第X个所述分割点时, 所述第一区间包括由所 述第一预测值与距离所述第一预测值最近的所述分割点构成的区间及由所述第一预测值 与预设区间最小值构成的区间; 所述第二区间包括由所述第二预测值与距离所述第。
7、二预测 值最近的所述分割点构成的区间及由所述第二预测值与预设区间最小值构成的区间; 当搜索到第Y个所述分割点时, 所述第一区间为由所述第一预测值与距离所述第一预 测值最近的所述分割点构成的区间; 所述第二区间为由所述第二预测值与距离所述第二预 测值最近的所述分割点构成的区间; 其中, YX。 权利要求书 1/3 页 2 CN 110033117 A 2 7.根据权利要求1所述的方法, 所述根据各所述分段区间内的预测值及所述初始模型 在各所述分段区间内的指标分布, 确定各所述分段区间分别对应的校准结果, 包括: 计算各所述分段区间内的所述预测值的评估均值; 建立各所述评估均值及各所述指标分布之间。
8、的映射关系, 得到多个指标点对; 将各所述指标点对作为指定拟合算法的输入数据, 运行所述指定拟合算法, 得到各所 述分段区间分别对应的校准结果。 8.根据权利要求7所述的方法, 所述指定拟合算法为保序回归算法。 9.一种模型校准装置, 包括: 获取模块, 用于获取初始模型对应的更新模型; 及, 获取对所述更新模型进行校准的验 证集; 所述验证集包括多个样本数据; 输入模块, 用于将各所述样本数据输入所述更新模型, 以得到所述验证集对应的输出 集; 所述输出集中包括各所述样本数据分别对应的预测值; 搜索模块, 用于根据指定分割点搜索算法, 从各所述预测值中搜索X个分割点; 及, 利用 各所述分割。
9、点将所述输出集划分为多个分段区间; 所述X的取值小于所述预测值的数量; 确定模块, 用于根据各所述分段区间内的预测值及所述初始模型在各所述分段区间内 的指标分布, 确定各所述分段区间分别对应的校准结果; 所述校准结果用于对落入所述分 段区间内的所述预测值进行校准。 10.根据权利要求9所述的装置, 所述获取模块包括: 切分单元, 用于按照预设切分规则对采集到的多个历史数据进行切分, 得到多个数据 切片; 其中, 所述预设切分规则包括按照数据采集时间的先后顺序进行切分的规则; 第一选择单元, 用于从所述多个数据切片中选择至少一个第一数据切片作为所述初始 模型的训练集; 更新单元, 用于利用所述训。
10、练集对所述初始模型进行更新, 得到所述更新模型。 11.根据权利要求10所述的装置, 所述获取模块包括: 第二选择单元, 用于从所述多个数据切片中选择至少一个第二数据切片作为所述验证 集; 其中, 所述第二数据切片与所述第一数据切片不同。 12.根据权利要求9所述的装置, 所述指定分割点搜索算法包括最优分割点贪心搜索算 法。 13.根据权利要求12所述的装置, 所述搜索模块包括: 排序单元, 用于根据各所述预测值由大到小的顺序对各所述预测值进行排序, 得到有 序的各所述预测值; 执行单元, 用于循环执行以下步骤, 直至所述X个分割点均被搜索到: 从有序的各所述预测值中选择所述预测值最大、 且未。
11、被搜索为所述分割点的第一预测 值; 确定所述更新模型在所述第一预测值对应的第一区间内的第一分布值; 及, 计算所述第 一分布值和所述初始模型在所述第一区间内的指标分布之间的第一误差; 从有序的各所述预测值中选择与所述第一预测值相邻的、 小于所述第一预测值的第二 预测值; 确定所述更新模型在所述第二预测值对应的第二区间内的第二分布值; 及, 计算所 述第二分布值和所述初始模型在所述第二区间内的指标分布之间的第二误差; 确定所述第一误差和所述第二误差中的较小误差所对应的预测值为所述分割点。 权利要求书 2/3 页 3 CN 110033117 A 3 14.根据权利要求13所述的装置, 当搜索到第。
12、X个所述分割点时, 所述第一区间包括由 所述第一预测值与距离所述第一预测值最近的所述分割点构成的区间及由所述第一预测 值与预设区间最小值构成的区间; 所述第二区间包括由所述第二预测值与距离所述第二预 测值最近的所述分割点构成的区间及由所述第二预测值与预设区间最小值构成的区间; 当搜索到第Y个所述分割点时, 所述第一区间为由所述第一预测值与距离所述第一预 测值最近的所述分割点构成的区间; 所述第二区间为由所述第二预测值与距离所述第二预 测值最近的所述分割点构成的区间; 其中, YX。 15.根据权利要求9所述的装置, 所述确定模块包括: 计算单元, 用于计算各所述分段区间内的所述预测值的评估均值。
13、; 建立单元, 用于建立各所述评估均值及各所述指标分布之间的映射关系, 得到多个指 标点对; 运行单元, 用于将各所述指标点对作为指定拟合算法的输入数据, 运行所述指定拟合 算法, 得到各所述分段区间分别对应的校准结果。 16.根据权利要求15所述的装置, 所述指定拟合算法为保序回归算法。 17.一种模型校准设备, 包括: 处理器; 以及 被安排成存储计算机可执行指令的存储器, 所述可执行指令在被执行时使所述处理 器: 获取初始模型对应的更新模型; 及, 获取对所述更新模型进行校准的验证集; 所述验证 集包括多个样本数据; 将各所述样本数据输入所述更新模型, 以得到所述验证集对应的输出集; 所。
14、述输出集 中包括各所述样本数据分别对应的预测值; 根据指定分割点搜索算法, 从各所述预测值中搜索X个分割点; 及, 利用各所述分割点 将所述输出集划分为多个分段区间; 所述X的取值小于所述预测值的数量; 根据各所述分段区间内的预测值及所述初始模型在各所述分段区间内的指标分布, 确 定各所述分段区间分别对应的校准结果; 所述校准结果用于对落入所述分段区间内的所述 预测值进行校准。 18.一种存储介质, 用于存储计算机可执行指令, 所述可执行指令在被执行时实现以下 流程: 获取初始模型对应的更新模型; 及, 获取对所述更新模型进行校准的验证集; 所述验证 集包括多个样本数据; 将各所述样本数据输入。
15、所述更新模型, 以得到所述验证集对应的输出集; 所述输出集 中包括各所述样本数据分别对应的预测值; 根据指定分割点搜索算法, 从各所述预测值中搜索X个分割点; 及, 利用各所述分割点 将所述输出集划分为多个分段区间; 所述X的取值小于所述预测值的数量; 根据各所述分段区间内的预测值及所述初始模型在各所述分段区间内的指标分布, 确 定各所述分段区间分别对应的校准结果; 所述校准结果用于对落入所述分段区间内的所述 预测值进行校准。 权利要求书 3/3 页 4 CN 110033117 A 4 模型校准方法及装置 技术领域 0001 本说明书涉及数据处理技术领域, 尤其涉及一种模型校准方法及装置。 。
16、背景技术 0002 随着大数据分析和机器学习理论的发展, 越来越多的企业在业务发展中利用机器 学习技术构建算法模型, 用于业务场景中的分析和预测。 尤其是在风控场景中, 各类机器学 习、 深度学习等算法逐渐普及, 大大提升了各类业务中的风控效果。 0003 风控模型的输出分数, 通常需要反应真实的业务风险浓度或风险概率。 一般模型 在上线后, 会根据历史数据分析和业务要求, 设定特定的模型分数阈值, 进行风险拦截或释 放。 例如, 在信贷申请业务中使用的准入评分卡模型, 利用历史数据得到模型分数在不同分 段上的历史表现(如逾期率等指标), 然后根据业务的预期和容忍度设定准入的模型分数 值, 当。
17、用户申请贷款时, 如果准入模型分数高于该给定阈值, 则认为无风险, 业务申请通过; 如果低于该阈值, 则认为有风险, 拒绝业务申请。 风控模型的这种使用方式使得模型输出分 数不仅需要具备良好的好坏区分度和排序性, 还需要模型在不同的分数取值上具有精确的 业务含义。 0004 然而, 各类业务场景中面临的风险形势, 通常具有一定的时效性, 且由于风险攻防 的对抗性, 导致风险形势在不断的变化迁移。 风险业务的这一特点, 也决定了风控模型需要 经常进行迭代更新, 而频繁的模型更新则会给风险运营人员带来更大的工作量, 也容易引 发策略调整的操作风险。 因而, 风控模型的每一次迭代更新, 都需要对输出。
18、分数进行校准, 以满足给定模型分数下的业务含义不变的要求。 如何进行风控模型的分数校准, 是风险管 理中十分重要且具有挑战性的问题。 发明内容 0005 本说明书一个或多个实施例的目的是提供一种模型校准方法及装置, 用以实现模 型自动化校准及提高模型校准的精确度。 0006 为解决上述技术问题, 本说明书一个或多个实施例是这样实现的: 0007 一方面, 本说明书一个或多个实施例提供一种模型校准方法, 包括: 0008 获取初始模型对应的更新模型; 及, 获取对所述更新模型进行校准的验证集; 所述 验证集包括多个样本数据; 0009 将各所述样本数据输入所述更新模型, 以得到所述验证集对应的输。
19、出集; 所述输 出集中包括各所述样本数据分别对应的预测值; 0010 根据指定分割点搜索算法, 从各所述预测值中搜索X个分割点; 及, 利用各所述分 割点将所述输出集划分为多个分段区间; 所述X的取值小于所述预测值的数量; 0011 根据各所述分段区间内的预测值及所述初始模型在各所述分段区间内的指标分 布, 确定各所述分段区间分别对应的校准结果; 所述校准结果用于对落入所述分段区间内 的所述预测值进行校准。 说明书 1/13 页 5 CN 110033117 A 5 0012 在一个实施例中, 所述获取初始模型对应的更新模型, 包括: 0013 按照预设切分规则对采集到的多个历史数据进行切分,。
20、 得到多个数据切片; 其中, 所述预设切分规则包括按照数据采集时间的先后顺序进行切分的规则; 0014 从所述多个数据切片中选择至少一个第一数据切片作为所述初始模型的训练集; 0015 利用所述训练集对所述初始模型进行更新, 得到所述更新模型。 0016 在一个实施例中, 所述获取对所述更新模型进行校准的验证集, 包括: 0017 从所述多个数据切片中选择至少一个第二数据切片作为所述验证集; 其中, 所述 第二数据切片与所述第一数据切片不同。 0018 在一个实施例中, 所述指定分割点搜索算法包括最优分割点贪心搜索算法。 0019 在一个实施例中, 所述根据指定分割点搜索算法, 从各所述预测值。
21、中搜索N个分割 点, 包括: 0020 根据各所述预测值由大到小的顺序对各所述预测值进行排序, 得到有序的各所述 预测值; 0021 循环执行以下步骤, 直至所述X个分割点均被搜索到: 0022 从有序的各所述预测值中选择所述预测值最大、 且未被搜索为所述分割点的第一 预测值; 确定所述更新模型在所述第一预测值对应的第一区间内的第一分布值; 及, 计算所 述第一分布值和所述初始模型在所述第一区间内的指标分布之间的第一误差; 0023 从有序的各所述预测值中选择与所述第一预测值相邻的、 小于所述第一预测值的 第二预测值; 确定所述更新模型在所述第二预测值对应的第二区间内的第二分布值; 及, 计 。
22、算所述第二分布值和所述初始模型在所述第二区间内的指标分布之间的第二误差; 0024 确定所述第一误差和所述第二误差中的较小误差所对应的预测值为所述分割点。 0025 在一个实施例中, 当搜索到第X个所述分割点时, 所述第一区间包括由所述第一预 测值与距离所述第一预测值最近的所述分割点构成的区间及由所述第一预测值与预设区 间最小值构成的区间; 所述第二区间包括由所述第二预测值与距离所述第二预测值最近的 所述分割点构成的区间及由所述第二预测值与预设区间最小值构成的区间; 0026 当搜索到第Y个所述分割点时, 所述第一区间为由所述第一预测值与距离所述第 一预测值最近的所述分割点构成的区间; 所述第。
23、二区间为由所述第二预测值与距离所述第 二预测值最近的所述分割点构成的区间; 其中, YX。 0027 在一个实施例中, 所述根据各所述分段区间内的预测值及所述初始模型在各所述 分段区间内的指标分布, 确定各所述分段区间分别对应的校准结果, 包括: 0028 计算各所述分段区间内的所述预测值的评估均值; 0029 建立各所述评估均值及各所述指标分布之间的映射关系, 得到多个指标点对; 0030 将各所述指标点对作为指定拟合算法的输入数据, 运行所述指定拟合算法, 得到 各所述分段区间分别对应的校准结果。 0031 在一个实施例中, 所述指定拟合算法为保序回归算法。 0032 另一方面, 本说明书。
24、一个或多个实施例提供一种模型校准装置, 包括: 0033 获取模块, 用于获取初始模型对应的更新模型; 及, 获取对所述更新模型进行校准 的验证集; 所述验证集包括多个样本数据; 0034 输入模块, 用于将各所述样本数据输入所述更新模型, 以得到所述验证集对应的 说明书 2/13 页 6 CN 110033117 A 6 输出集; 所述输出集中包括各所述样本数据分别对应的预测值; 0035 搜索模块, 用于根据指定分割点搜索算法, 从各所述预测值中搜索X个分割点; 及, 利用各所述分割点将所述输出集划分为多个分段区间; 所述X的取值小于所述预测值的数 量; 0036 确定模块, 用于根据各所。
25、述分段区间内的预测值及所述初始模型在各所述分段区 间内的指标分布, 确定各所述分段区间分别对应的校准结果; 所述校准结果用于对落入所 述分段区间内的所述预测值进行校准。 0037 在一个实施例中, 所述获取模块包括: 0038 切分单元, 用于按照预设切分规则对采集到的多个历史数据进行切分, 得到多个 数据切片; 其中, 所述预设切分规则包括按照数据采集时间的先后顺序进行切分的规则; 0039 第一选择单元, 用于从所述多个数据切片中选择至少一个第一数据切片作为所述 初始模型的训练集; 0040 更新单元, 用于利用所述训练集对所述初始模型进行更新, 得到所述更新模型。 0041 在一个实施例。
26、中, 所述获取模块包括: 0042 第二选择单元, 用于从所述多个数据切片中选择至少一个第二数据切片作为所述 验证集; 其中, 所述第二数据切片与所述第一数据切片不同。 0043 在一个实施例中, 所述指定分割点搜索算法包括最优分割点贪心搜索算法。 0044 在一个实施例中, 所述搜索模块包括: 0045 排序单元, 用于根据各所述预测值由大到小的顺序对各所述预测值进行排序, 得 到有序的各所述预测值; 0046 执行单元, 用于循环执行以下步骤, 直至所述X个分割点均被搜索到: 0047 从有序的各所述预测值中选择所述预测值最大、 且未被搜索为所述分割点的第一 预测值; 确定所述更新模型在所。
27、述第一预测值对应的第一区间内的第一分布值; 及, 计算所 述第一分布值和所述初始模型在所述第一区间内的指标分布之间的第一误差; 0048 从有序的各所述预测值中选择与所述第一预测值相邻的、 小于所述第一预测值的 第二预测值; 确定所述更新模型在所述第二预测值对应的第二区间内的第二分布值; 及, 计 算所述第二分布值和所述初始模型在所述第二区间内的指标分布之间的第二误差; 0049 确定所述第一误差和所述第二误差中的较小误差所对应的预测值为所述分割点。 0050 在一个实施例中, 当搜索到第X个所述分割点时, 所述第一区间包括由所述第一预 测值与距离所述第一预测值最近的所述分割点构成的区间及由所。
28、述第一预测值与预设区 间最小值构成的区间; 所述第二区间包括由所述第二预测值与距离所述第二预测值最近的 所述分割点构成的区间及由所述第二预测值与预设区间最小值构成的区间; 0051 当搜索到第Y个所述分割点时, 所述第一区间为由所述第一预测值与距离所述第 一预测值最近的所述分割点构成的区间; 所述第二区间为由所述第二预测值与距离所述第 二预测值最近的所述分割点构成的区间; 其中, YX。 0052 在一个实施例中, 所述确定模块包括: 0053 计算单元, 用于计算各所述分段区间内的所述预测值的评估均值; 0054 建立单元, 用于建立各所述评估均值及各所述指标分布之间的映射关系, 得到多 个。
29、指标点对; 说明书 3/13 页 7 CN 110033117 A 7 0055 运行单元, 用于将各所述指标点对作为指定拟合算法的输入数据, 运行所述指定 拟合算法, 得到各所述分段区间分别对应的校准结果。 0056 在一个实施例中, 所述指定拟合算法为保序回归算法。 0057 再一方面, 本说明书一个或多个实施例提供一种模型校准设备, 包括: 0058 处理器; 以及 0059 被安排成存储计算机可执行指令的存储器, 所述可执行指令在被执行时使所述处 理器: 0060 获取初始模型对应的更新模型; 及, 获取对所述更新模型进行校准的验证集; 所述 验证集包括多个样本数据; 0061 将各所。
30、述样本数据输入所述更新模型, 以得到所述验证集对应的输出集; 所述输 出集中包括各所述样本数据分别对应的预测值; 0062 根据指定分割点搜索算法, 从各所述预测值中搜索X个分割点; 及, 利用各所述分 割点将所述输出集划分为多个分段区间; 所述X的取值小于所述预测值的数量; 0063 根据各所述分段区间内的预测值及所述初始模型在各所述分段区间内的指标分 布, 确定各所述分段区间分别对应的校准结果; 所述校准结果用于对落入所述分段区间内 的所述预测值进行校准。 0064 再一方面, 本申请实施例提供一种存储介质, 用于存储计算机可执行指令, 所述可 执行指令在被执行时实现以下流程: 0065 。
31、获取初始模型对应的更新模型; 及, 获取对所述更新模型进行校准的验证集; 所述 验证集包括多个样本数据; 0066 将各所述样本数据输入所述更新模型, 以得到所述验证集对应的输出集; 所述输 出集中包括各所述样本数据分别对应的预测值; 0067 根据指定分割点搜索算法, 从各所述预测值中搜索X个分割点; 及, 利用各所述分 割点将所述输出集划分为多个分段区间; 所述X的取值小于所述预测值的数量; 0068 根据各所述分段区间内的预测值及所述初始模型在各所述分段区间内的指标分 布, 确定各所述分段区间分别对应的校准结果; 所述校准结果用于对落入所述分段区间内 的所述预测值进行校准。 0069 采。
32、用本说明书一个或多个实施例的技术方案, 通过获取初始模型对应的更新模型 及对更新模型进行校准的验证集, 以及将验证集中的各样本数据输入更新模型, 以得到验 证集对应的输出集(包括各样本数据分别对应的预测值), 然后根据指定分割点搜索算法从 各预测值中搜索X个分割点, 以利用该X个分割点将输出集划分为多个分段区间, 从而能够 根据各分段区间内的预测值及初始模型在各分段区间内的指标分布确定各分段区间分别 对应的校准结果。 可见, 该技术方案在校准模型预测值时, 并非是简单地校准模型预测的概 率统计, 而是基于初始模型在各分段区间内的指标分布校准模型的, 因此能够确保模型校 准后的业务含义(即指标分。
33、布), 提高了模型校准的精确度。 0070 进一步地, 该技术方案采用保序回归算法对各分段区间内的模型预测值进行校 准, 因此能够确保预测值在各分段区间内的保序特性。 0071 进一步地, 该技术方案能够按照预设切分规则对采集到的多个历史数据进行切 分, 以得到多个数据切片, 并从多个数据切片中选择至少一个数据切片作为模型校准的验 说明书 4/13 页 8 CN 110033117 A 8 证集, 因此, 该技术方案能够自动化地选择模型校准的验证集, 并利用该验证集对模型进行 校准, 从而实现了模型校准的自动化流程。 附图说明 0072 为了更清楚地说明本说明书一个或多个实施例或现有技术中的技。
34、术方案, 下面将 对实施例或现有技术描述中所需要使用的附图作简单地介绍, 显而易见地, 下面描述中的 附图仅仅是本说明书一个或多个实施例中记载的一些实施例, 对于本领域普通技术人员来 讲, 在不付出创造性劳动性的前提下, 还可以根据这些附图获得其他的附图。 0073 图1是根据本说明书一实施例的一种模型校准方法的示意性流程图; 0074 图2是根据本说明书一实施例的一种模型校准方法的示意性框架图; 0075 图3是根据本说明书一实施例的一种模型校准方法中的指标分布示意性图; 0076 图4是根据本说明书一实施例的一种模型校准装置的示意性框图; 0077 图5是根据本说明书一实施例的一种模型校准。
35、设备的示意性框图。 具体实施方式 0078 本说明书一个或多个实施例提供一种模型校准方法及装置, 用以实现模型自动化 校准及提高模型校准的精确度。 0079 为了使本技术领域的人员更好地理解本说明书一个或多个实施例中的技术方案, 下面将结合本说明书一个或多个实施例中的附图, 对本说明书一个或多个实施例中的技术 方案进行清楚、 完整地描述, 显然, 所描述的实施例仅仅是本说明书一部分实施例, 而不是 全部的实施例。 基于本说明书一个或多个实施例, 本领域普通技术人员在没有作出创造性 劳动前提下所获得的所有其他实施例, 都应当属于本说明书一个或多个实施例保护的范 围。 0080 图1是根据本说明书。
36、一实施例的一种模型校准方法的示意性流程图, 如图1所示, 该方法包括: 0081 S102, 获取初始模型对应的更新模型; 及, 获取对更新模型进行校准的验证集, 验 证集包括多个样本数据。 0082 S104, 将各样本数据输入更新模型, 以得到验证集对应的输出集, 输出集中包括各 样本数据分别对应的预测值。 0083 S106, 根据指定分割点搜索算法, 从各预测值中搜索X个分割点; 及, 利用各分割点 将输出集划分为多个分段区间; X的取值小于预值的数量。 0084 S108, 根据各分段区间内的预测值及初始模型在各分段区间内的指标分布, 确定 各分段区间分别对应的校准结果; 校准结果用。
37、于对落入分段区间内的预测值进行校准。 0085 其中, 指标分布可根据具体的业务场景和用户偏好进行自主选择, 例如, 信用风险 场景中, 通常采用对数几率(Odds)作为各分段区间内的指标分布; 在欺诈风险场景中, 通常 采用欺诈率(欺诈黑样本占比)作为各分段区间内的指标分布。 由此可知, 各分段区间内的 指标分布可以是一个数值, 如欺诈率30; 也可以是一个含义, 如欺诈率达到一半以上。 本 实施例通过参照初始模型在各分段区间内的指标分布来校准模型预测值, 使得更新模型的 预测值能够保持与初始模型在各分段区间内的指标分布一致, 从而确保初始模型和更新模 说明书 5/13 页 9 CN 110。
38、033117 A 9 型在各分段区间内的预测结果的业务含义稳定。 0086 本实施例中, 模型校准所参照的初始模型可以是第一次训练得到的模型, 也可以 是获得更新模型之前的任一次更新操作得到的模型。 例如, 首次训练得到模型M_v1, M_v1经 更新后得到更新模型M_v2, 那么对更新模型M_v2进行校准所参照的模型为模型M_v2; 模型 M_v2经更新后得到更新模型M_v3, 那么对更新模型M_v3进行校准所参照的模型可以是模型 M_v1, 也可以是模型M_v2。 0087 采用本说明书一个或多个实施例的技术方案, 通过获取初始模型对应的更新模型 及对更新模型进行校准的验证集, 以及将验证。
39、集中的各样本数据输入更新模型, 以得到验 证集对应的输出集(包括各样本数据分别对应的预测值), 然后根据指定分割点搜索算法从 各预测值中搜索X个分割点, 以利用该X个分割点将输出集划分为多个分段区间, 从而能够 根据各分段区间内的预测值及初始模型在各分段区间内的指标分布确定各分段区间分别 对应的校准结果。 可见, 该技术方案在校准模型预测值时, 并非是简单地校准模型预测的概 率统计, 而是基于初始模型在各分段区间内的指标分布校准模型的, 因此能够确保模型校 准后的业务含义(即指标分布), 提高了模型校准的精确度。 0088 在一个实施例中, 获取初始模型对应的更新模型时, 可按照预设切分规则对。
40、采集 到的多个历史数据进行切分, 得到多个数据切片; 进而从多个数据切片中选择至少一个第 一数据切片作为初始模型的训练集, 并利用训练集对初始模型进行更新, 得到更新模型。 0089 其中, 预设切分规则包括按照数据采集时间的先后顺序进行切分的规则。 被切分 的历史数据可以是对一段时间内的数据进行采样所得到的数据, 如对每个月所采集到的所 有样本数据按一定比例抽样, 即可得到被切分的多个历史数据。 0090 此外, 预设切分规则还可包括切分频率, 即, 按照一定的切分频率对采集到的多个 历史数据进行切分, 从而实现按照既定频率对模型进行自动化更新的目的。 其中, 切分频率 可以是模型的更新频率。
41、。 0091 在一个实施例中, 可从多个数据切片中选择至少一个第二数据切片作为验证集。 其中, 验证集所使用的第二数据切片与训练集所使用的第一数据切片不同。 此处的 “不同” 指第二数据切片与第一数据切片之间没有重合部分, 从而减少数据重合所带来的校准偏差 的影响, 进而减少过拟合的风险。 0092 如图2所示, 采集到的多个历史数据按照数据采集时间的先后顺序, 被切分为数据 切片1、 数据切片2、 数据切片3、 数据切片4、 数据切片5、 数据切片6及数据切片7。 在这多个数 据切片中选择后, 得到训练集S1(包括数据切片1和数据切片2)及模型校准所需要的验证集 S2(包括数据切片3和数据切。
42、片4)。 假设首次训练得到的为初始模型M_v1, 使用训练集S1对 初始模型M_v1进行更新后得到更新模型M_v2, 然后利用验证集S2、 初始模型M_v1及更新模 型M_v2, 进行当前一轮的模型校准, 即利用验证集S2对更新模型M_v2的预测值进行校准。 0093 当下一轮模型更新开始后, 可重新选取新的数据切片作为新的训练集S3(包括数 据切片2和数据切片5)和验证集S4(包括数据切片6和数据切片7), 利用训练集S3对更新模 型M_v2进行更新, 得到新一轮的更新模型M_v3, 然后利用验证集S4、 更新模型M_v2及新一轮 的更新模型M_v3, 进行新一轮的模型校准, 即利用验证集S。
43、4对更新模型M_v3的预测值进行 校准。 0094 可见, 该技术方案能够按照预设切分规则对采集到的多个历史数据进行切分, 以 说明书 6/13 页 10 CN 110033117 A 10 得到多个数据切片, 并从多个数据切片中选择至少一个数据切片作为模型校准的验证集, 因此, 该技术方案能够自动化地选择模型校准的验证集, 并利用该验证集对模型进行校准, 从而实现了模型校准的自动化流程。 0095 在一个实施例中, 指定分割点搜索算法包括最优分割点贪心搜索算法。 0096 传统的分割点搜索方法中, 通常是随机初始化生成分割点、 然后通过类似坐标下 降的方法左右移动寻找最优分割点, 这种方法受。
44、分割点的初始化影响非常大, 且当分割点 的初始分段数足够大时, 很容易陷入局部最优解。 因此, 本实施例中所采用的贪心搜索算 法, 可在O(N*logN)的复杂度下完成最优解的算法。 0097 以下详细介绍如何利用最优分割点贪心搜索算法从各预测值中搜索分割点。 0098本实施例中, 假设初始模型在各个分段区间上的指标分布为 更新模型在验证集上的预测结果为Rsk|0kN-1, 其中, N为验证集上的样本个数, B 为分段区间数; 则分割点数为B-1。 0099 首先, 根据各预测值由大到小的顺序对各预测值进行排序, 得到有序的各预测值。 0100 以风险模型为例, 在风险模型的风险值预测中, 通。
45、常满足以下条件: 模型预测值越 高, 则风险越高。 因此对于初始模型而言, 其指标分布通常满足即划分后的分 段区间满足风险指标增序。 那么将更新模型的预测值进行排序后, 满足sksk+1。 0101 其次, 循环执行以下步骤, 直至X(即B-1)个分割点均被搜索到: 0102 a、 从有序的各预测值中选择预测值最大、 且未被搜索为分割点的第一预测值; 确 定更新模型在第一预测值对应的第一区间内的第一分布值; 及, 计算第一分布值和初始模 型在第一区间内的指标分布之间的第一误差。 0103 其中, 当搜索到第X个分割点(即最后一个分割点)时, 第一区间包括由第一预测值 与距离第一预测值最近的分割。
46、点构成的区间及由第一预测值与预设区间最小值构成的区 间。 当搜索到第Y个分割点时, 第一区间为由第一预测值与距离第一预测值最近的分割点构 成的区间; 其中, YX。 0104 即, 从预测值的排序结果中, 首先寻找预测值最大、 且未被搜索为分割点的第一预 测值作为分割点sk, 其满足其中, 为已经搜索到的指标分布所对应的最优 分割点。 0105若搜索到第Y(YX)个分割点, 则第一预测值对应的第一区间为更新模 型在第一区间内的第一分布值为yj, 计算第一误差: 0106 若搜索到第X个分割点(即最后一个分割点), 则此时j1, 第一预测值对应的第一 区间为和0, sk两个区间, 更新模型在第一。
47、区间内的第一分布值包括y1和y0, 计算 第一误差: 0107需要说明的是, 针对第一个分段区间,且区间两边均闭合, 即为sk, 1。 0108 b、 从有序的各预测值中选择与第一预测值相邻的、 小于第一预测值的第二预测 值; 确定更新模型在第二预测值对应的第二区间内的第二分布值; 及, 计算第二分布值和初 说明书 7/13 页 11 CN 110033117 A 11 始模型在第二区间内的指标分布之间的第二误差。 0109 其中, 当搜索到第X个分割点时, 第二区间包括由第二预测值与距离第二预测值最 近的分割点构成的区间及由第二预测值与预设区间最小值构成的区间。 当搜索到第Y个分 割点时, 。
48、第二区间为由第二预测值与距离第二预测值最近的分割点构成的区间; 其中, Y X。 0110 c、 确定第一误差和第二误差中的较小误差所对应的预测值为分割点。 0111假设当前待标定的最大指标分布为其对应的分割点作为当前需要搜索的目标 即取其中, k表示尚未完成标定的分段区间个数。 初始时, 最大待 标定的指标分布为待寻找的更新模型的预测值中的最优分割点为sB-2。 0112也就是说, 通过搜索待标定的指标分布所对应的最优分割点使得在最优 分割点的划分下, 更新模型在分段区间内的指标分布yj与初始模型在该分 段区间内的指标分布的误差尽可能小。 0113 由此可知, 最优分割点贪心搜索算法是从最大。
49、预测值开始依次往前搜索的, 即如 图3所示的搜索方向。 在图3中, 上方的线段表示初始模型在各分段区间内的指标分布, 下方 的线段表示更新模型在各分段区间内的分布。 当前待标定的最大指标分布为时, 其对应 的需要搜索的分割点即为s3。 0114 需要说明的是, 图3仅示意性地示出了几个分段区间, 图3中所示的分段区间数并 不代表真实场景中的分段区间数, 具体划分多少个分段区间可由业务场景或用户偏好所确 定。 0115至此, 得到X个最优分割点 0116 在一个实施例中, 完成X个分割点的搜索之后, 可通过以下方式确定各个分段区间 内的校准结果: 首先计算各分段区间内的预测值的评估均值, 然后建。
50、立各评估均值及初始 模型在各分段区间内的指标分布之间的映射关系, 得到多个指标点对, 进而将各指标点对 作为指定拟合算法的输入数据, 运行指定拟合算法, 得到各分段区间分别对应的校准结果。 其中, 指定拟合算法为保序回归算法。 0117假设更新模型的分割点为初始模型在各分段区间 内的指标分布为更新模型在验证集上的预测结果为Rsk|0 kN-1, 其中, N为验证集上的样本个数, B为分段区间数。 各分段区间内的预测值的评估 均值为那么多个指标点对为 0118然后, 对多个指标点对为进行保序回归拟合, 得到指 标分布映射表。 该指标分布映射表包括更新模块的各预测值所对应的标定指标分布(即初 说明。
- 内容关键字: 模型 校准 方法 装置
茶叶加工用的上料装置.pdf
便于装卸的储料桶.pdf
智能化多腔体入料数量检测机构及高速计数筛选装置.pdf
焊接辅助装置.pdf
无纺布切边装置.pdf
阀门用端面打磨装置.pdf
推砖装置.pdf
污染水体水藻清理装置.pdf
调整木板输送姿态的输送装置.pdf
切边刀装配总成.pdf
液压油过滤器.pdf
用于检测育苗水体中弧菌含量的培养装置.pdf
自动配料加料装置.pdf
电加热器超导热管用烘箱.pdf
避免交叉感染的门诊采血车.pdf
压力管道承压检测装置.pdf
多功能彩妆盒.pdf
激光增强的纳米线电子源组件.pdf
旋转型空气净化消毒灯.pdf
无人机智能电力线路巡检系统.pdf
消防器械生产用焊接装置.pdf
基于工业互联网的电力数据挖掘与分析系统.pdf
条码扫描机.pdf
基于TDS-Unet网络的地震速度模型重构方法、介质和设备.pdf
纺织弹性带生产自动卷绕装置及其方法.pdf
基于BIM的轨道交通运维方法、系统、电子设备及存储介质.pdf
电子封装用导电银胶及其制备方法.pdf
基于虚拟编组计算列车数的方法、设备及存储介质.pdf
菌落计数样本的优化方法、装置、设备及存储介质.pdf
高压断路器机械合闸闭锁装置.pdf
竖井采矿用罐笼旋调升降装置.pdf
热升级方法、装置及电子设备.pdf
一种多功能保鲜米乳及其制备方法.pdf
一种改善肉质发酵香樟叶猪饲料添加剂.pdf
一种哺乳期母羊饲料及其制备方法.pdf
荞麦提取物的制备方法.pdf
一种促进营养吸收的肉兔饲料.pdf
一种低糖低脂板栗酥糖的制备方法.pdf
一种提高免疫力的姜茶.pdf
李子果脯的制备方法.pdf
一种循环农业的方法.pdf
一种新型话梅及其制备方法.pdf
用于防治猪肠道传染性疾病和提高饲料利用率的金银花茎叶饲料添加剂及其制备方法和应用.pdf
利用酶解金枪鱼暗色肉制备饲用肽的方法.pdf
一种护肝葛花茶.pdf
一种消暑解渴的花茶及其制作方法.pdf
一种减肥荷叶茶的制备方法.pdf
一种美容养颜的桃花茶.pdf
一种黑猪配合饲料.pdf
一种动物促育肥饲料添加剂及其制备方法.pdf
一种葛根干茶的制备方法.pdf
相关文档
更多![书包.pdf](/Images/s.gif)
![基于B/S架构的空间数据动态更新系统.pdf](/Images/s.gif)
![用电调节方法及车辆电池管理系统.pdf](/Images/s.gif)
![口腔护理给药器.pdf](/Images/s.gif)
![新型穿戴式肠造口护理装置.pdf](/Images/s.gif)
![合成3-甲酸酯-2-吡咯啉类化合物的方法.pdf](/Images/s.gif)
![具有高绝缘性能的光伏组件用隔离条.pdf](/Images/s.gif)
![关风器新型壳体.pdf](/Images/s.gif)
![通风散热手术衣.pdf](/Images/s.gif)
![聚醚醚酮基协效阻燃纳米复合材料及其制备方法.pdf](/Images/s.gif)
![信息处理方法以及电子设备.pdf](/Images/s.gif)
![眼科手术用支撑盘.pdf](/Images/s.gif)
![手术体位辅助固定装置及具有该装置的体位固定机构.pdf](/Images/s.gif)
![高效多喷头同步打印FDM3D打印机.pdf](/Images/s.gif)
![带封严篦齿的高速轴流压气机的低速模化设计方法.pdf](/Images/s.gif)
![微型的吸痰装置.pdf](/Images/s.gif)
![京白梨种植用果树防冻装置.pdf](/Images/s.gif)
![基于智慧网联汽车的公共安全智慧探测系统及方法.pdf](/Images/s.gif)
![自动售货机的出货货道.pdf](/Images/s.gif)
![按摩敲打机构及头部按摩机、复健按摩机.pdf](/Images/s.gif)