用于联邦学习的图形化模型全生命周期建模方法.pdf

上传人:le****a 文档编号:10817220 上传时间:2021-08-13 格式:PDF 页数:13 大小:987.68KB
收藏 版权申诉 举报 下载
用于联邦学习的图形化模型全生命周期建模方法.pdf_第1页
第1页 / 共13页
用于联邦学习的图形化模型全生命周期建模方法.pdf_第2页
第2页 / 共13页
用于联邦学习的图形化模型全生命周期建模方法.pdf_第3页
第3页 / 共13页
文档描述:

《用于联邦学习的图形化模型全生命周期建模方法.pdf》由会员分享,可在线阅读,更多相关《用于联邦学习的图形化模型全生命周期建模方法.pdf(13页完成版)》请在专利查询网上搜索。

1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 201911134600.6 (22)申请日 2019.11.19 (71)申请人 北京集奥聚合科技有限公司 地址 100142 北京市海淀区西四环北路160 号4层一区437 (72)发明人 崔晶晶许泱洋 (74)专利代理机构 北京瑞盛铭杰知识产权代理 事务所(普通合伙) 11617 代理人 李绩 (51)Int.Cl. G06F 30/20(2020.01) G06F 9/451(2018.01) G06F 3/0486(2013.01) G06Q 10/06(2012.01。

2、) (54)发明名称 一种用于联邦学习的图形化模型全生命周 期建模方法 (57)摘要 本发明提出了一种用于联邦学习的图形化 模型全生命周期建模方法, 包括: 建模前对数据 样本进行分析, 确定联邦学习方案; 根据联合分 析运算结果, 拟定建模策略; 采用拖拉拽方式, 利 用联邦特征工程手段对数据进行处理; 联邦模型 训练过程: 双方分别构建模型后, 交换计算得到 的中间态模型和损失函数; 对联邦模型进行预测 使用; 对联邦模型的运行过程进行监控, 得到模 型监控统计指标, 实现对联邦模型的维护迭代。 本发明通过图形化增加联邦学习建模各步骤中 的人员可参与优化点、 降低人员参与优化难度, 并提供。

3、后期模型应用维护的途径, 提升联邦学习 技术的应用场景和易用性。 权利要求书2页 说明书5页 附图5页 CN 111104731 A 2020.05.05 CN 111104731 A 1.一种用于联邦学习的图形化模型全生命周期建模方法, 其特征在于, 包括如下步骤: 步骤S1, 建模前对数据样本进行分析, 确定联邦学习方案, 参与方上传原始数据到建模 平台的本地客户端后进行同态加密, 加密完成后, 其他参与方通过平台请求与该参与方数 据进行联合分析运算, 其中, 其他参与方仅能得到联合分析运算结果, 而不会直接获取参与 方上传的原始数据; 所述联合分析运算结果以图表形式通过可视化界面呈现; 。

4、步骤S2, 根据联合分析运算结果, 拟定建模策略, 包括对数据进行的处理、 加工、 衍生、 算法选择的过程; 步骤S3, 采用拖拉拽方式, 利用联邦特征工程手段对数据进行处理, 包括: 在运算时, 目 标变量Y标签的所属方先获取对方同态加密后的X维度, 进行第一次信息交换; 然后进行数 据运算, 将运算结果返回对方进行分析调试, 进行第二次信息交换如此往复; 步骤S4, 联邦模型训练过程: 双方分别构建模型后, 交换计算得到的中间态模型和损失 函数, 如此往复迭代; 步骤S5, 构建完成联邦模型后, 对所述联邦模型进行预测使用, 其中, 在预测使用过程 中, 参与方获知自己提供的数据变量的含义。

5、和权重, 但无法获知其他参与方提供数据的含 义, 仅可获知其他参与方提供数据的权重; 步骤S6, 对所述联邦模型的运行过程进行监控, 得到模型监控统计指标, 实现对联邦模 型的维护迭代。 2.如权利要求1所述的用于联邦学习的图形化模型全生命周期建模方法, 其特征在于, 在所述步骤S1中, 所述联邦学习方案包括: 横向联邦、 纵向联邦还是迁移联邦学习。 3.如权利要求1所述的用于联邦学习的图形化模型全生命周期建模方法, 其特征在于, 所述同态加密为对参与方上传的原始数据进行加密, 无需解密即可实现对加密后的数据进 行分析运算, 获取分析运算结果, 最后对分析运算结果进行解密; 参与方和建模平台均。

6、允许 在无法获知其他参与方的原始数据的基础上, 对加密后的数据进行运算, 以对应对方数据 进行模型优化。 4.如权利要求1所述的用于联邦学习的图形化模型全生命周期建模方法, 其特征在于, 在所述步骤S2中, 所述联合分析运算结果包括: 原始Y标签有效样本数量、 横向联邦学习样 本交集、 纵向联邦学习总样本量、 样本维度。 5.如权利要求1所述的用于联邦学习的图形化模型全生命周期建模方法, 其特征在于, 在所述步骤S3中, 所述联邦特征工程手段包括: 编码、 分箱、 特征组合、 特征离散化、 特征运 算、 时间切片、 偏移量增维、 PCA降维、 IV特征筛选、 算法特征筛选。 6.如权利要求1所。

7、述的用于联邦学习的图形化模型全生命周期建模方法, 其特征在于, 在步骤S4中, 第一参与方将根据第一数据集计算所得的模型和损失函数给到第二参与方, 第二参与方根据第二数据集调整模型并得到新的损失函数, 再由第一参与方进一步优化, 如此迭代反复, 进行交换分析。 7.如权利要求1所述的用于联邦学习的图形化模型全生命周期建模方法, 其特征在于, 在所述步骤S6中, 获取模型监控统计指标, 包括: 参与方的双方在本地通过平台客户端进行同态加密, 将同态加密后的数据双方进行数 据交换, 然后各自对交换后的加密数据进行计算统计计算, 得出模型监控统计指标。 8.如权利要求7所述的用于联邦学习的图形化模型。

8、全生命周期建模方法, 其特征在于, 权利要求书 1/2 页 2 CN 111104731 A 2 所述模型监控统计指标, 包括: 群体稳定性指标PSI、 洛伦兹曲线KS、 曲线下面积AUC, 曲线下 面积AUC被定义为接受者操作特征曲线ROC曲线下与坐标轴围成的面积, 接受者操作特性曲 线是指在特定刺激条件下, 以被试在不同判断标准下所得的虚报概率P为横坐标, 以击中概 率P为纵坐标, 画得的各点的连线。 权利要求书 2/2 页 3 CN 111104731 A 3 一种用于联邦学习的图形化模型全生命周期建模方法 技术领域 0001 本发明涉及数据处理技术领域, 特别涉及一种用于联邦学习的图形。

9、化模型全生命 周期建模方法。 背景技术 0002 联邦学习是一种很好的连接数据孤岛得出优质模型的方式。 目前联邦学习的成熟 技术不多, 已有技术主要致力于解决建模过程中的同态、 半同态加解密问题。 然而由于参与 联邦的多方数据需要互相保密, 由此所涉及到的联邦样本基础统计信息交换、 联邦建模策 略拟定、 联邦特征工程、 联邦模型训练、 联邦模型的预测使用、 联邦模型的维护迭代等都是 联邦成员能使用优质模型的关键。 其中每一步又涉及到加密、 信息交换、 加工运算、 策略拟 定、 得出结论的过程。 0003 目前已有技术对与这些步骤或拆分不足, 使得很多步骤只能使用框架默认设定而 不能人工参与优化。

10、模型; 或模型构建过程中某些步骤如分箱调整无法实现人工干预; 或对 模型训练过程约束过多, 导致无法人工调整优化使得模型效果不佳; 或模型训练框架较成 熟的sk-learn等传统建模框架训练效果差异过大; 或可实现的模型类型限制于LR、 BOOST模 型; 或采用 “调试后台” 类的交互方式, 需要使用者不仅有专业的风控建模能力, 还需要对其 中用到的各类软件框架非常熟悉, 能够读懂晦涩的调试日志; 或模型后期应用、 维护困难。 发明内容 0004 本发明的目的旨在至少解决所述技术缺陷之一。 0005 为此, 本发明的目的在于提出一种用于联邦学习的图形化模型全生命周期建模方 法。 0006 为。

11、了实现上述目的, 本发明的实施例提供一种用于联邦学习的图形化模型全生命 周期建模方法, 包括如下步骤: 0007 步骤S1, 建模前对数据样本进行分析, 确定联邦学习方案, 参与方上传原始数据到 建模平台的本地客户端后进行同态加密, 加密完成后, 其他参与方通过平台请求与该参与 方数据进行联合分析运算, 其中, 其他参与方仅能得到联合分析运算结果, 而不会直接获取 参与方上传的原始数据; 所述联合分析运算结果以图表形式通过可视化界面呈现; 0008 步骤S2, 根据联合分析运算结果, 拟定建模策略, 包括对数据进行的处理、 加工、 衍 生、 算法选择的过程; 0009 步骤S3, 采用拖拉拽方。

12、式, 利用联邦特征工程手段对数据进行处理, 包括: 在运算 时, 目标变量Y标签的所属方先获取对方同态加密后的X维度, 进行第一次信息交换; 然后进 行数据运算, 将运算结果返回对方进行分析调试, 进行第二次信息交换如此往复; 0010 步骤S4, 联邦模型训练过程: 双方分别构建模型后, 交换计算得到的中间态模型和 损失函数, 如此往复迭代; 0011 步骤S5, 构建完成联邦模型后, 对所述联邦模型进行预测使用, 其中, 在预测使用 说明书 1/5 页 4 CN 111104731 A 4 过程中, 参与方获知自己提供的数据变量的含义和权重, 但无法获知其他参与方提供数据 的含义, 仅可获。

13、知其他参与方提供数据的权重; 0012 步骤S6, 对所述联邦模型的运行过程进行监控, 得到模型监控统计指标, 实现对联 邦模型的维护迭代。 0013 进一步, 在所述步骤S1中, 所述联邦学习方案包括: 横向联邦、 纵向联邦还是迁移 联邦学习。 0014 进一步, 同态加密为对参与方上传的原始数据进行加密, 无需解密即可实现对加 密后的数据进行分析运算, 获取分析运算结果, 最后对分析运算结果进行解密; 参与方和建 模平台均允许在无法获知其他参与方的原始数据的基础上, 对加密后的数据进行运算, 以 对应对方数据进行模型优化。 0015 进一步, 在所述步骤S2中, 所述联合分析运算结果包括:。

14、 原始Y标签有效样本数量、 横向联邦学习样本交集、 纵向联邦学习总样本量、 样本维度。 0016 进一步, 在所述步骤S3中, 所述联邦特征工程手段包括: 编码、 分箱、 特征组合、 特 征离散化、 特征运算、 时间切片、 偏移量增维、 PCA降维、 IV特征筛选、 算法特征筛选。 0017 进一步, 在步骤S4中, 第一参与方将根据第一数据集计算所得的模型和损失函数 给到第二参与方, 第二参与方根据第二数据集调整模型并得到新的损失函数, 再由第一参 与方进一步优化, 如此迭代反复, 进行交换分析。 0018 进一步, 在所述步骤S6中, 获取模型监控统计指标, 包括: 0019 参与方的双方。

15、在本地通过平台客户端进行同态加密, 将同态加密后的数据双方进 行数据交换, 然后各自对交换后的加密数据进行计算统计计算, 得出模型监控统计指标。 0020 进一步, 所述模型监控统计指标, 包括: 群体稳定性指标PSI、 洛伦兹曲线KS、 曲线 下面积AUC, 曲线下面积AUC被定义为接受者操作特征曲线ROC曲线下与坐标轴围成的面积, 接受者操作特性曲线是指在特定刺激条件下, 以被试在不同判断标准下所得的虚报概率P (y/N)为横坐标, 以击中概率P(y/SN)为纵坐标, 画得的各点的连线。 0021 根据本发明实施例的用于联邦学习的图形化模型全生命周期建模方法, 通过图形 化的建模平台实现联。

16、邦学习的功能, 在保障联邦参与方信息安全的前提下, 使得联邦学习 可以应用于LR、 BOOST以及其他的模型, 同时通过图形化增加联邦学习建模各步骤中的人员 可参与优化点、 降低人员参与优化难度, 并提供后期模型应用维护的途径, 提升联邦学习技 术的应用场景和易用性。 0022 本发明可以使得两个企业以更低的学习门槛进行联邦学习建模, 并对模型长期的 使用、 维护、 迭代进行管理, 使得模型长期可追踪, 反向推动联邦成员对模型质量维护的积 极性。 通过图形化拖拉拽形式的平台, 传统数据分析师不需要精通软件工程师的领域, 即可 快速建立联邦学习, 进一步促进大数据行业打破数据孤岛, 保障数据隐私。

17、, 构建良好的数据 科学发展体系。 0023 本发明附加的方面和优点将在下面的描述中部分给出, 部分将从下面的描述中变 得明显, 或通过本发明的实践了解到。 附图说明 0024 本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得 说明书 2/5 页 5 CN 111104731 A 5 明显和容易理解, 其中: 0025 图1为根据本发明实施例的用于联邦学习的图形化模型全生命周期建模方法的流 程图; 0026 图2为根据本发明实施例的企业与联合模型之间的交互流程图; 0027 图3为根据本发明实施例的用于联邦学习的图形化模型全生命周期建模方法的工 作流程图; 0028 图4。

18、为根据本发明实施例的样本统计信息交换的配置界面图; 0029 图5为根据本发明实施例的联邦特征工程计算的配置界面图; 0030 图6为根据本发明实施例的分箱详情的配置界面图; 0031 图7为根据本发明实施例的联邦模型训练的配置界面图。 具体实施方式 0032 下面详细描述本发明的实施例, 所述实施例的示例在附图中示出, 其中自始至终 相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。 下面通过参考附 图描述的实施例是示例性的, 旨在用于解释本发明, 而不能理解为对本发明的限制。 0033 本发明提供一种用于联邦学习的图形化模型全生命周期建模方法, 可以通过可视 化、 图形化、 。

19、拖拉拽的形式实现联邦学习的模型全生命周期的建模平台。 本发明通过拖拉拽 的交互形式进行联邦学习建模, 增加分箱等细节调试手段, 并在保护隐私的前提下为联邦 学习构建的模型后期使用提供持续的监控的设计方案。 0034 如图1和图3所示, 本发明实施例的用于联邦学习的图形化模型全生命周期建模方 法, 包括如下步骤: 0035 步骤S1, 建模前对数据样本进行分析, 确定联邦学习方案。 0036 在本发明的实施例中, 联邦学习方案包括: 横向联邦、 纵向联邦还是迁移联邦学习 等。 0037 样本统计信息交换: 参与方上传原始数据到建模平台的本地客户端后进行同态加 密。 同态加密为对参与方上传的原始数。

20、据进行加密, 无需解密即可实现对加密后的数据进 行分析运算, 获取分析运算结果, 最后对分析运算结果进行解密。 即, 其他参与方不会直接 得到密文数据, 而是根据不同的分析步骤直接从平台获取分析结果。 0038 在本步骤中, 对于参与方A所提供的变量a, A可以看到变量a在整体样本的分布分 析及其含义。 对于A所不具备的变量b, A仅可看到变量b的分布分析, 但不知其含义。 0039 参与方和建模平台均允许在无法获知其他参与方的原始数据的基础上, 对加密后 的数据进行运算, 以对应对方数据进行模型优化。 0040 加密完成后, 其他参与方通过平台请求与该参与方数据进行联合分析运算。 其中, 其。

21、他参与方仅能得到联合分析运算结果, 而不会直接获取参与方上传的原始数据; 联合分 析运算结果以图表形式通过可视化界面呈现。 即, 通过平台可视化界面看到两方数据的分 析报告, 如样本重合度、 变量分布情况等信息。 具体需要统计分析生成哪些报表, 可以通过 平台拖拉拽组件进行配置, 如图4所示。 0041 步骤S2, 根据联合分析运算结果, 拟定建模策略, 包括对数据进行的处理、 加工、 衍 生、 算法选择的过程。 说明书 3/5 页 6 CN 111104731 A 6 0042 在本步骤中, 联合分析运算结果包括: 原始Y标签有效样本数量、 横向联邦学习样 本交集、 纵向联邦学习总样本量、 。

22、样本维度等。 0043 步骤S3, 采用拖拉拽方式, 利用联邦特征工程手段对数据进行处理, 包括: 在运算 时, 目标变量Y标签的所属方先获取对方同态加密后的X维度, 进行第一次信息交换; 然后进 行数据运算, 将运算结果返回对方进行分析调试, 进行第二次信息交换如此往复。 0044 在本发明的实施例中, 联邦特征工程手段包括: 编码、 分箱、 特征组合、 特征离散 化、 特征运算、 时间切片、 偏移量增维、 PCA降维、 IV特征筛选、 算法特征筛选等。 0045 需要说明的是, 部分特征工程与Y标签紧密挂钩。 在运算时, Y标签的所属方先获取 对方同态加密后的X维度, 进行IV值等计算, 。

23、后将计算结果返回对方进行分析调试, 如此往 复。 如图5所示, 通过平台拖拉拽组件进行配置选择计算方式。 0046 部分如分箱等调整, 还可以通过界面看到其统计信息, 进行细致的手工调整, 如图 6所示。 0047 步骤S4, 联邦模型训练过程: 双方分别构建模型后, 交换计算得到的中间态模型和 损失函数, 如此往复迭代。 0048 联邦模型训练过程根据每种算法略有不同, 其核心逻辑是不交换完整数据, 双方 分别构建模型后, 交换其中间态模型和损失函数。 具体来说, 第一参与方A将根据第一数据 集a计算所得的模型和损失函数给到第二参与方B, 第二参与方B根据第二数据集b调整模型 并得到新的损失。

24、函数, 再由第一参与方进一步优化, 如此迭代反复, 进行交换分析。 0049 例如LR模型使用梯度下降法进行模型迭代时, 即可将梯度、 模型预测概率一同交 换分析, 直到双方数据都显示模型损失函数满足收敛条件即建模完成。 如图7所示,通过平 台拖拉拽组件进行配置使用哪种模型进行训练。 0050 步骤S5, 构建完成联邦模型后, 对联邦模型进行预测使用. 0051 联邦模型构建完成后, 参与联邦提供数据的多方都可以使用。 在预测使用过程中, 参与方获知自己提供的数据变量的含义和权重, 但无法获知其他参与方提供数据的含义, 仅可获知其他参与方提供数据的权重。 0052 即, 企业A无法得知数据b贡。

25、献的变量的具体含义, 但可以知道该变量的权重, 同 样, 企业B无法得知数据a贡献的变量的具体含义, 但可以知道该变量的权重, 并且企业A、 B 都可以使用建模平台进行模型预测。 0053 步骤S6, 对联邦模型的运行过程进行监控, 得到模型监控统计指标, 实现对联邦模 型的维护迭代。 0054 联邦模型的维护迭代: 联邦模型的维护主要是持续监控, 以及迭代的触发。 通常来 说, 监控分为准确度监控和稳定性监控。 准确度和稳定性监控需要获取企业A、 B两方的调用 信息, 而双方又要保有数据隐私。 因此, 参与方的双方在本地通过平台客户端进行同态加 密, 将同态加密后的数据双方进行数据交换, 然。

26、后各自对交换后的加密数据进行计算统计 计算, 得出模型监控统计指标。 同样的, 企业A仅可获得数据a相关的指标统计情况和变量解 释, 但仅可以看到企业B所提供的数据b的统计情况而不能看到解释。 0055 在本发明的实施例中, 模型监控统计指标, 包括: 群体稳定性指标PSI、 洛伦兹曲线 KS、 曲线下面积AUC等。 曲线下面积AUC被定义为接受者操作特征曲线ROC曲线下与坐标轴围 成的面积, 接受者操作特性曲线是指在特定刺激条件下, 以被试在不同判断标准下所得的 说明书 4/5 页 7 CN 111104731 A 7 虚报概率P(y/N)为横坐标, 以击中概率P(y/SN)为纵坐标, 画得。

27、的各点的连线。 0056 如图2所示, 应用时企业A和企业B的数据都是各自的隐私数据资产, 不能对外泄 露。 协作者C作为一个中间服务者, 提供一套独立部署的硬件设备环境, 搭载建模平台供企 业A和企业B使用。 使用时, 企业A和企业B通过联邦学习建模平台的客户端, 在本地进行同态 加密, 加密后上传到协作者C。 同态加密加密后可以隐去原始数据中的信息, 且无需解密, 可 以直接对加密后的数据进行运算, 最后将运算完成的数据进行解密。 由此, 企业A、 企业B、 协 作者C都不能获取其他参与方的原始数据, 但是可以利用对方的数据优化模型。 0057 根据本发明实施例的用于联邦学习的图形化模型全。

28、生命周期建模方法, 通过图形 化的建模平台实现联邦学习的功能, 在保障联邦参与方信息安全的前提下, 使得联邦学习 可以应用于LR、 BOOST以及其他的模型, 同时通过图形化增加联邦学习建模各步骤中的人员 可参与优化点、 降低人员参与优化难度, 并提供后期模型应用维护的途径, 提升联邦学习技 术的应用场景和易用性。 0058 本发明可以使得两个企业以更低的学习门槛进行联邦学习建模, 并对模型长期的 使用、 维护、 迭代进行管理, 使得模型长期可追踪, 反向推动联邦成员对模型质量维护的积 极性。 通过图形化拖拉拽形式的平台, 传统数据分析师不需要精通软件工程师的领域, 即可 快速建立联邦学习, 。

29、进一步促进大数据行业打破数据孤岛, 保障数据隐私, 构建良好的数据 科学发展体系。 0059 在本说明书的描述中, 参考术语 “一个实施例” 、“一些实施例” 、“示例” 、“具体示 例” 、 或 “一些示例” 等的描述意指结合该实施例或示例描述的具体特征、 结构、 材料或者特 点包含于本发明的至少一个实施例或示例中。 在本说明书中, 对上述术语的示意性表述不 一定指的是相同的实施例或示例。 而且, 描述的具体特征、 结构、 材料或者特点可以在任何 的一个或多个实施例或示例中以合适的方式结合。 0060 尽管上面已经示出和描述了本发明的实施例, 可以理解的是, 上述实施例是示例 性的, 不能理。

30、解为对本发明的限制, 本领域的普通技术人员在不脱离本发明的原理和宗旨 的情况下在本发明的范围内可以对上述实施例进行变化、 修改、 替换和变型。 本发明的范围 由所附权利要求及其等同限定。 说明书 5/5 页 8 CN 111104731 A 8 图1 说明书附图 1/5 页 9 CN 111104731 A 9 图2 说明书附图 2/5 页 10 CN 111104731 A 10 图3 图4 说明书附图 3/5 页 11 CN 111104731 A 11 图5 图6 说明书附图 4/5 页 12 CN 111104731 A 12 图7 说明书附图 5/5 页 13 CN 111104731 A 13 。

展开阅读全文
内容关键字: 用于 联邦 学习 图形 模型 生命周期 建模 方法
关于本文
本文标题:用于联邦学习的图形化模型全生命周期建模方法.pdf
链接地址:https://www.zhuanlichaxun.net/pdf/10817220.html
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1