模型的数据处理方法、电子设备及存储介质.pdf
《模型的数据处理方法、电子设备及存储介质.pdf》由会员分享,可在线阅读,更多相关《模型的数据处理方法、电子设备及存储介质.pdf(18页完成版)》请在专利查询网上搜索。
1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202010082777.2 (22)申请日 2020.02.07 (71)申请人 北京鸿天宇科技有限公司 地址 100038 北京市海淀区羊坊店博望园 裙房一层259号 申请人 广西壮族自治区发展和改革委员会 经济研究所 (72)发明人 喻颍杰尚毛毛张卫华杨丛丛 杨豫萍董大为李强康敏华 李楠周晴王业帅杭玢 (74)专利代理机构 北京律和信知识产权代理事 务所(普通合伙) 11446 代理人 张羽项荣 (51)Int.Cl. G06F 17/18(2006.01) G06N 20。
2、/00(2019.01) G06Q 10/06(2012.01) G06Q 30/02(2012.01) (54)发明名称 一种模型的数据处理方法、 电子设备及存储 介质 (57)摘要 本申请涉及一种模型的数据处理方法, 包 括: 确定原始数据集; 利用所述原始数据集训练 至少三种模型, 并评估, 得到至少三个原始准确 度指标; 根据所述至少三个原始准确度指标创建 评估基准; 根据所述原始数据集确定标准数据 集; 利用所述标准数据集训练所述至少三种模 型, 并评估, 得到至少三个标准准确度指标; 根据 所述至少三个标准准确度指标, 在所述至少三种 模型中确定至少两种待定模型; 根据所述评估基 。
3、准, 对所述至少两种待定模型进行参数优化, 得 到至少两个优化模型; 在所述至少两个优化模型 中确定被选模型。 权利要求书1页 说明书9页 附图7页 CN 111310122 A 2020.06.19 CN 111310122 A 1.一种模型的数据处理方法, 包括: 确定原始数据集; 利用所述原始数据集训练至少三种模型, 并评估, 得到至少三个原始准确度指标; 根据所述至少三个原始准确度指标创建评估基准; 根据所述原始数据集确定标准数据集; 利用所述标准数据集训练所述至少三种模型, 并评估, 得到至少三个标准准确度指标; 根据所述至少三个标准准确度指标, 在所述至少三种模型中确定至少两种待定。
4、模型; 根据所述评估基准, 对所述至少两种待定模型进行参数优化, 得到至少两个优化模型; 在所述至少两个优化模型中确定被选模型。 2.根据权利要求1所述的方法, 其中, 利用所述原始数据集训练至少三种模型, 并评估, 得到至少三个原始准确度指标, 包括: 根据所述原始数据集确定训练数据集和评估数据集; 利用所述训练数据集训练所述至少三种模型; 利用所述原始数据集训练至少三种模型, 并评估, 得到至少三个原始准确度指标, 包 括: 利用所述评估数据集评估利用所述原始数据集训练的所述至少三种模型。 3.根据权利要求2所述的方法, 其中, 所述根据所述原始数据集确定训练数据集和评估 数据集, 包括:。
5、 采用十折交叉验证法确定训练数据集和评估数据集。 4.根据权利要求1所述的方法, 其中, 所述至少三个原始准确度指标包括, 利用所述原始数据集训练的所述至少三种模型的 均方误差; 所述至少三个标准准确度指标包括, 利用所述标准数据集训练的所述至少三种模型的 均方误差。 5.根据权利要求1所述的方法, 其中, 根据所述评估基准, 对所述至少两种待定模型进 行参数优化, 得到至少两个优化模型, 包括: 利用网格搜索算法对所述至少两种待定模型进行参数优化, 得到至少两个优化模型。 6.根据权利要求1所述的方法, 其中, 在所述至少两个优化模型中确定被选模型, 包括: 评估所述至少两个优化模型, 得到。
6、至少两个优化准确度指标; 选择所述至少两个优化模型中所述优化准确度指标最优的模型作为所述被选模型。 7.根据权利要求6所述的方法, 其中, 所述至少两个优化准确度指标包括, 所述至少两 个优化模型的均方误差。 8.根据权利要求1所述的方法, 其中, 所述至少三种模型选自包括线性回归、 岭回归、 套 索回归、 弹性网络回归、 支持向量机、 随机森林、 极端随机树、 xgboost、 GBDT、 AdaBoost的组。 9.根据权利要求1所述的方法, 其中采用处理后的工业增加值相关的指标数据作为原 始数据集, 所述方法还包括: 利用被选模型预测规上工业增速。 10.一种电子设备, 包括处理器和存储。
7、器, 以及存储于所述存储器的所述处理器可执行 的程序, 当所述程序被执行时, 所述处理器执行权利要求1-8中至少一项所述的方法。 权利要求书 1/1 页 2 CN 111310122 A 2 一种模型的数据处理方法、 电子设备及存储介质 技术领域 0001 本申请属于计算机算法领域, 特别涉及一种模型的数据处理方法、 一种电子设备 及一种存储介质。 背景技术 0002 本申请的发明人发现传统的经济分析主要依靠结构化数据, 这些数据最明显的缺 陷就是具有很强的时滞性。 例如, 政府公布的季度GDP往往会有一个月的滞后期, 而反映全 面经济社会状况的统计年鉴的滞后期会达到三个月左右, 这对及时了解。
8、宏观经济形势、 预 测与预警都是非常不利的。 0003 为了解决上述问题, 则需引入大数据算法对经济数据进行分析和预测。 而在大数 据算法中如何选定模型则成为一个难题。 发明内容 0004 本申请旨在提供一种模型的数据处理方法、 一种电子设备及一种存储介质。 0005 本申请的一个实施例提供了一种模型的数据处理方法, 包括: 确定原始数据集; 利 用所述原始数据集训练至少三种模型, 并评估, 得到至少三个原始准确度指标; 根据所述至 少三个原始准确度指标创建评估基准; 根据所述原始数据集确定标准数据集; 利用所述标 准数据集训练所述至少三种模型, 并评估, 得到至少三个标准准确度指标; 根据所。
9、述至少三 个标准准确度指标, 在所述至少三种模型中确定至少两种待定模型; 根据所述评估基准, 对 所述至少两种待定模型进行参数优化, 得到至少两个优化模型; 在所述至少两个优化模型 中确定被选模型。 0006 本申请的另一实施例提供了一种电子设备, 包括处理器和存储器, 以及存储于所 述存储器的所述处理器可执行的程序, 当所述程序被执行时, 所述处理器执行前述任意一 种方法。 0007 本申请的另一实施例提供了一种存储介质, 储存处理器可执行的程序, 当所述程 序被执行时, 所述处理器执行前述任意一种方法。 0008 利用上述方法、 电子设备及存储介质, 可以通过多个候选模型进行多次训练、 评。
10、估 和筛选。 最终可以得到效果最佳的被选模型。 0009 利用上述方法, 可以获取及时性的数据, 结合人工智能机器学习算法对数据进行 分析和预测, 既能有效利用经济理论解释经济问题, 又能通过大数据获取的数据信息突破 传统统计数据存在的问题, 有效提高宏观经济预测和分析的效果, 为宏观经济预测和分析 带来新的突破。 0010 通过上述方法可以利用互联网数据结合传统统计数据, 联合建立的指标体系, 可 以更准确实时的对下一季度的增速进行预测。 并且通过机器学习方法, 使得模型有着更强 的泛化性, 抗干扰能力强, 准确度高, 稳定性强, 而且可以通过互联网指标对一些传统数据 无法描述的市场环境变化。
11、有着量化描述, 侧面反映出例如中美贸易战等带来的影响, 使得 说明书 1/9 页 3 CN 111310122 A 3 整体预测更加具有实时性。 附图说明 0011 图1示出了本申请的一个实施例模型的数据处理方法的流程示意图。 0012 图2示出了本申请的另一实施例模型的数据处理方法的流程示意图。 0013 图3示出了示例实施例中原始数据的数据直方示意图。 0014 图4示出了示例实施例中原始数据的数据密度分布示意图。 0015 图5示出了示例实施例中原始数据的数据箱型示意图。 0016 图6示出了示例实施例中原始数据的数据相关性示意图。 0017 图7示出了示例实施例中新增企业数与同比增速之。
12、间的先导性分析示意图。 0018 图8示出了示例实施例中工业资源与同比增速之间的先导性分析示意图。 0019 图9示出了示例实施例中新增个体商户数与同比增速之间的先导关系示意图。 0020 图10示出了示例实施例中原始准确度指标的均方误差统计示意图。 0021 图11示出了示例实施例中标准准确度指标的均方误差统计示意图。 0022 图12示出根据一示例性实施例的一种电子设备的框图。 具体实施方式 0023 以下是通过特定的具体实施例来说明本发明所公开有关 “一种模型的数据处理方 法、 电子设备及存储介质” 的实施方式, 本领域技术人员可由本说明书所公开的内容了解本 发明的优点与效果。 本发明可。
13、通过其他不同的具体实施例加以施行或应用, 本说明书中的 各项细节也可基于不同观点与应用, 在不背离本发明的精神下进行各种修饰与变更。 另外, 本发明的附图仅为简单示意说明, 并非依实际尺寸的描绘, 事先声明。 以下的实施方式将进 一步详细说明本发明的相关技术内容, 但所公开的内容并非用以限制本发明的保护范围。 0024 本申请旨在提供一种模型的数据处理方法、 一种电子设备及一种存储介质。 0025 本申请的一个实施例提供了一种模型的数据处理方法, 包括: 确定原始数据集; 利 用所述原始数据集训练至少三种模型, 并评估, 得到至少三个原始准确度指标; 根据所述至 少三个原始准确度指标创建评估基。
14、准; 根据所述原始数据集确定标准数据集; 利用所述标 准数据集训练所述至少三种模型, 并评估, 得到至少三个标准准确度指标; 根据所述至少三 个标准准确度指标, 在所述至少三种模型中确定至少两种待定模型; 根据所述评估基准, 对 所述至少两种待定模型进行参数优化, 得到至少两个优化模型; 在所述至少两个优化模型 中确定被选模型。 0026 本申请的另一实施例提供了一种电子设备, 包括处理器和存储器, 以及存储于所 述存储器的所述处理器可执行的程序, 当所述程序被执行时, 所述处理器执行前述任意一 种方法。 0027 本申请的另一实施例提供了一种存储介质, 储存处理器可执行的程序, 当所述程 序。
15、被执行时, 所述处理器执行前述任意一种方法。 0028 利用上述方法、 电子设备及存储介质, 可以通过多个候选模型进行多次训练、 评估 和筛选。 最终可以得到效果最佳的被选模型。 0029 利用上述方法, 可以获取及时性的数据, 结合人工智能机器学习算法对数据进行 说明书 2/9 页 4 CN 111310122 A 4 分析和预测, 既能有效利用经济理论解释经济问题, 又能通过大数据获取的数据信息突破 传统统计数据存在的问题, 有效提高宏观经济预测和分析的效果, 为宏观经济预测和分析 带来新的突破。 0030 通过上述方法可以利用互联网数据结合传统统计数据, 联合建立的指标体系, 可 以更准。
16、确实时的对下一季度的增速进行预测。 并且通过机器学习方法, 使得模型有着更强 的泛化性, 抗干扰能力强, 准确度高, 稳定性强, 而且可以通过互联网指标对一些传统数据 无法描述的市场环境变化有着量化描述, 侧面反映出例如中美贸易战等带来的影响, 使得 整体预测更加具有实时性。 0031 下面将结合本申请实施例中的附图, 对本申请实施例中的技术方案进行清楚、 完 整地描述, 显然, 所描述的实施例是本申请一部分实施例, 而不是全部的实施例。 基于本申 请中的实施例, 本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例, 都属于本申请保护的范围。 0032 应当理解, 本申请的权利要求。
17、、 说明书及附图中的术语 “第一” 、“第二” 、“第三” 和 “第四” 等是用于区别不同对象, 而不是用于描述特定顺序。 本申请的说明书和权利要求书 中使用的术语 “包括” 和 “包含” 指示所描述特征、 整体、 步骤、 操作、 元素和/或组件的存在, 但并不排除一个或多个其它特征、 整体、 步骤、 操作、 元素、 组件和/或其集合的存在或添加。 0033 还应当理解, 在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目 的, 而并不意在限定本申请。 如在本申请说明书和权利要求书中所使用的那样, 除非上下文 清楚地指明其它情况, 否则单数形式的 “一” 、“一个” 及 “该” 意在包。
18、括复数形式。 还应当进一 步理解, 在本申请说明书和权利要求书中使用的术语 “和/或” 是指相关联列出的项中的一 个或多个的任何组合以及所有可能组合, 并且包括这些组合。 0034 图1示出了本申请的一个实施例模型的数据处理方法的流程示意图。 0035 如图1所示, 方法1000可以包括S110、 S120、 S130、 S140、 S150、 S160、 S170和S180。 0036 其中在S110中, 可以确定原始数据集。 可以通过人工方式从公开的数据源中获取 原始数据, 也可以利用计算机或者计算机网络自动地获取原始数据, 并对原始数据进行数 据整理得到原始数据的数据库, 即原始数据集。。
19、 可选地, 可以利用爬虫技术在网络中获取原 始数据, 也可以利用分布式网络的各个终端节点获取原始数据, 还可以利用云端服务器与 终端用户的通信获取原始数据。 0037 如图1所示, 在S120中, 可以利用原始数据集训练至少三种模型, 并评估, 得到至少 三个原始准确度指标。 可选地, 可以先选择至少三种模型作为候选模型。 可选地, 候选模型 可以包括: 线性回归、 岭回归、 套索回归、 弹性网络回归、 支持向量机、 随机森林、 极端随机 树、 xgboost、 GBDT、 AdaBoost中的至少三种。 0038 可选地, 把原始数据集分成训练数据集和评估数据集。 可以利用训练数据集训练 前。
20、述至少三种模型, 并对训练结果进行评估得到至少三个原始准确度指标。 可选地, 原始准 确度可以是前述训练结果的均方误差。 0039 可选地, 可以把原始数据集分成多个部分, 并把其中至少一个部分作为评估数据 集, 同时把其他的部分作为训练数据集。 可以利用该训练数据集训练模型, 以及利用该评估 数据集评估训练结果, 得到一个评估结果, 并把该评估结果作为原始准确度指标。 0040 进一步地, 可以轮流至少一个部分作为评估数据集, 同时把轮流把剩下的部分作 说明书 3/9 页 5 CN 111310122 A 5 为训练数据集。 可以轮流利用每组训练数据集和评估数据集训练模型, 以及评估训练结果。
21、, 得到多个评估结果。 可以根据该多个评估结果确定每种模型对应的原始准确度指标。 比如, 该多个评估结果可以是多个均方误差, 原始准确度指标可以是该多个均方误差的均值。 0041 进一步地, 可以把原始数据集平均分成十个部分, 轮流把其中任意一个部分作为 评估数据集, 同时把其他的部分作为训练数据集。 根据每组训练数据集和评估数据集, 训练 模型和评估训练结果, 即十折交叉验证法。 0042 如图1所示, 在S130中, 可以根据该至少三个原始准确度指标创建评估基准。 可以 把该至少三个原始准确度指标作为评估基准。 也可以把根据该至少三个原始准确度指标进 行的某种计算的计算结果作为评估基准。 。
22、0043 如图1所示, 在S140中, 可以根据原始数据集确定标准数据集。 可选地, 可以对原始 数据集中的数据进行数据尺度的统一化处理。 也可以对原始数据进行其他方式的线性变 换。 对数据标准化时, 为了防止数据泄露, 采用Pipeline来标准化数据和对模型进行评估。 0044 如图1所示, 在S150中, 可以利用标准数据集训练该至少三种模型, 并评估, 得到至 少三个标准准确度指标。 把标准数据集分成训练数据集和评估数据集。 可以利用该训练数 据集训练该至少三种模型, 并利用该评估数据集对训练结果进行评估, 得到该至少三种模 型每个种模型对应的标准准确度指标。 可选地, 可以利用十折交。
23、叉验证法分离标准数据集, 训练模型, 以及评估训练结果。 0045 如图1所示, 在S160中, 可以根据该至少三个标准准确度指标, 在该至少三种模型 中确定至少两种待定模型。 可选地, 可以根据该至少三种模型中每种模型对应的标准准确 度指标, 确定至少两种待定模型。 可选地, 可以选择最佳的至少两个标准准确度指标对应的 模型作为待定模型。 0046 如图1所示, 在S170中, 可以根据评估基准, 对该至少两种待定模型进行参数优化, 得到至少两个优化模型。 可选地, 可以以评估基准为基础分别对该至少两种待定模型进行 参数优化, 得到每种模型的优化模型。 可选地, 可以利用网格搜索算法对该至少。
24、两种待定模 型进行参数优化, 得到至少两个优化模型。 0047 如图1所示, 在S180中, 在该至少两个优化模型中确定被选模型。 可选地, 可以评估 该至少两个优化模型, 得到该至少两个优化模型中每个优化模型对应的优化准确度指标。 可选地, 可以选择最佳优化准确度指标对应的优化模型为被选模型。 可选地, 该优化准确度 指标可以是每个优化模型的均方误差。 0048 图2示出了本申请的另一实施例模型的数据处理方法的流程示意图。 0049 如图2所示, 方法2000可以包括: S205、 S210、 S220、 S230、 S240、 S250、 S260、 S270和 S280。 0050 其中。
25、在S205中, 可以采集原始数据。 表1示出了示例实施例中的原始数据。 如示例 实施例所示, 待选模型可以用于预测规模以上工业增加值, 该原始数据集可以包括与工业 增加值相关的数据。 0051 表1 0052 说明书 4/9 页 6 CN 111310122 A 6 0053 0054 如示例实施例所示, 该原始数据可以包括: 工业用电、 工业企业所得税、 工业企业 增值税、 PMI指数、 汽车产量、 电解铝产量、 铝材产量、 十种有色金属产量、 氧化铝产量、 钢材 产量、 水泥产量、 发电量、 个体工商户数、 批发零售业新增企业数、 住宿餐饮业新增企业数、 建筑业新增企业个数、 农林牧副渔新。
26、增企业个数、 制造业新增企业个数、 租赁合同商务服务 新增企业个数及工业增加值同比增速中的至少一项。 也可以包括上述各项的细分项目。 可 选地, 原始数据也可以不限于上述数据类别。 可选地, 原始数据可以包括年度数据、 季度数 据、 月度数据以及其他数据。 可选地, 原始数据可以包括不定周期的数据。 0055 如图2所示, 在S210中, 可以对原始数据进行分析整理得到原始数据集。 可以通过 描述性统计来分析原始数据, 并通过可视化信息展示原始数据的分析结果。 以加强用户对 原始数据的理解, 便于构建合适的模型。 0056 图3示出了示例实施例中原始数据的数据直方示意图。 图4示出了示例实施例。
27、中原 始数据的数据密度分布示意图。 图5示出了示例实施例中原始数据的数据箱型示意图。 0057 描述性统计包括统计原始数据的最大值、 最小值、 中位值和四分位值等。 以分析原 始数据分布和数据结构。 如图描述性统计也可以包括分析数据的分布情况。 0058 可选地, 描述性统计可以包括统计原始数据的数据分布情况。 如图3所示, 可选地, 可以利用直方示意图展示原始数据的数据分布情况。 如示例实施例所示, 有些数据成指数 分布如Enterprises; 有些数据特征呈双峰分布, 如AluminumOxide和Steels。 如图4所示, 可 选地, 也可以利用密度分布示意图展示原始数据的数据分布特。
28、征。 利用密度分布示意图可 以比直方示意图更加平滑。 可选地, 描述性统计可以分析原始数据的数据偏态分布。 如图5 所示, 可选地, 可以利用数据箱型示意图展示原始数据的数据偏态分布。 0059 图6示出了示例实施例中原始数据的数据相关性示意图。 0060 进一步地, 还可以分析数据指标之间的两两关联关系。 其中, 每两个数据指标之间 的关联关系可以是一个数值。 每两个数据指标之间的关联关系也可以是一组数值, 比如可 以是一系列时间节点中, 每个时间节点对应的数据指标之间度关系。 如图6所示, 可选地, 每 两个数据指标之间的关联关系也可以用图来表示。 0061 可选地, 在S210中还可以对。
29、原始数据进行数据预处理。 其中数据预处理可以包括 清洗数据和特征衍生。 清洗数据可以包括针对统计数据, 通过删除空缺数据、 异常数值来处 说明书 5/9 页 7 CN 111310122 A 7 理原始数据。 可以利用各行业工商注册新增企业特征(包括个体工商户、 批发零售业、 住宿 餐饮业、 建筑业、 农林牧渔、 制造业、 租赁和商务服务等新增企业个数)衍生出新的指标-新 增企业指标; 利用各类工业产品特征(包括发电量、 汽车、 电解铝、 铝材、 十种有色重金属、 氧 化铝、 钢材、 水泥等产量)衍生出新的指标-工业资源指标; 相关性较高的 “个体工商业户 数” 特征衍生新指标-新个体工商业户。
30、。 0062 图7示出了示例实施例中新增企业数与同比增速之间的先导性分析示意图。 图8示 出了示例实施例中工业资源与同比增速之间的先导性分析示意图。 图9示出了示例实施例 中新增个体商户数与同比增速之间的先导关系示意图。 0063 如图2所示, 可选地, 在S210还可以包括对指标之间的先导关系分析。 如图7、 图8、 图9所示, 新增企业数、 新增工业资源和新增个体商户数这3个指标与下月 “工业增加值增速 (月度)” 均具有较高的相关性, 皮尔逊相关系数分别为0.98、 0.96和0.86; 同时从其与 “工业 增加值增速(月度)” 的增幅关系可以看出,“新增企业” 与 “工业资源” 指标对。
31、 “工业增加值增 速(月度)” 具有一定的先导性。 0064 如图2所示, 在S220中, 可以确定十种待选模型为: 线性回归(LR)、 岭回归(RIDGE)、 套索回归(LASSO)、 弹性网络回归(EN)、 支持向量机(SVM)、 随机森林(RFR)、 极端随机树 (ETR)、 xgboost(XGB)、 GBDT(GBR)、 AdaBoost(ABR)。 待选模型的种类和数量也可以不以此为 限。 0065 可以把S210中得到的原始数据集分成训练数据集和评估数据集。 可以利用训练前 述十种待选模型, 并利用评估数据集对训练结果进行评估得到十种待选模型的原始准确度 指标。 可选地, 原始准。
32、确度指标可以是训练结果的均方误差(MSE)。 0066 在S220中, 可选地, 可以利用原始数据集分离出来的训练数据集对十种待选模型, 利用每种待选模型的预设默认训练参数进行模型训练。 如示例实施例所示, 十种待选模型 的原始准确度指标可以如下所示。 0067 LR:-49.458561(49.693290) 0068 Ridge:-49.456994(49.695623) 0069 LASSO:-47.962319(49.706692) 0070 EN:-48.747337(49.954865) 0071 SVM:-81.629725(49.751904) 0072 RFR:-47.443。
33、491(40.450092) 0073 ETR:-41.751627(34.196770) 0074 ABR:-42.452201(37.206723) 0075 GBR:-57.325249(73.926423) 0076 XGB:-55.308945(62.236916) 0077 图10示出了示例实施例中原始准确度指标的均方误差统计示意图。 0078 如图2所示, 在S220中, 可选地, 可以利用十折交叉分离验证法确定训练数据集和 评估数据集。 比如, 可以把原始数据集平均分成十个部份, 可以轮流把每一部分作为评估数 据集, 剩下的作为训练数据集, 从而可以得到十组训练数据集和评估数据。
34、集。 可以分别用每 个分组的训练数据集训练模型, 并用评估数据集评估训练结果, 从而得到十个均方误差 (MSE)。 可以对上述十个均方误差进行分析, 得到原始准确度指标的均方误差统计示意图, 说明书 6/9 页 8 CN 111310122 A 8 如图10所示。 0079 如图2所示, 在S230中, 可选地, 可以根据前述十种待选模型的准确度指标确定评 估基准。 可选地, 可以把在S220中得到的, 前述十种待选模型中每个模型的均方误差作为评 估基准。 也可以根据前述十种待选模型中每个模型的均方误差进行计算的计算结果作为评 估基准。 比如可以把每种模型的十个均方误差的均值、 最大值、 最小。
35、值等作为评估基准。 0080 如图2所示, 在S240中, 可以根据原始数据集建立标准数据集。 可以对原始数据集 中的每个数据进行标准化处理, 同一各个指标数据之间的取值范围。 在S240中可以采用 Pipeline来进行数据的标准化处理。 0081 如图2所示, 在S250中, 可以利用标准数据集训练前述十种待选模型, 并评估, 得到 十个标准准确度指标。 S250的执行过程与S220相似, 不做赘述。 0082 如示例实施例所示, 在S250中, 10种模型训练结果的均方误差可以如下所示: 0083 ScalerLR:-49.458561(49.693290) 0084 ScalerRID。
36、GE:-48.259370(49.158078) 0085 ScalerLASSO:-42.222034(37.662790) 0086 ScalerEN:-47.131189(41.963870) 0087 ScalerSVM:-46.693213(30.796697) 0088 ScalerRFR:-46.057714(35.396472) 0089 ScalerETR:-41.115216(39.916171) 0090 ScalerABR:-39.881764(35.669335) 0091 ScalerGBR:-56.378297(71.365000) 0092 ScalerXGB:。
37、-55.310488(62.237158) 0093 图11示出了示例实施例中标准准确度指标的均方误差统计示意图。 0094 如图11所示, 在S250中, 示例实施例的十折交叉分离验证结果。 可选地, 标准准确 度指标可以包括图11所示的十折交叉分离验证结果。 0095 如图2所示, 在S260中可以根据标准准确的指标在前述十种模型中确定2种待定模 型。 可选地, 可以在前述十种模型中选择标准准确度指标最佳的2中模型作为待定模型。 如 图11所示, 示例实施例中的AdaBoost(ABR)模型具有最优的MSE, 其次是极端随机树回归 (ETR)模型。 因此, 可以选择AdaBoost(ABR。
38、)模型和极端随机树回归(ETR)模型作为两种待定 模型。 0096 如图2所示, 在S270中, 可以以前述评估基准为参照, 分别对AdaBoost(ABR)模型和 极端随机树回归(ETR)模型进行训练参数优化。 比如, 在示例实施例中, 可以对极端随机树 (ETR)选择主要参数n_estimators、 max_depth进行调整, 结果如下: 0097 最优(MSE): -30.135471988372101使用n_estimators:20,max_depth:6 0098 可以对AdaBoost(ABR)选择n_estimators、 和learning_rate三个参数进行调整, 结。
39、果如下: 0099 最优: -34.960919707149943使用learning_rate:0.3,n_estimators:30 0100 两种模型的优化结果对比结果如表2所示。 0101 表2 0102 模型名称MSE(评估数据集) 说明书 7/9 页 9 CN 111310122 A 9 极端随机树(ETR)27.98 AdaBoost(ABR)30.26 0103 如图2所示, 在S280中, 可以在两个优化模型确定最终的被选模型。 如表2所示, 示 例实施例中的极端随机树(ETR)模型对样本数据具有更好的拟合效果, 因此, 可以选择极端 随机树(ETR)作为该项目最终被选模型。。
40、 0104 图12示出根据一示例性实施例的一种电子设备的框图。 0105 下面参照图12来描述根据本申请的这种实施方式的电子设备200。 图12显示的电 子设备200仅仅是一个示例, 不应对本申请实施例的功能和使用范围带来任何限制。 0106 如图12所示, 电子设备200以通用计算设备的形式表现。 电子设备200的组件可以 包括但不限于: 至少一个处理单元210、 至少一个存储单元220、 连接不同系统组件(包括存 储单元220和处理单元210)的总线230、 显示单元240等。 0107 其中, 所述存储单元存储有程序代码, 所述程序代码可以被所述处理单元210执 行, 使得所述处理单元2。
41、10执行本说明书描述的根据本申请各种示例性实施方式的方法。 例 如, 所述处理单元210可以执行如图1-11中至少一项所示的方法。 0108 所述存储单元220可以包括易失性存储单元形式的可读介质, 例如随机存取存储 单元(RAM)2201和/或高速缓存存储单元2202, 还可以进一步包括只读存储单元(ROM)2203。 0109 所述存储单元220还可以包括具有一组(至少一个)程序模块2205的程序/实用工 具2204, 这样的程序模块2205包括但不限于: 操作系统、 一个或者多个应用程序、 其它程序 模块以及程序数据, 这些示例中的每一个或某种组合中可能包括网络环境的实现。 0110 总。
42、线230可以为表示几类总线结构中的一种或多种, 包括存储单元总线或者存储 单元控制器、 外围总线、 图形加速端口、 处理单元或者使用多种总线结构中的任意总线结构 的局域总线。 0111 电子设备200也可以与一个或多个外部设备300(例如键盘、 指向设备、 蓝牙设备 等)通信, 还可与一个或者多个使得用户能与该电子设备200交互的设备通信, 和/或与使得 该电子设备200能与一个或多个其它计算设备进行通信的任何设备(例如路由器、 调制解调 器等等)通信。 这种通信可以通过输入/输出(I/O)接口250进行。 并且, 电子设备200还可以 通过网络适配器260与一个或者多个网络(例如局域网(LA。
43、N), 广域网(WAN)和/或公共网络, 例如因特网)通信。 网络适配器260可以通过总线230与电子设备200的其它模块通信。 应当 明白, 尽管图中未示出, 可以结合电子设备200使用其它硬件和/或软件模块, 包括但不限 于: 微代码、 设备驱动器、 冗余处理单元、 外部磁盘驱动阵列、 RAID系统、 磁带驱动器以及数 据备份存储系统等。 0112 本领域技术人员可以理解, 本申请的技术方案可实施为系统、 方法或计算机程序 产品。 因此, 本申请可表现为完全硬件的实施例、 完全软件的实施例(包括固件、 常驻软件、 微码等)或将软件和硬件相结合的实施例的形式, 它们一般可被称为 “电路” 、。
44、“模块” 或 “系 统” 。 此外, 本申请可表现为计算机程序产品的形式, 所述计算机程序产品嵌入到任何有形 的表达介质中, 所述有形的表达介质具有嵌入到所述介质中的计算机可用程序代码。 0113 参照根据本申请实施例的方法、 装置(系统)和计算机程序产品的流程图和/或框 图来描述本申请。 可以理解的是, 可由计算机程序指令执行流程图和/或框图中的每个框、 以及流程图和/或框图中的多个框的组合。 这些计算机程序指令可提供给通用目的计算机、 说明书 8/9 页 10 CN 111310122 A 10 专用目的计算机或其它可编程数据处理装置的处理器, 以使通过计算机或其它可编程数据 处理装置的处。
45、理器执行的指令创建用于实现流程图和/或框图的一个框或多个框中指明的 功能/动作的装置。 0114 这些计算机程序指令还可存储于能够指导计算机或其它可编程数据处理装置以 特定的方式实现功能的计算机可读介质中, 以使存储于计算机可读介质中的指令产生包括 实现流程图和/或框图中的一个框或多个框中指明的功能/动作的指令装置。 0115 利用上述方法、 电子设备及存储介质, 可以通过多个候选模型进行多次训练、 评估 和筛选。 最终可以得到效果最佳的被选模型。 0116 利用上述方法, 可以获取及时性的数据, 结合人工智能机器学习算法对数据进行 分析和预测, 既能有效利用经济理论解释经济问题, 又能通过大。
46、数据获取的数据信息突破 传统统计数据存在的问题, 有效提高宏观经济预测和分析的效果, 为宏观经济预测和分析 带来新的突破。 0117 通过上述方法可以利用互联网数据结合传统统计数据, 联合建立的指标体系, 可 以更准确实时的对下一季度的增速进行预测。 并且通过机器学习方法, 使得模型有着更强 的泛化性, 抗干扰能力强, 准确度高, 稳定性强, 而且可以通过互联网指标对一些传统数据 无法描述的市场环境变化有着量化描述, 侧面反映出例如中美贸易战等带来的影响, 使得 整体预测更加具有实时性。 0118 计算机程序指令还可加载到计算机或其它可编程数据处理装置上, 以引起在计算 机上或其它可编程装置上。
47、执行一连串的操作步骤, 以产生计算机实现的过程, 从而使在计 算机或其它可编程装置上执行的指令提供用于实现流程图和/或框图中的一个框或多个框 中指明的功能/动作的过程。 0119 附图中的流程图和框图示出根据本申请的多个实施例的系统、 方法和计算机程序 产品的可能实现的体系结构、 功能和操作。 在这点上, 流程图或框图中的每个框可表示一个 模块、 区段或代码的一部分, 其包括一个或多个用于实现特定逻辑功能的可执行指令。 还应 注意, 在一些可替代性实施中, 框中标注的功能可以不按照附图中标注的顺序发生。 例如, 根据所涉及的功能性, 连续示出的两个框实际上可大致同时地执行, 或者这些框有时以相。
48、 反的顺序执行。 还可注意到, 可由执行特定功能或动作的专用目的的基于硬件的系统、 或专 用目的硬件与计算机指令的组合来实现框图和/或流程图示图中的每个框、 以及框图和/或 流程图示图中的多个框的组合。 0120 在上述实施例中, 对各个实施例的描述都各有侧重, 某个实施例中没有详述的部 分, 可以参见其他实施例的相关描述。 上述实施例的各技术特征可以进行任意的组合, 为使 描述简洁, 未对上述实施例中的各个技术特征所有可能的组合都进行描述, 然而, 只要这些 技术特征的组合不存在矛盾, 都应当认为是本说明书记载的范围。 0121 以上对本申请实施例进行了详细介绍, 本文中应用了具体个例对本申。
49、请的原理及 实施方式进行了阐述, 以上实施例的说明仅用于帮助理解本申请的方法及其核心思想。 同 时, 本领域技术人员依据本申请的思想, 基于本申请的具体实施方式及应用范围上做出的 改变或变形之处, 都属于本申请保护的范围。 综上所述, 本说明书内容不应理解为对本申请 的限制。 说明书 9/9 页 11 CN 111310122 A 11 图1 说明书附图 1/7 页 12 CN 111310122 A 12 图2 说明书附图 2/7 页 13 CN 111310122 A 13 图3 图4 说明书附图 3/7 页 14 CN 111310122 A 14 图5 图6 说明书附图 4/7 页 15 CN 111310122 A 15 图7 图8 图9 说明书附图 5/7 页 16 CN 111310122 A 16 图10 说明书附图 6/7 页 17 CN 111310122 A 17 图11 图12 说明书附图 7/7 页 18 CN 111310122 A 18 。
- 内容关键字: 模型 数据处理 方法 电子设备 存储 介质
电子债权凭证数据信息安全存储方法.pdf
玄武岩管道弯曲性能检测装置及方法.pdf
板仓感应装置.pdf
软土地基用防渗塑钢板桩.pdf
瓶盖及灌装产品.pdf
汽车仪表饰条总成.pdf
基于光伏顶棚的不停车充电车道.pdf
具有泄漏气体回收功能的甲醛储罐.pdf
自动开蛋机.pdf
高稳定性管道焊接机器人.pdf
陶瓷纤维保温结构.pdf
快速对接的管道连接机构.pdf
自动化磁体振动研磨清洗生产连接线.pdf
土地测绘用具有定位结构的测绘支架.pdf
用于监测土壤滑坡的监测球及系统.pdf
自清洗型乳化液过滤器.pdf
按摩垫滚轮导电结构.pdf
铁塔钢材表面防腐涂层的喷涂装置.pdf
高容量低成本层状钠离子电池正极材料烧结用匣钵.pdf
集成模块化电源.pdf
精度可控制调节输出装置.pdf
输液杆的集中供电结构.pdf
桥式起重机吊钩.pdf
活塞止转销自动定位安装装置.pdf
超疏水表面减阻测量装置.pdf
电池链接护罩.pdf
城市地下空间拖曳式时频联合电磁探测系统及方法.pdf
基于区块链的电动自行车智能计时方法及系统.pdf
高精密减速器的磨损检测装置.pdf
T型气密检测装置.pdf
环形钢桁架地面散件拼装高空胎架组装施工工艺.pdf
杂化改性高吸油树脂及其制备方法与应用.pdf
用于管理和显示医学图像的系统和方法.pdf
便携式电子设备.pdf
一种治疗心脑血管神经系统病及肿瘤的全蝎制剂及其制备方法.pdf
一种高分子医学内窥镜.pdf
天花板安装X射线管支架.pdf
一种冶疗胃病药物的制做方法.pdf
用于外科手术的视频捕获和显示的数字系统.pdf
神经传导检测装置及检测方法.pdf
一种具有提拉功能的机械臂.pdf
用于性卫生保健用药妇春康软膏的制作方法.pdf
一种口服液.pdf
一种角膜电极及其制备方法与应用.pdf
用于可调整限制装置中流体压力的无创测量的装置.pdf
反向韧带挤压固定方法及装置.pdf
控释羟可酮组合物.pdf
消肥保健口服液.pdf
用于眼球的光学测量装置.pdf
银耳营养液的制备方法及其银耳营养液的应用.pdf
去除计算机断层造影设备产生的体层图像环伪影的方法.pdf