扩容方法、预测模型创建方法、装置、设备及介质.pdf

上传人：南*** 文档编号：12145484 上传时间：2021-11-23 格式：PDF 页数：19 大小：911.17KB

收藏版权申诉举报下载

第1页 / 共19页

第2页 / 共19页

第3页 / 共19页

下载文档到电脑，查找使用更方便

30 金币

下载文档

文档描述：

《扩容方法、预测模型创建方法、装置、设备及介质.pdf》由会员分享，可在线阅读，更多相关《扩容方法、预测模型创建方法、装置、设备及介质.pdf（19页完成版）》请在专利查询网上搜索。

1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 201910146524.4 (22)申请日 2019.02.27 (71)申请人深信服科技股份有限公司地址 518055 广东省深圳市南山区学苑大道1001号南山智园A1栋一层 (72)发明人崔晓飞 (74)专利代理机构深圳市深佳知识产权代理事务所(普通合伙) 44285 代理人王仲凯 (51)Int.Cl. G06F 11/34(2006.01) G06N 20/00(2019.01) (54)发明名称一种扩容方法、预测模型创建方法、装置、设备及介质。

2、(57)摘要本申请公开了一种扩容方法、预测模型创建方法、装置、设备及介质，该扩容方法包括：获取第一预测模型；其中，第一预测模型为利用基于存储系统的历史容量消耗量的时序数据构建的训练样本，对基于机器学习算法构建的待训练模型进行训练后得到的；利用第一预测模型，预测与容量消耗时长期望值对应的待扩充容量信息；根据待扩充容量信息对存储系统进行相应的扩容操作。本申请是基于历史容量消耗量的时序数据来训练上述基于机器学习算法的预测模型，由于历史容量消耗量的时序数据能够客观地反映出容量消耗量的实际变化趋势，从而使得利用上述第一预测模型预测的待扩充容量信息更加符。

3、合用户的日常实际容量需求，提高了扩充容量的预测准确度。权利要求书3页说明书11页附图4页 CN 109885469 A 2019.06.14 CN 109885469 A 1.一种扩容方法，其特征在于，包括：获取第一预测模型；其中，所述第一预测模型为利用基于存储系统的历史容量消耗量的时序数据构建的训练样本，对基于机器学习算法构建的待训练模型进行训练后得到的；利用所述第一预测模型，预测与容量消耗时长期望值对应的待扩充容量信息；根据所述待扩充容量信息对所述存储系统进行相应的扩容操作。 2.根据权利要求1所述的扩容方法，其特征在于，所述获取第一预测模型之前，还包。

4、括：获取所述存储系统的历史容量消耗量的第一时序数据；利用所述第一时序数据中的时间片段信息以及相应的历史容量消耗量，构建第一训练样本；利用所述第一训练样本对基于机器学习算法构建的待训练模型进行训练，得到所述第一预测模型。 3.根据权利要求2所述的扩容方法，其特征在于，所述利用所述第一训练样本对基于机器学习算法构建的待训练模型进行训练，得到所述第一预测模型，包括：将所述第一训练样本中的时间片段信息作为模型输入侧数据，以及将所述第一训练样本中的历史容量消耗量作为模型输出侧数据，对基于机器学习算法构建的待训练模型进行训练，得到所述第一预测模型。 4.根据权利要求2所。

5、述的扩容方法，其特征在于，所述利用所述第一训练样本对基于机器学习算法构建的待训练模型进行训练，得到所述第一预测模型，包括：将所述第一训练样本中的历史容量消耗量作为模型输入侧数据，以及将所述第一训练样本中的时间片段信息作为模型输出侧数据，对基于机器学习算法构建的待训练模型进行训练，得到所述第一预测模型。 5.根据权利要求1至4任一项所述的扩容方法，其特征在于，所述预测与容量消耗时长期望值对应的待扩充容量信息之后，以及所述根据所述待扩充容量信息对所述存储系统进行相应的扩容操作之前，还包括：获取第二预测模型；其中，所述第二预测模型为利用第二训练样本对基于机器学。

6、习算法构建的待训练模型进行训练后得到的，并且，所述第二训练样本包括存储系统硬件信息、历史扩充容量信息以及相应的扩容时长信息；采集所述存储系统的当前硬件信息，并将所述待扩充容量信息和所述当前硬件信息输入至所述第二预测模型，以得到所述第二预测模型输出的扩容时长预测值。 6.根据权利要求5所述的扩容方法，其特征在于，所述获取第二预测模型之前，还包括：获取所述第二训练样本；将所述第二训练样本中的存储系统硬件信息和历史扩充容量信息作为模型输入侧数据，以及将所述第二训练样本中的扩容时长信息作为输出侧数据，对基于机器学习算法构建的待训练模型进行训练，得到所述第二预测模型。。

7、 7.根据权利要求5所述的扩容方法，其特征在于，所述根据所述待扩充容量信息对所述存储系统进行相应的扩容操作之前，还包括：获取第三预测模型；其中，所述第三预测模型为利用基于所述存储系统的历史读写吞吐量的时序数据构建的训练样本，对基于机器学习算法构建的待训练模型进行训练后得到的；权利要求书 1/3 页 2 CN 109885469 A 2 将扩容时间段期望值输入至所述第三预测模型，得到所述第三预测模型输出的所述扩容时间段期望值上的每一时间点的读写吞吐量预测值；根据所述扩容时间段期望值和所述读写吞吐量预测值之间的对应关系，创建相应的曲线图；从所述曲线图中选取出对应时。

8、间段的时长与所述扩容时长预测值相一致的，并且与时间轴之间所形成的面积最小的一个曲线段作为目标曲线段；将所述目标曲线段对应的时间段确定为最佳扩容时间段。 8.根据权利要求7所述的扩容方法，其特征在于，所述获取第三预测模型之前，还包括：获取所述存储系统的历史读写吞吐量的第二时序数据；利用所述第二时序数据中的时间片段信息以及相应的历史读写吞吐量，构建第三训练样本；将所述第三训练样本中的时间片段信息作为模型输入侧数据，以及将所述第三训练样本中的历史读写吞吐量作为模型输出侧数据，对基于机器学习算法构建的待训练模型进行训练，得到所述第三预测模型。 9.根据权利要求7所述的扩。

9、容方法，其特征在于，所述根据所述待扩充容量信息对所述存储系统进行相应的扩容操作，包括：根据所述待扩充容量信息和所述最佳扩容时间段，对所述存储系统进行相应的扩容操作。 10.一种预测模型创建方法，其特征在于，包括：获取存储系统的历史容量消耗量的第一时序数据；利用所述第一时序数据中的时间片段信息以及相应的历史容量消耗量，构建第一训练样本；利用所述第一训练样本对基于机器学习算法构建的待训练模型进行训练，得到第一预测模型。 11.根据权利要求10所述的预测模型创建方法，其特征在于，还包括：获取第二训练样本；其中，所述第二训练样本包括存储系统硬件信息、历史扩充。

10、容量信息以及相应的扩容时长信息；将所述第二训练样本中的存储系统硬件信息和历史扩充容量信息作为模型输入侧数据，以及将所述第二训练样本中的扩容时长信息作为输出侧数据，对基于机器学习算法构建的待训练模型进行训练，得到第二预测模型。 12.根据权利要求11所述的预测模型创建方法，其特征在于，还包括：获取所述存储系统的历史读写吞吐量的第二时序数据；利用所述第二时序数据中的时间片段信息以及相应的历史读写吞吐量，构建第三训练样本；将所述第三训练样本中的时间片段信息作为模型输入侧数据，以及将所述第三训练样本中的历史读写吞吐量作为模型输出侧数据，对基于机器学习算法构建的待训练模。

11、型进行训练，得到第三预测模型。 13.一种扩容装置，其特征在于，包括：第一模型获取模块，用于获取第一预测模型；其中，所述第一预测模型为利用基于存储权利要求书 2/3 页 3 CN 109885469 A 3 系统的历史容量消耗量的时序数据构建的训练样本，对基于机器学习算法构建的待训练模型进行训练后得到的；第一预测模块，用于利用所述第一预测模型，预测与容量消耗时长期望值对应的待扩充容量信息；扩容模块，用于根据所述待扩充容量信息对所述存储系统进行相应的扩容操作。 14.一种预测模型创建装置，其特征在于，包括：第一数据获取模块，用于获取存储系统的历史容量消耗。

12、量的第一时序数据；第一样本构建模块，用于利用所述第一时序数据中的时间片段信息以及相应的历史容量消耗量，构建第一训练样本；第一模型训练模块，用于利用所述第一训练样本对基于机器学习算法构建的待训练模型进行训练，得到第一预测模型。 15.一种扩容设备，其特征在于，包括：存储器，用于保存计算机程序；处理器，用于执行所述计算机程序，以实现如权利要求1至9任一项所述的扩容方法。 16.一种预测模型创建设备，其特征在于，包括：存储器，用于保存计算机程序；处理器，用于执行所述计算机程序，以实现如权利要求10至12任一项所述的预测模型创建方法。 17.一种计算机可读。

13、存储介质，其特征在于，用于存储计算机程序；其中，所述计算机程序被处理器执行时实现如权利要求1至9任一项所述的扩容方法。 18.一种计算机可读存储介质，其特征在于，用于存储计算机程序；其中，所述计算机程序被处理器执行时实现如权利要求10至12任一项所述的预测模型创建方法。权利要求书 3/3 页 4 CN 109885469 A 4 一种扩容方法、预测模型创建方法、装置、设备及介质技术领域 0001 本申请涉及存储技术领域，特别涉及一种扩容方法、预测模型创建方法、装置、设备及介质。背景技术 0002 当前，对于一个存储产品来说，随着时间的推移，扩容是。

14、必不可少的。但是需要扩容多少，才能保证满足后续几年甚至十几年的使用需求，是一个比较难的问题。现有常规的做法是，根据历史使用情况，做一个大致的估计，而估计方法也基本采用等比例估计法。 0003 然而，通过上述等比例估计法确定出来的需扩充容量并非十分准确，经常会出现估计的需扩充容量明显过多或过少的问题。发明内容 0004 有鉴于此，本申请的目的在于提供一种扩容方法、预测模型创建方法、装置、设备及介质，能够有效提高扩充容量的预测准确度。其具体方案如下： 0005 第一方面，本申请公开了一种扩容方法，包括： 0006 获取第一预测模型；其中，所述第一预测。

15、模型为利用基于存储系统的历史容量消耗量的时序数据构建的训练样本，对基于机器学习算法构建的待训练模型进行训练后得到的； 0007 利用所述第一预测模型，预测与容量消耗时长期望值对应的待扩充容量信息； 0008 根据所述待扩充容量信息对所述存储系统进行相应的扩容操作。 0009 可选的，所述获取第一预测模型之前，还包括： 0010 获取所述存储系统的历史容量消耗量的第一时序数据； 0011 利用所述第一时序数据中的时间片段信息以及相应的历史容量消耗量，构建第一训练样本； 0012 利用所述第一训练样本对基于机器学习算法构建的待训练模型进行训练，得到所述第一预测模型。 0013 。

16、可选的，所述利用所述第一训练样本对基于机器学习算法构建的待训练模型进行训练，得到所述第一预测模型，包括： 0014 将所述第一训练样本中的时间片段信息作为模型输入侧数据，以及将所述第一训练样本中的历史容量消耗量作为模型输出侧数据，对基于机器学习算法构建的待训练模型进行训练，得到所述第一预测模型。 0015 可选的，所述利用所述第一训练样本对基于机器学习算法构建的待训练模型进行训练，得到所述第一预测模型，包括： 0016 将所述第一训练样本中的历史容量消耗量作为模型输入侧数据，以及将所述第一训练样本中的时间片段信息作为模型输出侧数据，对基于机器学习算法构建的待训练。

17、模型进行训练，得到所述第一预测模型。说明书 1/11 页 5 CN 109885469 A 5 0017 可选的，所述预测与容量消耗时长期望值对应的待扩充容量信息之后，以及所述根据所述待扩充容量信息对所述存储系统进行相应的扩容操作之前，还包括： 0018 获取第二预测模型；其中，所述第二预测模型为利用第二训练样本对基于机器学习算法构建的待训练模型进行训练后得到的，并且，所述第二训练样本包括存储系统硬件信息、历史扩充容量信息以及相应的扩容时长信息； 0019 采集所述存储系统的当前硬件信息，并将所述待扩充容量信息和所述当前硬件信息输入至所述第二预测模型，以得到所。

18、述第二预测模型输出的扩容时长预测值。 0020 可选的，所述获取第二预测模型之前，还包括： 0021 获取所述第二训练样本； 0022 将所述第二训练样本中的存储系统硬件信息和历史扩充容量信息作为模型输入侧数据，以及将所述第二训练样本中的扩容时长信息作为输出侧数据，对基于机器学习算法构建的待训练模型进行训练，得到所述第二预测模型。 0023 可选的，所述根据所述待扩充容量信息对所述存储系统进行相应的扩容操作之前，还包括： 0024 获取第三预测模型；其中，所述第三预测模型为利用基于所述存储系统的历史读写吞吐量的时序数据构建的训练样本，对基于机器学习算法构建的待训练模。

19、型进行训练后得到的； 0025 将扩容时间段期望值输入至所述第三预测模型，得到所述第三预测模型输出的所述扩容时间段期望值上的每一时间点的读写吞吐量预测值； 0026 根据所述扩容时间段期望值和所述读写吞吐量预测值之间的对应关系，创建相应的曲线图； 0027 从所述曲线图中选取出对应时间段的时长与所述扩容时长预测值相一致的，并且与时间轴之间所形成的面积最小的一个曲线段作为目标曲线段； 0028 将所述目标曲线段对应的时间段确定为最佳扩容时间段。 0029 可选的，所述获取第三预测模型之前，还包括： 0030 获取所述存储系统的历史读写吞吐量的第二时序数据； 0031 利用所述第。

20、二时序数据中的时间片段信息以及相应的历史读写吞吐量，构建第三训练样本； 0032 将所述第三训练样本中的时间片段信息作为模型输入侧数据，以及将所述第三训练样本中的历史读写吞吐量作为模型输出侧数据，对基于机器学习算法构建的待训练模型进行训练，得到所述第三预测模型。 0033 可选的，所述根据所述待扩充容量信息对所述存储系统进行相应的扩容操作，包括： 0034 根据所述待扩充容量信息和所述最佳扩容时间段，对所述存储系统进行相应的扩容操作。 0035 第二方面，本申请公开了一种预测模型创建方法，包括： 0036 获取存储系统的历史容量消耗量的第一时序数据； 0037 利用。

21、所述第一时序数据中的时间片段信息以及相应的历史容量消耗量，构建第一训练样本；说明书 2/11 页 6 CN 109885469 A 6 0038 利用所述第一训练样本对基于机器学习算法构建的待训练模型进行训练，得到第一预测模型。 0039 可选的，所述预测模型创建方法，还包括： 0040 获取第二训练样本；其中，所述第二训练样本包括存储系统硬件信息、历史扩充容量信息以及相应的扩容时长信息； 0041 将所述第二训练样本中的存储系统硬件信息和历史扩充容量信息作为模型输入侧数据，以及将所述第二训练样本中的扩容时长信息作为输出侧数据，对基于机器学习算法构建的待训练模型进。

22、行训练，得到第二预测模型。 0042 可选的，所述预测模型创建方法，还包括： 0043 获取所述存储系统的历史读写吞吐量的第二时序数据； 0044 利用所述第二时序数据中的时间片段信息以及相应的历史读写吞吐量，构建第三训练样本； 0045 将所述第三训练样本中的时间片段信息作为模型输入侧数据，以及将所述第三训练样本中的历史读写吞吐量作为模型输出侧数据，对基于机器学习算法构建的待训练模型进行训练，得到第三预测模型。 0046 第三方面，本申请公开了一种扩容装置，包括： 0047 第一模型获取模块，用于获取第一预测模型；其中，所述第一预测模型为利用基于存储系统的历史。

23、容量消耗量的时序数据构建的训练样本，对基于机器学习算法构建的待训练模型进行训练后得到的； 0048 第一预测模块，用于利用所述第一预测模型，预测与容量消耗时长期望值对应的待扩充容量信息； 0049 扩容模块，用于根据所述待扩充容量信息对所述存储系统进行相应的扩容操作。 0050 第四方面，本申请公开了一种预测模型创建装置，包括： 0051 第一数据获取模块，用于获取存储系统的历史容量消耗量的第一时序数据； 0052 第一样本构建模块，用于利用所述第一时序数据中的时间片段信息以及相应的历史容量消耗量，构建第一训练样本； 0053 第一模型训练模块，用于利用所述第一训练样。

24、本对基于机器学习算法构建的待训练模型进行训练，得到第一预测模型。 0054 第五方面，本申请公开了一种扩容设备，包括： 0055 存储器，用于保存计算机程序； 0056 处理器，用于执行所述计算机程序，以实现前述公开的扩容方法。 0057 第六方面，本申请公开了一种预测模型创建设备，包括： 0058 存储器，用于保存计算机程序； 0059 处理器，用于执行所述计算机程序，以实现前述公开的预测模型创建方法。 0060 第七方面，本申请公开了一种计算机可读存储介质，用于存储计算机程序；其中，所述计算机程序被处理器执行时实现前述公开的扩容方法。 0061 第八方面，。

25、本申请公开了一种计算机可读存储介质，用于存储计算机程序；其中，所述计算机程序被处理器执行时实现前述公开的预测模型创建方法。 0062 可见，本申请先获取到第一预测模型，其中，上述第一预测模型为利用基于存储系说明书 3/11 页 7 CN 109885469 A 7 统的历史容量消耗量的时序数据构建的训练样本进行机器学习训练之后得到的预测模型，然后利用上述第一预测模型预测与容量消耗时长期望值对应的待扩充容量信息。由此可见，本申请是基于历史容量消耗量的时序数据来训练上述基于机器学习算法的预测模型的，由于历史容量消耗量的时序数据能够客观地反映出存储系统的容量消耗量的实际变化。

26、趋势，这种变化趋势通常是一种非线性的变化趋势，相比于现有的基于简单的等比例线性变化趋势进行估计的方式，本申请由于能够在预测的过程中考虑了存储系统的容量消耗量的实际非线性变化趋势，所以使得利用上述第一预测模型预测的待扩充容量信息能够更加符合用户的日常实际容量需求，避免出现明显过多或过少的情况，提高了扩充容量的预测准确度。附图说明 0063 为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还。

27、可以根据提供的附图获得其他的附图。 0064 图1为本申请公开的一种扩容方法流程图； 0065 图2为本申请公开的一种扩容方法子流程图； 0066 图3为本申请公开的一种扩容方法子流程图； 0067 图4为本申请公开的一种扩容方法子流程图； 0068 图5为本申请公开的一种扩容方法子流程图； 0069 图6为本申请公开的一种扩容装置结构示意图； 0070 图7为本申请公开的一种扩容装置部分结构示意图； 0071 图8为本申请公开的一种扩容装置部分结构示意图； 0072 图9为本申请公开的一种扩容装置部分结构示意图； 0073 图10为本申请公开的一种扩容装置部分结构示意图； 0074 图11。

28、为本申请公开的一种扩容装置部分结构示意图。具体实施方式 0075 下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。 0076 当前，对于一个存储产品来说，需要扩容多少，才能保证满足后续几年甚至十几年的使用需求，是一个比较难的问题。现有常规的做法是采用等比例估计法。然而，通过上述等比例估计法确定出来的需扩充容量并非十分准确，经常会出现估计的需扩。

29、充容量明显过多或过少的问题。为此，本申请提供了一种扩容方案，能够使得预测的待扩充容量信息能够更加符合用户的日常实际容量需求，避免出现明显过多或过少的情况，提高了扩充容量的预测准确度。 0077 参见图1所示，本申请实施例公开了一种扩容方法，包括：说明书 4/11 页 8 CN 109885469 A 8 0078 步骤S11：获取第一预测模型；其中，所述第一预测模型为利用基于存储系统的历史容量消耗量的时序数据构建的训练样本，对基于机器学习算法构建的待训练模型进行训练后得到的。 0079 可以理解的是，在上述步骤S11之前，已经预先将上述第一预测模型训练完毕。

30、，后续只需直接调用上述第一预测模型即可。本实施例具体是基于存储系统的历史容量消耗量的时序数据来训练上述第一预测模型的，其中，存储系统的历史容量消耗量的时序数据具体是指存储系统的历史容量消耗量随着使用时长的变化情况，能够客观地反映出存储系统的容量消耗量的实际变化趋势，例如，存储系统在过去5年内的容量消耗量变化情况，或存储系统在过去10年内的容量消耗量变化情况等。 0080 本实施例中，上述存储系统具体可以是基于存储集群的形式构建的存储系统。另外，本实施例中的机器学习算法可以根据实际情况来进行选择，在此不对其进行具体限定。 0081 步骤S12：利用所述第一预。

31、测模型，预测与容量消耗时长期望值对应的待扩充容量信息。 0082 步骤S13：根据所述待扩充容量信息对所述存储系统进行相应的扩容操作。 0083 由此可见，本申请实施例是基于历史容量消耗量的时序数据来训练上述基于机器学习算法的预测模型的，由于历史容量消耗量的时序数据能够客观地反映出存储系统的容量消耗量的实际变化趋势，这种变化趋势通常是一种非线性的变化趋势，相比于现有的基于简单的等比例线性变化趋势进行估计的方式，本申请实施例由于能够在预测的过程中考虑了存储系统的容量消耗量的实际非线性变化趋势，所以使得利用上述第一预测模型预测的待扩充容量信息能够更加符合用户的日常实际容。

32、量需求，避免出现明显过多或过少的情况，提高了扩充容量的预测准确度，从而具备更高的可靠性。 0084 在前述实施例的基础上，本申请实施例对技术方案进行进一步的说明和优化。具体的： 0085 参见图2所示，所述获取第一预测模型之前，还包括： 0086 步骤S21：获取所述存储系统的历史容量消耗量的第一时序数据。 0087 可以理解的是，上述步骤S21中，可以获取存储系统在不同的容量消耗时间段内的历史容量消耗量的第一时序数据，相应地得到多组第一时序数据。其中，上述不同的容量消耗时间段之间可以相互重叠，当然也可以不重叠，并且，通过上述步骤S21得到的第一时序数。

33、据的组数越大，也有利于提高第一预测模型的预测准确度。 0088 本实施例中，上述第一时序数据具体可以用diamond、 zabbix等开源工具来获取，也可以直接利用iostat来采集，另外，对于CEPH等软件定义存储系统，也可以直接从对应软件中获取。 0089 步骤S22：利用所述第一时序数据中的时间片段信息以及相应的历史容量消耗量，构建第一训练样本。 0090 需要指出的是，上述第一时序数据中的时间片段可以与上述第一时序数据对应的时间段相同，也可以是上述第一时序数据对应的时间段的随机节选片段。 0091 步骤S23：利用所述第一训练样本对基于机器学习算法构建的待训练。

34、模型进行训练，得到所述第一预测模型。 0092 在第一种具体实施方式中，所述利用所述第一训练样本对基于机器学习算法构建说明书 5/11 页 9 CN 109885469 A 9 的待训练模型进行训练，得到所述第一预测模型，具体可以包括：将所述第一训练样本中的时间片段信息作为模型输入侧数据，以及将所述第一训练样本中的历史容量消耗量作为模型输出侧数据，对基于机器学习算法构建的待训练模型进行训练，得到所述第一预测模型。 0093 可以理解的是，通过上述第一种具体实施方式得到的第一预测模型，在实际预测应用时，向该第一预测模型输入的信息是时间信息，该第一预测模型输出的则。

35、是容量信息。 0094 在第二种具体实施方式中，所述利用所述第一训练样本对基于机器学习算法构建的待训练模型进行训练，得到所述第一预测模型，具体可以包括：将所述第一训练样本中的历史容量消耗量作为模型输入侧数据，以及将所述第一训练样本中的时间片段信息作为模型输出侧数据，对基于机器学习算法构建的待训练模型进行训练，得到所述第一预测模型。 0095 可以理解的是，通过上述第二种具体实施方式得到的第一预测模型，在实际预测应用时，向该第一预测模型输入的信息是容量信息，该第一预测模型输出的则是时间信息。 0096 进一步的，本实施例中，所述预测与容量消耗时长期望值对应的待扩。

36、充容量信息之后，以及所述根据所述待扩充容量信息对所述存储系统进行相应的扩容操作之前，还可以包括： 0097 获取第二预测模型；其中，所述第二预测模型为利用第二训练样本对基于机器学习算法构建的待训练模型进行训练后得到的，并且，所述第二训练样本包括存储系统硬件信息、历史扩充容量信息以及相应的扩容时长信息； 0098 采集所述存储系统的当前硬件信息，并将所述待扩充容量信息和所述当前硬件信息输入至所述第二预测模型，以得到所述第二预测模型输出的扩容时长预测值。 0099 需要指出的是，本实施例中的上述待扩充容量信息具体可以通过容量数值大小来直接表示，也可以通过磁盘数量或。

37、其他存储节点的数量来间接表示。 0100 参见图3所示，所述获取第二预测模型之前，还可以包括： 0101 步骤S31：获取第二训练样本；其中，所述第二训练样本包括存储系统硬件信息、历史扩充容量信息以及相应的扩容时长信息。 0102 本实施例中，所述存储系统硬件信息具体可以包括硬件参数信息和集群规模信息。其中，硬件参数信息的获取过程具体可以包括通过现有开源方法、工具或直接读取系统配置文件的方式，来获取CPU、内存、网口、硬盘等对象的详细参数信息。集群规模信息的获取过程具体可以通过存储产品提供的接口来进行获取，以确定存储集群中存储节点的构成信息。 0103。

38、步骤S32：将所述第二训练样本中的存储系统硬件信息和历史扩充容量信息作为模型输入侧数据，以及将所述第二训练样本中的扩容时长信息作为输出侧数据，对基于机器学习算法构建的待训练模型进行训练，得到所述第二预测模型。 0104 需要指出的是，上述步骤S32中的机器学习算法可以根据实际情况进行选择，在此不对其进行限定。 0105 进一步的，参见图4所示，本实施例中，所述根据所述待扩充容量信息对所述存储系统进行相应的扩容操作之前，还可以包括： 0106 步骤S41：获取第三预测模型；其中，所述第三预测模型为利用基于所述存储系统的历史读写吞吐量的时序数据构建的训练样本，。

39、对基于机器学习算法构建的待训练模型进行训练后得到的。说明书 6/11 页 10 CN 109885469 A 10 0107 可以理解的是，本实施例中所述存储系统的历史读写吞吐量的时序数据具体是指存储系统的历史读写吞吐量随时间的变化情况，能够客观地反映出读写吞吐量的实际变化趋势，例如，存储系统在每天下午5点至晚上12点之间的读写吞吐量变化情况，或存储系统在每周周末的读写吞吐量变化情况等。 0108 步骤S42：将扩容时间段期望值输入至所述第三预测模型，得到所述第三预测模型输出的所述扩容时间段期望值上的每一时间点的读写吞吐量预测值。 0109 步骤S43：根据所述扩。

40、容时间段期望值和所述读写吞吐量预测值之间的对应关系，创建相应的曲线图。 0110 步骤S44：从所述曲线图中选取出对应时间段的时长与所述扩容时长预测值相一致的，并且与时间轴之间所形成的面积最小的一个曲线段作为目标曲线段。 0111 可以理解的是，本实施例之所以要选取与时间轴之间所形成的面积最小的一个曲线段作为目标曲线段，目的是在于为了尽量确保相应时间段内的读写吞吐量处于较低水平，从而降低了后续扩容操作对正常的读写业务所产生的干扰影响。 0112 进一步的，本实施例还可以基于上述目标曲线段与时间轴之间所形成的面积，估算出后续扩容操作对正常的读写操作所产生的干扰影响程度，。

41、并可以对上述干扰影响程度进行输出，以便用户进行查看。 0113 步骤S45：将所述目标曲线段对应的时间段确定为最佳扩容时间段。 0114 本实施例中的上述扩容时间段确定方式，相对于现有的基于业务侧工程师的个人经验来确定扩容时间段的方式，具有更高的准确度和稳定性。 0115 本实施例中，在得到上述最佳扩容时间段之后，可以将上述最佳扩容时间段在上述曲线图中标注出来。 0116 可以理解的是，本实施例中，上述扩容时间段期望值具体可以由用户进行设定，例如可以设为当天晚上8点至次日凌晨4点，并假设扩容时长预测值为3小时，则可以将上述扩容时间段期望值输入至上述第三预测模型，。

42、以得到所述第三预测模型输出的当天晚上8点至次日凌晨4点之间的每一时间点的读写吞吐量预测值，然后根据所述扩容时间段期望值和读写吞吐量预测值之间的对应关系，创建相应的曲线图，并从上述曲线图中选取出对应时间段的时长为3小时的，并且与时间轴之间所形成的面积最小的一个曲线段作为目标曲线段，进而将所述目标曲线段对应的时间段确定为最佳扩容时间段。 0117 进一步的，所述根据所述待扩充容量信息对所述存储系统进行相应的扩容操作，具体可以包括：根据所述待扩充容量信息和所述最佳扩容时间段，对所述存储系统进行相应的扩容操作。这样可以使得能够在最佳的扩容时间段内将存储系统的容量扩充至合。

43、适水平。 0118 参见图5所示，所述获取第三预测模型之前，还可以包括： 0119 步骤S51：获取所述存储系统的历史读写吞吐量的第二时序数据。 0120 本实施例中，上述第二时序数据具体可以用diamond、 zabbix等开源工具来获取，也可以直接利用iostat来采集，另外，对于CEPH等软件定义存储系统，也可以直接从对应软件中获取。 0121 步骤S52：利用所述第二时序数据中的时间片段信息以及相应的历史读写吞吐量，构建第三训练样本。说明书 7/11 页 11 CN 109885469 A 11 0122 需要指出的是，上述第二时序数据中的时间片段可以与上述。

44、第二时序数据对应的时间段相同，也可以是上述第二时序数据对应的时间段的随机节选片段。 0123 步骤S53：将所述第三训练样本中的时间片段信息作为模型输入侧数据，以及将所述第三训练样本中的历史读写吞吐量作为模型输出侧数据，对基于机器学习算法构建的待训练模型进行训练，得到所述第三预测模型。 0124 另外，上述步骤S53中的机器学习算法可以根据实际情况来进行选择，在此不对其进行具体限定。 0125 另外，本申请实施例还公开了一种预测模型创建方法，包括： 0126 获取存储系统的历史容量消耗量的第一时序数据；利用所述第一时序数据中的时间片段信息以及相应的历史容量消耗量，。

45、构建第一训练样本；利用所述第一训练样本对基于机器学习算法构建的待训练模型进行训练，得到第一预测模型。 0127 由此可见，本申请实施例是基于历史容量消耗量的时序数据来训练上述基于机器学习算法的预测模型的，由于历史容量消耗量的时序数据能够客观地反映出存储系统的容量消耗量的实际变化趋势，这种变化趋势通常是一种非线性的变化趋势，相比于现有的基于简单的等比例线性变化趋势进行估计的方式，本申请实施例由于能够在预测的过程中考虑了存储系统的容量消耗量的实际非线性变化趋势，所以使得利用上述第一预测模型预测的待扩充容量信息能够更加符合用户的日常实际容量需求，避免出现明显过多或过少。

46、的情况，提高了扩充容量的预测准确度，从而具备更高的可靠性。 0128 进一步的，本实施例中的预测模型创建方法，还可以包括： 0129 获取第二训练样本；其中，所述第二训练样本包括存储系统硬件信息、历史扩充容量信息以及相应的扩容时长信息；将所述第二训练样本中的存储系统硬件信息和历史扩充容量信息作为模型输入侧数据，以及将所述第二训练样本中的扩容时长信息作为输出侧数据，对基于机器学习算法构建的待训练模型进行训练，得到第二预测模型。 0130 进一步的，本实施例中的预测模型创建方法，还可以包括： 0131 获取所述存储系统的历史读写吞吐量的第二时序数据；利用所述第二。

47、时序数据中的时间片段信息以及相应的历史读写吞吐量，构建第三训练样本；将所述第三训练样本中的时间片段信息作为模型输入侧数据，以及将所述第三训练样本中的历史读写吞吐量作为模型输出侧数据，对基于机器学习算法构建的待训练模型进行训练，得到第三预测模型。 0132 其中，关于本实施例的预测模型创建方法的更多细节以及各个预测模型的具体应用过程可以参考前述实施例中的公开的相应内容，在此不再进行赘述。 0133 相应的，参见图6所示，本申请实施例还公开了一种扩容装置，包括： 0134 第一模型获取模块11，用于获取第一预测模型；其中，所述第一预测模型为利用基于存储系统的历史。

48、容量消耗量的时序数据构建的训练样本，对基于机器学习算法构建的待训练模型进行训练后得到的； 0135 第一预测模块12，用于利用所述第一预测模型，预测与容量消耗时长期望值对应的待扩充容量信息； 0136 扩容模块13，用于根据所述待扩充容量信息对所述存储系统进行相应的扩容操作。 0137 由此可见，本申请实施例是基于历史容量消耗量的时序数据来训练上述基于机器说明书 8/11 页 12 CN 109885469 A 12 学习算法的预测模型的，由于历史容量消耗量的时序数据能够客观地反映出存储系统的容量消耗量的实际变化趋势，这种变化趋势通常是一种非线性的变化趋势，相比于现有。

49、的基于简单的等比例线性变化趋势进行估计的方式，本申请实施例由于能够在预测的过程中考虑了存储系统的容量消耗量的实际非线性变化趋势，所以使得利用上述第一预测模型预测的待扩充容量信息能够更加符合用户的日常实际容量需求，避免出现明显过多或过少的情况，提高了扩充容量的预测准确度，从而具备更高的可靠性。 0138 进一步的，参见图7所示，所述扩容装置还可以包括： 0139 第一数据获取模块21，用于获取所述存储系统的历史容量消耗量的第一时序数据； 0140 第一样本构建模块22，用于利用所述第一时序数据中的时间片段信息以及相应的历史容量消耗量，构建第一训练样本； 0141 。

50、第一模型训练模块23，用于利用所述第一训练样本对基于机器学习算法构建的待训练模型进行训练，得到所述第一预测模型。 0142 在第一种具体实施方式中，所述第一模型训练模块23，具体用于将所述第一训练样本中的时间片段信息作为模型输入侧数据，以及将所述第一训练样本中的历史容量消耗量作为模型输出侧数据，对基于机器学习算法构建的待训练模型进行训练，得到所述第一预测模型。 0143 在第二种具体实施方式中，所述第一模型训练模块23，具体用于将所述第一训练样本中的历史容量消耗量作为模型输入侧数据，以及将所述第一训练样本中的时间片段信息作为模型输出侧数据，对基于机器学习算法构。

展开阅读全文

内容关键字: 扩容方法预测模型创建装置设备介质