实现Insight管理平台故障自恢复的方法及装置.pdf
《实现Insight管理平台故障自恢复的方法及装置.pdf》由会员分享,可在线阅读,更多相关《实现Insight管理平台故障自恢复的方法及装置.pdf(8页完成版)》请在专利查询网上搜索。
1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202010453981.0 (22)申请日 2020.05.26 (71)申请人 苏州浪潮智能科技有限公司 地址 215100 江苏省苏州市吴中区吴中经 济开发区郭巷街道官浦路1号9幢 (72)发明人 道玉明 (74)专利代理机构 济南诚智商标专利事务所有 限公司 37105 代理人 李修杰 (51)Int.Cl. G06F 11/14(2006.01) (54)发明名称 一种实现Insight管理平台故障自恢复的方 法及装置 (57)摘要 本发明提供了一种实现Insight管。
2、理平台故 障自恢复的方法, 所述的方法包括: S1: 检测到原 主节点故障后, 触发主节点选举机制; S2: 将采用 选举机制选出的最优节点升级为新的主节点; S3: 从AEP内存中获取原主节点的数据配置并导 入新的主节点; S4: 验证新的主节点能否正常工 作, 若能, 则完成恢复, 若不能, 则发送报警信息。 相比于现有技术的手动切换, 本申请利用选举机 制, 保证管理平台在主节点出现异常或出现宕机 情况时, 能够做到自动切换到从节点管理平台, 并将从管理节点升为主管理节点, 做到无感知切 换。 此外, 本申请还提供了用于实现本申请方法 的装置。 权利要求书1页 说明书4页 附图2页 CN。
3、 111737045 A 2020.10.02 CN 111737045 A 1.一种实现Insight管理平台故障自恢复的方法, 其特征在于, 所述的方法包括: S1: 检测到原主节点故障后, 触发主节点选举机制; S2: 将采用选举机制选出的最优节点升级为新的主节点; S3: 从AEP内存中获取原主节点的数据配置并导入新的主节点; S4: 验证新的主节点能否正常工作, 若能, 则完成恢复, 若不能, 则发送报警信息。 2.根据权利要求1所述的一种实现Insight管理平台故障自恢复的方法, 其特征在于, 所述的方法还包括: S5: 运维人员调用切换模块, 将集群中一个节点升级为主节点。 3。
4、.根据权利要求1所述的一种实现Insight管理平台故障自恢复的方法, 其特征在于, 步骤S4中, 若新的主节点不能正常工作, 在向运维人员发送报警信息的同时, 记录新的主节 点为故障节点, 并返回步骤S1重新选举。 4.根据权利要求1所述的一种实现Insight管理平台故障自恢复的方法, 其特征在于, 步骤S1中, 触发的主节点选举机制为: 通过获取集群各剩余节点的I/O能力、 Job任务执行在线数量、 CPU参数、 存储参数、 内存 参数、 网络参数、 电源参数, 按照设定的权重比例计算各个节点的得分, 得分最高的节点为 最优节点。 5.根据权利要求4所述的一种实现Insight管理平台故。
5、障自恢复的方法, 其特征在于, 设定的权重比例为: I/O能力、 Job任务执行在线数量、 CPU参数、 存储参数、 内存参数、 网络参数、 电源参数之 间的权重比例为2:1:2:1:2:1:1。 6.根据权利要求1所述的一种实现Insight管理平台故障自恢复的方法, 其特征在于, 步骤S2的具体实现方法为: 将最优节点设定为主节点, 并开启最优节点的agent及管理平台界面。 7.根据权利要求1所述的一种实现Insight管理平台故障自恢复的方法, 其特征在于, 步骤S3中, 原主节点的数据配置包括: log日志告警信息及监控信息。 8.一种实现Insight管理平台故障自恢复的装置, 其。
6、特征在于, 所述的装置设置在集群 的主节点, 且集群中任一节点均存在agent, 所述的装置包括: 选举模块, 基于主节点故障来触发, 用于通过采集集群各剩余节点的I/O能力、 Job任务 执行在线数量、 CPU参数、 存储参数、 内存参数、 网络参数、 电源参数, 计算得分最高的节点为 最优节点; 内存模块, 用于从AEP内存中获取原主节点的数据配置并导入新的主节点; 验证模块, 用于验证新的主节点能否正常工作, 若能, 则完成恢复, 若不能, 则发送报警 信息。 9.根据权利要求8所述的一种实现Insight管理平台故障自恢复的装置, 其特征在于, 所述的装置还包括: 一键切换模块, 用于。
7、手动切换节点。 10.根据权利要求8所述的一种实现Insight管理平台故障自恢复的装置, 其特征在于, 若新的主节点不能正常工作时, 所述的验证模块还用于记录新的主节点为故障节点, 并触 发选举模块再次工作。 权利要求书 1/1 页 2 CN 111737045 A 2 一种实现Insight管理平台故障自恢复的方法及装置 技术领域 0001 本发明涉及计算机技术领域, 特别是涉及一种实现Insight管理平台故障自恢复 的方法及装置。 背景技术 0002 Inshight管理平台是一种基于Web的管理工具, 在大数据Insight平台中, 它支持 HDFS、 MapReduce、 Hive。
8、、 HBase、 Zookeeper等组件的集中管理, 支持Insight集群的供应与监 控, 是Insight核心管理工具之一。 它通过一步一步的安装向导简化了集群供应, 通过预先 配置好关键的运维指标, 可以直接查看HDFS、 MapReduce、 HBase、 Hive等是否健康。 通过界面 实现支持作业与任务执行的可视化与分析, 通过一个完整的RESTful API把监控信息暴露 出来, 并集成了现有的运维工具。 通过管理平台, 用户可以非常方便直观地操作与控制集 群。 0003 但由于管理平台仅存在于主节点, 如果主节点在集群使用当中出现问题无法连 接, 会导致管理平台直接宕机, 最。
9、终导致客户无法管理大数据集群, 且无法访问管理平台界 面, 无法获取大数据集群的状态。 0004 目前解决办法为: 手动部署一个新的管理平台页面服务, 手动切换到新的页面, 待 修复原管理页面后, 再进行节点切回。 此修复方式不仅费时, 且消耗大量人力物力, 影响到 客户使用管理平台。 发明内容 0005 本发明实施例中提供了一种实现Insight管理平台故障自恢复的方法及装置, 保 证管理平台在主节点出现异常或出现宕机情况时, 能够做到自动切换到从节点管理平台, 并将从管理节点升为主管理节点, 做到无感知切换。 0006 为了解决上述技术问题, 本发明实施例公开了如下技术方案: 0007 本。
10、发明实施例提供了一种实现Insight管理平台故障自恢复的方法, 所述的方法 包括: 0008 S1: 检测到原主节点故障后, 触发主节点选举机制; 0009 S2: 将采用选举机制选出的最优节点升级为新的主节点; 0010 S3: 从AEP内存中获取原主节点的数据配置并导入新的主节点; 0011 S4: 验证新的主节点能否正常工作, 若能, 则完成恢复, 若不能, 则发送报警信息。 0012 进一步的, 所述的方法还包括: 0013 S5: 运维人员调用切换模块, 将集群中一个节点升级为主节点。 0014 进一步的, 步骤S4中, 若新的主节点不能正常工作, 在向运维人员发送报警信息的 同时。
11、, 记录新的主节点为故障节点, 并返回步骤S1重新选举。 0015 进一步的, 步骤S1中, 触发的主节点选举机制为: 0016 通过获取集群各剩余节点的I/O能力、 Job任务执行在线数量、 CPU参数、 存储参数、 说明书 1/4 页 3 CN 111737045 A 3 内存参数、 网络参数、 电源参数, 按照设定的权重比例计算各个节点的得分, 得分最高的节 点为最优节点。 0017 进一步的, 设定的权重比例为: 0018 I/O能力、 Job任务执行在线数量、 CPU参数、 存储参数、 内存参数、 网络参数、 电源参 数之间的权重比例为2:1:2:1:2:1:1。 0019 进一步的。
12、, 步骤S2的具体实现方法为: 0020 将最优节点设定为主节点, 并开启最优节点的agent及管理平台界面。 0021 进一步的, 步骤S3中, 原主节点的数据配置包括: log日志告警信息及监控信息。 0022 为了实现上述的方法, 本申请的实施例还提供了一种实现Insight管理平台故障 自恢复的装置, 所述的装置设置在集群的主节点, 且集群中任一节点均存在agent, 所述的 装置包括: 0023 选举模块, 基于主节点故障来触发, 用于通过采集集群各剩余节点的I/O能力、 Job 任务执行在线数量、 CPU参数、 存储参数、 内存参数、 网络参数、 电源参数, 计算得分最高的节 点为。
13、最优节点; 0024 内存模块, 用于从AEP内存中获取原主节点的数据配置并导入新的主节点; 0025 验证模块, 用于验证新的主节点能否正常工作, 若能, 则完成恢复, 若不能, 则发送 报警信息。 0026 进一步的, 所述的装置还包括: 0027 一键切换模块, 用于手动切换节点。 0028 进一步的, 若新的主节点不能正常工作时, 所述的验证模块还用于记录新的主节 点为故障节点, 并触发选举模块再次工作。 0029 上述技术方案的有益效果在于: 0030 相比于现有技术的手动切换, 本申请利用选举机制, 保证管理平台在主节点出现 异常或出现宕机情况时, 能够做到自动切换到从节点管理平台。
14、, 并将从管理节点升为主管 理节点, 做到无感知切换。 0031 同时, 基于AEP内存较传统内存成本更低, 传输速度比硬盘快100-1000倍, 比普通 内存也高出8-10倍, 本方案可降低成本, 提升产品竞争力。 附图说明 0032 了更清楚地说明本发明实施例或现有技术中的技术方案, 下面将对实施例或现有 技术描述中所需要使用的附图作简单地介绍, 显而易见地, 对于本领域普通技术人员而言, 在不付出创造性劳动的前提下, 还可以根据这些附图获得其他的附图。 0033 图1为本发明一种实施例提供的方法的流程图; 0034 图2为本发明一种实施例提供的装置的原理图。 具体实施方式 0035 为了。
15、使本技术领域的人员更好地理解本发明中的技术方案, 下面将结合本发明实 施例中的附图, 对本发明实施例中的技术方案进行清楚、 完整地描述, 显然, 所描述的实施 例仅仅是本发明一部分实施例, 而不是全部的实施例。 基于本发明中的实施例, 本领域普通 说明书 2/4 页 4 CN 111737045 A 4 技术人员在没有做出创造性劳动前提下所获得的所有其他实施例, 都应当属于本发明保护 的范围。 0036 实施例1 0037 参见图1, 作为本发明一种可实现的实施例, 提供了一种实现Insight管理平台故 障自恢复的方法, 所述的方法包括: 0038 S1: 在集群主节点出现异常或宕机状态后,。
16、 通过对集群剩余节点进行选举机制, 通 过获取各节点I/O能力、 Job任务执行在线数量、 CPU参数、 存储参数、 内存参数、 网络参数、 电 源参数得到一个综合评分, 将评分最高的节点列为最优节点。 0039 所有的参数均可以通过现有的后台命令来获取, 对于综合平分的计算, 按照设定 的权重比例来进行评价, 其中以总权重等于1为例, 几项数据的权重比例为: 0 .2I/O; 0.1Job; 0.2CPU; 0.1存储; 0.2内存; 0.1网络; 0.1电源。 对于各个单项的评分, 按照各个参数 从高到低进行排序, 然后排名最高的为10分, 排名每增加一名, 得分减一分。 以5个节点的I/。
17、 O能力为例, 5个节点的能力排名按照现有标准排序, 排序完成后, 5个节点的I/O能力得分依 次为10、 9、 8、 7、 6。 0040 为了保证更好的监控效果, 确保集群稳定, 在选举开始进行的同时, 可以通过集群 后台调取信息, 并将节点情况以告警邮件形式发送到运维人员邮箱。 0041 S2: 将采用选举机制选出的最优节点升级为新的主节点, 主要方式为: 将最优节点 设定为主节点, 并开启最优节点的agent及管理平台界面。 0042 S3: 从AEP内存中获取原主节点的数据配置并导入新的主节点。 0043 AEP内存是intel在2017年推出的一款全新的产品, 适配下一代casca。
18、de CPU, 具备 明显成本优势; 与DRAM相比, 其具有非易失性的另一大优势。 与Flash相比, 由于写入方式不 同, Apache Pass DIMM也比Flash NAND更耐用, 从应用场景分析, Clodstream SSD主要用在 NAND Flash SSD之上, 对系统日志、 Memory Page和系统元数据进行加速; 然而Apache Pass DIMM主要定位是用于替代DRAM, 支撑持久Memory或In-Memory应用。 0044 AEP内存的安装方式同普通内存一样, 也是安装在内存槽位上。 但是AEP内存可通 过调整分配设置策略, 变成内存模式(memory。
19、 mode)、 硬盘模式(APD mode)或混合模式(mix mode)。 当为AEP内存分配策略设置为100内存模式(memory mode)时, 同普通内存类似, 具 有内存的作用, 可当内存使用。 当为AEP内存分配策略设置为100硬盘模式(APD mode)时, 就可以当硬盘使用, 具有存储的功能, 但是远比普通硬盘读写速度快。 除此之外, 还可以实 现将AEP内存分配策略设置为混合模式(mix mode), 使同一条内存虚拟分解成硬盘功能区 和内存功能区, 同时具有内存功能和硬盘功能。 0045 在实际操作中, AEP内存模式处于最佳模式, AEP内存保存原主节点所有平台数据, 包。
20、含log日志告警信息及监控信息, 因此可以将将此信息导入到新的主节点当中。 0046 S4: 在将信息导入成功后, 需要验证新的主节点作为主节点是否可以正常维持平 台运行。 若执行成功, 则将集群现状以邮件形式发送运维人员邮箱。 若无法执行, 则跳回选 举环节, 重新执行, 并将节点情况以告警邮件形式发送到运维人员邮箱。 0047 需要注意的是, 对于整个实现流程来说, 若主节点的修复一直无法成功, 在主节点 未出现的情况下, 也可使用切换模块进行主从切换。 若存在主节点宕机后, 可待运维人员针 对原主节点进行修复, 待主节点修复完毕可用, 也可选择一键切换为原主节点使用。 说明书 3/4 页。
21、 5 CN 111737045 A 5 0048 如图2所示, 本申请为了实现上述的方法, 还提供了一种实现Insight管理平台故 障自恢复的装置, 所述的装置设置在主节点, 主要包括选举模块、 内存模块、 验证模块、 一键 切换模块, 每个节点均存在agent, 即具备主节点管理平台基础条件, 并实现以下功能: 0049 选举模块: 在集群主节点出现异常或宕机状态后, 此模块可通过对集群剩余节点 进行选举机制, 通过获取各节点I/O能力、 Job任务执行在线数量、 CPU参数、 存储参数、 内存 参数、 网络参数、 电源参数, 得到一个综合评分, 从而选取最优节点升级为主节点, 并开启此 。
22、节点agent, 开启管理平台界面。 在选举开始进行同时, 集群后台调取信息, 并将节点情况以 告警邮件形式发送到运维人员邮箱。 0050 内存模块: 调用机器学习算法根据Insight管理平台日志告警信息及监控信息大 小自适应调整AEP内存模式至最佳模式, AEP内存保存当前主节点所有平台数据, 包含log日 志告警信息及监控信息, 并将此信息导入到上一模块选举出来的节点当中。 0051 验证模块: 在将信息导入成功后, 进入验证模块, 验证此节点作为主节点是否可以 正常维持平台运行。 若无法执行, 则跳回选举模块, 重新执行, 并将节点情况以告警邮件形 式发送到运维人员邮箱。 若执行成功,。
23、 则将集群现状以邮件形式发送运维人员邮箱。 0052 一键切换模块: 此模块在开启故障自恢复后, 需集群管理者自行选择使用。 在主节 点未出现情况下, 也可使用此模块进行主从切换。 若存在主节点宕机后, 可待运维人员针对 原主节点进行修复, 待主节点修复完毕可用, 也可选择一键切换为原主节点使用。 由于一键 切换为人工操作, 故一键切换模块若存在切换失败情况, 会自动返回原集群状态, 并不触发 选举模块。 一键切换为用户无感知切换。 0053 所有问题节点待修复完毕后, 会自动纳入集群继续运行, 顶替现主节点的原位置。 0054 需要注意的是, 一键切换模块的功能实现, 基于将控制指令形成一个程序, 实现自 动切换。 0055 以上所述仅是本发明的具体实施方式, 使本领域技术人员能够理解或实现本发 明。 对这些实施例的多种修改对本领域的技术人员来说将是显而易见的, 本文中所定义的 一般原理可以在不脱离本发明的精神或范围的情况下, 在其它实施例中实现。 因此, 本发明 将不会被限制于本文所示的这些实施例, 而是要符合与本文所公开的原理和新颖特点相一 致的最宽的范围。 说明书 4/4 页 6 CN 111737045 A 6 图1 说明书附图 1/2 页 7 CN 111737045 A 7 图2 说明书附图 2/2 页 8 CN 111737045 A 8 。
- 内容关键字: 实现 Insight 管理 平台 故障 恢复 方法 装置
茶叶加工用的上料装置.pdf
便于装卸的储料桶.pdf
智能化多腔体入料数量检测机构及高速计数筛选装置.pdf
焊接辅助装置.pdf
无纺布切边装置.pdf
阀门用端面打磨装置.pdf
推砖装置.pdf
污染水体水藻清理装置.pdf
调整木板输送姿态的输送装置.pdf
切边刀装配总成.pdf
液压油过滤器.pdf
用于检测育苗水体中弧菌含量的培养装置.pdf
自动配料加料装置.pdf
电加热器超导热管用烘箱.pdf
避免交叉感染的门诊采血车.pdf
压力管道承压检测装置.pdf
多功能彩妆盒.pdf
激光增强的纳米线电子源组件.pdf
旋转型空气净化消毒灯.pdf
无人机智能电力线路巡检系统.pdf
消防器械生产用焊接装置.pdf
基于工业互联网的电力数据挖掘与分析系统.pdf
条码扫描机.pdf
基于TDS-Unet网络的地震速度模型重构方法、介质和设备.pdf
纺织弹性带生产自动卷绕装置及其方法.pdf
基于BIM的轨道交通运维方法、系统、电子设备及存储介质.pdf
电子封装用导电银胶及其制备方法.pdf
基于虚拟编组计算列车数的方法、设备及存储介质.pdf
菌落计数样本的优化方法、装置、设备及存储介质.pdf
高压断路器机械合闸闭锁装置.pdf
竖井采矿用罐笼旋调升降装置.pdf
热升级方法、装置及电子设备.pdf
拧螺母设备.pdf
隧道管片测量元件导线密封装置及其使用方法.pdf
医疗数据处理方法、装置、设备及存储介质.pdf
皮带转载点半封闭式自动降尘装置及自动降尘方法.pdf
集约式烟羽治理净化系统及方法.pdf
聚合氯化铝固体承装箱.pdf
垃圾收集装置.pdf
焊接机器人用抓手.pdf
按压式膨胀固定扣.pdf
车内环境的调节方法、装置和系统.pdf
智能化透热炉.pdf
基于大数据的电力系统监管方法.pdf
汽车电致变色内后视镜第二面导电膜及其制备方法.pdf
受限空间地下室外墙浇筑、防水一体化结构及施工方法.pdf
交通网络规划辅助决策方法及装置.pdf
镁锶-磷酸硅盐材料及制备方法、包含其的结构可控的多孔骨修复复合支架材料.pdf
提拉式下水器.pdf
用于散热器制造的铝合金复合管及其制备方法.pdf
基于光纤网络的时钟同步方法及装置.pdf