《一种自动恢复集群中意外宕机节点的方法.pdf》由会员分享,可在线阅读,更多相关《一种自动恢复集群中意外宕机节点的方法.pdf(4页完整版)》请在专利查询网上搜索。
1、(10)申请公布号 (43)申请公布日 (21)申请号 201410717147.2 (22)申请日 2014.12.03 G06F 11/30(2006.01) H04L 12/24(2006.01) H04L 12/26(2006.01) H04L 29/08(2006.01) (71)申请人 浪潮集团有限公司 地址 250101 山东省济南市高新区浪潮路 1036 号 (72)发明人 孙玉超 (54) 发明名称 一种自动恢复集群中意外宕机节点的方法 (57) 摘要 本发明提供一种自动恢复集群中意外宕机 节点的方法, 方法如下 : 在集群使用过程中, 根据 集群规模或者可宕机时间, 设定自。
2、动检测宕机的 间隔 ; 在管理节点上监控 pbs 提取到的节点状态 down 后, 再通过 ping 命令确认节点宕机后, 把监 测结果写到 log 里, 以备管理员查看宕机记录 ; 确 认宕机后, 管理节点通过 ipmi 对宕机节点发送 reset 命令, 强制重启宕机节点。本发明的一种自 动恢复集群中意外宕机节点的方法和现有技术相 比, 我们可以通过网络工具, 监控整个集群的使用 情况, 当发现有节点宕机时, 通过 ipmi 自动重启 宕掉的节点 ; 而且本发明还具有设计合理、 结构 简单、 使用方便等特点, 因而, 具有很好的使用价 值。 (51)Int.Cl. (19)中华人民共和国国。
3、家知识产权局 (12)发明专利申请 权利要求书1页 说明书2页 (10)申请公布号 CN 104461823 A (43)申请公布日 2015.03.25 CN 104461823 A 1/1 页 2 1. 一种自动恢复集群中意外宕机节点的方法, 其特征在于方法如下 : 在集群使用过程中, 根据集群规模或者可宕机时间, 设定自动检测宕机的间隔 ; 在管理节点上监控 pbs 提取到的节点状态 down 后, 再通过 ping 命令确认节点宕机后, 把监测结果写到 log 里, 以备管理员查看宕机记录 ; 确认宕机后, 管理节点通过 ipmi 对宕机节点发送 reset 命令, 强制重启宕机节点。。
4、 权 利 要 求 书 CN 104461823 A 2 1/2 页 3 一种自动恢复集群中意外宕机节点的方法 技术领域 0001 本发明涉及计算机技术领域, 具体地说是一种自动恢复集群中意外宕机节点的方 法。 背景技术 0002 目前在高性能计算集群中, 在实际使用过程中, 计算节点可能由于某种原因会意 外宕机, 由于集群一般由成百上千计算节点组成, 意外宕机的节点不需要第一时间恢复, 也 不会影响整个集群的使用, 我们可以利用 ipmi 工具, 监控集群节点状态, 当发现有节点宕 机后, 通过 ipmi 的电源重启功能, 自动对宕机节点发送重启命令, 以达到自动恢复宕机节 点的目的。 发明内。
5、容 0003 本发明的目的是克服现有技术中存在的不足, 提供一种自动恢复集群中意外宕机 节点的方法。 0004 本发明的技术方案是按以下方式实现的, 方法如下 : 在集群使用过程中, 根据集群规模或者可宕机时间, 设定自动检测宕机的间隔 ; 在管理节点上监控 pbs 提取到的节点状态 down 后, 再通过 ping 命令确认节点宕机后, 把监测结果写到 log 里, 以备管理员查看宕机记录 ; 确认宕机后, 管理节点通过 ipmi 对宕机节点发送 reset 命令, 强制重启宕机节点。 0005 本发明的优点是 : 本发明的一种自动恢复集群中意外宕机节点的方法和现有技术相比, 我们可以通过网。
6、 络工具, 监控整个集群的使用情况, 当发现有节点宕机时, 通过 ipmi 自动重启宕掉的节点 ; 而且本发明还具有设计合理、 结构简单、 使用方便等特点, 因而, 具有很好的使用价值。 具体实施方式 0006 下面对本发明的一种自动恢复集群中意外宕机节点的方法作以下详细说明。 0007 本发明的一种自动恢复集群中意外宕机节点的方法, 方法如下 : 在集群使用过程中, 根据集群规模或者可宕机时间, 设定自动检测宕机的间隔 ; 在管理节点上监控 pbs 提取到的节点状态 down 后, 再通过 ping 命令确认节点宕机后, 把监测结果写到 log 里, 以备管理员查看宕机记录 ; 确认宕机后,。
7、 管理节点通过 ipmi 对宕机节点发送 reset 命令, 强制重启宕机节点。 0008 节点资源监控 : 通过作业调度 PBS 来提取计算节点状态, 监控到的节点状态 down 后, 在通过 ping 命令, 对宕掉节点进一步确认是否宕机。 0009 宕机节点重启 : 确认节点宕机后, 通过IPMI协议命令对宕机节点发送reset命令, 强制重启宕机节点。 0010 本发明的一种自动恢复集群中意外宕机节点的方法其加工制作非常简单方便, 按 说 明 书 CN 104461823 A 3 2/2 页 4 照说明书所示即可加工。 0011 除说明书所述的技术特征外, 均为本专业技术人员的已知技术。 说 明 书 CN 104461823 A 4 。