《一种多处理器服务器的系统容错方法.pdf》由会员分享,可在线阅读,更多相关《一种多处理器服务器的系统容错方法.pdf(6页完整版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 103425545 A (43)申请公布日 2013.12.04 CN 103425545 A *CN103425545A* (21)申请号 201310363559.6 (22)申请日 2013.08.20 G06F 11/07(2006.01) G06F 9/50(2006.01) (71)申请人 浪潮电子信息产业股份有限公司 地址 250101 山东省济南市高新区舜雅路 1036 号 (72)发明人 李博乐 林楷智 (54) 发明名称 一种多处理器服务器的系统容错方法 (57) 摘要 本发明提供一种多处理器服务器的系统容错 方法, 其具体过程为 : 系统侦测处理。
2、器故障, 并上 报给监控管理单元 ; 监控管理单元对故障进行分 析判断, 达到一定的故障级别后, 向系统发出中断 请求 ; 系统接收中断后, 根据事先制定的容错策 略进行配置降级, 上述步骤针对的是多处理器服 务器。该一种多处理器服务器的系统容错方法和 现有技术相比, 以降低配置为代价, 提升系统可靠 性, 实用性强, 易于推广。 (51)Int.Cl. 权利要求书 1 页 说明书 2 页 附图 2 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书1页 说明书2页 附图2页 (10)申请公布号 CN 103425545 A CN 103425545 A *CN1034。
3、25545A* 1/1 页 2 1. 一种多处理器服务器的系统容错方法, 其特征在于其具体过程为 : 步骤一、 系统侦测处理器故障, 并上报给监控管理单元 ; 步骤二、 监控管理单元对故障进行分析判断, 达到一定的故障级别后, 向系统发出中断 请求 ; 步骤三、 系统接收中断后, 根据事先制定的容错策略进行配置降级, 上述步骤针对的是多处理器服务器。 2. 根据权利要求 1 所述的一种多处理器服务器的系统容错方法, 其特征在于 : 所述步 骤一中的系统侦测是指在多处理器服务器工作时, 由 BIOS 负责底层故障监控。 3. 根据权利要求 1 所述的一种多处理器服务器的系统容错方法, 其特征在于。
4、 : 所述步 骤二种的故障级别是指 CPU 发出的警报信号持续三十秒有效, 这里的警报信号是指 CPU 在 温度过高时主动释放的。 4. 根据权利要求 1 所述的一种多处理器服务器的系统容错方法, 其特征在于 : 所述步 骤三中的配置降级是指系统停止与故障 CPU 通信, 并将故障 CPU 从系统中安全卸载。 权 利 要 求 书 CN 103425545 A 2 1/2 页 3 一种多处理器服务器的系统容错方法 0001 技术领域 0002 本发明涉及计算机技术领域, 具体的说是一种多处理器服务器的系统容错方法。 背景技术 0003 随着服务器事业的飞速发展, 多处理器服务器早已成为市场上的主。
5、流, 目前 4 路 服务器, 8 路服务器, 甚至通过节点控制器扩展的 16 路及 32 服务器也已经屡见不鲜 ; 不过 单机互联的处理器数量越多, 可能导致的问题就越多, 以 4 路服务器为例, 假设单 CPU 故障 率为 0.01%, 那么 4 路整机 CPU 故障率则为 0.04% ; 如果 8 路服务器使用相同品质的 CPU, 则 整机 CPU 故障率则提升至 0.08% ; 可以这样说, 系统越复杂, 出现故障的概率就越高。 0004 面对多处理器服务器这样构造如此复杂的产品, 有的厂商采取部件冗余的办法, 如采用 CPU 冗余, 采用 n 个 CPU 做备份, 正常状态下只有 N-。
6、n 个 CPU 在工作, 极大的浪费了 系统配置资源。 发明内容 0005 本发明的技术任务是解决现有技术的不足, 提供一种多处理器服务器的系统容错 方法。 0006 本发明的技术方案是按以下方式实现的, 该一种多处理器服务器的系统容错方 法, 其具体过程为 : 步骤一、 系统侦测处理器故障, 并上报给监控管理单元 ; 步骤二、 监控管理单元对故障进行分析判断, 达到一定的故障级别后, 向系统发出中断 请求 ; 步骤三、 系统接收中断后, 根据事先制定的容错策略进行配置降级, 上述步骤针对的是多处理器服务器。 0007 作为优选, 所述步骤一中的系统侦测是指在多处理器服务器工作时, 由 BIO。
7、S 负责 底层故障监控。进而有效避免由局部问题发展成全局问题。 0008 进一步的, 所述步骤二种的故障级别是指 CPU 发出的警报信号持续三十秒有效, 这里的警报信号是指 CPU 在温度过高时主动释放的。 0009 作为优选, 所述步骤三中的配置降级是指系统停止与故障 CPU 通信, 并将故障 CPU 从系统中安全卸载。 0010 本发明与现有技术相比所产生的有益效果是 : 本发明的一种多处理器服务器的系统容错方法针对多路服务器, 在正常状态下 CPU 全 部工作, 只有在系统遭遇处理器故障时, 才根据故障状况, 降级配置 ; 这样即不会浪费配置 资源, 同时也可以保证整机的可靠性, 实用性。
8、强, 易于推广。 说 明 书 CN 103425545 A 3 2/2 页 4 附图说明 0011 附图 1 是本发明的实现流程图。 0012 附图 2 是实施例降级前的 8 路拓扑图。 0013 附图 3 是实施例降级后的 6 路拓扑图。 0014 附图 4 是实施例降级后的 4 路拓扑图。 具体实施方式 0015 下面对本发明的一种多处理器服务器的系统容错方法作详细说明。 0016 如附图 1 所示, 现提供一种多处理器服务器的系统容错方法, 当多处理器服务器 遭遇个别处理器故障, 并达到一定程度时, 系统主动降级进行容错。系统停止与故障 CPU 通 信, 并将故障 CPU 从系统中安全卸。
9、载, 避免由局部问题发展成全局问题。这种容错设计是以 降低配置为代价, 提升系统可靠性。其具体过程为 : 步骤一、 系统侦测处理器故障, 并上报给监控管理单元。 0017 步骤二、 监控管理单元对故障进行分析判断, 达到一定的故障级别后, 向系统发出 中断请求。 0018 根据CPU自身特性, CPU在温度过高时会释放thermal alert信号, 同时降频降压, 以降低自身温度, 但CPU在thermal alert过程中会不断发出中断, 系统在不停处理此类中 断信息, 导致系统变慢。故这里制定的策略是如在 thermal alert 持续 30 秒有效, 则需要 触发降级机制。 0019。
10、 步骤三、 系统接收中断后, 根据事先制定的容错策略进行配置降级, 上述步骤针对 的是多处理器服务器。 0020 具体降级实施例如附图 2、 图 3、 图 4 所示, 图 2 为降级前的拓扑, 包括八路拓扑, 图 3、 图 4 为降级后的拓扑, 分别表示六路拓扑和四路拓扑。 0021 CPU 发生严重错误时, 会触发 Error1 信号, 如果不能及时修正, 系统会自动重启, 这里制定的策略是一旦发现 Error1 信号有效, 立即触发降级机制, 隔离故障 CPU。 0022 此外在 CPU 访存出现错误, 并超过 255 错误寄存器上限时, 无论是 CPU 本身故障还 是本 NUMA 域中内。
11、存故障, 这里的策略都要进行降级, 以确保系统不会停机。 0023 多处理器服务器正常工作, BIOS 负责底层故障监控, 一旦发现处理器故障, 将故障 信息发送给 BMC ; BMC 根据事先制定好的策略对故障信息进行判断 ; 如达到降级条件, 则参 照降级拓扑结构, 将降级命令发送给 BIOS, BIOS 接到指令, 调用 CPU 热移除模块, 执行 CPU 热移除事件。CPU 被热移除, 系统实现容错目的, 保证不停机稳定工作。 0024 除说明书所述的技术特征外, 均为本专业技术人员的公知技术。 说 明 书 CN 103425545 A 4 1/2 页 5 图 1 图 2 说 明 书 附 图 CN 103425545 A 5 2/2 页 6 图 3 图 4 说 明 书 附 图 CN 103425545 A 6 。