一种多处理器服务器的系统容错方法.pdf

上传人：t****

文档编号：4911223

上传时间：2018-11-26

格式：PDF

页数：6

大小：746.02KB

《一种多处理器服务器的系统容错方法.pdf》由会员分享，可在线阅读，更多相关《一种多处理器服务器的系统容错方法.pdf（6页完整版）》请在专利查询网上搜索。

1、(10)申请公布号 CN 103425545 A (43)申请公布日 2013.12.04 CN 103425545 A *CN103425545A* (21)申请号 201310363559.6 (22)申请日 2013.08.20 G06F 11/07(2006.01) G06F 9/50(2006.01) (71)申请人浪潮电子信息产业股份有限公司地址 250101 山东省济南市高新区舜雅路 1036 号 (72)发明人李博乐林楷智 (54) 发明名称一种多处理器服务器的系统容错方法 (57) 摘要本发明提供一种多处理器服务器的系统容错方法，其具体过程为：系统侦测处理。

2、器故障，并上报给监控管理单元；监控管理单元对故障进行分析判断，达到一定的故障级别后，向系统发出中断请求；系统接收中断后，根据事先制定的容错策略进行配置降级，上述步骤针对的是多处理器服务器。该一种多处理器服务器的系统容错方法和现有技术相比，以降低配置为代价，提升系统可靠性，实用性强，易于推广。 (51)Int.Cl. 权利要求书 1 页说明书 2 页附图 2 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请权利要求书1页说明书2页附图2页 (10)申请公布号 CN 103425545 A CN 103425545 A *CN1034。

3、25545A* 1/1 页 2 1. 一种多处理器服务器的系统容错方法，其特征在于其具体过程为：步骤一、系统侦测处理器故障，并上报给监控管理单元；步骤二、监控管理单元对故障进行分析判断，达到一定的故障级别后，向系统发出中断请求；步骤三、系统接收中断后，根据事先制定的容错策略进行配置降级，上述步骤针对的是多处理器服务器。 2. 根据权利要求 1 所述的一种多处理器服务器的系统容错方法，其特征在于：所述步骤一中的系统侦测是指在多处理器服务器工作时，由 BIOS 负责底层故障监控。 3. 根据权利要求 1 所述的一种多处理器服务器的系统容错方法，其特征在于。

4、：所述步骤二种的故障级别是指 CPU 发出的警报信号持续三十秒有效，这里的警报信号是指 CPU 在温度过高时主动释放的。 4. 根据权利要求 1 所述的一种多处理器服务器的系统容错方法，其特征在于：所述步骤三中的配置降级是指系统停止与故障 CPU 通信，并将故障 CPU 从系统中安全卸载。权利要求书 CN 103425545 A 2 1/2 页 3 一种多处理器服务器的系统容错方法 0001 技术领域 0002 本发明涉及计算机技术领域，具体的说是一种多处理器服务器的系统容错方法。背景技术 0003 随着服务器事业的飞速发展，多处理器服务器早已成为市场上的主。

5、流，目前 4 路服务器， 8 路服务器，甚至通过节点控制器扩展的 16 路及 32 服务器也已经屡见不鲜；不过单机互联的处理器数量越多，可能导致的问题就越多，以 4 路服务器为例，假设单 CPU 故障率为 0.01%，那么 4 路整机 CPU 故障率则为 0.04% ；如果 8 路服务器使用相同品质的 CPU，则整机 CPU 故障率则提升至 0.08% ；可以这样说，系统越复杂，出现故障的概率就越高。 0004 面对多处理器服务器这样构造如此复杂的产品，有的厂商采取部件冗余的办法，如采用 CPU 冗余，采用 n 个 CPU 做备份，正常状态下只有 N-。

6、n 个 CPU 在工作，极大的浪费了系统配置资源。发明内容 0005 本发明的技术任务是解决现有技术的不足，提供一种多处理器服务器的系统容错方法。 0006 本发明的技术方案是按以下方式实现的，该一种多处理器服务器的系统容错方法，其具体过程为：步骤一、系统侦测处理器故障，并上报给监控管理单元；步骤二、监控管理单元对故障进行分析判断，达到一定的故障级别后，向系统发出中断请求；步骤三、系统接收中断后，根据事先制定的容错策略进行配置降级，上述步骤针对的是多处理器服务器。 0007 作为优选，所述步骤一中的系统侦测是指在多处理器服务器工作时，由 BIO。

7、S 负责底层故障监控。进而有效避免由局部问题发展成全局问题。 0008 进一步的，所述步骤二种的故障级别是指 CPU 发出的警报信号持续三十秒有效，这里的警报信号是指 CPU 在温度过高时主动释放的。 0009 作为优选，所述步骤三中的配置降级是指系统停止与故障 CPU 通信，并将故障 CPU 从系统中安全卸载。 0010 本发明与现有技术相比所产生的有益效果是：本发明的一种多处理器服务器的系统容错方法针对多路服务器，在正常状态下 CPU 全部工作，只有在系统遭遇处理器故障时，才根据故障状况，降级配置；这样即不会浪费配置资源，同时也可以保证整机的可靠性，实用性。

8、强，易于推广。说明书 CN 103425545 A 3 2/2 页 4 附图说明 0011 附图 1 是本发明的实现流程图。 0012 附图 2 是实施例降级前的 8 路拓扑图。 0013 附图 3 是实施例降级后的 6 路拓扑图。 0014 附图 4 是实施例降级后的 4 路拓扑图。具体实施方式 0015 下面对本发明的一种多处理器服务器的系统容错方法作详细说明。 0016 如附图 1 所示，现提供一种多处理器服务器的系统容错方法，当多处理器服务器遭遇个别处理器故障，并达到一定程度时，系统主动降级进行容错。系统停止与故障 CPU 通信，并将故障 CPU 从系统中安全卸。

9、载，避免由局部问题发展成全局问题。这种容错设计是以降低配置为代价，提升系统可靠性。其具体过程为：步骤一、系统侦测处理器故障，并上报给监控管理单元。 0017 步骤二、监控管理单元对故障进行分析判断，达到一定的故障级别后，向系统发出中断请求。 0018 根据CPU自身特性， CPU在温度过高时会释放thermal alert信号，同时降频降压，以降低自身温度，但CPU在thermal alert过程中会不断发出中断，系统在不停处理此类中断信息，导致系统变慢。故这里制定的策略是如在 thermal alert 持续 30 秒有效，则需要触发降级机制。 0019。

10、步骤三、系统接收中断后，根据事先制定的容错策略进行配置降级，上述步骤针对的是多处理器服务器。 0020 具体降级实施例如附图 2、图 3、图 4 所示，图 2 为降级前的拓扑，包括八路拓扑，图 3、图 4 为降级后的拓扑，分别表示六路拓扑和四路拓扑。 0021 CPU 发生严重错误时，会触发 Error1 信号，如果不能及时修正，系统会自动重启，这里制定的策略是一旦发现 Error1 信号有效，立即触发降级机制，隔离故障 CPU。 0022 此外在 CPU 访存出现错误，并超过 255 错误寄存器上限时，无论是 CPU 本身故障还是本 NUMA 域中内。

11、存故障，这里的策略都要进行降级，以确保系统不会停机。 0023 多处理器服务器正常工作， BIOS 负责底层故障监控，一旦发现处理器故障，将故障信息发送给 BMC ； BMC 根据事先制定好的策略对故障信息进行判断；如达到降级条件，则参照降级拓扑结构，将降级命令发送给 BIOS， BIOS 接到指令，调用 CPU 热移除模块，执行 CPU 热移除事件。CPU 被热移除，系统实现容错目的，保证不停机稳定工作。 0024 除说明书所述的技术特征外，均为本专业技术人员的公知技术。说明书 CN 103425545 A 4 1/2 页 5 图 1 图 2 说明书附图 CN 103425545 A 5 2/2 页 6 图 3 图 4 说明书附图 CN 103425545 A 6 。

摘要
申请专利号：	CN201310363559.6	申请日：	2013.08.20
公开号：	CN103425545A	公开日：	2013.12.04
当前法律状态：	撤回	有效性：	无权
法律详情：	登录超时
IPC分类号：	G06F11/07; G06F9/50	主分类号：	G06F11/07
申请人：	浪潮电子信息产业股份有限公司
发明人：	李博乐; 林楷智
地址：	250101 山东省济南市高新区舜雅路1036号
优先权：
专利代理机构：		代理人：
PDF完整版下载：	PDF下载

内容摘要

本发明提供一种多处理器服务器的系统容错方法，其具体过程为：系统侦测处理器故障，并上报给监控管理单元；监控管理单元对故障进行分析判断，达到一定的故障级别后，向系统发出中断请求；系统接收中断后，根据事先制定的容错策略进行配置降级，上述步骤针对的是多处理器服务器。该一种多处理器服务器的系统容错方法和现有技术相比，以降低配置为代价，提升系统可靠性，实用性强，易于推广。

权利要求书

权利要求书
1.  一种多处理器服务器的系统容错方法，其特征在于其具体过程为：
步骤一、系统侦测处理器故障，并上报给监控管理单元；
步骤二、监控管理单元对故障进行分析判断，达到一定的故障级别后，向系统发出中断请求；
步骤三、系统接收中断后，根据事先制定的容错策略进行配置降级，
上述步骤针对的是多处理器服务器。

2.  根据权利要求1所述的一种多处理器服务器的系统容错方法，其特征在于：所述步骤一中的系统侦测是指在多处理器服务器工作时，由BIOS负责底层故障监控。

3.  根据权利要求1所述的一种多处理器服务器的系统容错方法，其特征在于：所述步骤二种的故障级别是指CPU发出的警报信号持续三十秒有效，这里的警报信号是指CPU在温度过高时主动释放的。

4.  根据权利要求1所述的一种多处理器服务器的系统容错方法，其特征在于：所述步骤三中的配置降级是指系统停止与故障CPU通信，并将故障CPU从系统中安全卸载。

说明书

说明书一种多处理器服务器的系统容错方法

技术领域
本发明涉及计算机技术领域，具体的说是一种多处理器服务器的系统容错方法。
背景技术
随着服务器事业的飞速发展，多处理器服务器早已成为市场上的主流，目前4路服务器，8路服务器，甚至通过节点控制器扩展的16路及32服务器也已经屡见不鲜；不过单机互联的处理器数量越多，可能导致的问题就越多，以4路服务器为例，假设单CPU故障率为0.01%，那么4路整机CPU故障率则为0.04%；如果8路服务器使用相同品质的CPU，则整机CPU故障率则提升至0.08%；可以这样说，系统越复杂，出现故障的概率就越高。
面对多处理器服务器这样构造如此复杂的产品，有的厂商采取部件冗余的办法，如采用CPU冗余，采用n个CPU做备份，正常状态下只有N-n个CPU在工作，极大的浪费了系统配置资源。
发明内容
本发明的技术任务是解决现有技术的不足，提供一种多处理器服务器的系统容错方法。
本发明的技术方案是按以下方式实现的，该一种多处理器服务器的系统容错方法，其具体过程为：
步骤一、系统侦测处理器故障，并上报给监控管理单元；
步骤二、监控管理单元对故障进行分析判断，达到一定的故障级别后，向系统发出中断请求；
步骤三、系统接收中断后，根据事先制定的容错策略进行配置降级，
上述步骤针对的是多处理器服务器。
作为优选，所述步骤一中的系统侦测是指在多处理器服务器工作时，由BIOS负责底层故障监控。进而有效避免由局部问题发展成全局问题。
进一步的，所述步骤二种的故障级别是指CPU发出的警报信号持续三十秒有效，这里的警报信号是指CPU在温度过高时主动释放的。
作为优选，所述步骤三中的配置降级是指系统停止与故障CPU通信，并将故障CPU从系统中安全卸载。
本发明与现有技术相比所产生的有益效果是：
本发明的一种多处理器服务器的系统容错方法针对多路服务器，在正常状态下CPU全部工作，只有在系统遭遇处理器故障时，才根据故障状况，降级配置；这样即不会浪费配置资源，同时也可以保证整机的可靠性，实用性强，易于推广。
附图说明
附图1是本发明的实现流程图。
附图2是实施例降级前的8路拓扑图。
附图3是实施例降级后的6路拓扑图。
附图4是实施例降级后的4路拓扑图。
具体实施方式
下面对本发明的一种多处理器服务器的系统容错方法作详细说明。
如附图1所示，现提供一种多处理器服务器的系统容错方法，当多处理器服务器遭遇个别处理器故障，并达到一定程度时，系统主动降级进行容错。系统停止与故障CPU通信，并将故障CPU从系统中安全卸载，避免由局部问题发展成全局问题。这种容错设计是以降低配置为代价，提升系统可靠性。其具体过程为：
步骤一、系统侦测处理器故障，并上报给监控管理单元。
步骤二、监控管理单元对故障进行分析判断，达到一定的故障级别后，向系统发出中断请求。
根据CPU自身特性，CPU在温度过高时会释放thermal alert信号，同时降频降压，以降低自身温度，但CPU在thermal alert过程中会不断发出中断，系统在不停处理此类中断信息，导致系统变慢。故这里制定的策略是如在thermal alert持续30秒有效，则需要触发降级机制。
步骤三、系统接收中断后，根据事先制定的容错策略进行配置降级，上述步骤针对的是多处理器服务器。
具体降级实施例如附图2、图3、图4所示，图2为降级前的拓扑，包括八路拓扑，图3、图4为降级后的拓扑，分别表示六路拓扑和四路拓扑。
CPU发生严重错误时，会触发Error1信号，如果不能及时修正，系统会自动重启，这里制定的策略是一旦发现Error1信号有效，立即触发降级机制，隔离故障CPU。
此外在CPU访存出现错误，并超过255错误寄存器上限时，无论是CPU本身故障还是本NUMA域中内存故障，这里的策略都要进行降级，以确保系统不会停机。
多处理器服务器正常工作，BIOS负责底层故障监控，一旦发现处理器故障，将故障信息发送给BMC；BMC根据事先制定好的策略对故障信息进行判断；如达到降级条件，则参照降级拓扑结构，将降级命令发送给BIOS，BIOS接到指令，调用CPU热移除模块，执行CPU热移除事件。CPU被热移除，系统实现容错目的，保证不停机稳定工作。
除说明书所述的技术特征外，均为本专业技术人员的公知技术。