书签 分享 收藏 举报 版权申诉 / 6

一种多处理器服务器的系统容错方法.pdf

  • 上传人:t****
  • 文档编号:4911223
  • 上传时间:2018-11-26
  • 格式:PDF
  • 页数:6
  • 大小:746.02KB
  • 摘要
    申请专利号:

    CN201310363559.6

    申请日:

    2013.08.20

    公开号:

    CN103425545A

    公开日:

    2013.12.04

    当前法律状态:

    撤回

    有效性:

    无权

    法律详情:

    登录超时

    IPC分类号:

    G06F11/07; G06F9/50

    主分类号:

    G06F11/07

    申请人:

    浪潮电子信息产业股份有限公司

    发明人:

    李博乐; 林楷智

    地址:

    250101 山东省济南市高新区舜雅路1036号

    优先权:

    专利代理机构:

    代理人:

    PDF完整版下载: PDF下载
    内容摘要

    本发明提供一种多处理器服务器的系统容错方法,其具体过程为:系统侦测处理器故障,并上报给监控管理单元;监控管理单元对故障进行分析判断,达到一定的故障级别后,向系统发出中断请求;系统接收中断后,根据事先制定的容错策略进行配置降级,上述步骤针对的是多处理器服务器。该一种多处理器服务器的系统容错方法和现有技术相比,以降低配置为代价,提升系统可靠性,实用性强,易于推广。

    权利要求书

    权利要求书
    1.  一种多处理器服务器的系统容错方法,其特征在于其具体过程为:
    步骤一、系统侦测处理器故障,并上报给监控管理单元;
    步骤二、监控管理单元对故障进行分析判断,达到一定的故障级别后,向系统发出中断请求;
    步骤三、系统接收中断后,根据事先制定的容错策略进行配置降级,
    上述步骤针对的是多处理器服务器。

    2.  根据权利要求1所述的一种多处理器服务器的系统容错方法,其特征在于:所述步骤一中的系统侦测是指在多处理器服务器工作时,由BIOS负责底层故障监控。

    3.  根据权利要求1所述的一种多处理器服务器的系统容错方法,其特征在于:所述步骤二种的故障级别是指CPU发出的警报信号持续三十秒有效,这里的警报信号是指CPU在温度过高时主动释放的。

    4.  根据权利要求1所述的一种多处理器服务器的系统容错方法,其特征在于:所述步骤三中的配置降级是指系统停止与故障CPU通信,并将故障CPU从系统中安全卸载。

    说明书

    说明书一种多处理器服务器的系统容错方法
     
    技术领域
        本发明涉及计算机技术领域,具体的说是一种多处理器服务器的系统容错方法。
    背景技术
    随着服务器事业的飞速发展,多处理器服务器早已成为市场上的主流,目前4路服务器,8路服务器,甚至通过节点控制器扩展的16路及32服务器也已经屡见不鲜;不过单机互联的处理器数量越多,可能导致的问题就越多,以4路服务器为例,假设单CPU故障率为0.01%,那么4路整机CPU故障率则为0.04%;如果8路服务器使用相同品质的CPU,则整机CPU故障率则提升至0.08%;可以这样说,系统越复杂,出现故障的概率就越高。
    面对多处理器服务器这样构造如此复杂的产品,有的厂商采取部件冗余的办法,如采用CPU冗余,采用n个CPU做备份,正常状态下只有N-n个CPU在工作,极大的浪费了系统配置资源。
    发明内容
    本发明的技术任务是解决现有技术的不足,提供一种多处理器服务器的系统容错方法。
    本发明的技术方案是按以下方式实现的,该一种多处理器服务器的系统容错方法,其具体过程为:
    步骤一、系统侦测处理器故障,并上报给监控管理单元;
    步骤二、监控管理单元对故障进行分析判断,达到一定的故障级别后,向系统发出中断请求;
    步骤三、系统接收中断后,根据事先制定的容错策略进行配置降级,
    上述步骤针对的是多处理器服务器。
    作为优选,所述步骤一中的系统侦测是指在多处理器服务器工作时,由BIOS负责底层故障监控。进而有效避免由局部问题发展成全局问题。
    进一步的,所述步骤二种的故障级别是指CPU发出的警报信号持续三十秒有效,这里的警报信号是指CPU在温度过高时主动释放的。
    作为优选,所述步骤三中的配置降级是指系统停止与故障CPU通信,并将故障CPU从系统中安全卸载。
    本发明与现有技术相比所产生的有益效果是:
    本发明的一种多处理器服务器的系统容错方法针对多路服务器,在正常状态下CPU全部工作,只有在系统遭遇处理器故障时,才根据故障状况,降级配置;这样即不会浪费配置资源,同时也可以保证整机的可靠性,实用性强,易于推广。
    附图说明
    附图1是本发明的实现流程图。
    附图2是实施例降级前的8路拓扑图。
    附图3是实施例降级后的6路拓扑图。
    附图4是实施例降级后的4路拓扑图。
    具体实施方式
    下面对本发明的一种多处理器服务器的系统容错方法作详细说明。
    如附图1所示,现提供一种多处理器服务器的系统容错方法,当多处理器服务器遭遇个别处理器故障,并达到一定程度时,系统主动降级进行容错。系统停止与故障CPU通信,并将故障CPU从系统中安全卸载,避免由局部问题发展成全局问题。这种容错设计是以降低配置为代价,提升系统可靠性。其具体过程为:
    步骤一、系统侦测处理器故障,并上报给监控管理单元。
    步骤二、监控管理单元对故障进行分析判断,达到一定的故障级别后,向系统发出中断请求。
    根据CPU自身特性,CPU在温度过高时会释放thermal alert信号,同时降频降压,以降低自身温度,但CPU在thermal alert过程中会不断发出中断,系统在不停处理此类中断信息,导致系统变慢。故这里制定的策略是如在thermal alert持续30秒有效,则需要触发降级机制。
    步骤三、系统接收中断后,根据事先制定的容错策略进行配置降级,上述步骤针对的是多处理器服务器。
    具体降级实施例如附图2、图3、图4所示,图2为降级前的拓扑,包括八路拓扑,图3、图4为降级后的拓扑,分别表示六路拓扑和四路拓扑。
    CPU发生严重错误时,会触发Error1信号,如果不能及时修正,系统会自动重启,这里制定的策略是一旦发现Error1信号有效,立即触发降级机制,隔离故障CPU。
    此外在CPU访存出现错误,并超过255错误寄存器上限时,无论是CPU本身故障还是本NUMA域中内存故障,这里的策略都要进行降级,以确保系统不会停机。
    多处理器服务器正常工作,BIOS负责底层故障监控,一旦发现处理器故障,将故障信息发送给BMC;BMC根据事先制定好的策略对故障信息进行判断;如达到降级条件,则参照降级拓扑结构,将降级命令发送给BIOS,BIOS接到指令,调用CPU热移除模块,执行CPU热移除事件。CPU被热移除,系统实现容错目的,保证不停机稳定工作。
    除说明书所述的技术特征外,均为本专业技术人员的公知技术。

    关 键  词:
    一种 处理器 服务器 系统 容错 方法
      专利查询网所有文档均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    0条评论

    还可以输入200字符

    暂无评论,赶快抢占沙发吧。

    关于本文
    本文标题:一种多处理器服务器的系统容错方法.pdf
    链接地址:https://www.zhuanlichaxun.net/p-4911223.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
    经营许可证编号:粤ICP备2021068784号-1