热替换NC节点的方法及装置技术领域
本发明涉及服务器故障的技术领域,特别是涉及一种热替换NC节点的方法及装
置。
背景技术
随着日常生活中的业务越来越多,越来越复杂,对服务器的性能要求也越来越高,
为提高服务器的性能,单靠提高单个CPU节点的性能已经无法满足人们对服务器性能的要
求,因此需要提高服务器中CPU的路数来提高性能;同时也对服务器的可靠性要求也越来越
高,在服务器日常运转中,一旦服务器停机会对业务带来极大不便,服务器NC节点出现故障
时,尽可能在不停机的情况下,将出现故障的那个NC节点进行热替换。
在服务器领域,系统运行的稳定性和可靠性是非常重要的。人们希望服务器不间
断运行,以便保证商业网站、电信系统和银行系统等的持续运转。由于服务器需要保持不间
断的待机能力,所以热插拔就成为鉴别服务器可用性的关键因素。
发明内容
本发明目的是提供一种热替换NC节点的方法及装置,能够快速方便的,在不停机
的情况下,将出现故障的NC节点进行热替换。
为了实现上述目的,本发明采用以下的技术方案:
本发明提供一种热替换NC节点的方法,包括以下步骤:
在不停机的情况下,将所有NC节点的内存以及节点下CPU管理的内存进行缓存一致性
写回操作;
基本输入输出系统设置同一节点的CPU和其他NC节点,停止向故障NC节点发送数据;
移除并更换故障NC节点。
优选地,在不停机的情况下,将所有NC节点的内存以及节点下CPU管理的内存进行
缓存一致性写回操作之前,还包括:将出现故障的NC节点告知服务器系统。
优选地,通过外部配置的方式,将出现故障的NC节点告知服务器系统。
优选地,在基本输入输出系统设置同一节点的CPU和其他NC节点,停止向故障NC节
点发送数据之后,还包括:基本输入输出系统告知服务器系统,故障NC节点停止运行。
优选地,在移除并更换故障NC节点之后,还包括:将更换后的NC节点进行上电,初
始化更换后的NC节点与其他NC节点间的链路参数以及更换后的NC节点与同一节点的CPU间
的链路参数。
优选地,在将更换后的NC节点进行上电,初始化更换后的NC节点与其他NC节点间
的链路参数以及更换后的NC节点与同一节点的CPU间的链路参数之后,还包括:初始化更换
后的NC节点,将更换后的NC节点添加到服务器系统中。
本发明还提供一种热替换NC节点的装置,包括:
缓存一致性写回操作模块,用于在不停机的情况下,将所有NC节点的内存以及节点下
CPU管理的内存进行缓存一致性写回操作;
CPU设置模块,用于基本输入输出系统设置同一节点的CPU和其他NC节点,停止向故障
NC节点发送数据;
故障NC节点移除更换模块,用于移除并更换故障NC节点。
优选地,还包括:第一告知模块,用于将出现故障的NC节点告知服务器系统;
第二告知模块,用于基本输入输出系统告知服务器系统,故障NC节点停止运行。
优选地,还包括:初始化模块,用于将更换后的NC节点进行上电,初始化更换后的
NC节点与其他NC节点间的链路参数以及更换后的NC节点与同一节点的CPU间的链路参数。
优选地,还包括:更换后的NC节点添加模块,用于初始化更换后的NC节点,将更换
后的NC节点添加到服务器系统中。
与现有技术相比,本发明具有以下优点:
本发明在不停机的情况下,将所有NC节点的内存以及节点下CPU管理的内存进行缓存
一致性写回操作,然后基本输入输出系统设置同一节点的CPU和其他NC节点,停止向故障NC
节点发送数据,移除并更换故障NC节点,最后初始化更换后的NC节点与其他NC节点间的链
路参数以及更换后的NC节点与同一节点的CPU间的链路参数,将更换后的NC节点添加到服
务器系统中。在服务器NC节点出现故障时,在不停机的情况下,将出现故障的NC节点进行热
替换,提高了服务器系统运行的稳定性和可靠性。
上述热替换NC节点的方法的有益效果与热替换NC节点的装置的有益效果类似,此
处不再赘述。
附图说明
图1是本发明实施例一种热替换NC节点的方法的流程示意图;
图2是本发明实施例服务器的结构框图;
图3是本发明实施例一种热替换NC节点的装置的结构示意图。
具体实施方式
为了便于理解,对本发明中出现的部分名词作以下解释说明:
BIOS:基本输入输出系统(Basic Input Output System),它是一组固化到计算机内主
板上一个ROM芯片上的程序,它保存着计算机最重要的基本输入输出的程序、开机后自检程
序和系统自启动程序,它可从CMOS中读写系统设置的具体信息。其主要功能是为计算机提
供最底层的、最直接的硬件设置和控制。
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述:
本实施例提供一种热替换NC节点的方法,包括以下步骤:
在不停机的情况下,将所有NC节点的内存以及节点下CPU管理的内存进行缓存一致性
写回操作;
基本输入输出系统设置同一节点的CPU和其他NC节点,停止向故障NC节点发送数据;
移除并更换故障NC节点。
请参考图1和图2,图1是本发明实施例一种热替换NC节点的方法的流程示意图,图
2是本发明实施例服务器的结构框图,其中Clump指的是节点,图2以服务器16路为例进行说
明,但本发明不仅仅限于16路的使用。
本实施例提供一种热替换NC节点的方法,包括以下步骤:
步骤S101,通过外部配置的方式,将出现故障的NC节点告知服务器系统;
在本实施例中,每个NC节点对应一个拨码开关,NC节点出现故障时,可以通过拨码开关
的方式告知服务器系统出现故障的NC节点。
步骤S102,在不停机的情况下,将所有NC节点的内存以及节点下CPU管理的内存进
行缓存一致性写回操作;
由于NC节点出现故障时,需要进行移除操作,因此将所有NC节点的内存以及节点下CPU
管理的内存进行缓存一致性写回操作,这样保证内存中的数据都是最新的,后面进行移除
故障NC节点时,保证了缓存的一致性。
步骤S103,基本输入输出系统设置同一节点的CPU和其他NC节点,停止向故障NC节
点发送数据;
BIOS设置同一节点的CPU和其他NC节点,不再向故障NC节点发送数据,这样,与故障NC
节点处于同一节点的CPU和故障NC节点的数据链路断开。
步骤S104,基本输入输出系统告知服务器系统,故障NC节点停止运行;
步骤S105,移除并更换故障NC节点;
步骤S106,将更换后的NC节点进行上电,初始化更换后的NC节点与其他NC节点间的链
路参数以及更换后的NC节点与同一节点的CPU间的链路参数;
步骤S107,初始化更换后的NC节点,将更换后的NC节点添加到服务器系统中。
在本实施例中,更换后的NC节点完成与其他NC节点间的链路以及更换后的NC节点
与同一节点的CPU间的链路初始化后,向主CPU节点发送中断,主CPU 节点收到后,初始化更
换后的NC节点,然后将更换后的NC节点添加到服务器系统中。
本发明在不停机的情况下,将所有NC节点的内存以及节点下CPU管理的内存进行
缓存一致性写回操作,然后基本输入输出系统设置同一节点的CPU和其他NC节点,停止向故
障NC节点发送数据,移除并更换故障NC节点,最后初始化更换后的NC节点与其他NC节点间
的链路参数以及更换后的NC节点与同一节点的CPU间的链路参数,将更换后的NC节点添加
到服务器系统中。在服务器NC节点出现故障时,在不停机的情况下,将出现故障的NC节点进
行热替换,提高了服务器系统运行的稳定性和可靠性。
本发明实施例还提供一种热替换NC节点的装置,包括:
缓存一致性写回操作模块,用于在不停机的情况下,将所有NC节点的内存以及节点下
CPU管理的内存进行缓存一致性写回操作;
CPU设置模块,用于基本输入输出系统设置同一节点的CPU和其他NC节点,停止向故障
NC节点发送数据;
故障NC节点移除更换模块,用于移除并更换故障NC节点。
请参考图3,图3是本发明一种热替换NC节点的装置的结构示意图;本实施例提供
一种热替换NC节点的装置,包括:第一告知模块301、缓存一致性写回操作模块302、CPU设置
模块303、第二告知模块304、故障NC节点移除更换模块305、初始化模块306和更换后的NC节
点添加模块307,第一告知模块301依次顺序与缓存一致性写回操作模块302、CPU设置模块
303、第二告知模块304、故障NC节点移除更换模块305、初始化模块306和更换后的NC节点添
加模块307连接。
第一告知模块301,用于将出现故障的NC节点告知服务器系统;
缓存一致性写回操作模块302,用于在不停机的情况下,将所有NC节点的内存以及节点
下CPU管理的内存进行缓存一致性写回操作;
CPU设置模块303,用于基本输入输出系统设置同一节点的CPU和其他NC节点,停止向故
障NC节点发送数据;
第二告知模块304,用于基本输入输出系统告知服务器系统,故障NC节点停止运行;
故障NC节点移除更换模块305,用于移除并更换故障NC节点;
初始化模块306,用于将更换后的NC节点进行上电,初始化更换后的NC节点与其他NC节
点间的链路参数以及更换后的NC节点与同一节点的CPU间的链路参数;
更换后的NC节点添加模块307,用于初始化更换后的NC节点,将更换后的NC节点添加到
服务器系统中。
以上所示仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人
员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应
视为本发明的保护范围。