《一种自适应大规模集群通信系统及其通信方法.pdf》由会员分享,可在线阅读,更多相关《一种自适应大规模集群通信系统及其通信方法.pdf(8页完整版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 102917068 A (43)申请公布日 2013.02.06 C N 1 0 2 9 1 7 0 6 8 A *CN102917068A* (21)申请号 201210417706.9 (22)申请日 2012.10.26 H04L 29/08(2006.01) (71)申请人浪潮(北京)电子信息产业有限公司 地址 100085 北京市海淀区上地信息路2号 2-1号C栋1层 (72)发明人范明彬 王静 王通 (74)专利代理机构北京安信方达知识产权代理 有限公司 11262 代理人栗若木 曲鹏 (54) 发明名称 一种自适应大规模集群通信系统及其通信方 法 (57。
2、) 摘要 本发明公开了一种自适应大规模集群通信系 统及其通信方法,涉及大规模集群中分布式文件 系统。本发明公开的方法包括:自适应大规模集 群通信系统实时获取本系统的网络通信往返时间 (IRTT)T IRTT 和服务器处理时间T service ,根据实时获 取的T IRTT 和T service 实时更新超时阈值T 超时阈值 ,按 照更新的超时阈值进行超时处理操作。本发明还 公开了一种自适应大规模集群通信系统。本申请 技术方案节约了系统开销,提高了通信质量,并实 现集群的最优化,提高集群系统的响应性、并发性 和可靠性。 (51)Int.Cl. 权利要求书1页 说明书5页 附图1页 (19)中华。
3、人民共和国国家知识产权局 (12)发明专利申请 权利要求书 1 页 说明书 5 页 附图 1 页 1/1页 2 1.一种自适应大规模集群通信系统的通信方法,其特征在于,该方法包括: 自适应大规模集群通信系统实时获取本系统的网络通信往返时间(IRTT)T IRTT 和服务 器处理时间T service ,根据实时获取的T IRTT 和T service 实时更新超时阈值T 超时阈值 ,按照更新的超 时阈值进行超时处理操作。 2.如权利要求1所述的方法,其特征在于,根据实时获取的T IRTT 和T service 实时更新超 时阈值指按照如下公式实时计算超时阈值T 超时阈值 : T 超时阈值 T 。
4、IRTT +T service ; 其中,为大于等于1的正数。 3.如权利要求2所述的方法,其特征在于, 所述的取值范围为:1.31.1。 4.如权利要求1至3任一项所述的方法,其特征在于,根据实时获取的T IRTT 和T service 实时更新超时阈值的过程如下: 实时获取T IRTT 和T service ,若实时获取的T IRTT 与前一次获取的T IRTT 发生变化,和/或实 时获取的T service 与前一次获取的T service 发生变化,则根据实时获取的T IRTT 和T service 更新超 时阈值。 5.如权利要求4所述的方法,其特征在于, 所述T IRTT 的值为从。
5、客户端发出请求到达服务器的时间T seq 与从服务器端返回的数据包 到达客户端的时间T ack 的和。 6.一种自适应大规模集群通信系统,其特征在于,该系统包括: 第一模块,实时获取本系统的网络通信往返时间(IRTT)T IRTT 和服务器处理时间 T service ; 第二模块,根据实时获取的T IRTT 和T service 实时更新超时阈值,按照更新的超时阈值进行 超时处理操作。 7.如权利要求6所述的系统,其特征在于,所述第二模块按照如下公式实时计算超时 阈值T 超时阈值 : T 超时阈值 T IRTT +T service ; 其中,为大于等于1的正数。 8.如权利要求7所述的系统。
6、,其特征在于, 所述的取值范围为:1.31.1。 9.如权利要求6至8任一项所述的系统,其特征在于, 所述第二模块,在所述第一模块实时获取的T IRTT 与前一次获取的T IRTT 发生变化,和/或 所述第一模块实时获取的T service 与前一次获取的T service 发生变化,则根据实时获取的T IRTT 和T service 更新超时阈值。 10.如权利要求9所述的系统,其特征在于, 所述第一模块所获取的T IRTT 的值为从客户端发出请求到达服务器的时间T seq 与从服务 器端返回的数据包到达客户端的时间T ack 的和。 权 利 要 求 书CN 102917068 A 1/5页。
7、 3 一种自适应大规模集群通信系统及其通信方法 技术领域 0001 本发明涉及大规模集群中分布式文件系统,具体涉及一种自适应大规模集群通信 系统及其通信方法。 背景技术 0002 随着时代的发展,信息爆炸逐渐成为人们争相谈论的热门话题,面对如此庞大的 信息,如何对某些特种数据进行高效提取和处理,也被提上日程,并成为计算机发展的主要 方向之一。据统计,在全球计算能力最强大的500台计算机中,基于集群架构的硬件系统已 经增至500个,集群所占的比重已经超过了70,集群系统已经成为构建高性能计算机系 统的主流体系结构之一,并有向超大规模发展的趋势。由此可见,随着信息量的增加,集群 技术尤其超大规模集。
8、群技术在高性能计算领域和信息处理领域有着旺盛的生命力和广阔 的发展前景。 0003 随着超大规模集群(分布式文件系统)技术的发展,人们对其要求也越来越高,尤 其是在处理海量数据时,我们会对网络通信、系统负载、磁盘IO提出更高的要求以满足各 种性能需求。这些集群系统大多采用了客户端服务器模型。而集群系统中的各个节点之间 的通信大多以远程过程调用(remote produce call,简称RPC)或者类远程过程调用的方式 进行的。在基于RPC或类RPC构建的分布式集群系统中,数据包丢失、网络连接失败和节点 故障等失效情况会导致系统的可靠性问题。由此会引起其他的系统故障,从而降低系统的 性能,并妨。
9、碍作业的正常进行。 0004 如何及时发现并精确定位系统中的失效是保证集群系统高可靠性需解决的关键 问题。如果通信失效或者系统故障未能及时有效检测出来,将会严重影响系统的响应性和 可用性;反之,若系统经常发生虚假警报,则会导致错误的修复行动或者处理方式,降低系 统的可用性,同时可能会给系统带来无法挽回的损失。 0005 因此,在集群系统尤其是超大规模集群系统应用中,在实现RPC或者类RPC的通信 协议时,如何有效的检测通信失效是一个需要密切关注的问题。超时是一种常用且必须的 失效检测手段,它通常与一个远程过程调用绑定在一起。在网络通信中,大多数通信协议都 是用超时来检测失效,这种检测机制对于底。
10、层传输协议不可靠的RPC协议尤为重要,因而, 超时检测机制直接影响到集群中的基于RPC或类RPC构建的分布式系统中的很多方面,特 别是响应性、可靠性和稳定性等,从而导致集群性能降低。 发明内容 0006 本发明所要解决的技术问题是,提供一种自适应大规模集群通信系统及其通信方 法,以提高集群系统的可靠性。 0007 为了解决上述技术问题,本发明公开了一种自适应大规模集群通信系统的通信方 法,包括: 0008 自适应大规模集群通信系统实时获取本系统的网络通信往返时间(IRTT)T IRTT 和 说 明 书CN 102917068 A 2/5页 4 服务器处理时间T service ,根据实时获取的。
11、T IRTT 和T service 实时更新超时阈值T 超时阈值 ,按照更新 的超时阈值进行超时处理操作。 0009 较佳地,上述方法中,根据实时获取的T IRTT 和T service 实时更新超时阈值指按照如下 公式实时计算超时阈值T 超时阈值 : 0010 T 超时阈值 T IRTT +T service ; 0011 其中,为大于等于1的正数。 0012 较佳地,上述方法中,所述的取值范围为:1.31.1。 0013 较佳地,上述方法中,根据实时获取的T IRTT 和T service 实时更新超时阈值的过程如 下: 0014 实时获取T IRTT 和T service ,若实时获取的。
12、T IRTT 与前一次获取的T IRTT 发生变化,和/或 实时获取的T service 与前一次获取的T service 发生变化,则根据实时获取的T IRTT 和T service 更新 超时阈值。 0015 较佳地,上述方法中,所述T IRTT 的值为从客户端发出请求到达服务器的时间T seq 与 从服务器端返回的数据包到达客户端的时间T ack 的和。 0016 本发明还公开了一种自适应大规模集群通信系统,包括: 0017 第一模块,实时获取本系统的网络通信往返时间(IRTT)T IRTT 和服务器处理时间 T service ; 0018 第二模块,根据实时获取的T IRTT 和T 。
13、service 实时更新超时阈值,按照更新的超时阈值 进行超时处理操作。 0019 较佳地,上述系统中,所述第二模块按照如下公式实时计算超时阈值T 超时阈值 : 0020 T 超时阈值 T IRTT +T service ; 0021 其中,为大于等于1的正数。 0022 较佳地,上述系统中,所述的取值范围为:1.31.1。 0023 较佳地,上述系统中,所述第二模块,在所述第一模块实时获取的T IRTT 与前一次获 取的T IRTT 发生变化,和/或所述第一模块实时获取的T service 与前一次获取的T service 发生变 化,则根据实时获取的T IRTT 和T service 更新。
14、超时阈值。 0024 较佳地,上述系统中,所述第一模块所获取的T IRTT 的值为从客户端发出请求到达 服务器的时间T seq 与从服务器端返回的数据包到达客户端的时间T ack 的和。 0025 本申请技术方案节约了系统开销,提高了通信质量,并实现集群的最优化,提高集 群系统的响应性、并发性和可靠性。 附图说明 0026 图1为本实施例提供的自适应大规模集群通信系统通信流程示意图; 0027 图2为本实施例提供的自适应大规模集群通信系统通信原理示意图。 具体实施方式 0028 为使本发明的目的、技术方案和优点更加清楚明白,下文将结合附图对本发明技 术方案作进一步详细说明。需要说明的是,在不冲。
15、突的情况下,本申请的实施例和实施例中 的特征可以任意相互组合。 说 明 书CN 102917068 A 3/5页 5 0029 实施例1 0030 现有技术一般以固定值作为通信超时阈值以进行处理,但本申请发明人发现此种 方案忽略了系统的实时状态,可靠性较差。因此,本申请发明人提出,综合考虑服务器节点 负载、并发情况以及系统故障等因素,动态更新当前运行环境下的最优超时阈值,根据该超 时阈值的大小减少或增加通信机制时间。即在客户端与服务器交互过程中,通过不断地传 递网络通信往返时间(internet round trip time,IRTT)T IRTT 和服务器处理时间T service 这 两。
16、个时间参数,客户端不断更新参数值,并动态更新超时值,从而能够根据网络情况和系统 负载自适应地调整超时值。 0031 基于上述思想,本实施例提供一种自适应大规模集群通信系统的通信方法,该方 法的实现过程如下: 0032 自适应大规模集群通信系统实时获取本系统的网络通信往返时间(internet round trip time,IRTT)T IRTT 和服务器处理时间T service ,根据实时获取的T IRTT 和T service 实时 更新超时阈值,按照更新的超时阈值进行超时处理操作。 0033 其中,可以按照如下公式实时计算超时阈值T 超时阈值 : 0034 T 超时阈值 T IRTT 。
17、+T service ; 0035 申请人通过实验发现的取值范围过大,就会使得系统超时时间过长,系统节点 故障后,会导致响应缓慢;若的取值过小(例如小于1),则会产生连接超时而中断,导致 数据包重传等不必要的操作,从而降低系统性能。因此,本实施例中,为大于等于1的正 数。优选地,推荐的取值范围为:1.31.1。 0036 还要说明的是,根据实时获取的T IRTT 和T service 实时更新超时阈值指,当实时获取的 T IRTT 和T service 中的任一或两个值发生变化时(即实时获取的T IRTT 与上一次获取的T IRTT 发生 变化,和/或实时获取的T service 与上一次获取。
18、的T service 发生变化),才根据实时获取的T IRTT 和T service 更新超时阈值。而对于T IRTT 和T service 的获取方式有很多种,可以是周期地实时获 取,也可以根据系统状态实时获取(即系统状态发生变化时即刻获取),还可以是根据用户 需求等任意时刻获取。 0037 而本文中所涉及到的T IRTT 和服务器处理时间T service 可通过任意方式来获取。例 如,T IRTT 的值可以为从客户端发出请求到达服务器的时间T seq 与从服务器端返回的数据包 到达客户端的时间T ack 的和。此时,自适应大规模集群通信系统的工作原理如图1所示。当 然本领域技术人员也可以。
19、按照其他方式计算获取T IRTT 和T service 。 0038 下面参照图2,就如何根据实时获取的网络通信往返时间(internet round trip time,简称IRTT)T IRTT 和服务器处理时间T service 通信的过程进行详细说明。具体地,该自适 应大规模集群通信系统的通信过程包括如下步骤100至步骤400。 0039 步骤100:通过时间服务器同步自适应大规模集群通信系统中客户端和服务器双 方节点的时间,保证其一致性。 0040 步骤200:计算网络通信往返时间IRTT。 0041 该步骤中,网络通信往返时间T IRTT 指从客户端发出请求到达服务器的时间T se。
20、q 和 从服务器端返回的数据包到达客户端的时间T ack 的和。即: 0042 T IRTT T seq +T ack 0043 T seq t sa -t cs 说 明 书CN 102917068 A 4/5页 6 0044 T ack t ca -t ss 0045 其中、t ca 、t ss 分别为服务器端接收时刻,客户端发送时刻,客户端接收时刻和服务 器发送时刻。因此网络通信往返时间可以简单的理解为:信息在传输过程中所消耗的时间。 0046 步骤300:计算服务器处理时间。 0047 该步骤中,服务器处理时间T service 是指客户端发出的请求信息(数据)到达服务 器的时t sa 。
21、,直至服务器端返回ack或者数据的时刻t ss ,这之间的时间称之为服务器处理时 间。即服务器处理时间可以简单的理解为:数据包在服务器端停留的时间。 0048 步骤400:计算动态超时阈值。 0049 该步骤中,自适应大规模集群通信系统的超时机制会记录单位时间段内获取的 T IRTT 和T service 时间对,并在该段时间内取其最大值,然后利用如下公式计算其超时阈值: 0050 T 超时阈值 T IRTT +T service 0051 上式中为大于等于1的正数。优选地,推荐的取值范围为:1.31.1。 0052 需要说明的是,上述步骤200、300及400中的计算操作,均可由连接发起方来。
22、执 行。而目前连接发起方一般为客户端。 0053 实施例2 0054 本实施例介绍一种自适应大规模集群通信系统,可实现上述实施例1的方案。该 系统至少包括第一模块和第二模块。 0055 第一模块,实时获取本系统的网络通信往返时间(IRTT)T IRTT 和服务器处理时间 T service 。 0056 第二模块,根据实时获取的T IRTT 和T service 实时更新超时阈值,按照更新的超时阈值 进行超时处理操作。 0057 其中,第二模块可以按照如下公式实时计算超时阈值T 超时阈值 : 0058 T 超时阈值 T IRTT +T service ; 0059 其中,为大于等于1的正数。具。
23、体地,的优选取值范围为:1.31.1。 0060 需要指出的是,第二模块,在第一模块实时获取的T IRTT 和T service 中的任一或两个值 发生变化(即实时获取的T IRTT 与上一次获取的T IRTT 发生变化,和/或实时获取的T service 与 上一次获取的T service 发生变化)时,才根据实时获取的T IRTT 和T service 更新超时阈值。 0061 而对于第一模块,其实时获取T IRTT 和T service 的方式非常灵活,可以是周期地实时获 取,也可以根据系统状态实时获取(即系统状态发生变化时即刻获取),还可以是根据用户 需求等任意时刻获取。其中,第一模块。
24、所获取的T IRTT 的值为从客户端发出请求到达服务器 的时间T seq 与从服务器端返回的数据包到达客户端的时间T ack 的和。第一模块所获取的服 务器处理时间T service 是指客户端发出的请求信息(数据)到达服务器的时t sa ,直至服务器 端返回ack或者数据的时刻t ss 。即服务器处理时间可以简单的理解为:数据包在服务器端 停留的时间。 0062 本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令 相关硬件完成,所述程序可以存储于计算机可读存储介质中,如只读存储器、磁盘或光盘 等。可选地,上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应 地,上述实施例中的各模块/单元可以采用硬件的形式实现,也可以采用软件功能模块的 形式实现。本申请不限制于任何特定形式的硬件和软件的结合。 说 明 书CN 102917068 A 5/5页 7 0063 以上所述,仅为本发明的较佳实例而已,并非用于限定本发明的保护范围。凡在本 发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范 围之内。 说 明 书CN 102917068 A 1/1页 8 图1 图2 说 明 书 附 图CN 102917068 A 。