《分布式并行任务处理的方法、装置及系统.pdf》由会员分享,可在线阅读,更多相关《分布式并行任务处理的方法、装置及系统.pdf(14页完整版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 104102475 A (43)申请公布日 2014.10.15 CN 104102475 A (21)申请号 201310125254.1 (22)申请日 2013.04.11 G06F 9/38(2006.01) (71)申请人 腾讯科技 (深圳) 有限公司 地址 518000 广东省深圳市福田区振兴路赛 格科技园 2 栋东 403 室 (72)发明人 廖龙 秦晓强 答治茜 罗建国 (74)专利代理机构 北京中博世达专利商标代理 有限公司 11274 代理人 申健 (54) 发明名称 分布式并行任务处理的方法、 装置及系统 (57) 摘要 本发明实施例公开了一种分。
2、布式并行任务处 理的方法、 装置及系统, 涉及计算机技术领域, 解 决了现有技术中的分布式并行任务处理系统的复 杂度较高, 分布式并行任务处理的速度较慢的问 题。所述方法包括 : 接收待处理的数据 ; 将所述待 处理的数据切分为多个数据分片 ; 将所述多个数 据分片分别分配给多个处理节点进行处理 ; 接收 各个处理节点处理后的子结果数据 ; 将所述子结 果数据进行合并, 形成结果数据。 本发明适用于大 数据量的数据的并行处理。 (51)Int.Cl. 权利要求书 2 页 说明书 7 页 附图 4 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书2页 说明书7页 附图4。
3、页 (10)申请公布号 CN 104102475 A CN 104102475 A 1/2 页 2 1. 一种分布式并行任务处理的方法, 其特征在于, 包括 : 接收待处理的数据 ; 将所述待处理的数据切分为多个数据分片 ; 将所述多个数据分片分别分配给多个处理节点进行处理 ; 接收各个处理节点处理后的子结果数据 ; 将所述子结果数据进行合并, 形成结果数据。 2. 根据权利要求 1 所述的分布式并行任务处理的方法, 其特征在于, 所述将所述待处 理的数据切分为多个数据分片的步骤, 包括 : 根据所述处理节点的数量, 将所述待处理的数据切分为多个数据分片 ; 其中, 所述数据 分片的数量与所述。
4、处理节点的数量相同。 3. 根据权利要求 2 所述的分布式并行任务处理的方法, 其特征在于, 所述将所述多个 数据分片分别分配给多个处理节点进行处理的步骤, 包括 : 将所述多个数据分片中的一个数据分片随机分配给一个未获取到数据分片的处理节 点。 4. 根据权利要求 2 所述的分布式并行任务处理的方法, 其特征在于, 所述将所述多个 数据分片分别分配给多个处理节点进行处理的步骤, 包括 : 接收各处理节点的负载信息 ; 根据所述负载信息确定负载最低的处理节点 ; 将所述多个数据分片中的一个数据分片分配给所述负载最低的处理节点。 5. 一种分布式并行任务处理的方法, 其特征在于, 包括 : 接收。
5、控制节点发送的数据分片 ; 其中, 所述数据分片是所述控制节点切分待处理的数 据而得, 所述待处理的数据未被分组和排序 ; 将所述数据分片中的数据进行处理, 形成子结果数据 ; 将所述子结果数据发送给所述控制节点。 6. 根据权利要求 5 所述的分布式并行任务处理的方法, 其特征在于, 所述数据分片包 括多行数据。 7. 根据权利要求 6 所述的分布式并行任务处理的方法, 其特征在于, 所述将所述数据 分片中的数据进行处理, 形成子结果数据的步骤, 包括 : 对所述数据分片中的多行数据进行逐行处理。 8. 根据权利要求 5 所述的分布式并行任务处理的方法, 其特征在于, 所述方法还包括 : 向。
6、所述控制节点发送自身的负载信息 ; 其中, 所述负载信息携带有处理节点的负载。 9. 一种控制节点, 其特征在于, 包括 : 接收单元, 用于接收待处理的数据 ; 切分单元, 用于将所述接收单元接收的所述待处理的数据切分为多个数据分片 ; 分配单元, 用于将所述多个数据分片分别分配给多个处理节点进行处理 ; 所述接收单元, 还用于接收各个处理节点处理后的子结果数据 ; 合并单元, 用于将所述接收单元接收的所述子结果数据进行合并, 形成结果数据。 10. 根据权利要求 9 所述的控制节点, 其特征在于, 所述切分单元, 用于 : 根据所述处理节点的数量, 将所述接收单元接收的所述待处理的数据切分。
7、为多个数据 权 利 要 求 书 CN 104102475 A 2 2/2 页 3 分片 ; 其中, 所述数据分片的数量与所述处理节点的数量相同。 11. 根据权利要求 10 所述的控制节点, 其特征在于, 所述分配单元, 还用于 : 将所述切分单元切分后的所述多个数据分片中的一个数据分片随机分配给一个未获 取到数据分片的处理节点。 12. 根据权利要求 10 所述的控制节点, 其特征在于, 所述控制节点还包括 : 确定单元 ; 所述接收单元, 还用于接收各处理节点的负载信息 ; 所述确定单元, 用于根据所述接收单元接收的负载信息, 确定负载最低的处理节点 ; 所述分配单元, 还用于将所述切分单。
8、元切分后的多个数据分片中的一个数据分片分配 给所述负载最低的处理节点。 13. 一种处理节点, 其特征在于, 包括 : 接收单元, 用于接收控制节点发送的数据分片 ; 其中, 所述数据分片是所述控制节点切 分待处理的数据而得, 所述待处理的数据未被分组和排序 ; 处理单元, 用于将接收单元接收的所述数据分片中的数据进行处理, 形成子结果数 据 ; 发送单元, 用于将所述处理单元形成的子结果数据发送给所述控制节点。 14. 根据权利要求 13 所述的控制节点, 其特征在于, 所述数据分片包括多行数据。 15. 根据权利要求 14 所述的控制节点, 其特征在于, 所述处理单元, 用于 : 对所述数。
9、据分片中的多行数据进行逐行处理。 16. 根据权利要求 13 所述的控制节点, 其特征在于, 所述发送单元, 还用于 : 向所述控制节点发送自身的负载信息 ; 其中, 所述负载信息携带有处理节点的负载。 17. 一种分布式并行任务处理的系统, 其特征在于, 包括控制节点和多个处理节点, 其 中, 所述控制节点, 用于接收待处理的数据, 将所述待处理的数据切分为多个数据分片, 将 所述多个数据分片分别分配给多个处理节点进行处理 ; 所述处理节点, 用于接收所述控制节点发送的数据分片, 将所述数据分片中的数据进 行处理, 形成子结果数据, 并将所述子结果数据发送给所述控制节点 ; 所述控制节点, 。
10、还用于接收各个处理节点处理后的子结果数据, 将所述子结果数据进 行合并, 形成结果数据。 权 利 要 求 书 CN 104102475 A 3 1/7 页 4 分布式并行任务处理的方法、 装置及系统 技术领域 0001 本发明涉及计算机技术领域, 尤其涉及一种分布式并行任务处理的方法、 装置及 系统。 背景技术 0002 当前, 随着计算机技术的发展, 计算机等设备需要处理的数据的数量也越来越大。 目前, 可以通过多台计算机等设备进行数据量较大的数据的并行处理。 一般情况下, 在进行 数据量较大的数据的快速处理时, 需要应用到分布式并行任务处理系统。分布式并行任务 处理系统是一种将不同地点的、。
11、 具有不同功能的或拥有不同数据的多台计算机用通信网络 连接起来, 通过统一管理控制下, 协调地完成信息处理任务的计算机系统。 0003 当前的分布式并行任务处理系统一般具有控制节点和多个处理节点, 控制节点接 收待处理数据, 并将待处理数据首先进行分组、 排序操作, 之后再将分组、 排序后的待处理 数据分给多个处理节点进行处理。在现有技术的分布式并行任务处理中, 均需要对待处理 数据进行分组、 排序操作, 增加了整个分布式并行任务处理系统的复杂度, 使得分布式并行 任务处理的速度较慢。 发明内容 0004 本发明的实施例提供一种分布式并行任务处理的方法、 装置及系统, 能够解决现 有技术中的分。
12、布式并行任务处理系统的复杂度较高, 分布式并行任务处理的速度较慢的问 题。 0005 第一方面, 本发明实施例提供一种分布式并行任务处理的方法, 包括 : 0006 接收待处理的数据 ; 0007 将所述待处理的数据切分为多个数据分片 ; 0008 将所述多个数据分片分别分配给多个处理节点进行处理 ; 0009 接收各个处理节点处理后的子结果数据 ; 0010 将所述子结果数据进行合并, 形成结果数据。 0011 第二方面, 本发明实施例提供一种分布式并行任务处理的方法, 包括 : 0012 接收控制节点发送的数据分片 ; 其中, 所述数据分片是所述控制节点切分待处理 的数据而得, 所述待处理。
13、的数据未被分组和排序 ; 0013 将所述数据分片中的数据进行处理, 形成子结果数据 ; 0014 将所述子结果数据发送给所述控制节点。 0015 第三方面, 本发明实施例提供一种控制节点, 包括 : 0016 接收单元, 用于接收待处理的数据 ; 0017 切分单元, 用于将所述接收单元接收的所述待处理的数据切分为多个数据分片 ; 0018 分配单元, 用于将所述多个数据分片分别分配给多个处理节点进行处理 ; 0019 所述接收单元, 还用于接收各个处理节点处理后的子结果数据 ; 说 明 书 CN 104102475 A 4 2/7 页 5 0020 合并单元, 用于将所述接收单元接收的所述。
14、子结果数据进行合并, 形成结果数据。 0021 第四方面, 本发明实施例提供一种处理节点, 包括 : 0022 接收单元, 用于接收控制节点发送的数据分片 ; 其中, 所述数据分片是所述控制节 点切分待处理的数据而得, 所述待处理的数据未被分组和排序 ; 0023 处理单元, 用于将接收单元接收的所述数据分片中的数据进行处理, 形成子结果 数据 ; 0024 发送单元, 用于将所述处理单元形成的子结果数据发送给所述控制节点。 0025 第五方面, 本发明实施例提供一种分布式并行任务处理的系统, 包括控制节点和 多个处理节点, 其中, 0026 所述控制节点, 用于接收待处理的数据, 将所述待处。
15、理的数据切分为多个数据分 片, 将所述多个数据分片分别分配给多个处理节点进行处理 ; 0027 所述处理节点, 用于接收所述控制节点发送的数据分片, 将所述数据分片中的数 据进行处理, 形成子结果数据, 并将所述子结果数据发送给所述控制节点 ; 0028 所述控制节点, 还用于接收各个处理节点处理后的子结果数据, 将所述子结果数 据进行合并, 形成结果数据。 0029 本发明提供的分布式并行任务处理的方法、 装置及系统, 控制节点接收待处理的 数据, 将所述待处理的数据切分为多个数据分片, 将所述多个数据分片分别分配给多个处 理节点进行处理, 并接收各个处理节点处理后的子结果数据, 将所述子结。
16、果数据进行合并, 形成结果数据。 而在现有技术中, 控制节点在接收到待处理的数据, 需要先对待处理的数据 进行分组和排序, 在一些不需要数据分组排序的场景下, 现有技术的方式增加了整个分布 式并行任务处理系统的复杂度, 使得分布式并行任务处理的速度较慢。而本发明提供的分 布式并行任务处理的方式无需对待处理的数据进行分组和排序, 能够降低整个分布式并行 任务处理系统的复杂度, 可以提升分布式并行任务处理的速度。 附图说明 0030 为了更清楚地说明本发明实施例或现有技术中的技术方案, 下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍, 显而易见地, 下面描述中的附图仅仅是本 发明的一。
17、些实施例, 对于本领域普通技术人员来讲, 在不付出创造性劳动的前提下, 还可以 根据这些附图获得其他的附图。 0031 图 1 为本发明实施例提供的分布式并行任务处理的方法的流程图一 ; 0032 图 2 为本发明实施例提供的分布式并行任务处理的方法的流程图二 ; 0033 图 3 为本发明又一实施例提供的分布式并行任务处理的方法的流程图 ; 0034 图 4 为本发明实施例提供的控制节点的结构示意图一 ; 0035 图 5 为本发明实施例提供的控制节点的结构示意图二 ; 0036 图 6 为本发明实施例提供的处理节点的结构示意图 ; 0037 图 7 为本发明实施例提供的分布式并行任务处理的。
18、系统的结构示意图。 具体实施方式 0038 下面将结合本发明实施例中的附图, 对本发明实施例中的技术方案进行清楚、 完 说 明 书 CN 104102475 A 5 3/7 页 6 整地描述, 显然, 所描述的实施例仅仅是本发明一部分实施例, 而不是全部的实施例。基于 本发明中的实施例, 本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他 实施例, 都属于本发明保护的范围。 0039 为使本发明技术方案的优点更加清楚, 下面结合附图和实施例对本发明作详细说 明。 0040 如图 1 所示, 本发明实施例提供的分布式并行任务处理的方法, 从控制节点侧进 行阐述, 所述方法包括 : 00。
19、41 101、 接收待处理的数据。 0042 在分布式并行任务中, 所述待处理的数据的数据量一般较大, 数据量的大小一般 在 1 万亿字节 (Terabyte, 简称 TB) 以上, 但不仅局限于此。 0043 102、 将所述待处理的数据切分为多个数据分片。 0044 其中, 所述待处理的数据可以按照所述处理节点的数量进行切分为数据分片, 所 述数据分片的数量与所述处理节点的数量相同, 且各个数据分片存储的数据的大小可以相 同, 但不仅局限于此。 0045 103、 将所述多个数据分片分别分配给多个处理节点进行处理。 0046 将所述多个数据分片分别分配给多个处理节点进行处理可以是按照各个处。
20、理节 点的负载信息来分配, 在每次分配时将多个数据分片中的一个数据分片分配给负载最低的 处理节点 ; 另外, 还可以将所述多个数据分片中的一个数据分片随机分配给一个未获取到 数据分片的处理节点, 但不仅局限于此, 将所述多个数据分片分别分配给多个处理节点进 行处理还可以有其他多种方式, 此处不再一一列举。 0047 104、 接收各个处理节点处理后的子结果数据。 0048 其中, 所述子结果数据是所述处理节点处理后形成的, 所述处理节点可以对其获 取到的数据分片进行逐行读取并处理, 每行的数据之间独立无关, 使得在处理节点上进行 的运算逻辑能够在多行数据上同时执行。 0049 105、 将所述。
21、子结果数据进行合并, 形成结果数据。 0050 其中, 所述控制节点可以将各个处理节点返回的子结果数据进行合并, 形成结果 数据。所述结果数据可以存储数据库等, 以供后续的数据分析应用。 0051 本发明实施例提供的分布式并行任务处理的方法, 控制节点接收待处理的数据, 将所述待处理的数据切分为多个数据分片, 将所述多个数据分片分别分配给多个处理节点 进行处理, 并接收各个处理节点处理后的子结果数据, 将所述子结果数据进行合并, 形成结 果数据。 而在现有技术中, 控制节点在接收到待处理的数据, 需要先对待处理的数据进行分 组和排序, 在一些不需要数据分组排序的场景下, 现有技术的方式增加了整。
22、个分布式并行 任务处理系统的复杂度, 使得分布式并行任务处理的速度较慢。而本发明提供的分布式并 行任务处理的方式无需对待处理的数据进行分组和排序, 能够降低整个分布式并行任务处 理系统的复杂度, 提升了分布式并行任务处理的速度。 0052 与控制节点对应的另一侧为处理节点侧, 如图 2 所示, 本发明实施例提供的分布 式并行任务处理的方法, 从处理节点侧进行阐述, 包括 : 0053 201、 接收控制节点发送的数据分片。 0054 所述数据分片的来源是控制节点接收到的待处理的数据。 所述待处理的数据未经 说 明 书 CN 104102475 A 6 4/7 页 7 过控制节点的分组和排序, 。
23、直接被所述控制节点进行切分而形成了所述数据分片。 0055 202、 将所述数据分片中的数据进行处理, 形成子结果数据。 0056 所述处理节点可以对其获取到的数据分片进行逐行读取并处理, 每行的数据之间 独立无关, 使得在处理节点上进行的运算逻辑能够在多行数据上同时执行。 0057 203、 将所述子结果数据发送给所述控制节点。 0058 上述步骤 203 的目的是在各个处理节点处理数据分片后的子结果数据均到达控 制节点后, 由所述控制节点进行合并, 形成结果数据。 0059 本发明实施例提供的分布式并行任务处理的方法, 处理节点接收数据分片, 其中, 所述数据分片是所述控制节点切分待处理的。
24、数据而得, 所述待处理的数据未被分组和排 序, 所述处理节点对数据分片进行处理形成子结果数据, 再将子结果数据发送给所述控制 节点。 而在现有技术中, 控制节点在接收到待处理的数据, 需要先对待处理的数据进行分组 和排序, 在一些不需要数据分组排序的场景下, 现有技术的方式增加了整个分布式并行任 务处理系统的复杂度, 使得分布式并行任务处理的速度较慢。而本发明提供的分布式并行 任务处理的方式无需对待处理的数据进行分组和排序, 能够降低整个分布式并行任务处理 系统的复杂度, 可以提升分布式并行任务处理的速度。 0060 下面针对图 1 或图 2 所示的方法进行详细说明及进一步扩展 : 0061 。
25、如图 3 所示, 本发明又一实施例提供的分布式并行任务处理的方法, 包括 : 0062 301、 控制节点接收待处理的数据。 0063 在分布式并行任务中, 所述待处理的数据的数据量一般较大, 数据量的大小一般 在1万亿字节(Terabyte, 简称TB)以上, 但不仅局限于此。 例如, 所述待处理的数据可以是 某应用程序在一天内的登陆信息, 所述登陆信息中包括该应用程序下的账户的上线时间, 下线时间等, 但不仅局限于此。 0064 302、 所述控制节点根据所述处理节点的数量, 将所述待处理的数据切分为多个数 据分片。在步骤 302 之后, 可以执行步骤 303 或者步骤 304。 0065。
26、 其中, 所述待处理的数据可以按照所述处理节点的数量进行切分为数据分片, 所 述数据分片的数量与所述处理节点的数量相同, 且各个数据分片存储的数据的大小可以相 同, 但不仅局限于此。 0066 303、 控制节点将所述多个数据分片中的一个数据分片随机分配给一个未获取到 数据分片的处理节点, 直到多个数据分片分配完毕。之后, 继续执行步骤 308。 0067 为了保证每个处理节点的负载不会过大, 需要对所述数据分片进行合理分配, 具 体可以对数据分片进行随机分配, 并在处理节点已经接受到数据分片后, 将不会再次接受 到该待处理数据的数据分片。 0068 304、 处理节点将其自身的负载信息发送给。
27、控制节点。之后执行步骤 305-306。 0069 同样的, 为了能够合理分配所述数据分片, 还可以根据各个处理节点的负载的大 小来进行分配。所述负载信息中即携带有处理节点处的负载。 0070 305、 控制节点根据接收到的各个处理节点的负载信息, 根据所述负载信息确定负 载最低的处理节点。 0071 具体的, 在所述控制节点获取到各个处理节点的负载信息后, 由于所述负载信息 中携带有处理节点的负载, 因此能够获知到负载最低的处理节点。 说 明 书 CN 104102475 A 7 5/7 页 8 0072 306、 控制节点将所述多个数据分片中的一个数据分片分配给所述负载最低的处 理节点。继。
28、续执行步骤 307。 0073 这样, 在多个数据分片中的每个数据分片进行分配时, 均能够分配给负载最低的 处理节点, 使得数据分片的分配较为均衡, 保证了处理节点的负载均衡。 0074 307、 控制节点判断所述多个数据分片是否分配完毕。若所述数据分片分配完毕, 执行步骤 308, 否则返回执行步骤 304。 0075 308、 处理节点对所述数据分片中的多行数据进行逐行处理, 形成子结果数据。 0076 所述处理节点可以对其获取到的数据分片进行逐行读取并处理, 每行的数据之间 独立无关, 使得在处理节点上进行的运算逻辑能够在多行数据上同时执行。 0077 以上述的待处理的数据是某应用程序在。
29、一天内的登陆信息为例, 若需要筛选出某 一时刻的在线账户, 则所述登陆信息可以被所述控制节点切分为数据分片, 由各个处理节 点继续处理, 根据登陆信息中的各个账户的上线时间和下线时间, 筛选出在某一时刻在线 的账户。由于多个处理节点同时进行筛选, 筛选出某一时刻的在线账户的速度也较快。 0078 309、 处理节点将所述子结果数据发送给所述控制节点。 0079 310、 控制节点将所述子结果数据进行合并, 形成结果数据。 0080 值得说明的是, 本发明实施例中的控制节点和处理节点均可以是计算机等具有运 算能力的电子设备。 0081 本发明又一实施例提供的分布式并行任务处理的方法, 控制节点接。
30、收待处理的数 据, 将所述待处理的数据切分为多个数据分片, 并将所述多个数据分片分别分配给多个处 理节点进行处理, 并接收各个处理节点处理后的子结果数据, 并将所述子结果数据进行合 并, 形成结果数据。而在现有技术中, 控制节点在接收到待处理的数据, 需要先对待处理的 数据进行分组和排序, 在一些不需要数据分组排序的场景下, 现有技术的方式增加了整个 分布式并行任务处理系统的复杂度, 使得分布式并行任务处理的速度较慢。而本发明提供 的分布式并行任务处理的方式无需对待处理的数据进行分组和排序, 能够降低整个分布式 并行任务处理系统的复杂度, 可以提升分布式并行任务处理的速度。 0082 参考上述。
31、图 1 及图 3 所示的方法的实现, 如图 4 所示, 本发明实施例提供的控制节 点, 包括 : 0083 接收单元 41, 用于接收待处理的数据。 0084 切分单元 42, 用于将所述接收单元 41 接收的所述待处理的数据切分为多个数据 分片。 0085 分配单元 43, 用于将所述多个数据分片分别分配给多个处理节点进行处理。 0086 所述接收单元 41, 还用于接收各个处理节点处理后的子结果数据。 0087 合并单元 44, 用于将所述接收单元 41 接收的所述子结果数据进行合并, 形成结果 数据。 0088 具体的, 如图 5 所示, 所述切分单元 42, 用于 : 0089 根据所。
32、述处理节点的数量, 将所述接收单元 41 接收的所述待处理的数据切分为 多个数据分片。 0090 其中, 所述数据分片的数量与所述处理节点的数量相同。 0091 进一步的, 如图 5 所示, 所述分配单元 43, 还用于 : 说 明 书 CN 104102475 A 8 6/7 页 9 0092 将所述切分单元 42 切分后的所述多个数据分片中的一个数据分片随机分配给一 个未获取到数据分片的处理节点。 0093 进一步的, 如图 5 所示, 所述控制节点还包括 : 确定单元 45。 0094 所述接收单元 41, 还用于接收各处理节点的负载信息。 0095 所述确定单元 45, 用于根据所述接。
33、收单元 41 接收的负载信息, 确定负载最低的处 理节点。 0096 所述分配单元 43, 还用于将所述切分单元 42 切分后的多个数据分片中的一个数 据分片分配给所述负载最低的处理节点。 0097 值得说明的是, 本发明实施例提供的控制节点的具体实现方式可以参见图 3 中的 分布式并行任务处理的方法的具体实现方式, 此处不再赘述。所述控制节点可以是计算机 等具有运算能力的电子设备。 0098 本发明实施例提供的控制节点, 控制节点接收待处理的数据, 将所述待处理的数 据切分为多个数据分片, 并将所述多个数据分片分别分配给多个处理节点进行处理, 并接 收各个处理节点处理后的子结果数据, 并将所。
34、述子结果数据进行合并, 形成结果数据。 而在 现有技术中, 控制节点在接收到待处理的数据, 需要先对待处理的数据进行分组和排序, 在 一些不需要数据分组排序的场景下, 现有技术的方式增加了整个分布式并行任务处理系统 的复杂度, 使得分布式并行任务处理的速度较慢。而本发明提供的分布式并行任务处理的 方式无需对待处理的数据进行分组和排序, 能够降低整个分布式并行任务处理系统的复杂 度, 可以提升分布式并行任务处理的速度。 0099 参考上述图 2 及图 3 所示的方法的实现, 如图 6 所示, 本发明实施例提供的处理节 点, 包括 : 0100 接收单元 51, 用于接收控制节点发送的数据分片。 。
35、0101 其中, 所述数据分片是所述控制节点切分待处理的数据而得, 所述待处理的数据 未被分组和排序。 0102 处理单元 52, 用于将接收单元 51 接收的所述数据分片中的数据进行处理, 形成子 结果数据。 0103 发送单元 53, 用于将所述处理单元 52 形成的子结果数据发送给所述控制节点。 0104 值得说明的是, 所述数据分片包括多行数据。 0105 如图 6 所示, 所述处理单元 52, 具体用于 : 0106 对所述数据分片中的多行数据进行逐行处理。 0107 具体的, 如图 6 所示, 所述发送单元 53, 还用于 : 0108 向所述控制节点发送负载信息。其中, 所述负载。
36、信息携带有处理节点的负载。 0109 值得说明的是, 本发明实施例提供的处理节点的具体实现方式可以参见图 3 中的 分布式并行任务处理的方法的具体实现方式, 此处不再赘述。所述处理节点可以是计算机 等具有运算能力的电子设备。 0110 本发明实施例提供的处理节点, 处理节点接收数据分片, 其中, 所述数据分片是所 述控制节点切分待处理的数据而得, 所述待处理的数据未被分组和排序, 所述处理节点对 数据分片进行处理形成子结果数据, 再将子结果数据发送给所述控制节点。而在现有技术 中, 控制节点在接收到待处理的数据, 需要先对待处理的数据进行分组和排序, 在一些不需 说 明 书 CN 104102。
37、475 A 9 7/7 页 10 要数据分组排序的场景下, 现有技术的方式增加了整个分布式并行任务处理系统的复杂 度, 使得分布式并行任务处理的速度较慢。而本发明提供的分布式并行任务处理的方式无 需对待处理的数据进行分组和排序, 能够降低整个分布式并行任务处理系统的复杂度, 可 以提升分布式并行任务处理的速度。 0111 如图 7 所示, 本发明实施例提供的分布式并行任务处理的系统, 包括控制节点 61 和多个处理节点 62, 其中, 0112 所述控制节点 61, 用于接收待处理的数据, 将所述待处理的数据切分为多个数据 分片, 将所述多个数据分片分别分配给多个处理节点 62 进行处理 ; 。
38、0113 所述处理节点 62, 用于接收所述控制节点 61 发送的数据分片, 将所述数据分片中 的数据进行处理, 形成子结果数据, 并将所述子结果数据发送给所述控制节点 61 ; 0114 所述控制节点 61, 还用于接收各个处理节点 62 处理后的子结果数据, 将所述子结 果数据进行合并, 形成结果数据。 0115 值得说明的是, 本发明实施例提供的分布式并行任务处理的系统的具体实现方式 可以参见图 3 中的分布式并行任务处理的方法的具体实现方式, 此处不再赘述。 0116 本发明实施例提供的分布式并行任务处理的系统, 控制节点接收待处理的数据, 将所述待处理的数据切分为多个数据分片, 并将。
39、所述多个数据分片分别分配给多个处理节 点进行处理, 并接收各个处理节点处理后的子结果数据, 并将所述子结果数据进行合并, 形 成结果数据。 而在现有技术中, 控制节点在接收到待处理的数据, 需要先对待处理的数据进 行分组和排序, 在一些不需要数据分组排序的场景下, 现有技术的方式增加了整个分布式 并行任务处理系统的复杂度, 使得分布式并行任务处理的速度较慢。而本发明提供的分布 式并行任务处理的方式无需对待处理的数据进行分组和排序, 能够降低整个分布式并行任 务处理系统的复杂度, 可以提升分布式并行任务处理的速度。 0117 通过以上的实施方式的描述, 所属领域的技术人员可以清楚地了解到本发明可。
40、借 助软件加必需的通用硬件的方式来实现, 当然也可以通过硬件, 但很多情况下前者是更佳 的实施方式。基于这样的理解, 本发明的技术方案本质上或者说对现有技术做出贡献的部 分可以以软件产品的形式体现出来, 该计算机软件产品存储在可读取的存储介质中, 如计 算机的软盘, 硬盘或光盘等, 包括若干指令用以使得一台计算机设备 ( 可以是个人计算机, 服务器, 或者网络设备等 ) 执行本发明各个实施例所述的方法。 0118 以上所述, 仅为本发明的具体实施方式, 但本发明的保护范围并不局限于此, 任何 熟悉本技术领域的技术人员在本发明揭露的技术范围内, 可轻易想到变化或替换, 都应涵 盖在本发明的保护范围之内。 因此, 本发明的保护范围应所述以权利要求的保护范围为准。 说 明 书 CN 104102475 A 10 1/4 页 11 图 1 图 2 说 明 书 附 图 CN 104102475 A 11 2/4 页 12 图 3 图 4 说 明 书 附 图 CN 104102475 A 12 3/4 页 13 图 5 图 6 说 明 书 附 图 CN 104102475 A 13 4/4 页 14 图 7 说 明 书 附 图 CN 104102475 A 14 。