基于实时计算框架的数据处理方法和系统.pdf

上传人：000****221

文档编号：6380664

上传时间：2019-06-05

格式：PDF

页数：14

大小：848.15KB

《基于实时计算框架的数据处理方法和系统.pdf》由会员分享，可在线阅读，更多相关《基于实时计算框架的数据处理方法和系统.pdf（14页完整版）》请在专利查询网上搜索。

本发明涉及一种基于实时计算框架的数据处理方法和系统，所述方法包括：控制节点发起事务并生成对应的事务标识，根据所述事务标识发送事务命令消息到第一工作节点；所述第一工作节点根据所述事务命令消息从指定的数据源中拉取一批数据；第一工作节点将所述数据的元数据对应所述事务标识进行存储，并将所述数据发送给第二工作节点；所述第二工作节点对所述数据进行处理，根据所述事务标识将所述数据的处理结果提交到数据库，所述处理。

摘要
申请专利号：	CN201510338373.4	申请日：	2015.06.17
公开号：	CN104951306A	公开日：	2015.09.30
当前法律状态：	授权	有效性：	有权
法律详情：	授权\|\|\|实质审查的生效 IPC(主分类):G06F 9/44申请日:20150617\|\|\|公开
IPC分类号：	G06F9/44	主分类号：	G06F9/44
申请人：	深圳市腾讯计算机系统有限公司
发明人：	杜冲; 谢贵明; 徐钊; 陈志军
地址：	518000广东省深圳市南山区高新区高新南一路飞亚达大厦5-10楼
优先权：
专利代理机构：	广州华进联合专利商标代理有限公司44224	代理人：	何平; 邓云鹏
PDF完整版下载：	PDF下载

内容摘要

本发明涉及一种基于实时计算框架的数据处理方法和系统，所述方法包括：控制节点发起事务并生成对应的事务标识，根据所述事务标识发送事务命令消息到第一工作节点；所述第一工作节点根据所述事务命令消息从指定的数据源中拉取一批数据；第一工作节点将所述数据的元数据对应所述事务标识进行存储，并将所述数据发送给第二工作节点；所述第二工作节点对所述数据进行处理，根据所述事务标识将所述数据的处理结果提交到数据库，所述处理结果包含有所述事务标识的字段。本发明相对于传统的数据处理方法，可以保证数据不丢失且不会被重复处理，可靠性高。

权利要求书

权利要求书
1.  一种基于实时计算框架的数据处理方法，所述方法包括：
控制节点发起事务并生成对应的事务标识，根据所述事务标识发送事务命令消息到第一工作节点；
所述第一工作节点根据所述事务命令消息从指定的数据源中拉取一批数据；
第一工作节点将所述数据的元数据对应所述事务标识进行存储，并将所述数据发送给第二工作节点；
所述第二工作节点对所述数据进行处理，根据所述事务标识将所述数据的处理结果提交到数据库，所述处理结果包含有所述事务标识的字段。

2.  根据权利要求1所述的方法，其特征在于，所述生成对应的事务标识的步骤中所生成的事务标识与上一次生成的事务标识之间是递增关系；
所述第二工作节点根据所述事务标识将所述数据的处理结果提交到数据库的步骤，包括：
第二工作节点检测所述事务标识是否大于最近一次提交的处理结果所包含的事务标识，若是，则提交所述数据的处理结果，否则，不提交所述数据的处理结果。

3.  根据权利要求1所述的方法，其特征在于，所述方法还包括：
当所述数据的处理结果提交到数据库的过程发生失败时，所述第二工作节点根据所述事务标识通知所述控制节点；
所述控制节点控制所述第一工作节点根据所述事务标识重新从指定的数据源中拉取所述数据。

4.  根据权利要求3所述的方法，其特征在于，所述控制节点控制所述第一工作节点根据所述事务标识重新从指定的数据源中拉取所述数据的步骤，包括：
所述控制节点根据所述事务标识获取对应的元数据，并将所述元数据发送到所述第一工作节点；
所述第一工作节点根据所述元数据重新从指定的数据源中拉取所述数据。

5.  根据权利要求4所述的方法，其特征在于，所述第二工作节点根据所述事务标识将所述数据的处理结果提交到数据库的步骤之后，还包括：
所述第二工作节点根据所述事务标识通知所述控制节点处理结果提交成功；
所述控制节点根据所述事务标识获取对应的元数据；
所述控制节点根据所述元数据向指定的数据源发送确认信息以实现从数据源拉取下一批数据。

6.  一种基于实时计算框架的数据处理系统，所述系统包括：
控制节点，用于发起事务并生成对应的事务标识，根据所述事务标识发送事务命令消息；
第一工作节点，用于接收所述控制节点发送的事务命令消息并根据所述事务命令消息从指定的数据源中拉取一批数据；
所述第一工作节点还用于将所述数据对应的元数据对应所述事务标识进行存储；
第二工作节点，用于接收所述第一工作节点拉取的数据，对所述数据进行处理，根据所述事务标识将所述数据的处理结果提交到数据库，所述处理结果包含有所述事务标识的字段；
数据库，用于存储所述第二工作节点提交的所述数据的处理结果。

7.  根据权利要求6所述的系统，其特征在于，所述控制节点生成对应的事务标识与上一次生成的事务标识之间是递增关系；
所述第二工作节点用于检测所述事务标识是否大于最近一次提交的处理结果所包含的事务标识，若是，则将所述数据的处理结果提交至所述数据库，否则，不将所述数据的处理结果提交到所述数据库。

8.  根据权利要求6所述的系统，其特征在于，所述第二工作节点还用于在所述数据的处理结果提交到数据库的过程发生失败时，根据所述事务标识通知所述控制节点；
所述控制节点还用于控制所述第一工作节点根据所述事务标识重新从指定的数据源中拉取所述数据。

9.  根据权利要求8所述的系统，其特征在于，所述控制节点用于根据所述事务标识获取对应的元数据，并将所述元数据发送到所述第一工作节点，控制所述第一工作节点根据所述元数据重新从指定的数据源中拉取所述数据。

10.  根据权利要求9所述的系统，其特征在于，所述第二工作节点还用于在根据所述事务标识将所述数据的处理结果提交到数据库之后根据所述事务标识通知所述控制节点处理结果提交成功；
所述控制节点还用于根据所述事务标识获取对应的元数据，并根据所述元数据向指定的数据源发送确认信息以实现从数据源拉取下一批数据。

说明书

说明书基于实时计算框架的数据处理方法和系统
技术领域
本发明涉及网络数据处理领域，特别是涉及一种基于实时计算框架的数据处理方法和系统。
背景技术
随着互联网技术的快速发展，数据处理的需求也不断增多。数据的价值随着时间流逝而流逝，如果数据能够被实时采集、传输、处理并且反过来对线上系统产生正反馈(例如对在线系统的模型参数进行修正)，那么数据的价值能够被发挥到最大。因此，对数据进行实时计算的相关技术也就应运而生。
现有的各种实时计算数据的系统大多数面向于高吞吐量、低时延的设计目标，对于数据可靠性不能提供保证，或者只能提供较弱的保证。而在一些业务场景中，存在一些重要性很高的数据需要被实时处理，例如需要实时计算报表的扣费数据、实时更新系统模型的参数等。因此，传统的实时计算系统不能满足于可靠的实时数据处理的需求。
传统的实时计算框架中，保证可靠性的实时数据处理通常也只能保证数据不丢失，但很可能数据会被处理多次，也就是存在重复的数据处理。虽然有一些数据被重复处理多次对处理结果没有影响。例如，更新通信用户的头像信息到Key-Value系统中，以通信号码为key，头像信息为value，如果每次采用覆盖更新的方式，那么数据被多次更新到Key-Value是没有影响的。但对于报表这种计算操作来说，数据则不能被重复处理，否则会影像处理结果。
发明内容
基于此，有必要针对上述技术问题，提供一种可以保证数据不丢失且不会被重复处理的基于实时计算框架的数据处理方法和系统。
一种基于实时计算框架的数据处理方法，所述方法包括：
控制节点发起事务并生成对应的事务标识，根据所述事务标识发送事务命令消息到第一工作节点；
所述第一工作节点根据所述事务命令消息从指定的数据源中拉取一批数据；
第一工作节点将所述数据的元数据对应所述事务标识进行存储，并将所述数据发送给第二工作节点；
所述第二工作节点对所述数据进行处理，根据所述事务标识将所述数据的处理结果提交到数据库，所述处理结果包含有所述事务标识的字段。
一种基于实时计算框架的数据处理系统，所述系统包括：
控制节点，用于发起事务并生成对应的事务标识，根据所述事务标识发送事务命令消息；
第一工作节点，用于接收所述控制节点发送的事务命令消息并根据所述事务命令消息从指定的数据源中拉取一批数据；
所述第一工作节点还用于将所述数据对应的元数据对应所述事务标识进行存储；
第二工作节点，用于接收所述第一工作节点拉取的数据，对所述数据进行处理，根据所述事务标识将所述数据的处理结果提交到数据库，所述处理结果包含有所述事务标识的字段；
数据库，用于存储所述第二工作节点提交的所述数据的处理结果。
上述基于实时计算框架的数据处理方法和系统，通过在控制节点发起事务并生成对应的事务标识，根据所述事务标识发送事务命令消息到第一工作节点，第一工作节点根据所述事务命令消息从指定的数据源中拉取数据，然后将所述数据的元数据对应所述事务标识进行存储，并将所述数据发送给第二工作节点，第二工作节点对所述数据进行处理，并根据所述事务标识将所述数据的处理结果提交到数据库，所述处理结果包含有所述事务标识的字段，这样当数据处理失败时还可以根据所述事务标识获取到元数据以实现重新拉取其对应的数据，不会丢失数据；另外，第二工作节点在提交所述数据的处理结果时只要比较事务标识就能判断该数据的处理结果是否提交过，从而很好地避免了所述数据的处理结果的重复提交，相对于传统的数据处理方法，可靠性高。
附图说明
图1为一实施例中基于实时计算框架的数据处理方法实现的应用环境图；
图2为一个实施例中Storm集群框图；
图3为一个实施例中计算框架的内部结构图；
图4为一个实施例中基于实时计算框架的数据处理方法的流程示意图；
图5为一个实施例中第二工作节点根据事务标识将数据的处理结果提交到数据库的具体流程图；
图6为第二工作节点根据事务标识将数据的处理结果提交到数据库之后的具体流程图；
图7为一个实施例中基于实时计算框架的数据处理系统的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。
可以理解，本发明所使用的术语“第一”、“第二”等可在本文中用于描述各种元件，但这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。
如图1所示，为一个实施例中基于实时计算框架的数据处理方法实现的应用环境图。该应用环境包括业务服务器102、消息队列104、计算框架106以及数据库108。其中业务服务器102可以是直接产生业务数据的计算机，也可以是对业务数据进行转发的一个中介服务器等。业务数据可以是各种请求数据、广告刷新数据等等。
消息队列104从业务终端102接入业务数据时会将业务数据转换为分布式消息队列。计算框架106从消息队列104中拉取数据进行处理，并将数据的处理结果更新到数据库108中。只要数据库108通知计算框架106数据的处理结果存储成功，那么数据就持久化了，不会丢失。
计算框架106以批量的方式处理数据，并且给每一批数据分配唯一的事务标识，事务标识与前一次生成的事务标识是递增关系。数据的元数据以及对应的事务标识会被存储起来，元数据信息可以用来从消息队列104中重新读取该批数据。计算框架106保证数据处理的结果按顺序提交至数据库108中。在一个实施例中，数据库108是Key-Value分布式存储系统。
在一个实施例中，图1中的计算框架106为基于Storm的集群。Storm的集群框图如图2所示。
Storm是由Twitter公司开源的实时计算系统，它具备实时、分布式、高度容错等特点。Storm本质上是一个由处理者和消息队列组成的消息处理网络，提供了一系列实时计算的原语，让开发人员从复杂的消息队列维护、故障检测、集群管理等事务中脱离出来，而专注于业务功能的开发。
Storm集群包括一个控制节点202和多个工作节点206。控制节点202和工作节点206之间通过协调管理集群(zookeeper)204进行协调。
具体地，控制节点202运行着一个用于代码分发、任务分配以及对工作节点206状态进行监控、故障处理等的后台程序。工作节点206运行着一个用于监听控制节点202是否有发送的任务并启动或者关闭工作进程的后台程序。协调管理集群204负责工作节点206和控制节点202之间的协调。工作节点206和控制节点202的状态保存在协调管理集群204中，这样使得进程意外死亡的情况下可以迅速重启。
在一个实施例中，图1中的计算框架的内部结构图如图2所示。该计算框架包括控制节点、协调管理集群、第一工作节点以及第二工作节点。控制节点是整个计算框架的控制中心，第一工作节点用于从指定的数据源(例如数据库、文件、日志系统等)中拉取数据，并发送给第二工作节点进行处理。第二工作节点可以完成很多工作，比如：过滤、聚合、访问文件或数据库等。第二工作节点从第一工作节点中接收数据并进行处理，如果遇到复杂数据的处理，第二工作节点也可能将自己处理后的结果发送给另一个第二工作节点进行后续处理。一个第二工作节点可以将数据传给多个第二工作节点，也可以接收来自多个第一工作节点或第二工作节点传来的数据。对每个第一工作节点和第二工作节点进行并行度设置，在处理能力不足的时候，可以通过提高并行度进行扩展。
如图4所示，为一个实施例中基于实时计算框架的数据处理方法的流程图。图4中的基于实时计算框架的数据处理方法以运行于图3中的计算框架进行举例说明。所述方法包括如下步骤：
步骤S402：控制节点发起事务并生成对应的事务标识，根据事务标识发送事务命令消息到第一工作节点。
具体地，从业务终端接入的数据都是需要通过计算框架处理并更新到数据库中，而数据库是需要控制节点发起事务才会数据进行处理。控制节点在发起事务时会生成一个对应的事务标识，然后根据事务标识发送事务命令消息到第一工作节点。
第一工作节点有多个，控制节点会以事务标识作为关键字计算其哈希值，并将哈希值相同的事务标识存储到同一个第一工作节点中，这样保证了同一个事务命令消息即使被发送多次也会被发送到同一个第一工作节点中。
步骤S404：第一工作节点根据事务命令消息从指定的数据源中拉取一批数据。
具体地，当控制节点发送事务命令消息之后，第一工作节点便会从指定的数据源中拉取一批数据。在一个实施例中，指定的数据源是指包含各种业务数据的消息队列。
数据源为分布式消息队列，这样第一工作节点从数据源中拉取数据时，只需要连接到数据源即可，不需要进行繁琐的重启和插入等操作，可提高拉取数据的灵活性。
步骤S406：第一工作节点将数据的元数据对应事务标识进行存储，并将数据发送给第二工作节点。
具体地，每一批数据都有对应的元数据。元数据(Metadata)又称中介数据或中继数据，为描述数据的数据(data about data)。元数据主要是用来描述数据属性(property)的信息，支持如指示存储位置、历史数据、资源查找、文件记录等功能。
将数据的元数据对应事务标识进行存储，使得数据、元数据以及事务标识三者之间存在一一映射关系。这样通过事务标识就可以获取到对应的元数据，根据元数据就可以回到指定的数据源中重新拉取对应的数据。
在一个实施例中，数据的元数据对应事务标识存储在协调管理集群(Zookeeper)中。
步骤S408：第二工作节点对数据进行处理，根据事务标识将数据的处理结果提交到数据库。
具体地，当其中一个或多个第一工作节点所拉取的数据的元数据进行存储以后，第一工作节点便会将数据发送给第二工作节点进行处理，最后根据事务标识将数据的处理结果提交到数据库。
处理结果包含有事务标识的字段。通过比较每批数据对应的事务标识以保证数据的处理结果提交的顺序，同时还可以在对数据的处理结果进行提交时达到去重的效果。
在一个实施例中，控制节点每次生成的事务标识相对于其前一次生成的事务标识是递增的。例如，控制节点前一次生成的事务标识为N，那么之后生成的事务标识便为N+1。如果事务标识为N所对应的数据的处理结果还没有提交成功，控制节点是不会控制工作节点提交事务标识为N+1所对应的数据的处理结果。
上述基于实时计算框架的数据处理方法和系统，通过在控制节点发起事务并生成对应的事务标识，根据所述事务标识发送事务命令消息到第一工作节点，第一工作节点根据所述事务命令消息从指定的数据源中拉取数据，然后将所述数据的元数据对应所述事务标识进行存储，并将所述数据发送给第二工作节点，第二工作节点对所述数据进行处理，并根据所述事务标识将所述数据的处理结果提交到数据库，所述处理结果包含有所述事务标识的字段，这样当数据处理失败时还可以根据所述事务标识获取到元数据以实现重新拉取其对应的数据，不会丢失数据；另外，第二工作节点在提交所述数据的处理结果时只要比较事务标识就能判断该数据的处理结果是否提交过，从而很好地避免了所述数据的处理结果的重复提交，相对于传统的数据处理方法，可靠性高。
如图5所示，在一个实施例中，第二工作节点根据事务标识将数据的处理结果提交到数据库的步骤包括：
步骤S502：第二工作节点检测事务标识是否大于最近一次提交的处理结果所包含的事务标识，若是，则执行步骤S504，若否，则执行步骤S506。
具体地，控制节点生成对应的事务标识与上一次生成的事务标识之间是递增关系。如果需要提交的数据的处理结果对应的事务标识为N+1，而最近一次提交的处理结果所包含的事务标识为N，则说明当前提交的数据的处理结果还没有提交过，直接执行步骤S504提交数据的处理结果；如果需要提交的数据的处理结果对应的事务标识为N，而最近一次提交的处理结果所包含的事务标识也为N，则说明当前提交的数据的处理结果是已经提交过的，直接执行步骤S506以避免重复提交。理论上不会存在需要提交的数据的处理结果对应的事务标识小于最近一次提交的处理结果所包含的事务标识号，因为这是由实时计算框架的内部机制保证的。
步骤S504：提交数据的处理结果。
步骤S506：不提交数据的处理结果。
在一个实施例中，该基于实时计算框架的数据处理方法还包括如下步骤：当数据的处理结果提交到数据库的过程发生失败时，第二工作节点向控制节点根据事务标识通知所述控制节点；控制节点控制第一工作节点根据事务标识重新从指定的数据源中拉取所述数据。
具体地，当控制节点接收到第二工作节点发送的故障信息时，便会根据事务标识获取到对应的元数据，并将元数据发送到第一工作节点，然后再控制第一工作节点根据元数据重新从指定的数据源中拉取该批数据。
请参照图6，为第二工作节点根据事务标识将数据的处理结果提交到数据库之后的具体流程图。
步骤S602：第二工作节点根据事务标识通知控制节点处理结果提交成功。
具体地，当第二工作节点根据事务标识将数据的处理结果提交到数据库之后，第二工作节点便会通知控制节点处理结果提交成功，同时第二工作结点还会通知控制节点相应的事务标识。
步骤S604：控制节点根据事务标识获取对应的元数据。
具体地，元数据都是对应事务标识进行存储时，因此，控制节点可以根据事务标识直接获取对应的元数据。
步骤S606：控制节点根据元数据向指定的数据源发送确认信息以实现从数据源拉取下一批数据。
具体地，控制节点在获取元数据之后，就会向数据源发送确认信息，表示元数据对应的数据已经处理完毕并且成功提交到数据库中了。这样，数据源中用于指定数据的游标就会后移，以便于第一工作节点下次根据事务命令消息拉取数据时可以拉取下一批数据。
下面通过具体应用场景来说明上述基于实时计算框架的数据处理方法的原理，该应用场景以图3中计算框架为例进行说明。
如图3所示，控制节点是整个实时计算框架的控制中心，第一工作节点用于从消息队列中拉取数据，第二工作节点用于对第一工作节点拉取的数据进行处理。控制节点负责发送事务命令消息、控制第一工作节点从消息队列中拉取数据，确认数据是否被成功处理，在数据处理成功后，向消息队列发送确认信息；对于数据处理失败的情况，控制节点会重新发送事务命令消息去读回该批数据。控制节点发起事务并生成新的事务标识，根据事务标识发送事务命令消息到其中一个第一工作节点后，第一工作节点会从消息队列中拉取数据。如果第一工作节点从消息队列中拉取数据成功，则会将数据的元数据对应事务标识存储到协调管理集群中。
存储完元数据之后，第一工作节点会发送数据到第二工作节点以进行数据处理。第二工作节点是可以进行并行事务处理的工作节点，第二工作节点分为两类：一类第二工作节点不涉及对外部存储状态的改变，在处理完数据之后会将数据的处理结果汇总到另一类第二工作节点中。一般需要更新外部存储状态的动作都会放在另一类第二工作节点中进行。当数据的处理结果汇总之后，控制节点会向第二工作节点下发事务提交命令。第二工作节点将数据的处理结果成功地提交到数据库之后并会向控制节点反馈一个包含事务标识的成功提交信息，控制节点根据事务标识从协调管理集群中获取该事务标识对应的元数据，并根据元数据向消息队列发送确认信息。这样消息队列中用于指定数据的游标就会后移，以便于第一工作节点下次根据事务命令消息拉取数据时可以拉取下一批数据。
进一步地，事务标识、元数据、数据三者之间是一一对应的关系，如果第二工作节点进行数据处理失败时或第二工作节点提交数据失败时，可以根据事务标识从协调管理集群中获取数据对应的元数据，进而根据元数据从消息队列中重新拉取到该批数据。如果拉取数据失败，则记录空的元数据。
为了提高性能，数据处理分为处理阶段和确认阶段，处理阶段可以并行计算，而确认阶段必须按顺序提交事务。一般一批数据内部进行过滤、计数、合并等操作、不涉及对外部存储状态进行更新的操作放在处理阶段，因为处理阶段是并行的，所以可以同时进行多批数据的处理。涉及到对外部存储状态进行更新的操作，则需要放在确认阶段，某个事务需要等处理阶段处理完成，并且前一个事务已经提交成功，则进入确认阶段，事务状态的控制转换都是由控制节点来协调。
无论是在处理阶段还是在确认阶段，事务失败(例如写数据库发生失败)，第二工作节点可以向控制节点发送故障信息以通知控制节点该批数据处理失败，控制节点会进入到异常处理流程，从协调管理集群中获取元数据，并根据元数据重放该批数据，继而进行后续处理，直到事务提交成功为止。
在分布式系统中，常常还存在着“超时”状态，这时无法获知相应的处理是否成功了，有可能处理已经成功，只是回包的确认消息有延时，导致超时；也可能是机器或进程挂掉，根本没有进行相应的处理。在一个实施例中，将“超时”当作失败状态进行处理，如果在设定的超时时间内，尚未明确的获得该事务处理成功的消息，那么当作该事务失败来处理，同样会进行数据回放。
无论是故障信息通知失败还是超时导致的失败，进行数据回放的时候，如果数据处理过程不是幂等性的，那么有可能导致数据重复。在一个实施例中，数据库为Key-Value分布式存储系统。
在设计Key-Value格式时，需要在Value中增加事务ID字段，该字段代表最近提交处理结果的事务ID号，每次数据的处理结果进行提交时，都需要对Value中的事务ID字段进行更新。
举例说明，第一工作节点从指定的数据源中拉取的是一批广告数据，广告数据包括有广告项目号，控制节点会给每一批广告数据生成一个唯一对应的事务标识，以便于在处理数据时不重复提交。如果计算框架需要计算的是广告的点击量，那么数据库中存储的数据结果是以广告项目号为Key，广告的点击量为Value进行存储，且Value中包含有事务标识的字段。广告项目号便于从数据库中检索到相应的广告点击量。
如图7所示，在一个实施例中，提供了一种基于实时计算框架的数据处理系统700，具有实现上述各个实施例的基于实时计算框架的数据处理方法的功能。该基于实时计算框架的数据处理系统700包括控制节点702、第一工作节点704、第二工作节点706、数据库708。
控制节点702用于发起事务并生成对应的事务标识，根据事务标识发送事务命令消息。
第一工作节点704用于接收控制节点702发送的事务命令消息并根据事务命令消息从指定的数据源中拉取一批数据。
第一工作节点704还用于将数据对应的元数据对应事务标识进行存储。
第二工作节点706用于接收第一工作节点704拉取的数据，对数据进行处理，根据事务标识将数据的处理结果提交到数据库708，处理结果包含有事务标识的字段；
数据库708，用于存储第二工作节点706提交的数据的处理结果。
在一个实施例中，控制节点生成对应的事务标识与上一次生成的事务标识之间是递增关系。
第二工作节点706用于检测事务标识是否大于最近一次提交的处理结果所包含的事务标识，若是，则将数据的处理结果提交至数据库708，否则，不将数据的处理结果提交到数据库708。
在一个实施例中，第二工作节点706还用于在数据的处理结果提交到数据库708的过程发生失败时，根据事务标识通知控制节点702。
控制节点702还用于控制第一工作节点704根据事务标识重新从指定的数据源中拉取数据。
具体地，控制节点702用于根据事务标识获取对应的元数据，并将元数据发送到第一工作节点704，控制第一工作节点704根据元数据重新从指定的数据源中拉取数据。
在一个实施例中，第二工作节点706还用于在根据事务标识将数据的处理结果提交到数据库708之后根据事务标识通知控制节点702处理结果提交成功。
控制节点702还用于根据事务标识获取对应的元数据，并根据元数据向指定的数据源发送确认信息以实现从数据源拉取下一批数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。
以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。