《有效的备份复制.pdf》由会员分享,可在线阅读,更多相关《有效的备份复制.pdf(13页完整版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 103988201 A (43)申请公布日 2014.08.13 C N 1 0 3 9 8 8 2 0 1 A (21)申请号 201280062095.9 (22)申请日 2012.12.17 13/332474 2011.12.21 US G06F 17/00(2006.01) (71)申请人 EMC 公司 地址美国麻萨诸塞州 (72)发明人 M.黄 (74)专利代理机构中国专利代理(香港)有限公 司 72001 代理人易皎鹤 姜甜 (54) 发明名称 有效的备份复制 (57) 摘要 用于备份复制的系统包括处理器和存储器。 该处理器配置成确定在最近备份中存在、在。
2、之前 的备份中不存在的数据;传送范围规范;并且传 送一个或多个数据段的数据段指纹。存储器耦合 于处理器并且配置成对处理器提供指令。 (30)优先权数据 (85)PCT国际申请进入国家阶段日 2014.06.16 (86)PCT国际申请的申请数据 PCT/US2012/070188 2012.12.17 (87)PCT国际申请的公布数据 WO2013/096230 EN 2013.06.27 (51)Int.Cl. 权利要求书1页 说明书6页 附图5页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书1页 说明书6页 附图5页 (10)申请公布号 CN 103988201 。
3、A CN 103988201 A 1/1页 2 1.一种用于备份复制的系统,包括: 处理器,其配置成: 确定在最近备份中存在、在之前的备份中不存在的数据; 传送范围规范;以及 传送一个或多个数据段的数据段指纹;和 存储器,其耦合于所述处理器并且配置成对所述处理器提供指令。 2.如权利要求1所述的系统,其中所述处理器进一步配置成接收所述最近备份。 3.如权利要求1所述的系统,其中所述处理器进一步配置成接收所述之前的备份。 4.如权利要求1所述的系统,其中数据段指纹包括对于所述一个或多个数据段中的每 个的数据段识别信息。 5.如权利要求1所述的系统,其中使用哈希函数对于所述一个或多个数据段中的每个。
4、 计算数据段指纹。 6.如权利要求1所述的系统,其中所述处理器进一步配置成确定使用所述一个或多个 数据段而实现数据重建的元信息。 7.如权利要求6所述的系统,其中所述处理器进一步配置成传送所述元信息。 8.如权利要求1所述的系统,其中所述处理器进一步配置成接收对于数据段的请求。 9.如权利要求8所述的系统,其中所述处理器进一步配置成响应于所述请求而传送所 述数据段。 10.如权利要求1所述的系统,其中所述处理器进一步配置成确定所述范围规范。 11.如权利要求10所述的系统,其中范围规范包括未改变的数据的区域的描述。 12.如权利要求11所述的系统,其中所述描述包括差异数据位置。 13.如权利要。
5、求11所述的系统,其中所述处理器进一步配置成传送所述描述。 14.如权利要求1所述的系统,其中所述处理器进一步配置成传送校验和。 15.如权利要求14所述的系统,其中所述处理器进一步配置成接收校验和响应。 16.如权利要求15所述的系统,其中所述处理器进一步配置成在所述校验和响应指示 所述校验和失效的情况下重新传送数据段指纹和元信息。 17.如权利要求1所述的系统,其中所述处理器进一步配置成传送元信息。 18.如权利要求17所述的系统,其中所述元信息包括用于使用段来重建文件的信息。 19.一种用于备份复制的方法,包括: 使用处理器来确定在最近备份中存在、在之前的备份中不存在的数据; 传送范围规。
6、范;以及 传送所述一个或多个数据段的数据段指纹。 20.一种用于备份复制的计算机程序产品,所述计算机程序产品嵌入有形的计算机可 读存储介质中并且包括计算机指令用于: 确定在最近备份中存在、在之前的备份中不存在的数据; 传送范围规范;以及 传送所述一个或多个数据段的数据段指纹。 权 利 要 求 书CN 103988201 A 1/6页 3 有效的备份复制 背景技术 0001 一些计算系统备份多个位置中的数据以便提高数据的安全性。备份多个位置中的 数据可以通过使用主备份系统和副本备份系统来实现。每当执行备份时,确定计算系统的 状态,并且当前状态中的所有信息记录到主备份系统中的备份中。在创建主备份系。
7、统中的 备份后,它被复制,例如复制到副本备份系统。一些备份存储系统存储增量备份(其仅包括 自之前的备份的状态改变)和全备份(其包括在做出备份时存储系统的完整状态)两者。一 些备份存储仅存储全备份。 0002 一些数据存储系统使用去重复来压缩数据,例如通过将数据分成块并且每个块仅 存储一次而不管它在原始数据中出现多少次。复制去重复存储系统中的数据可以通过将对 于每个块的识别信息从主备份系统传送到副本备份系统、使用该识别信息来确定哪些块存 储在副本上以及传送确定为还未存储在副本上的数据块来实现。如果已经存储块,不必第 二次将它复制到副本。 0003 因为全备份捕获计算系统的完整状态,它典型地是非常。
8、大的文件,并且复制全备 份需要将大量信息从主备份传送到副本备份。在去重复系统中,尽管比传送整个全备份更 有效,甚至只传送对于全备份的每个数据块的识别信息可以引起相当大的开销并且需要太 多的时间和带宽。 附图说明 0004 本发明的各种实施例在下列详细描述和附图中公开。 0005 图1是图示网络系统的实施例的框图。 0006 图2是图示数据存储系统的实施例的框图。 0007 图3是图示数据求差的实施例的框图。 0008 图4是图示用于有效的备份复制的过程的实施例的流程图。 0009 图5是图示用于创建副本备份文件的过程的实施例的流程图。 具体实施方式 0010 本发明可以采用许多方式实现,包括作。
9、为:过程;设备;系统;物质组成;在计算机 可读存储介质上包含的计算机程序产品;和/或处理器,例如配置成执行存储在存储器(其 耦合于处理器)上和/或由该存储器提供的指令的处理器。在该说明书中,这些实现或本 发明可采取的任何其他形式可称为技术。一般,公开的过程的步骤的顺序可在本发明的范 围内更改。除非另外规定,例如描述为配置成执行任务的处理器或存储器等部件可实现为 暂时配置成在给定时间执行任务的通用部件或被制造来执行任务的特定部件。如本文使用 的,术语处理器指一个或多个装置、电路和/或处理核,其配置成处理例如计算机程序指 令等数据。 0011 本发明的一个或多个实施例的详细描述在下文连同图示本发明。
10、的原理的附图一 起提供。本发明连同这样的实施例描述,但本发明不限于任一个实施例。本发明的范围仅 说 明 书CN 103988201 A 2/6页 4 由权利要求限制并且本发明包含许多备选、修改和等同物。在下列描述中阐述许多具体细 节以便提供本发明的全面理解。为了示例目的提供这些细节,并且本发明可根据权利要求 实践而没有这些具体细节中的一些或全部。为了清楚目的,在与本发明有关的技术领域中 已知的技术材料未被详细描述使得不会不必要地使本发明晦涩。 0012 公开备份复制。用于备份复制的系统包括处理器和存储器。该处理器配置成:确 定在最近备份中存在、在之前的备份中不存在的数据;传送范围规范;以及传送。
11、一个或多 个数据段的数据段指纹。存储器耦合于处理器并且配置成对处理器提供指令。 0013 公开有效的备份复制。系统包括处理器和存储器。该处理器配置成确定在最近备 份中存在、在之前的备份中不存在的数据。处理器进一步配置成对数据分段。处理器进一 步配置成传送数据段识别信息。存储器耦合于处理器并且配置成对处理器提供指令。 0014 在一些实施例中,当在去重复存储系统中复制全备份时,可以通过利用被复制的 文件是备份文件并且可能与之前的备份文件非常相似这一认识来提高效率。给予去重复系 统指示已经传送到副本系统的最近备份文件的信息。去重复系统计算新备份文件与之前复 制的最近文件之间的差异并且仅复制未在最近。
12、文件中发现的信息连同描述未改变的文件 的部分的信息,而不是将整个新备份文件分成段并且将对于每个备份文件段的段识别信息 从主系统发送到副本系统。 0015 在一些实施例中,包括要复制的新备份文件与之前复制的最近文件之间的差异 (例如,差异数据)的数据被分段,并且段识别信息从主系统传送到副本系统。如果数据段中 的一个或多个确定为在副本系统上不存在,数据段请求然后由副本系统传送到主系统。在 副本系统上不存在的每个数据段然后从主系统传送到副本系统。主系统额外传送范围规 范,其包括之前复制的最近文件的区域(其在被复制的备份文件中未改变)的描述。在一些 实施例中,主系统额外传送差异数据位置。在一些实施例中。
13、,主系统进一步传送使用范围信 息和传送到副本系统的新段列表来实现新备份文件的重建的信息。 0016 在一些实施例中,在接收段识别信息、还未存在的任何段和任何适合的范围规范 时,副本系统能够重新创建备份文件。在副本系统上创建新的备份文件,并且存储在由范围 规范描述的区域中的数据从之前复制的备份文件重新引用或复制到新的备份文件。在之前 复制的备份文件中不存在的数据由来自副本系统上的其他文件的数据段填充,如由段识别 信息和元信息(例如,用于使用新段来重建新备份文件的排序信息)或由未在副本系统中发 现并且由主系统传送的数据段指示的。在一些实施例中,主系统将校验和传送到副本系统, 来确保在副本系统上新近。
14、创建的备份文件与主系统上的新备份文件相同。 0017 图1是图示网络系统的实施例的框图。在示出的示例中,该网络系统包括经由网 络100而通信的数据存储系统用户102、数据存储系统104、主备份系统106和副本备份系 统108。在各种实施例中,网络100包括以下中的一个或多个:局域网,广域网、有线网络, 无线网络、因特网或任何其他适合的网络。 0018 数据存储系统用户102包括访问数据存储系统104上的数据存储服务的数据存储 系统用户。在一些实施例中,数据存储系统102包括使用用户界面(例如,键盘、触摸屏、显 示器等)来与数据存储系统102交互的用户。在各种实施例中,用户界面与台式计算机、膝 。
15、上型计算机、本地终端或具有用户界面的任何其他适合的系统关联。在一些实施例中,数据 存储系统用户102包括利用数据存储系统的公司的雇员。在一些实施例中,数据存储用户 说 明 书CN 103988201 A 3/6页 5 102包括购买数据存储系统服务的公司的雇员。在各种实施例中,存在1、2、4、13、22、115个 或任何其他适合数量的访问数据存储系统104上的数据存储服务的数据库系统用户。在一 些实施例中,每个数据存储系统用户仅访问存储在数据存储系统104上的它们自己的数据 并且能够利用数据存储系统104就好像它们是唯一数据存储系统用户一样。 0019 数据存储系统104包括用于存储和检索信息。
16、的数据存储系统。在一些实施例中, 数据存储系统104包括分布式数据存储系统,例如包括不一定在相同位置中的多个计算机 的数据存储系统。在一些实施例中,数据存储系统104包括用于处理信息的系统。在一些 实施例中,数据存储系统104包括被优化来有效存储未压缩文件的存储系统。在一些实施 例中,数据存储系统104包括去重复存储系统。主备份系统106包括用于备份数据存储系 统104的备份系统。在一些实施例中,主备份系统106包括用于在各种时间点存储数据存 储系统104的状态的系统。在一些实施例中,主备份系统106以常规的间隔存储数据存储 系统104的状态。在各种实施例中,常规的间隔包括每小时、每天、一周三。
17、次、一周一次、一 个月一次或任何其他适合的间隔。在一些实施例中,每当主备份系统106存储数据存储系 统104的状态时,它创建全备份(例如,存储在数据存储系统104中的数据的完整复制)。在 一些实施例中,主备份系统106创建一些全备份和一些增量备份(例如,自做出最后备份起 对数据存储系统104做出的改变的复制)。在一些实施例中,主备份系统106包括去重复存 储系统。副本备份系统108包括用于存储主备份系统106的副本的副本备份系统。在一些 实施例中,每当在主备份系统106上做出备份文件(例如,全备份或增量备份)时,它复制到 副本备份系统108。在一些实施例中,主备份系统106和副本备份系统108。
18、包含在独立计算 机中以便在系统失效的情况下保护备份数据。在一些实施例中,主备份系统106和副本备 份系统108远离彼此而物理定位以便在位置特定事件(例如,失去电力、失去网络连接性、 自然灾害等)的情况下保护数据。 0020 图2是图示数据存储系统的实施例的框图。在一些实施例中,图2的数据存储系 统200包括图1的主备份系统106。在一些实施例中,图2的数据存储系统200包括用于有 效的备份复制的系统。在一些实施例中,数据存储系统200包括处理器和存储器。该处理 器配置成确定在最近备份中存在、在之前的备份中不存在的数据。处理器进一步配置成对 数据分段。处理器进一步配置成传送数据段识别信息。存储器。
19、耦合于处理器并且配置成对 处理器提供指令。在一些实施例中,主系统进一步传送使用范围信息和传送到副本系统的 新段的列表而实现新备份文件重建的信息。 0021 在示出的示例中,数据存储系统200包括数据存储装置202、数据差异器204、数据 段206、数据段指纹208和数据存储系统接口210。在一些实施例中,数据存储系统接口210 包括用于与网络(例如,图1的网络100)通信的接口。数据存储装置202包括存储的文件。 在一些实施例中,数据存储202包括存储的备份文件。在一些实施例中,数据存储装置202 包括存储的数据存储系统(例如,图1的数据存储系统104)的备份。在一些实施例中,数据 存储装置2。
20、02包括一些全备份和一些增量备份。在一些实施例中,数据存储装置202完全 包括全备份。数据存储装置202经由数据存储系统接口而与网络(例如,图1的网络100) 通信用于接收并且交付备份数据。 0022 在示出的示例中,作为对于有效的备份复制的过程的部分,数据存储装置202将 新备份文件和之前的备份文件交付给数据差异器204。在一些实施例中,新备份文件要被复 说 明 书CN 103988201 A 4/6页 6 制(例如,复制到副本备份系统,如在图1的副本备份系统108中的)。在一些实施例中,新备 份文件包括全备份。在一些实施例中,之前的备份文件包括全备份。在一些实施例中,之前 的备份文件包括合。
21、成全备份(例如,从较旧的全备份创建的全备份和更近的增量备份)。在 一些实施例中,之前的备份文件是最近的之前备份文件。在一些实施例中,之前的备份文件 是较旧的备份文件。数据差异器204接收之前的备份文件和新的备份文件并且确定范围规 范和差异数据。范围规范包括未改变的数据的区域(例如,其中在新备份文件中存在的数据 也在之前的备份文件中存在的区域)的描述。差异数据包括新数据(例如,在新备份文件中 存在、在之前的备份文件中不存在的数据)。在示出的示例中,范围规范交付给数据存储系 统接口210并且传送到副本备份系统。在一些实施例中,差异数据位置连同范围规范一起 交付给数据存储系统接口210并且传送到副本。
22、备份系统。在一些实施例中,差异数据位置 作为范围规范的部分而包括。在一些实施例中,差异数据位置通过比较代表之前和新的备 份文件的数据段指纹的集并且识别在新备份文件中存在但在之前的备份文件中不存在的 那些指纹的位置而确定。例如,之前的全备份和新的全备份两者都已经被分段并且存储在 主备份系统上。对于是去重复备份系统的系统,则两个备份将共同共享它们的段中的大部 分,并且可以检查两个段指纹集来确定它们之间的差异。数据发送器206提供数据段指纹、 接收数据段请求并且响应于请求而用数据段作答。提供元信息给数据存储接口210,从而实 现从数据段的差异数据重建。在一些实施例中,数据段指纹包括数据段识别信息。在。
23、一些 实施例中,数据段指纹包括从数据段得到的信息。在一些实施例中,数据段指纹包括哈希函 数的输出。在示出的示例中,数据段指纹交付给数据存储接口210用于连同元信息一起传 送给副本备份系统以使用数据段实现差异数据的重建。 0023 在一些实施例中,副本备份系统对具有数据段请求集的数据段指纹作出响应。在 一些实施例中,副本备份系统使用数据段指纹来确定它是否已经存储对应的数据段(例如, 用于生成数据段指纹的数据段)。在一些实施例中,副本备份系统从由数据段指纹集指示的 数据段集请求还未被存储的每个数据段。数据段请求由数据存储系统接口210交付给数据 发送器206。数据发送器206将请求的数据段交付给数。
24、据存储系统接口210用于传送到副 本系统。 0024 图3是图示数据求差的实施例的框图。在一些实施例中,如在图3中示出的数据 求差包括由图2的数据差异器204执行的数据求差。数据差异器300包括数据差异器(例 如,如在图2的数据差异器204中的数据差异器)。在示出的示例中,数据差异器300接收之 前的备份文件302和新的备份文件304。新的备份文件304包括原始数据区域306、原始数 据区域310和新的数据区域308。原始数据区域306和原始数据区域310包括在之前的备 份文件302和新的备份文件304中相同的数据区域。新的数据区域308包括新的备份文件 中的数据区域,其在之前的备份文件302。
25、中不存在。在数据差异器300接收之前的备份文 件302和新的备份文件304时,它产生范围规范和差异数据。在示出的示例中,范围规范包 括从之前的备份文件302到新的备份文件304未改变的数据区域(例如,原始数据区域306 和原始数据区域310)的描述。在一些实施例中,范围规范包括文件位置集。在一些实施例 中,范围规范包括新备份文件304内的文件位置,其包括从之前的备份文件302未改变的数 据区域。在一些实施例中,范围规范包括之前的备份文件302内的文件位置,其包括在新的 备份文件304中未改变的数据区域。在一些实施例中,范围规范包括新备份文件304内的 说 明 书CN 103988201 A 5。
26、/6页 7 文件位置(其包括从之前的备份文本302未改变的数据区域)和之前的备份文件302内的文 件位置(其包括在新备份文件304中未改变的数据区域)。在示出的示例中,差异数据包括 在新备份文件304中存在、在之前的备份文件302中不存在的数据(例如,新数据308)。在 一些实施例中,范围规范额外包括差异数据位置(例如,在新备份文件304中存在、在新备 份文件304内的之前的备份文件302中不存在的数据的位置)。在一些实施例中,在范围规 范中识别多个新的数据区域。 0025 在一些实施例中,计算校验和并且其跨存储在存储系统(例如,去重复存储系统、 备份系统、副本系统)上的每个文件而维持。例如,。
27、用合成复制创建的文件具有用文件存储 的校验和。并且对于另一个示例,在正常复制中,部分校验和连同每个段一起发送;这些校 验和加在一起并且最后的结果应等于跨整个原始文件的校验和。在合成复制中,发送校验 和连同每个差异段,以及每个范围。再次,按顺序加在一起的这些校验和应等于跨整个原始 文件的校验和。 0026 图4是图示用于有效的备份复制的过程的实施例的流程图。在一些实施例中,图 4的过程由图2的数据存储系统200执行。在一些实施例中,图4的过程由主备份系统(例 如,图1的主备份系统106)执行。在一些实施例中,图4的过程用于将备份文件有效复制 到副本系统(例如,图1的副本备份系统108)。在示出的。
28、示例中,在400中,接收新的备份 文件。在一些实施例中,从数据存储装置(例如,图4的数据存储装置402)接收新的备份文 件。在一些实施例中,新的备份文件包括全备份。在402中,接收之前的备份文件。在一些 实施例中,从数据存储装置(例如,图4的数据存储装置402)接收之前的备份文件。在一些 实施例中,之前的备份文件包括全备份。在一些实施例中,之前的备份文件包括合成全备份 (例如,从较旧全备份创建的全备份和最近的增量备份)。在一些实施例中,之前的备份文件 包括最近的之前的备份文件。在一些实施例中,之前的备份文件包括较旧的之前备份文件。 在404中,确定在新备份文件中存在、在之前的备份文件中不存在的。
29、数据(例如,差异数据)。 在一些实施例中,在新备份文件中存在、在之前的备份文件中不存在的数据由数据差异器 (例如,图2的数据差异器204)确定。在一些实施例中,额外确定差异数据位置。在406中, 确定范围规范。在一些实施例中,范围规范由数据差异器(例如,图2的数据差异器204)确 定。在408中,传送范围规范。在一些实施例中,范围规范由数据存储系统接口(例如,图2 的数据存储系统接口210)传送。在一些实施例中,额外传送差异数据位置。在一些实施例 中,数据段指纹包括数据段识别信息。在一些实施例中,数据段指纹包括从数据段得到的信 息。在一些实施例中,数据段指纹包括哈希函数的输出。在414中,传送。
30、数据段指纹(例如, 由图2的数据存储系统接口210)。在416中,确定是否已经接收数据段请求(例如,由图2 的数据存储系统接口210)。如果接收数据段请求,控制传递到418。在418中,传送请求的 数据段(例如,由图2的数据存储系统接口210)。在一些实施例中,数据段请求交付给数据 分段器(例如,图2的数据分段器206),并且数据分段器响应地返回请求的数据段(例如,到 图2的数据存储系统接口210)。控制然后传递到420。如果在416中确定未接收数据段请 求,控制传递到420。在420中,传送校验和和元信息。例如,校验和包括对于新备份文件 的校验和并且元信息实现要生成的备份文件之间的差异的重建。
31、。在一些实施例中,校验和 包括在新备份文件上计算的函数,其也可以在副本系统上计算用于确保正确执行复制。在 422中,接收校验和响应。在一些实施例中,副本系统计算复制文件上的校验和并且将它与 说 明 书CN 103988201 A 6/6页 8 在420中传送的校验和比较。在一些实施例中,校验和响应包括在副本系统上计算的校验 和是否与在402中传送的校验和匹配的指示。在一些实施例中,如果校验和响应指示文件 不匹配,重复图4的过程。在一些实施例中,如果校验和响应指示文件不匹配,复制的文件 标记为坏的。 0027 图5是图示用于创建副本备份文件的过程的实施例的流程图。在一些实施例中, 图5的过程由副。
32、本备份系统(例如,图1的副本备份系统108)执行。在一些实施例中,图5 的过程由副本备份系统响应于执行用于有效的备份复制的主备份系统(例如,图1的主备 份系统106)而执行(例如,图4的过程)。在500中,接收范围规范(例如,在图4的408中 传送的范围规范)。在一些实施例中,还接收差异数据位置。在502中,创建新的备份文件。 在一些实施例中,新的备份文件包括用于将备份数据复制到的空文件。在504中,数据从之 前的备份复制或重新引用到新的备份。例如,在一些实施例中,再次存储对范围(基本上是 指纹)中的段(或连续的段组)的引用,来代替复制包括范围的段数据的副本。在一些实施例 中,范围规范指示从之。
33、前的备份复制到新的备份的数据的区域。在506中,接收数据段指纹 (例如,如果图4,414中传送的数据段指纹)。在508中确定对应于接收的指纹的数据段是否 存在(例如,在副本系统上)。在一些实施例中,使用指纹指数确定对应于接收的指纹的数据 段是否存在。如果确定对应于接收的指纹的数据段不存在,控制传递到510。在510中,请 求数据段(例如,对于数据段的请求传送到主备份系统并且响应地接收数据段)。在512中, 数据段复制到新的备份。控制然后传递到516。如果在508中确定在副本系统上存在数据 段,控制传递到514。在514中,数据段复制或重新引用到新的备份。控制然后传递到516。 在516中,确定。
34、是否接收更多的数据段指纹。如果接收更多的数据段指纹,控制传递到508。 如果未接收更多的数据段指纹(例如,对应于所有数据段指纹的段已经被定位并且复制到 新的副本),控制传递到518。在518中,接收校验和和元信息。在520中,使用元信息重建 新的备份并且计算校验和。在522中,计算校验和响应。在一些实施例中,校验和响应包括 在518中接收的校验和是否与在520中计算的校验和匹配的指示。在一些实施例中,如果 在518中接收的校验和与在520中计算的校验和不匹配,新的备份文件标记为坏的。 0028 尽管前面的实施例已经为了清楚理解的目的而相当详细地描述,本发明不限于提 供的细节。存在实现本发明的许多备选方式。公开的实施例是说明性而非限制性的。 说 明 书CN 103988201 A 1/5页 9 图 1 说 明 书 附 图CN 103988201 A 2/5页 10 图 2 说 明 书 附 图CN 103988201 A 10 3/5页 11 图 3 说 明 书 附 图CN 103988201 A 11 4/5页 12 图 4 说 明 书 附 图CN 103988201 A 12 5/5页 13 图 5 说 明 书 附 图CN 103988201 A 13 。