应用于集群范围内数据备份场景的数据去重方法及应用.pdf
《应用于集群范围内数据备份场景的数据去重方法及应用.pdf》由会员分享,可在线阅读,更多相关《应用于集群范围内数据备份场景的数据去重方法及应用.pdf(8页完成版)》请在专利查询网上搜索。
1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202010230330.5 (22)申请日 2020.03.27 (71)申请人 上海爱数信息技术股份有限公司 地址 201112 上海市闵行区联航路1188号8 幢第2层A-1单元 (72)发明人 董倩 (74)专利代理机构 上海科盛知识产权代理有限 公司 31225 代理人 翁惠瑜 (51)Int.Cl. G06F 16/215(2019.01) G06F 16/27(2019.01) G06F 3/06(2006.01) (54)发明名称 应用于集群范围内数据备份场景的数。
2、据去 重方法及应用 (57)摘要 本发明涉及一种应用于集群范围内数据备 份场景的数据去重方法及应用, 该方法通过构建 的物理指纹库存储已备份数据块的指纹信息, 基 于所述指纹信息对待备份数据块进行重复性检 测, 根据检测结果实现数据去重处理, 所述集群 范围内具有多个集群节点, 所述物理指纹库设有 多个, 所述物理指纹库和集群节点间具有节点指 纹库映射关系, 基于该节点指纹库映射关系实现 所述重复性检测。 与现有技术相比, 本发明具有 重复数据检测精度高等优点。 权利要求书1页 说明书4页 附图2页 CN 111459928 A 2020.07.28 CN 111459928 A 1.一种应用。
3、于集群范围内数据备份场景的数据去重方法, 其特征在于, 该方法通过构 建的物理指纹库存储已备份数据块的指纹信息, 基于所述指纹信息对待备份数据块进行重 复性检测, 根据检测结果实现数据去重处理, 所述集群范围内具有多个集群节点, 所述物理指纹库设有多个, 所述物理指纹库和集 群节点间具有节点指纹库映射关系, 基于该节点指纹库映射关系实现所述重复性检测。 2.根据权利要求1所述的应用于集群范围内数据备份场景的数据去重方法, 其特征在 于, 所述指纹信息包括数据块指纹及数据块位置。 3.根据权利要求1所述的应用于集群范围内数据备份场景的数据去重方法, 其特征在 于, 所述物理指纹库基于用户逻辑指纹。
4、库构建指令自动建立。 4.根据权利要求1所述的应用于集群范围内数据备份场景的数据去重方法, 其特征在 于, 所述集群范围内集群节点发生增加或减少时, 重新分配多个所述物理指纹库, 迁移各物 理指纹库的分配位置, 更新所述节点指纹库映射关系。 5.根据权利要求1所述的应用于集群范围内数据备份场景的数据去重方法, 其特征在 于, 所述重复性检测具体为: 1)获取所述节点指纹库映射关系; 2)获取待备份数据流, 对所述待备份数据流进行滑动块数据切片; 3)计算切片后每一待备份数据块的数据块指纹; 4)基于所述节点指纹库映射关系将每一所述数据块指纹并发在各集群节点中进行重 复数据查询, 判断是否存在相。
5、同数据块指纹, 若是, 则执行步骤5), 若否, 则执行步骤6); 5)仅记录待备份数据块的存储位置信息; 6)备份存储待备份数据块, 并该待备份数据块的指纹信息插入对应物理指纹库, 并对 相应集群节点进行数据块存储。 6.根据权利要求5所述的应用于集群范围内数据备份场景的数据去重方法, 其特征在 于, 所述滑动块数据切片的切片范围为KB级别。 7.根据权利要求6所述的应用于集群范围内数据备份场景的数据去重方法, 其特征在 于, 所述滑动块数据切片为32KB-128KB的切片。 8.根据权利要求5所述的应用于集群范围内数据备份场景的数据去重方法, 其特征在 于, 通过哈希映射方式获得每一数据块。
6、指纹对应的物理指纹库, 在该物理指纹库所在集群 节点进行重复数据查询。 9.根据权利要求3所述的应用于集群范围内数据备份场景的数据去重方法, 其特征在 于, 通过删除所述逻辑指纹库实现物理指纹库的删除。 10.一种集群范围内数据备份方法, 其特征在于, 在备份过程中, 采用如权利要求1所述 的数据去重方法进行数据去重处理。 权利要求书 1/1 页 2 CN 111459928 A 2 应用于集群范围内数据备份场景的数据去重方法及应用 技术领域 0001 本发明涉及重复数据删除技术领域, 尤其是涉及一种应用于集群范围内数据备份 场景的数据去重方法及应用。 背景技术 0002 随着信息技术的不断发。
7、展, 人们对于计算机技术的依赖逐渐增加, 计算机需要存 储的数据量也在迅速增加, 待保护的数据将会占据越来越多的物理空间。 海量数据的保护 成为了存储厂商所面临的巨大挑战, 为了解决存储数据过多的难题, 各大厂商纷纷采用了 分布式存储以便存放更多数据, 同时分布式系统也可以支撑更多数据量的并发处理, 提升 保护效率。 0003 重复数据删除技术主要是通过比较当前需要备份的数据是否已经备份过, 并只存 储未备份过的数据, 从而减少数据的存储量, 降低网络的带宽, 节省资源的占用。 重复删除 技术可以在一定范围内识别出更多的重复数据从而能够节省更多物理空间及网络带宽。 但 目前在分布式场备份场景中。
8、还存在重复数据检测精度不高的问题。 发明内容 0004 本发明的目的在于克服上述现有技术存在的缺陷而提供一种重复数据检测精度 高的应用于集群范围内数据备份场景的数据去重方法。 0005 本发明的目的可以通过以下技术方案来实现: 0006 一种应用于集群范围内数据备份场景的数据去重方法, 该方法通过构建的物理指 纹库存储已备份数据块的指纹信息, 基于所述指纹信息对待备份数据块进行重复性检测, 根据检测结果实现数据去重处理, 0007 所述集群范围内具有多个集群节点, 所述物理指纹库设有多个, 所述物理指纹库 和集群节点间具有节点指纹库映射关系, 基于该节点指纹库映射关系实现所述重复性检 测。 0。
9、008 进一步地, 所述指纹信息包括数据块指纹及数据块位置。 0009 进一步地, 所述物理指纹库基于用户逻辑指纹库构建指令自动建立, 所述逻辑指 纹库存储于分布式数据库中。 0010 进一步地, 所述集群范围内集群节点发生增加或减少时, 重新分配多个所述物理 指纹库, 迁移各物理指纹库的分配位置, 更新所述节点指纹库映射关系。 0011 进一步地, 所述重复性检测具体为: 0012 1)获取所述节点指纹库映射关系; 0013 2)获取待备份数据流, 对所述待备份数据流进行滑动块数据切片; 0014 3)计算切片后每一待备份数据块的数据块指纹; 0015 4)基于所述节点指纹库映射关系将每一所。
10、述数据块指纹并发在各集群节点中进 行重复数据查询, 判断是否存在相同数据块指纹, 若是, 则执行步骤5), 若否, 则执行步骤 说明书 1/4 页 3 CN 111459928 A 3 6); 0016 5)仅记录待备份数据块的存储位置信息; 0017 6)备份存储待备份数据块, 并该待备份数据块的指纹信息插入对应物理指纹库, 并对相应集群节点进行数据块存储。 0018 进一步地, 所述滑动块数据切片的切片范围为KB级别。 0019 进一步地, 所述滑动块数据切片为32KB-128KB的切片。 0020 进一步地, 通过哈希映射方式获得每一数据块指纹对应的物理指纹库, 在该物理 指纹库所在集群。
11、节点进行重复数据查询。 0021 进一步地, 通过删除所述逻辑指纹库实现物理指纹库的删除。 0022 本发明还提供一种集群范围内数据备份方法, 在备份过程中, 采用所述的数据去 重方法进行数据去重处理。 0023 与现有技术相比, 本发明具有如下有益效果: 0024 1、 本发明通过物理指纹库以及节点指纹库映射关系实现指纹数据的比对检测, 能 够更方便地获取数据重复信息, 在分布式场备份场景中的重复数据检测精度高。 0025 2、 本发明充分利用分布式场景中多节点的计算资源及内存资源优势, 在分布式场 景中实现任务进行中的并发去重, 能在集群范围查询重复数据, 效率高。 0026 3、 本发明。
12、通过指纹库的设计, 使得在横向扩展节点编辑指纹库后仍能识别出重复 数据, 可靠性高。 0027 4、 本发明可有效减少磁盘上冗余数据, 同时也可以减少网络中传输的数据量, 提 高重删率。 0028 5、 本发明可以在查重过程中同时使用集群中物理节点所提供的的内存及CPU资 源, 可以支撑更大数据量去重, 提升备份效率。 附图说明 0029 图1为本发明的原理示意图; 0030 图2为本发明在集群节点增加时的物理指纹库迁移过程示意图, 其中, (a)为集群 节点增加前的物理指纹库与集群节点的映射关系示意图, (b)为迁移过程示意图, (c)为集 群节点增加后的物理指纹库与集群节点的映射关系示意图。
13、。 具体实施方式 0031 下面结合附图和具体实施例对本发明进行详细说明。 本实施例以本发明技术方案 为前提进行实施, 给出了详细的实施方式和具体的操作过程, 但本发明的保护范围不限于 下述的实施例。 0032 实施例1 0033 本实施例提供一种应用于集群范围内数据备份场景的数据去重方法, 该方法通过 构建的物理指纹库存储已备份数据块的指纹信息, 基于所述指纹信息对待备份数据块进行 重复性检测, 根据检测结果实现数据去重处理, 所述集群范围内具有多个集群节点, 所述物 理指纹库设有多个, 所述物理指纹库和集群节点间具有节点指纹库映射关系, 基于该节点 指纹库映射关系实现所述重复性检测。 所述。
14、指纹信息包括数据块指纹及数据块位置 说明书 2/4 页 4 CN 111459928 A 4 chunkid。 0034 物理指纹库基于用户逻辑指纹库构建指令自动建立, 所述逻辑指纹库存储于分布 式数据库中, 节点指纹库映射关系也存储于所述分布式数据库中。 0035 1、 指纹库设计 0036 指纹库是用于存放数据块指纹和数据块位置chunkid的容器, 通过在指纹库中查 询指纹是否存在, 可以识别出该数据块是否存在, 可以根据chunkid查询到数据块存放位 置; 本实施例在分布式系统中指纹库的设计和普遍出现的单机指纹库的设计有所不同: 在 集群中的指纹库分为逻辑指纹库和物理指纹库, 逻辑指。
15、纹库是用户创建的指纹库, 本实施 例中, 一个逻辑指纹库包含32个物理指纹库; 物理指纹库也可称为节点指纹库, 每个物理指 纹库都有一个编号进行区分, 这些物理指纹库基本平均分配在集群范围内的集群节点上, 物理指纹库是实际存放指纹的指纹库, 物理指纹库对用户来说是透明的, 用户对指纹库的 一切操作都通过逻辑指纹库进行。 0037 对指纹库的操作包括: 0038 1)新建指纹库: 新建一个逻辑指纹库, 后台会建立32个物理指纹库, 32个物理指纹 库平均分配在分布式物理节点上, 并通过分布式数据库记录物理节点ip和物理指纹库编 号, 用于后续去重建立节点指纹库映射关系。 0039 2)编辑指纹库。
16、: 通常在集群节点增加或者减少时需要编辑指纹库, 编辑指纹库的 主要目的是使集群中节点变更不影响下次备份去重效果, 如图2所示, 指纹库编辑过程为: 0040 a.重建物理指纹库和节点关系, 将物理指纹库重新分配。 0041 b.物理指纹库迁移至各个分配节点 0042 c.在数据库中更新物理指纹库和节点ip映射关系, 以便下次备份建立正确的映射 关系。 0043 3)删除指纹库: 在分布式数据库中删除逻辑指纹库, 再删除分布式数据库中的物 理指纹库id和节点映射关系, 最后去每个节点物理磁盘中删除指纹库。 0044 2、 备份去重过程 0045 在备份时对待备份数据块进行重复性检测, 如图1所。
17、示, 所述重复性检测具体为: 0046 1)连接至集群中主节点, 获取所述节点指纹库映射关系; 0047 2)获取待备份数据流, 对所述待备份数据流进行滑动块数据切片, 切片范围为KB 级别; 0048 3)使用MD5哈希算法计算切片后每一待备份数据块的数据块指纹, 作为数据块的 唯一标识; 0049 4)基于所述节点指纹库映射关系将每一所述数据块指纹并发在各集群节点中进 行重复数据查询, 具体是通过哈希映射方式获得每一数据块指纹对应的物理指纹库, 在该 物理指纹库所在集群节点进行重复数据查询, 并获取到查询结果, 判断是否存在相同数据 块指纹, 若是, 则执行步骤5), 若否, 则执行步骤6。
18、); 0050 5)仅记录待备份数据块的存储位置信息; 0051 6)备份存储待备份数据块, 并该待备份数据块的指纹信息插入对应物理指纹库, 并基于节点指纹库映射关系对相应集群节点进行数据块存储, 备份查重结束。 0052 本实施例在一个具有5个集群节点的集群环境中, 通过一个客户端实现对1T数据 说明书 3/4 页 5 CN 111459928 A 5 源的备份。 该实施例中, 首先建立逻辑指纹库, 自动新建32个物理指纹库, 平均分配至5个集 群节点。 0053 首次备份: 0054 1.选择客户端数据源进行备份, 首次备份获取到数据流, 进行去重备份。 0055 1.1.客户端首先会进行。
19、连接初始化获取物理指纹库和节点对应关系; 0056 1.2.客户端对获取到的数据流进行32KB-128KB的滑动切片; 0057 1.3.对每一个数据片进行指纹计算; 0058 1.4对每一个指纹进行与物理指纹库的哈希映射并发送至物理节点上进行指纹查 询。 0059 2.获取到查询结果 0060 2.1查询到重复的指纹, 将chunkid发送给存储; 0061 2 .2 .查询到不重复的指纹, 将数据块发送至存储进行保存, 并记录存储位置 chunkid; 0062 2.3将2.2获取到的存储存储位置chunkid和指纹发送至对应物理指纹库进行保 存。 0063 3.通知指纹库备份完成将指纹刷。
20、写至磁盘 0064 二次备份: 0065 1.选择和首次备份同样的数据源进行备份 0066 1.1.客户端首先会进行连接初始化获取物理指纹库和节点对应关系; 0067 1.2.客户端对获取到的数据流进行32KB-128KB的滑动切片; 0068 1.3.对每一个数据片进行指纹计算; 0069 1.4对每一个指纹进行与物理指纹库的哈希映射并发送至物理节点上进行指纹查 询。 0070 2.获取到查询结果应均为重复数据, 保留数据存储位置chunkid。 0071 3.检查二次备份重删率为100。 0072 实施例2 0073 本实施例提供一种集群范围内数据备份方法, 在备份过程中, 采用如实施例1所述 的数据去重方法进行数据去重处理。 0074 以上详细描述了本发明的较佳具体实施例。 应当理解, 本领域的普通技术人员无 需创造性劳动就可以根据本发明的构思作出诸多修改和变化。 因此, 凡本技术领域中技术 人员依本发明的构思在现有技术的基础上通过逻辑分析、 推理或者有限的实验可以得到的 技术方案, 皆应在由本发明所确定的保护范围内。 说明书 4/4 页 6 CN 111459928 A 6 图1 说明书附图 1/2 页 7 CN 111459928 A 7 图2 说明书附图 2/2 页 8 CN 111459928 A 8 。
- 内容关键字: 应用于 集群 范围内 数据 备份 场景 方法 应用
高密度微藻培养装置.pdf
垫片检测装置.pdf
微型扬声器音腔定量灌装装置.pdf
晶圆夹持旋转机构.pdf
流延机分切装置.pdf
不规则瓶身喷涂用包覆工装装置.pdf
宽锂带滚切设备.pdf
不锈钢分条加工开平机的导出架结构.pdf
流延机辊筒.pdf
工业硅原料用筛选装置.pdf
激光导引头零位误差测量校准装置.pdf
中药提取物过滤装置.pdf
具有绝缘边的涂碳箔、正极极片及锂电池.pdf
可自动进行降温的新能源配电柜.pdf
多角度预制梁液压钢模板自动开合装置.pdf
烧结矿制备系统.pdf
钢坯十字转盘冷却装置.pdf
快速出料的农膜原料混合装置.pdf
基于大数据和人工智能的购物推荐方法及系统.pdf
短暂保持芯片内存储数据电路及方法.pdf
井盖生产用中频感应电炉.pdf
基于边缘计算的电网异常运行状态监测方法.pdf
自适应PID控制器的参数优化方法.pdf
渲染自定义几何体依附模型的方法及装置.pdf
具有高隔离度的紧凑型功率分配器.pdf
基于CSS样式预渲染对比的UI自动化方法及相关装置.pdf
卷对卷镭射收放卷机.pdf
熔敷陶瓷粉棒条筛板及包含其的筛分装置.pdf
纤维增强型氟塑料电线电缆及其制造方法.pdf
光固化修复机器人.pdf
尺寸可调节的飞机侧副翼组装型架.pdf
套管扶正器.pdf
一种升降式旋转室外消火栓.pdf
框架结构T型连接柱.pdf
防静电地板吸板器.pdf
一种建筑用箱体或井口预留孔洞活动模具.pdf
速成拉建房屋.pdf
预制桥面板精轧螺纹钢筋弧形连接构造.pdf
一种内固定式伸缩门滑行导轨及伸缩门.pdf
多用途封井器.pdf
一种新型圆弧建筑模板紧固件.pdf
一种超实木防水组合踢脚线.pdf
电气柜前门板门锁装置.pdf
双人正杆器.pdf
一种纳米铝塑复合板.pdf
强磁打捞器.pdf
一种基于无刷直流电机的环卫车电动扫盘系统.pdf
一种可调节型门铰链.pdf
一种用于基桩竖向抗压静载试验的船筏式试验装置.pdf
免贴墙砖.pdf
一种聚氨酯仿石材防火保温装饰复合板.pdf