数据更新方法、匿踪查询方法、电子设备及介质.pdf

上传人:柴****2 文档编号:14525251 上传时间:2024-05-19 格式:PDF 页数:26 大小:2.64MB
收藏 版权申诉 举报 下载
数据更新方法、匿踪查询方法、电子设备及介质.pdf_第1页
第1页 / 共26页
数据更新方法、匿踪查询方法、电子设备及介质.pdf_第2页
第2页 / 共26页
数据更新方法、匿踪查询方法、电子设备及介质.pdf_第3页
第3页 / 共26页
文档描述:

《数据更新方法、匿踪查询方法、电子设备及介质.pdf》由会员分享,可在线阅读,更多相关《数据更新方法、匿踪查询方法、电子设备及介质.pdf(26页完成版)》请在专利查询网上搜索。

1、(19)国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 202410018118.0(22)申请日 2024.01.05(71)申请人 同盾科技有限公司地址 310012 浙江省杭州市余杭区五常街道文一西路998号18幢209室(72)发明人 高思琪周一竞黄翠婷陈涛蒋韬祝伟(74)专利代理机构 北京律智知识产权代理有限公司 11438专利代理师 王家豪(51)Int.Cl.G06F 21/62(2013.01)G06F 21/60(2013.01)G06F 16/23(2019.01)G06F 16/22(2019.01)(54)发明名称数据更新方法、。

2、匿踪查询方法、电子设备及介质(57)摘要本公开是关于一种数据更新方法、匿踪查询方法、电子设备及介质,涉及计算机技术领域。该方法应用于数据提供方,包括由第二数据打包获得且支持匿踪查询的第一数据,以及由原始数据经预处理获得且支持数据更新的索引信息与第二数据;获得数据更新的第三数据时,不符合分配条件则基于原始数据和第三数据进行预处理,获得更新后的第二数据和索引信息;符合分配条件则基于该索引信息将第三数据更新到第二数据对应的索引位置,获得更新后的第二数据,分配条件包括索引信息不变、更新比例小于或等于比例阈值等;再打包获得更新后的第一数据。该方法降低了数据更新对匿踪查询的干扰,且避免了每次整体计算的高计。

3、算代价与消耗,提高更新效率。权利要求书3页 说明书18页 附图4页CN 117521152 A2024.02.06CN 117521152 A1.一种数据更新方法,其特征在于,所述方法应用于匿踪查询中的数据提供方,所述数据提供方包括支持匿踪查询的第一数据,以及支持数据更新的索引信息与第二数据,所述第一数据由所述第二数据打包获得,所述第二数据由原始数据经预处理获得,所述方法包括:获取用于数据更新的第三数据;在基于所述第三数据进行更新时不符合分配条件的情况下,基于所述原始数据和所述第三数据进行所述预处理,获得更新后的第二数据与更新的索引信息;或,在基于所述第三数据进行更新时符合分配条件的情况下,基。

4、于所述索引信息将所述第三数据更新到所述第二数据的对应索引位置,获得更新后的第二数据;所述分配条件包括所述索引信息不变、更新比例小于或等于比例阈值中的至少一种;对所述更新后的第二数据进行打包,获得更新后的第一数据。2.根据权利要求1所述的方法,其特征在于,所述基于所述索引信息将所述第三数据更新到第二数据的对应索引位置,获得更新后的第二数据,包括:根据预设分片规则对所述第三数据进行分片处理,确定所述第三数据对应的至少一个分片索引;根据所述分片索引将所述第三数据分配到对应的所述分片;对分配有所述第三数据的每一所述分片进行不经意伪随机函数OPRF处理,分别获得所述第三数据对应的标识伪随机值与加密特征数。

5、据;基于所述第三数据对应的标识伪随机值与加密特征数据进行分桶更新,所述分桶更新包括插入、替换和删除中的至少一种;对每一发生所述分桶更新的分桶,分别计算更新后的第一标识匹配多项式与更新后的第一特征多项式,获得所述更新后的第二数据。3.根据权利要求2所述的方法,其特征在于,所述基于所述第三数据对应的标识伪随机值与加密特征数据进行分桶更新,包括:对所述第三数据对应的标识伪随机值进行哈希处理,获得所述第三数据对应的哈希索引;根据所述第三数据对应的哈希索引,将所述第三数据对应的标识伪随机值与加密特征数据插入对应索引位置的分桶;或,根据所述第三数据对应的哈希索引,在对应索引位置的分桶中基于所述第三数据对应。

6、的加密特征数据进行替换;或,根据所述第三数据对应的哈希索引,在对应索引位置的分桶中基于所述第三数据对应的标识伪随机值进行删除。4.根据权利要求1所述的方法,其特征在于,所述更新后的索引信息包括更新后的分片索引,所述基于所述原始数据和所述第三数据进行所述预处理,获得所述更新后的第二数据与所述索引信息,包括:根据预设分片规则对所述原始数据和所述第三数据一同进行分片处理,所述原始数据包括标识数据以及对应的特征数据,每一更新后的分片对应一个所述更新后的分片索引;对每一所述更新后的分片进行不经意伪随机函数OPRF处理,分别获得更新后的标识伪随机值与更新后的加密特征数据;权利要求书1/3 页2CN 117。

7、521152 A2对所述更新后的标识伪随机值与所述更新后的加密特征数据进行哈希分桶处理;其中,每个分桶中包括至少一对所述更新后的标识伪随机值与所述更新后的加密特征数据;对每一分桶,分别计算更新后的第一标识匹配多项式与更新后的第一特征多项式,获得所述更新后的第二数据。5.根据权利要求4所述的方法,其特征在于,所述更新后的索引信息还包括更新后的哈希索引,所述对所述更新后的标识伪随机值与所述更新后的加密特征数据进行哈希分桶处理,包括:对所述更新后的标识伪随机值进行哈希处理,获得所述更新后的哈希索引;每一所述更新后的哈希索引对应一个更新后的分桶;根据所述更新后的哈希索引将所述更新后的标识伪随机值与所述。

8、更新后的加密特征数据插入对应所述更新后的索引位置的分桶。6.根据权利要求1所述的方法,其特征在于,所述索引信息包括分片索引,所述获取用于数据更新的第三数据前,还包括:根据预设分片规则对所述原始数据进行分片处理,所述原始数据包括标识数据以及对应的特征数据,每一分片对应一个分片索引;对每一所述分片进行OPRF处理,分别获得标识数据对应的标识伪随机值,以及特征数据对应的加密特征数据;对所述标识伪随机值与所述加密特征数据进行哈希分桶处理;其中,每个分桶中包括至少一对所述标识伪随机值与所述加密特征数据;对每一分桶,分别计算第一标识匹配多项式与第一特征多项式,获得所述第二数据;对所述第二数据中的所述第一标。

9、识匹配多项式进行打包,获得所述第一数据中的第二标识匹配多项式,以及对所述第二数据中的所述第一特征多项式进行打包,获得所述第一数据中的第二特征多项式,从而获得所述第一数据。7.一种匿踪查询方法,其特征在于,应用于数据提供方,所述数据提供方包括支持匿踪查询的第一数据,以及支持数据更新的索引信息与第二数据,所述第一数据由所述第二数据打包获得,所述第二数据由原始数据经预处理获得,所述数据提供方采用前述权利要求1至6任一所述的方法进行数据更新,所述方法包括:响应于查询方的数据查询请求,调取第一数据进行检索,获得查询结果;向所述查询方返回所述查询结果。8.一种电子设备,其特征在于,所述电子设备作为匿踪查询。

10、中的数据提供方,所述数据提供方包括支持匿踪查询的第一数据,以及支持数据更新的索引信息与第二数据,所述第一数据由所述第二数据打包获得,所述第二数据由原始数据经预处理获得,所述电子设备包括:接收模块,用于获取用于数据更新的第三数据;更新模块,用于在基于所述第三数据进行更新时不符合分配条件的情况下,基于所述原始数据和所述第三数据进行所述预处理,获得更新后的第二数据与更新的索引信息;或,所述更新模块,用于在基于所述第三数据进行更新时符合分配条件的情况下,基于所述索引信息将所述第三数据更新到第二数据的对应索引位置,获得更新后的第二数据;所述分配条件包括所述索引信息不变、更新比例小于或等于比例阈值中的至少。

11、一种;权利要求书2/3 页3CN 117521152 A3所述更新模块,还用于对所述更新后的第二数据进行打包,获得更新后的第一数据。9.根据权利要求8所述的电子设备,其特征在于,所述电子设备还包括:查询模块,用于响应于查询方的数据查询请求,调取第一数据进行检索,获得查询结果;所述查询模块,还用于向所述查询方返回所述查询结果。10.一种电子设备,其特征在于,包括:处理器;以及存储器,用于存储所述处理器的计算机程序;其中,所述处理器配置为经由执行所述计算机程序来执行权利要求1至6任一所述的数据更新方法,或权利要求7所述的匿踪查询方法。11.一种计算机可读介质,所述计算机可读介质上存储有计算机程序,。

12、其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一所述的数据更新方法,或权利要求7所述的匿踪查询方法。权利要求书3/3 页4CN 117521152 A4数据更新方法、匿踪查询方法、电子设备及介质技术领域0001本公开涉及计算机技术领域,具体而言,涉及一种数据更新方法、匿踪查询方法、电子设备及计算机可读介质。背景技术0002匿踪查询是一种基于隐私保护的数据查询计算技术,能够在查询方从公共数据库或私人数据库中检索数据时保护查询方、数据提供方的隐私,使查询方不能获得所查询数据以外的其他信息,数据提供方也不能确定查询方所提供的查询条件。数据提供方通常需要及时对数据进行更新,如扩充新数据。

13、,修改或删除旧数据等,以保证数据的准确性,维持查询服务质量。0003目前,常采用在线更新的方式,数据提供方在数据更新时需要对数据整体进行重新插值计算,使得更新代价高、消耗大,且效率低,不能适应查询服务对数据准确性、实时性的要求,服务质量存在进一步提升的空间。发明内容0004本公开的目的在于提供一种数据更新方法、匿踪查询方法、电子设备及计算机可读介质,该方案能够在匿踪查询中不影响服务质量的基础上,降低数据更新代价和消耗,且效率高,满足查询服务对数据准确性、实时性的要求。0005根据本公开的第一方面提供了一种数据更新方法,该方法可以应用于匿踪查询中的数据提供方,该数据提供方包括支持匿踪查询的第一数。

14、据,以及支持数据更新的索引信息与第二数据,该第一数据由第二数据打包获得,第二数据由原始数据经预处理获得,该方法可以包括:获取用于数据更新的第三数据;在基于第三数据进行更新时不符合分配条件的情况下,基于原始数据和第三数据进行预处理,获得更新后的第二数据与更新的索引信息;或,在基于第三数据进行更新时符合分配条件的情况下,基于索引信息将第三数据更新到第二数据的对应索引位置,获得更新后的第二数据;分配条件包括索引信息不变、更新比例小于或等于比例阈值中的至少一种;对更新后的第二数据进行打包,获得更新后的第一数据。0006可选地,基于索引信息将第三数据更新到第二数据的对应索引位置,获得更新后的第二数据,包。

15、括:根据预设分片规则对第三数据进行分片处理,确定第三数据对应的至少一个分片索引;根据分片索引将第三数据分配到对应的分片;对分配有第三数据的每一分片进行不经意伪随机函数OPRF处理,分别获得第三数据对应的标识伪随机值与加密特征数据;基于第三数据对应的标识伪随机值与加密特征数据进行分桶更新,分桶更新包括插入、替换和删除中的至少一种;对每一发生分桶更新的分桶,分别计算更新后的第一标识匹配多项式与更新后的第一特征多项式,获得更新后的第二数据。0007可选地,基于第三数据对应的标识伪随机值与加密特征数据进行分桶更新,包括:对第三数据对应的标识伪随机值进行哈希处理,获得第三数据对应的哈希索引;根据第三说明。

16、书1/18 页5CN 117521152 A5数据对应的哈希索引,将第三数据对应的标识伪随机值与加密特征数据插入对应索引位置的分桶;或,根据第三数据对应的哈希索引,在对应索引位置的分桶中基于第三数据对应的加密特征数据进行替换;或,根据第三数据对应的哈希索引,在对应索引位置的分桶中基于第三数据对应的标识伪随机值进行删除。0008可选地,更新后的索引信息包括更新后的分片索引,基于原始数据和第三数据进行预处理,获得更新后的第二数据与更新的索引信息,包括:根据预设分片规则对原始数据和第三数据一同进行分片处理,原始数据包括标识数据以及对应的特征数据,每一更新后的分片对应一个更新后的分片索引;对每一更新后。

17、的分片进行不经意伪随机函数OPRF处理,分别获得更新后的标识伪随机值与更新后的加密特征数据;对更新后的标识伪随机值与更新后的加密特征数据进行哈希分桶处理;其中,每个分桶中包括至少一对更新后的标识伪随机值与更新后的加密特征数据;对每一分桶,分别计算更新后的第一标识匹配多项式与更新后的第一特征多项式,获得更新后的第二数据。0009可选地,更新后的索引信息还包括更新后的哈希索引,对更新后的标识伪随机值与更新后的加密特征数据进行哈希分桶处理,包括:对更新后的标识伪随机值进行哈希处理,获得更新后的哈希索引;每一更新后的哈希索引对应一个更新后的分桶;根据更新后的哈希索引将更新后的标识伪随机值与更新后的加密。

18、特征数据插入对应更新后的索引位置的分桶。0010可选地,索引信息包括分片索引,获取用于数据更新的第三数据前,还包括:根据预设分片规则对原始数据进行分片处理,原始数据包括标识数据以及对应的特征数据,每一分片对应一个分片索引;对每一分片进行OPRF处理,分别获得标识数据对应的标识伪随机值,以及特征数据对应的加密特征数据;对标识伪随机值与加密特征数据进行哈希分桶处理;其中,每个分桶中包括至少一对标识伪随机值与加密特征数据;对每一分桶,分别计算第一标识匹配多项式与第一特征多项式,获得第二数据;对第二数据中的第一标识匹配多项式进行打包,获得第一数据中的第二标识匹配多项式,以及对第二数据中的第一特征多项式。

19、进行打包,获得第一数据中的第二特征多项式,从而获得第一数据。0011根据本公开的第二方面提供了一种匿踪查询方法,该方法可以应用于数据提供方,数据提供方包括支持匿踪查询的第一数据,以及支持数据更新的索引信息与第二数据,第一数据由第二数据打包获得,第二数据由原始数据经预处理获得,数据提供方采用前述第一方面的方法进行数据更新,该方法可以包括:响应于查询方的数据查询请求,调取第一数据进行检索,获得查询结果;向查询方返回查询结果。0012根据本公开的第三方面提供了一种电子设备,该电子设备作为匿踪查询中的数据提供方,数据提供方包括支持匿踪查询的第一数据,以及支持数据更新的索引信息与第二数据,第一数据由第二。

20、数据打包获得,第二数据由原始数据经预处理获得,电子设备可以包括:接收模块,用于获取用于数据更新的第三数据;更新模块,用于在基于第三数据进行更新时不符合分配条件的情况下,基于原始数据和第三数据进行预处理,获得更新后的第二数据与更新的索引信息;或,更新模块,用于在基于第三数据进行更新时符合分配条件的情况下,基于索引信息将第三数据更新到第二数据的对应索引位置,获得更新后的第二数据;分配条件包括索引信息不变、更新比例小于或等于比例阈值中的至少一种;更新模块,还用于对更新后的第二数据进行打包,获得更新后的第一数据。说明书2/18 页6CN 117521152 A60013可选地,更新模块,具体用于根据预。

21、设分片规则对第三数据进行分片处理,确定第三数据对应的至少一个分片索引;根据分片索引将第三数据分配到对应的分片;对分配有第三数据的每一分片进行不经意伪随机函数OPRF处理,分别获得第三数据对应的标识伪随机值与加密特征数据;基于第三数据对应的标识伪随机值与加密特征数据进行分桶更新,分桶更新包括插入、替换和删除中的至少一种;对每一发生分桶更新的分桶,分别计算更新后的第一标识匹配多项式与更新后的第一特征多项式,获得更新后的第二数据。0014可选地,更新模块,具体用于对第三数据对应的标识伪随机值进行哈希处理,获得第三数据对应的哈希索引;根据第三数据对应的哈希索引,将第三数据对应的标识伪随机值与加密特征数。

22、据插入对应索引位置的分桶;或,根据第三数据对应的哈希索引,在对应索引位置的分桶中基于第三数据对应的加密特征数据进行替换;或,根据第三数据对应的哈希索引,在对应索引位置的分桶中基于第三数据对应的标识伪随机值进行删除。0015可选地,更新后的索引信息包括更新后的分片索引,更新模块,具体用于根据预设分片规则对原始数据和第三数据一同进行分片处理,原始数据包括标识数据以及对应的特征数据,每一更新后的分片对应一个更新后的分片索引;对每一更新后的分片进行不经意伪随机函数OPRF处理,分别获得更新后的标识伪随机值与更新后的加密特征数据;对更新后的标识伪随机值与更新后的加密特征数据进行哈希分桶处理;其中,每个分。

23、桶中包括至少一对更新后的标识伪随机值与更新后的加密特征数据;对每一分桶,分别计算更新后的第一标识匹配多项式与更新后的第一特征多项式,获得更新后的第二数据。0016可选地,更新后的索引信息还包括更新后的哈希索引,更新模块,具体用于对更新后的标识伪随机值进行哈希处理,获得更新后的哈希索引;每一更新后的哈希索引对应一个更新后的分桶;根据更新后的哈希索引将更新后的标识伪随机值与更新后的加密特征数据插入对应更新后的索引位置的分桶。0017可选地,电子设备还包括:创建模块,用于根据预设分片规则对原始数据进行分片处理,原始数据包括标识数据以及对应的特征数据,每一分片对应一个分片索引;对每一分片进行OPRF处。

24、理,分别获得标识数据对应的标识伪随机值,以及特征数据对应的加密特征数据;对标识伪随机值与加密特征数据进行哈希分桶处理;其中,每个分桶中包括至少一对标识伪随机值与加密特征数据;对每一分桶,分别计算第一标识匹配多项式与第一特征多项式,获得第二数据;对第二数据中的第一标识匹配多项式进行打包,获得第一数据中的第二标识匹配多项式,以及对第二数据中的第一特征多项式进行打包,获得第一数据中的第二特征多项式,从而获得第一数据。0018可选地,电子设备还包括:查询模块,用于响应于查询方的数据查询请求,调取第一数据进行检索,获得查询结果;查询模块,还用于向查询方返回查询结果。0019根据本公开的第四方面,提供了一。

25、种电子设备,包括:处理器;以及存储器,用于存储处理器的计算机程序;其中,处理器配置为经由执行计算机程序来实现上述实现如第一方面的数据更新方法。0020根据本公开的第五方面提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现如第一方面的数据更新方法。说明书3/18 页7CN 117521152 A70021根据本公开的第六方面,提供了一种计算机程序产品,当其在电子设备上运行时,使得电子设备执行如实现如第一方面的数据更新方法。0022本公开提供的数据更新方法,匿踪查询中的数据提供方可以包括支持匿踪查询的第一数据,以及支持数据更新的索引信息与第二数据,第一数据由第二数据打。

26、包获得,第二数据由原始数据经预处理获得;在获得用于数据更新的第三数据时,基于第三数据进行更新不符合分配条件时,可以基于原始数据和第三数据进行预处理,获得更新后的第二数据和更新后的索引信息;或,基于第三数据进行更新符合分配条件的情况下,基于该索引信息将第三数据更新到第二数据对应的索引位置,获得更新后的第二数据,其中,分配条件包括索引信息不变、更新比例小于或等于比例阈值中的至少一种;再对更新后的第二数据进行打包,获得更新后的第一数据。该方法通过支持匿踪查询与数据更新的数据,降低了数据更新对匿踪查询的干扰,且通过区分是否符合分配条件选择不同的计算方式,避免了每次数据更新时需要整体进行计算的高计算代价。

27、与消耗,也提高了数据更新的效率,满足了查询服务对数据准确性、实时性的要求。0023应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。附图说明0024此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。0025图1为本公开实施例提供的一种数据更新方法的步骤流程图之一。0026图2为本公开实施例提供的一种数据更新方法的步骤流程图之二。0027图3为本公开实施例提供的。

28、一种分桶更新的方法步骤流程图。0028图4为本公开实施例提供的一种匿踪查询方法的步骤流程图。0029图5为本公开实施例提供的一种电子设备的结构框图。0030图6为本公开实施例提供的一种电子设备的结构示意图。具体实施方式0031现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人。

29、员将意识到,可以实践本公开的技术方案而省略特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。0032此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功说明书4/18 页8CN 117521152 A8能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功。

30、能实体。0033需要说明的是,本公开获取的数据,包括原始数据、第三数据等数据,均在明确告知用户或相关数据所属方对数据的采集内容、数据用途、处理方式等信息后,在用户或相关数据所属方同意、授权的情况下访问、采集、存储并应用于后续分析处理,且可以向用户或相关数据所属方发送访问、更正、删除该数据的途径,以及撤销同意、授权的方法。0034图1为本公开实施例提供的一种数据更新方法的步骤流程图之一,该方法可以应用于匿踪查询中的数据提供方,数据提供方包括支持匿踪查询的第一数据,以及支持数据更新的索引信息与第二数据,第一数据由第二数据打包获得,第二数据由原始数据经预处理获得。0035本公开实施例中,数据提供方可。

31、以在匿踪查询中提供查询、检索的数据,以向查询方返回符合业务需求的查询结果。其中,数据提供方对支持匿踪查询的第一数据,以及支持数据更新的索引信息与第二数据进行了分离,其中第二数据由原始数据经预处理获得,对第二数据打包可以进一步获得第一数据,预处理可以包括数据分片、分桶、多项式计算等。通过分离支持匿踪查询,以及支持数据更新的数据,使得在数据更新中执行开销大、负担重的计算任务时不影响对匿踪查询的支持。0036在本公开实施例中,在每个参与方中,如图1所示,该方法可以包括如下所示的步骤101至步骤104。0037步骤101、获取用于数据更新的第三数据。0038本公开实施例中,数据提供方在持有第一数据、第。

32、二数据的基础上,可以获取用于数据更新的第三数据。该第三数据可以包括需插入的待新增数据,可以包括需覆盖原数据的待替换数据,也可以是指示对原数据进行删除的待删除数据,根据实际业务需求并支持的数据处理方式,数据提供方可以获取不同的第三数据,本公开实施例对此不作具体限制。0039步骤102、在基于第三数据进行更新时不符合分配条件的情况下,基于原始数据和第三数据进行预处理,获得更新后的第二数据与更新的索引信息。0040本公开实施例中,在支持数据更新的第二数据和索引信息中,基于第三数据更新可以是根据该索引信息将第三数据插入或替换第二数据的对应索引位置,或对第二数据对应索引位置进行删除等不同更新操作。在实际。

33、采用第三数据进行数据更新前,可以先对基于第三数据进行的更新操作是否符合分配条件进行判断。该分配条件可以是将第三数据直接分配到已有第二数据中,第二数据发生变化不会导致打包后获得的第一数据发生影响匿踪查询的变化;或者,分配条件也可以是将第三数据直接分配到已有第二数据中,不会导致第二数据的变化过大。其中,分配条件的具体内容可以根据实际数据处理需求进行设置。0041在基于第三数据的更新操作不符合分配条件时,可以以第三数据和原始数据为基础,作为新的原始数据整体进行预处理。此时,更新后的第二数据可以由对原始数据、第三数据整体进行分片、分桶、多项式计算等预处理后获得,以及该预处理过程中还获得了更新后的索引信。

34、息,以指向重新划分的数据分片、分桶等索引位置。此时,第二数据由原始数据经预处理获得,更新后的第二数据由原始数据与第三数据经预处理获得,实现了基于第三数据的数据更新。说明书5/18 页9CN 117521152 A90042或,步骤103、在基于第三数据进行更新时符合分配条件的情况下,基于索引信息将第三数据更新到第二数据的对应索引位置,获得更新后的第二数据;分配条件包括索引信息不变、更新比例小于或等于比例阈值中的至少一种。0043具体的,分配条件可以包括索引信息不变,即将第三数据直接根据已有的索引信息分配到当前的第二数据中时,可以直接依照现有的数据分片、分桶进行更新,而不会引起数据分片、分桶等相。

35、关信息的变化;分配条件也可以包括更新比例小于或等于比例阈值,更新比例可以由原始数据的数据量以及第三数据中所指示待更新的数据量进行比较获得,该更新比例较小表示数据更新对数据提供方所持有数据的影响较小,而该更新比例较大表示数据更新对数据提供方所持有数据的影响较大,此时直接进行更新可能会导致索引信息的变化,或者可能导致数据更新过程中存在错漏,从而影响匿踪查询的准确性。0044在基于第三数据的更新操作符合分配条件时,可以将第三数据基于索引信息更新到第二数据的对应索引位置,如根据对第二数据进行分片时所采用的分片规则对第三数据计算所属的分片,并将第三数据分配到对应所属分片中,进一步进行分桶、多项式计算等等。

36、,通过对第二数据中第三数据对应的索引位置进行更新,可以进行不影响匿踪查询服务的局部数据更新,提高了数据更新的效率与准确性。0045步骤104、对更新后的第二数据进行打包,获得更新后的第一数据。0046进一步的,可以对更新后的第二数据进行打包,以获得更新后的第一数据。其中,可以对更新后的第二数据中多项式发生变化的局部数据进行打包,并基于打包后的局部数据对第一数据进行更新;或者,也可以对更新后的第二数据整体进行打包,并以打包后的第二数据进行覆盖第一数据,获得更新后的第一数据,以采用更新后的第一数据支持后续的匿踪查询。0047本公开提供的数据更新方法,匿踪查询中的数据提供方可以包括支持匿踪查询的第一。

37、数据,以及支持数据更新的索引信息与第二数据,第一数据由第二数据打包获得,第二数据由原始数据经预处理获得;在获得用于数据更新的第三数据时,基于第三数据进行更新不符合分配条件时,可以基于原始数据和第三数据进行预处理,获得更新后的第二数据和更新后的索引信息;或,基于第三数据进行更新符合分配条件的情况下,基于该索引信息将第三数据更新到第二数据对应的索引位置,获得更新后的第二数据,其中,分配条件包括索引信息不变、更新比例小于或等于比例阈值中的至少一种;再对更新后的第二数据进行打包,获得更新后的第一数据。0048该方法通过分离支持匿踪查询与支持数据更新的数据,降低了数据更新对匿踪查询的干扰,且通过区分是否。

38、符合分配条件选择不同的计算方式,避免了每次数据更新时需要进行整体计算的高计算成本与消耗,也提高了数据更新的效率,满足了查询服务对数据准确性、实时性的要求。0049图2为本公开实施例提供的一种数据更新方法的步骤流程图之二,该方法应用于匿踪查询中的数据提供方,数据提供方包括支持匿踪查询的第一数据,以及支持数据更新的索引信息与第二数据,第一数据由第二数据打包获得,第二数据由原始数据经预处理获得。0050本公开实施例中,第一数据、第二数据可对应参照前述图1的相关描述,为避免重复,在此不再赘述。说明书6/18 页10CN 117521152 A100051其中,分离支持匿踪查询的第一数据,以及支持数据更。

39、新的索引信息与第二数据可以通过切分存储实现,如将第一数据存储在查询数据库中,将第二数据和索引信息存储在更新数据库中,响应于数据更新的请求可以调取更新数据库进行数据更新,响应于数据查询的请求可以调取查询数据库进行匿踪查询。在数据的生命周期中,数据更新通常属于匿踪查询的数据创建和存储阶段,实际查询过程属于匿踪查询的数据使用阶段,本公开实施例中根据不同阶段划分,对数据进行切分隔离存储,以减少实际查询过程中调用数据的加载时间,提高查询效率。0052如,数据提供方配置有更新数据库DB1v1以及查询数据库DB2v1。DB1v1包括第二数据与索引信息,DB2v1包括第一数据。0053在本公开一可选的方法实施。

40、例中,索引信息包括分片索引。0054本公开实施例中,数据分片是指将数据按照不可区分度划分为不同的均衡数据子集,以降低单次查询中通信和计算成本,同时不暴露数据子集敏感信息的数据预处理方式。分片索引可以指示数据分片后不同数据所属的分片。0055本公开实施例中,数据提供方可以预先对原始数据进行预处理,以获得所持有的第二数据与索引信息,以及对第二数据进行打包获得第一数据,则该方法可以包括如下步骤201至步骤216:步骤201、根据预设分片规则对原始数据进行分片处理,原始数据包括标识数据以及对应的特征数据,每一分片对应一个分片索引。0056本公开实施例中,原始数据可以是发生数据更新前数据提供方所采集和存。

41、储的标识特征数据集,可以包括标识数据以及对应的特征数据,在匿踪查询中支持查询方根据标识数据获取对应的特征数据。其中,预设分片规则可以包括不可区分度、分片数等限制规则,基于预设分片规则对原始数据进行分片处理,可以以获得的每个分片为单位进行预处理、存储和数据更新。0057如,原始数据为标识特征数据集X,数据量为100000,不可区分度为10000,从而确定分片片数为10,每一分片对应分片索引为b(1、2、10);另外,在实际应用中,不可区分度确认的可以是每一分片中数据流的大致范围,如不可区分度为10000时表示每一分片的数据量可以在10000上下波动,并非每一分片平均,具体波动幅度可以根据实际需求。

42、进行设置。0058步骤202、对每一分片进行OPRF处理,分别获得标识数据对应的标识伪随机值,以及特征数据对应的加密特征数据。0059本公开实施例中,可以利用OPRF(Oblivious PseudoRandom Function,不经意伪随机函数)对每一分片中对应的标识数据与特征数据进行分别处理,如可以构造OPRF密钥,并基于OPRF密钥将原始数据转换为伪随机值,伪随机值中的一部分可以作为标识数据的标识伪随机值,另一部分用于对特征数据进行加密获得加密特征数据。标识伪随机值与加密特征数据也存在对应关系。在OPRF处理的基础上,还可以仅由数据提供方持有OPRF密钥,查询方可以通过与数据提供方的通。

43、信交互获得基于OPRF密钥处理后的输出结果。0060如,分片b包括,其中为标识数据,为对应的特征数据。数据提供方构造OPRF密钥,进行伪随机函数处理获得伪随机值,其中,部分作为标识伪随说明书7/18 页11CN 117521152 A11机值,另一部分对特征数据加密获得加密特征数据,获得。0061步骤203、对标识伪随机值与加密特征数据进行哈希分桶处理;其中,每个分桶中包括至少一对标识伪随机值与加密特征数据。0062本公开实施例中,哈希分桶是一种粒度细化的存储结构优化方式。通过对标识伪随机值进行哈希处理获得指向存储位置的哈希索引,由于哈希函数的设置可能导致不同标识伪随机值对应的哈希索引相同,从。

44、而导致地址冲突,因此可以将相同哈希索引的标识伪随机值与加密特征数据分配到同一分桶中。经哈希分桶处理后,每个分桶中可以包括一对或两对以上标识伪随机值与加密特征数据,在解决地址冲突的同时,也提高了信息查找效率。0063在本公开一可选的方法实施例中,可以由哈希表记录哈希索引与其指向的存储位置。同时,将哈希表中每个存储位置作为一个分桶,则每个哈希索引对应一个分桶。哈希索引所对应的所有标识伪随机值与加密特征数据对被插入哈希表中对应的存储位置,即分配到对应的分桶中,实现哈希分桶处理。每个分桶中的标识伪随机值与加密特征数据对可以以链表的形式存储,在查询过程中可以先基于哈希索引确定对应的分桶,再在链表中确定具。

45、体标识伪随机值及其对应的加密特征数据。0064进一步的,在分桶已满,但还需要继续插入标识伪随机值与加密特征数据的情况下,可以新增一张与前述哈希表结构相同的哈希表,并将后续的伪随机值与加密特征数据插入哈希表 中哈希索引对应存储位置的分桶中。0065步骤204、对每一分桶,分别计算第一标识匹配多项式与第一特征多项式,获得第二数据。0066本公开实施例中,在哈希分桶处理的基础上,对每一分桶中的伪随机值与加密特征数据可以进行多项式计算,包括计算标识匹配多项式以及特征多项式。其中,标识匹配多项式可以通过如下公式(1)计算获得:(1)特征多项式可以通过如下公式(2)计算获得:(2)上述公式(1)、(2)中。

46、,c为多项式自变量,为明文随机值,是根据计算的牛顿插值多项式,k为分桶索引。0067步骤205、对第二数据中的第一标识匹配多项式进行打包,获得第一数据中的第二标识匹配多项式,以及对第二数据中的第一特征多项式进行打包,获得第一数据中的第二特征多项式,从而获得第一数据。0068本公开实施例中,在获得第一数据的基础上,可以对第一数据中的第一标识匹配多项式进行打包,获得第二标识匹配多项式;以及,对第一特征多项式进行打包,获得第二特征多项式,从而获得包括第二标识匹配多项式和第二特征多项式的第一数据。通过数据打包可以调整数据的存储结构,适应后续匿踪查询中的业务需求,如可以采用SIMD(Single 说明书。

47、8/18 页12CN 117521152 A12Instruction Multiple Data,单指令多数据)技术进行打包,使得第一数据在后续匿踪查询中支持并行化计算,有效提高查询效率。0069基于前述步骤201至步骤205中对原始数据进行预处理和打包,数据提供方在获得第一数据、第二数据和索引信息后,可以将第二数据以及索引信息落盘为DB1v1,以及将第一数据落盘为DB2v1;其中,DB1v1中的第二数据以及索引信息可以包括OPRF密钥、标识伪随机值加密特征数据对为分片索引)、哈希表、第一标识匹配多项式、第一特征多项式;其中,每个分片下,哈希表可以包括标识(ID)表与特征(Label)表,在。

48、哈希表中每一存储位置对应一个分桶,其中标识表记录每一分桶下的标识伪随机值,特征表记录每一分桶下标识伪随机值对应的加密特征数据。一个分片下哈希表的结构如下表1所示:表10070如表1所示,该分片下包括分桶如表1所示,该分片下包括分桶idx1、idx2和idx3,每一分桶中分别包括的标识伪随机值与加密特征数据对。0071基于上述表1,对每一分桶进行多项式计算后获得第一标识匹配多项式与第一特征多项式如下表2所示:表20072在此基础上,DB2v1中的第一数据可以包括OPRF密钥、第二标识匹配多项式、第二特征多项式;第二标识匹配多项式和第二特征多项式可以由表2打包获得,如下表3所示:表30073在数据。

49、更新时,数据提供方可以先加载DB1v1中的第二数据,输入第三数据进行数据更新,落盘时覆盖DB1v1获得DB1v2更新后的第二数据,并打包新增DB2v2更新后的第一数据;而在数据更新过程中,DB2v1中的第一数据可以保留以提供查询服务,在DB2v2更新后的第一数据生成后再由DB2v2提供查询服务,此时数据提供方可以根据需求选择是否保留说明书9/18 页13CN 117521152 A13历史版本的DB2v1,在存储空间充足的情况下,保留DB2v1可以保证数据可追溯,支持版本回滚,提高数据可靠性与安全性;在存储空间有限的情况下,删除DB2v1可以节省存储空间,提高数据读写效率;另外,响应于匿踪查询。

50、请求可以加载DB2v2进行计算,以返回查询结果,DB2v2仅包括查询计算所需的必要数据,可以有效提高加载、计算的效率,提高了匿踪查询的准确性和响应效率。0074以上信息仅用于举例,根据实际业务需求DB1v1、DB2v1还可以包括其他数据库配置信息、匿踪查询配置信息等,本公开实施例对此不作具体限制。0075步骤206、获取用于数据更新的第三数据。0076本公开实施例中,步骤206可对应参照前述步骤101的相关描述,为避免重复,在此不再赘述。0077如,获取用于数据更新的第三数据,其中为用于数据更新的标识数据,为用于数据更新的特征数据。0078在本公开一可选的方法实施例中,更新后的索引信息包括更新。

展开阅读全文
内容关键字: 数据 更新 方法 查询 电子设备 介质
关于本文
本文标题:数据更新方法、匿踪查询方法、电子设备及介质.pdf
链接地址:https://www.zhuanlichaxun.net/pdf/14525251.html
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1