数据处理方法及系统、候选数据池、电子设备、计算机可读存储介质.pdf
《数据处理方法及系统、候选数据池、电子设备、计算机可读存储介质.pdf》由会员分享,可在线阅读,更多相关《数据处理方法及系统、候选数据池、电子设备、计算机可读存储介质.pdf(23页完成版)》请在专利查询网上搜索。
1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202010188264.X (22)申请日 2020.03.17 (71)申请人 北京奇艺世纪科技有限公司 地址 100080 北京市海淀区北一街2号鸿城 拓展大厦10、 11层 (72)发明人 罗华林徐梦远贾滕阳杨光 (74)专利代理机构 北京润泽恒知识产权代理有 限公司 11319 代理人 莎日娜 (51)Int.Cl. G06F 16/9535(2019.01) G06F 16/215(2019.01) G06F 16/23(2019.01) (54)发明名称 数据处理方。
2、法及系统、 候选数据池、 电子设 备、 计算机可读存储介质 (57)摘要 本发明实施例提供了一种数据处理方法及 系统、 候选数据池、 电子设备、 计算机可读存储介 质, 该方法包括: 获取所述数据使用方发送的第 一数据请求; 根据预先确定的数据有效窗口的时 长以及数据有效规则, 判断所述第一数据请求所 请求的第一目标数据是否需要更新, 并在所述第 一目标数据需要更新的情况下, 对所述第一目标 数据进行更新; 其中, 所述第一目标数据是所述 候选数据池中存储的数据, 所述数据有效规则包 括至少一种对数据的特征的要求。 因而, 本发明 方案, 按需进行强制更新, 则在进行数据更新时, 并不会占据过。
3、多的计算资源, 从而在一定程度上 减少了更新数据库时所消耗的计算资源。 权利要求书3页 说明书16页 附图3页 CN 111368207 A 2020.07.03 CN 111368207 A 1.一种数据处理方法, 其特征在于, 应用于包括候选数据池和数据使用方的系统, 所述 方法执行于所述候选数据池, 所述方法包括: 获取所述数据使用方发送的第一数据请求; 根据预先确定的数据有效窗口的时长以及数据有效规则, 判断所述第一数据请求所请 求的第一目标数据是否需要更新, 并在所述第一目标数据需要更新的情况下, 对所述第一 目标数据进行更新; 其中, 所述第一目标数据是所述候选数据池中存储的数据,。
4、 所述数据有效规则包括至 少一种对数据的特征的要求。 2.根据权利要求1所述的数据处理方法, 其特征在于, 所述数据有效规则包括对数据内 容的要求; 所述根据预先确定的数据有效窗口的时长以及数据有效规则, 判断所述第一数据请求 所请求的第一目标数据是否需要更新, 并在所述第一目标数据需要更新的情况下, 对所述 第一目标数据进行更新, 包括: 判断所述第一目标数据上一次更新的第一时刻, 距离接收所述第一数据请求的第二时 刻的第一时长, 是否大于所述数据有效窗口的时长; 在所述第一时长大于所述数据有效窗口的时长的情况下, 对所述第一目标数据进行更 新; 在所述第一时长小于或等于所述数据有效窗口的时。
5、长的情况下, 判断所述第一目标数 据是否与所述数据有效规则相匹配; 在第一目标数据的数据内容与所述数据有效规则中对数据内容的要求不匹配的情况 下, 对所述第一目标数据进行更新。 3.根据权利要求2所述的数据处理方法, 其特征在于, 所述数据有效规则还包括对数据 结构的要求; 在判断所述第一目标数据是否与所述数据有效规则相匹配之后, 所述数据处理方法还 包括: 在所述第一目标数据的数据结构与所述数据有效规则中对数据结构的要求不匹配的 情况下, 获取所述第二时刻之前第一预设时间内被请求的数据中数据结构发生变化的第二 目标数据, 并对所述第一目标数据和所述第二目标数据进行更新。 4.根据权利要求3所。
6、述的数据处理方法, 其特征在于, 所述第二目标数据包括至少一次 第二数据请求所请求的数据; 所述对所述第一目标数据和所述第二目标数据进行更新, 包括: 获取所述第一目标数据的第一生产方的数据传输接口的每秒查询率, 以及每一次所述 第二数据请求所请求的数据的第二生产方的数据传输接口的每秒查询率; 计算所述第一目标数据的大小与所述第一生产方的数据传输接口的每秒查询率的比 值, 以及, 每一次所述第二数据请求所请求的数据的大小与对应的所述第二生产方的数据 传输接口的每秒查询率的比值; 根据所述比值的大小, 将所述第一目标数据的更新任务和所述至少一次第二数据请求 所请求的数据的更新任务添加到不同的任务。
7、队列; 分别执行所述任务队列中的数据更新任务, 其中, 不同任务队列的任务并行处理, 同一 权利要求书 1/3 页 2 CN 111368207 A 2 任务队列的任务按照在队列中的排序顺序执行。 5.根据权利要求1所述的数据处理方法, 其特征在于, 还包括: 在接收到用户输入的情况下, 获取第三目标数据, 所述第三目标数据中包括至少一次 第三数据请求所请求的数据中数据结构发生变化的数据, 所述至少一次第三数据请求是处 于所述用户输入的接收时刻之前的第二预设时间内的数据请求; 对所述第三目标数据进行更新; 其中, 若所述第一数据请求处于所述第二预设时间内, 则所述至少一次第三数据请求 中包括所。
8、述第一数据请求; 若所述第一数据请求处于所述第二预设时间之外, 则所述至少 一次第三数据请求中不包括所述第一数据请求。 6.根据权利要求5所述的数据处理方法, 其特征在于, 所述对所述第三目标数据进行更 新, 包括: 获取每一次所述第三数据请求所请求的数据的第三生产方的数据传输接口的每秒查 询率; 计算每一次所述第三数据请求所请求的数据的大小与对应的所述第三生产方的数据 传输接口的每秒查询率的比值; 根据所述比值的大小, 将各第三数据请求所请求的数据的更新任务添加到不同的任务 队列; 分别执行所述任务队列中的数据更新任务, 其中, 不同任务队列的任务并行处理, 同一 任务队列的任务按照在队列中。
9、的排序顺序执行。 7.一种候选数据池, 其特征在于, 所述候选数据池与数据使用方组成一系统, 所述候选 数据池包括: 服务模块, 用于获取所述数据使用方发送的第一数据请求; 所述服务模块还用于根据预先确定的数据有效窗口的时长以及数据有效规则, 判断所 述第一数据请求所请求的第一目标数据是否需要更新; 补偿模块, 用于在所述服务模块判定所述第一目标数据需要更新的情况下, 对所述第 一目标数据进行更新; 其中, 所述第一目标数据是所述候选数据池中存储的数据, 所述数据有效规则包括至 少一种对数据的特征的要求。 8.一种电子设备, 其特征在于, 包括处理器、 通信接口、 存储器和通信总线, 其中, 。
10、处理 器, 通信接口, 存储器通过通信总线完成相互间的通信; 存储器, 用于存放计算机程序; 处理器, 用于执行存储器上所存放的程序时, 实现权利要求1-6任一所述的数据处理方 法。 9.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 该程序被处理器执 行时实现如权利要求1-6中任一所述的数据处理方法。 10.一种数据处理系统, 其特征在于, 包括用于进行与实体本身数据相关的逻辑处理的 通用层, 以及至少一个用于进行业务场景相关的逻辑处理的业务层, 所述通用层包括如权 利要求1-6中任一项所述的数据处理方法中的候选数据池, 所述业务层包括如权利要求1-6 中任一项所述的数据处理。
11、方法中的候选数据池, 其中, 所述业务层包括的候选数据池向所 权利要求书 2/3 页 3 CN 111368207 A 3 述通用层包括的候选数据池请求数据, 所述通用层包括的候选数据池为所述业务层包括的 候选数据池提供数据。 权利要求书 3/3 页 4 CN 111368207 A 4 数据处理方法及系统、 候选数据池、 电子设备、 计算机可读存 储介质 技术领域 0001 本发明涉及计算机技术领域, 特别是涉及一种数据处理方法及系统、 候选数据池、 电子设备、 计算机可读存储介质。 背景技术 0002 在互联网行业中非常普遍和重要的推荐业务, 都依赖一个候选数据池, 其中, 候选 数据池提。
12、供可供推荐的数据, 对接数据生产系统, 对数据进行结构化, 准入限制, 清洗, 退场 等功能, 并为机器学习, 推荐引擎等下游模块提供数据服务。 0003 推荐候选数据池服务一般有这几方面的特点: 0004 第一方面, 数据量大, 一般会达到亿级, 甚至百亿, 千亿级; 0005 第二方面, 更新要求低延迟, 一般要求亚秒级延迟; 数据准确性要求高, 容错性强, 对于脏数据有自动修复功能; 0006 第三方面, 对业务变化适应性强, 能够适应多种不同的业务形态。 0007 目前业界主流的候选数据池服务数据拓扑, 采用的是Lambda架构。 所谓lambda架 构, 即将大数据处理分为批量层、 。
13、实时层和服务层。 其中, 批量层负责定时批量处理数据, 即 全库更新候选数据池; 实时层负责实时处理数据, 用于新物料实时入库, 无效数据实时下 线, 标签特征实时更新等; 服务层负责融合批量层和实时层的数据, 统一对外服务。 0008 其中, 实时层和批量层在进行数据处理的过程中, 由于系统丢包可能会丢失某些 数据, 或者某些数据任务处理失败, 导致某些数据并未成功处理, 但是现有技术中并不关心 哪些数据被丢失或者哪些数据未被成功处理, 而是每隔一定时间(例如每天的零点)对候选 数据池中的全部数据都进行更新。 其中, 更新之前若存在被丢失的数据或者未被成功处理 的数据, 通过现有技术中的前述。
14、更新方式, 则可以补充这些被丢包的数据或者修正未成功 处理的数据。 0009 由上述可知, 现有技术中, 由批量层对候选数据池全数据库进行批量更新, 而候选 数据池的数据量极大, 且并不关心哪些是真正需要被更新的数据, 而是在每一次更新时都 对候选数据池中全部的数据进行更新, 即需要针对候选数据池全数据库中的每一项数据重 新从生产方读取一次数据, 再写入到候选数据池中, 这样会消耗极大的计算资源。 发明内容 0010 本发明实施例的目的在于提供一种数据处理方法及系统、 候选数据池、 电子设备、 计算机可读存储介质, 以在一定程度上减少更新候选数据池时消耗的计算资源。 具体技术 方案如下: 00。
15、11 在本发明实施的第一方面, 首先提供了一种数据处理方法, 应用于包括候选数据 池和数据使用方的系统, 所述方法执行于所述候选数据池, 所述方法包括: 0012 获取所述数据使用方发送的第一数据请求; 说明书 1/16 页 5 CN 111368207 A 5 0013 根据预先确定的数据有效窗口的时长以及数据有效规则, 判断所述第一数据请求 所请求的第一目标数据是否需要更新, 并在所述第一目标数据需要更新的情况下, 对所述 第一目标数据进行更新; 0014 其中, 所述第一目标数据是所述候选数据池中存储的数据, 所述数据有效规则包 括至少一种对数据的特征的要求。 0015 在本发明实施的第。
16、二方面, 还提供了一种候选数据池, 所述候选数据池与数据使 用方组成一系统, 所述候选数据池包括: 0016 服务模块, 用于获取所述数据使用方发送的第一数据请求; 0017 所述服务模块还用于根据预先确定的数据有效窗口的时长以及数据有效规则, 判 断所述第一数据请求所请求的第一目标数据是否需要更新; 0018 补偿模块, 用于在所述服务模块判定所述第一目标数据需要更新的情况下, 对所 述第一目标数据进行更新; 0019 其中, 所述第一目标数据是所述候选数据池中存储的数据, 所述数据有效规则包 括至少一种对数据的特征的要求。 0020 在本发明实施的第三方面, 还提供了一种电子设备, 包括处。
17、理器、 通信接口、 存储 器和通信总线, 其中, 处理器, 通信接口, 存储器通过通信总线完成相互间的通信; 0021 存储器, 用于存放计算机程序; 0022 处理器, 用于执行存储器上所存放的程序时, 实现上述任一所述的数据处理方法。 0023 在本发明实施的第四方面, 还提供了一种计算机可读存储介质, 所述计算机可读 存储介质中存储有指令, 当其在计算机上运行时, 使得计算机执行上述任一所述的数据处 理方法。 0024 在本发明实施的第五方面, 还提供了一种包含指令的计算机程序产品, 当其在计 算机上运行时, 使得计算机执行上述任一所述的数据处理方法。 0025 在本发明实施的第六方面,。
18、 还提供了一种数据处理系统, 包括用于进行与实体本 身数据相关的逻辑处理的通用层, 以及至少一个用于进行业务场景相关的逻辑处理的业务 层, 所述通用层包括上述所述的数据处理方法中的候选数据池, 所述业务层包括上述所述 的数据处理方法中的候选数据池, 其中, 所述业务层包括的候选数据池向所述通用层包括 的候选数据池请求数据, 所述通用层包括的候选数据池为所述业务层包括的候选数据池提 供数据。 0026 本发明实施例提供的数据处理方法, 通过候选数据池在获取到数据使用方发送的 第一数据请求时, 根据预先确定的数据有效窗口的时长以及数据有效规则, 判断该第一数 据请求所请求的该候选数据池中保存的第一。
19、目标数据是否需要更新, 并在需要更新时才进 行更新。 0027 其中, 根据预先确定的数据有效窗口以及数据有效规则, 判断第一目标数据是否 需要被更新, 即判断第一目标数据是否是有效的数据。 如果第一目标数据被请求之前的处 理过程中被丢失或者未被处理成功, 则该第一目标数据属于无效数据, 即第一目标数据无 法通过数据有效窗口和数据有效规则的检验, 因而, 本发明的实施例中, 通过数据有效窗口 和数据有效规则的检验, 可以判断出第一目标数据被请求之前的处理过程中是否出现过被 丢失或者未被处理成功的情况。 说明书 2/16 页 6 CN 111368207 A 6 0028 由此可知, 本发明的实。
20、施例, 对更新的数据存在两方面要求: 第一方面, 被数据使 用方请求; 第二点, 根据数据有效窗口和数据有效规则判断需要更新, 即属于无效数据。 即 本发明的实施例中, 只有被请求的数据需要被更新时才进行更新, 即按需进行强制更新, 而 不是在每一次更新时都对数据库中全部的数据进行更新, 因而, 本发明的实施例, 在进行数 据更新时, 并不会占据过多的计算资源, 从而在一定程度上减少了更新候选数据池时所消 耗的计算资源。 附图说明 0029 为了更清楚地说明本发明实施例或现有技术中的技术方案, 下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍。 0030 图1为本发明实施例提供的一。
21、种数据处理方法的步骤流程图; 0031 图2为本发明实施例提供的另一种数据处理方法的步骤流程图; 0032 图3为本发明实施例提供的一种候选数据池的结构框图; 0033 图4为本发明实施例提供的另一种候选数据池的结构框图; 0034 图5为本发明实施例的候选数据池的具体实施方式的结构示意图; 0035 图6为本发明实施例的数据处理系统的结构示意图; 0036 图7为本发明实施例提供的电子设备的框图。 具体实施方式 0037 下面将结合本发明实施例中的附图, 对本发明实施例中的技术方案进行描述。 0038 图1是本发明实施例提供的一种数据处理方法, 应用于包括候选数据池和数据使 用方的系统, 所。
22、述方法执行于所述候选数据池。 其中, 该系统还包括数据生产方。 0039 具体的, 由数据生产方、 数据使用方和候选数据池可构成一个推荐系统。 其中, 数 据生产方: 是数据生产的源头, 一般指内容生产后台, 包括自制内容编辑平台, 用户生产内 容和专业用户生产内容上传平台, 爬取平台等, 以及配套的数据存储和访问服务等; 数据使 用方: 是指推荐系统中, 需要从候选数据池中获取数据的模块, 包括特征工程模块, 人工智 能算法模块, 在线服务模块, 统计报表模块等; 候选池: 为推荐系统提供统一的物料实体数 据服务, 相当于数据生产方和数据使用方之间的适配层, 屏蔽生产方的变化和差异性, 隐藏。
23、 大数据处理的工程细节, 统一物料数据格式规范, 提供可供推荐系统多个模块之间, 以及多 个推荐系统之间共享的、 协作的公共数据。 0040 如图1所示, 该数据处理方法可以包括以下步骤: 0041 步骤101: 获取所述数据使用方发送的第一数据请求。 0042 其中, 第一数据请求用于请求候选数据池中保存的数据。 0043 步骤102: 根据预先确定的数据有效窗口的时长以及数据有效规则, 判断所述第一 数据请求所请求的第一目标数据是否需要更新, 并在所述第一目标数据需要更新的情况 下, 对所述第一目标数据进行更新。 0044 其中, 所述第一目标数据是所述候选数据池中存储的数据。 0045 。
24、数据有效窗口的起始时刻是某一部分数据某一次的更新时刻, 结束时刻是距离开 始时刻预设时长的时刻。 例如数据A在t1时刻进行了一次更新, 则t1t1+T的时间段即为数 说明书 3/16 页 7 CN 111368207 A 7 据A的有效窗口。 其中, T表示数据有效窗口的时长, T可以通过人工设置。 0046 数据有效规则包括至少一种对数据的特征的要求, 即数据有效规则表示符合预先 设定的某一规则的数据才算有效数据, 其中, 数据有效规则也可以通过人工设置。 例如人工 设置t2时刻按照十个字段生产数据, 但是t2时刻之前的数据是按照九个字段生产的, 则具 有十个字段的数据才属于有效数据, 即可。
25、以人工设置具有十个字段的数据才属于有效数据 的规则。 0047 本发明的实施例, 为数据设置有效窗口以及有效规则, 从而能够在接收到数据使 用方发送的第一数据请求时, 判断该第一数据请求所请求的第一目标数据是否需要更新, 并在需要更新时才进行更新。 由此可知, 本发明的实施例, 只有被请求的数据需要被更新时 才进行更新, 即按需进行强制更新。 0048 由上述可知, 本发明实施例提供的数据处理方法, 通过候选数据池在获取到数据 使用方发送的第一数据请求时, 根据预先确定的数据有效窗口的时长以及数据有效规则, 判断该第一数据请求所请求的该候选数据池中保存的第一目标数据是否需要更新, 并在需 要更。
26、新时才进行更新, 因此, 本发明的实施例, 只有被请求的数据需要被更新时才进行更 新, 即按需进行强制更新, 而不是在每一次更新时都对数据库中全部的数据进行更新, 因 而, 本发明的实施例, 在进行数据更新时, 并不会占据过多的计算资源, 从而在一定程度上 减少了更新候选数据池时所消耗的计算资源。 0049 图2是本发明实施例提供的一种数据处理方法, 应用于包括候选数据池和数据使 用方的系统, 所述方法执行于所述候选数据池。 如图2所示, 该数据处理方法可以包括以下 步骤: 0050 步骤201: 获取所述数据使用方发送的第一数据请求。 0051 步骤202: 判断所述第一目标数据上一次更新的。
27、第一时刻, 距离接收所述第一数据 请求的第二时刻的第一时长, 是否大于所述数据有效窗口的时长。 0052 步骤203: 在所述第一时长大于所述数据有效窗口的时长的情况下, 对所述第一目 标数据进行更新。 0053 步骤204: 在所述第一时长小于或等于所述数据有效窗口的时长的情况下, 判断所 述第一目标数据是否与所述数据有效规则相匹配。 0054 其中, 候选数据池接收到生产方的数据后, 对接收到的数据进行处理, 然后对处理 后的数据打上处理时间戳, 并进行保存。 该处理时间戳即为其所属数据的有效窗口的起始 时刻。 0055 另外, 第一目标数据上一次更新的第一时刻, 距离接收第一数据请求的第。
28、二时刻 的第一时长, 大于数据有效窗口的时长, 即数据使用方发送的对第一目标数据的第一数据 请求位于该数据有效窗口之后, 则表示接收第一数据请求的第二时刻距离第一目标数据上 一次更新的时刻较长, 而在此期间, 第一目标数据存在很大可能被处理过, 但处理失败了, 但本发明的实施例中, 无论第二时刻与第一目标数据上一次更新的时刻之间, 第一目标数 据是否被处理过且处理失败了, 都对第一目标数据进行主动更新, 从而避免由于第一目标 数据此前被处理过但失败了, 而导致后续数据使用方请求第一目标数据时却获取到错误数 据。 0056 此外, 在第一目标数据上一次更新的第一时刻, 距离接收第一数据请求的第二。
29、时 说明书 4/16 页 8 CN 111368207 A 8 刻的第一时长, 小于或等于数据有效窗口的时长(即数据使用方发送的对第一目标数据的 第一数据请求位于该数据有效窗口之内)时, 进一步根据预先确定的数据有效规则, 判断第 一目标数据是否有效。 0057 由上述可知, 在所述第一时长大于所述数据有效窗口的时长的情况下, 或者, 在所 述第一目标数据不符合所述数据有效规则(即第一目标数据与数据有效规则中对数据的特 征的要求不匹配)的情况下, 所述第一目标数据需要更新; 在所述第一时长小于或等于所述 数据有效窗口的时长, 且所述第一目标数据符合所述数据有效规则的情况下, 所述第一目 标数据。
30、不需要更新。 0058 其中, 需要说明的是, 对于 “判断第一目标数据上一次更新的第一时刻, 距离接收 第一数据请求的第二时刻的第一时长是否大于数据有效窗口的时长” 的过程, 与 “判断第一 目标数据是否符合数据有效规则(即判断所述第一目标数据是否与所述数据有效规则相匹 配)” 的过程, 二者执行的先后顺序并不限定。 0059 例如, 可以是先判断第一目标数据上一次更新的第一时刻, 距离接收第一数据请 求的第二时刻的第一时长是否大于数据有效窗口, 在小于或等于时, 才去判断第一目标数 据是否符合数据有效规则; 在大于时, 则不去判断第一目标数据是否符合数据有效规则。 0060 或者, 也可以。
31、是先判断第一目标数据是否符合数据有效规则, 并在符合数据有效 规则时才去判断第一目标数据上一次更新的第一时刻, 距离接收第一数据请求的第二时刻 的第一时长是否大于数据有效窗口的时长, 而在第一目标数据不符合数据有效规则时, 则 不再判断第一目标数据上一次更新的第一时刻, 距离接收第一数据请求的第二时刻的第一 时长是否大于数据有效窗口的时长。 0061 步骤205: 在第一目标数据的数据内容与所述数据有效规则中对数据内容的要求 不匹配的情况下, 对所述第一目标数据进行更新。 0062 步骤206: 在所述第一目标数据的数据结构与所述数据有效规则中对数据结构的 要求不匹配的情况下, 获取所述第二时。
32、刻之前第一预设时间内被请求的数据中数据结构发 生变化的第二目标数据, 并对所述第一目标数据和所述第二目标数据进行更新。 0063 本发明的实施例中, 数据有效规则包括对数据内容的要求和对数据结构的要求, 例如规定具有十个字段的数据属于有效数据, 即为对数据结构的要求; 规定第八个字段的 内容为 “视频标题” , 即为对数据内容的要求。 0064 由上述可知, 本发明的实施例, 在判断出第一目标的数据内容与数据有效规则中 对数据内容的要求不匹配时, 仅对第一目标数据进行更新。 其中, 第一目标数据的数据内容 与数据有效规则中对数据内容的要求不匹配, 则表示被请求的数据的数据内容发生了变 化, 而。
33、对于发生数据内容变化的数据, 本发明的实施例采用单次更新的方式, 即只对当前被 请求的第一目标数据进行更新。 例如, 第一目标数据的第八个字段的内容当前为视频类型, 但数据有效规则中要求第八个字段为 “视频标题” 才为有效数据, 则此时只需要更新第一目 标数据的第八个字段的内容为 “视频标题” 即可。 0065 另外, 判断出第一目标数据的数据结构与数据有效规则中对数据结构的要求不匹 配, 则表示被请求的数据的数据结构发生了变化, 而对于发生数据结构变化的数据, 本发明 的实施例采用批量更新的方式。 例如, 数据生产源决定对所有的数据新增加一个 “是否是精 品数据” 的字段, 其中, 请求的一。
34、条数据, 虽然在有效期窗口内, 但缺失了该字段, 则说明候 说明书 5/16 页 9 CN 111368207 A 9 选数据池中缓存的该条数据需要强制更新。 0066 即在接收到数据使用方发送的第一数据请求后, 若判断该条第一数据请求所请求 的第一目标数据的数据结构与所述数据有效规则中对数据结构的要求不匹配, 即被请求的 第一目标数据发生了结构变化, 此时以接收该条第一数据请求的第二时刻为终止时刻, 以 第二时刻之前且间隔第二时刻第一预设时长的时刻为开始时刻, 获取该开始时刻和终止时 刻之间, 累计被请求的数据中发生数据结构变化的数据, 并对这些数据以及第一目标数据 进行批量更新。 0067。
35、 例如第一目标数据为数据D, 累计被请求的数据中数据A、 B、 C的数据结构分别发生 了变化, 则需要对数据A、 B、 C、 D进行更新。 具体的, 分别从生成数据A、 数据B、 数据C、 数据D的 源数据的生产方获取对应的源数据, 然后对源数据进行处理, 从而获得更新后的数据A、 数 据B、 数据C和数据D。 0068 具体的, 对第一目标数据进行更新的过程包括: 重新从生产方获取生成第一目标 数据的源数据, 然后对源数据进行处理, 从而获得更新后的数据。 其中, 此处对源数据的处 理过程可以包括: 数据格式化、 数据清洗、 聚合实体之间的信息、 实体去重、 内容理解、 质量 定标中的一个或。
36、多个处理过程。 其中, 数据格式化, 即进行字段抽取, 结构化封装等; 数据清 洗, 即过滤不符合业务需求的推荐实体; 聚合关联实体之间的信息, 例如将店铺和商品之间 的信息聚合, 将专辑和视频之间的信息聚合。 其中, 内容理解指根据实体的内容, 例如视频、 图片、 音频的内容, 通过图像、 声纹等的特征提取, 结合机器学习的算法, 识别出内容的分 类, 打上文本标签, 判别色情或低俗风险度等。 0069 在进行批量更新的过程中, 对获取到的每一项源数据进行处理的过程, 包括: 数据 格式化、 数据清洗、 聚合实体之间的信息、 实体去重、 内容理解、 质量定标中的一个或多个处 理过程。 007。
37、0 可选的, 所述第二目标数据包括至少一次第二数据请求所请求的数据。 0071 所述对所述第一目标数据和所述第二目标数据进行更新, 包括: 0072 获取所述第一目标数据的第一生产方的数据传输接口的每秒查询率, 以及每一次 所述第二数据请求所请求的数据的第二生产方的数据传输接口的每秒查询率; 0073 计算所述第一目标数据的大小与所述第一生产方的数据传输接口的每秒查询率 的比值, 以及, 每一次所述第二数据请求所请求的数据的大小与对应的所述第二生产方的 数据传输接口的每秒查询率的比值; 0074 根据所述比值的大小, 将所述第一目标数据的更新任务和所述至少一次第二数据 请求所请求的数据的更新任。
38、务添加到不同的任务队列; 0075 分别执行所述任务队列中的数据更新任务, 其中, 不同任务队列的任务并行处理, 同一任务队列的任务按照在队列中的排序顺序执行。 0076 例如需要对数据A、 B、 C、 D进行更新, 其中, 例如生成数据A的源数据的生产方的数 据传输接口的QPS(Queries Per Second, 每秒查询率)为x1, 生成数据B的源数据的生产方 的QPS为x2, 生成数据C的源数据的生产方的QPS为x3, 生成数据D的源数据的生产方的QPS为 x4, 数据A、 B、 C、 D的大小分别为a、 b、 c、 d, 则需要计算a/x1、 b/x2、 c/x3、 d/x4, 并。
39、根据这些比 值的大小, 将更新数据A的任务、 更新数据B的任务、 更新数据C的任务、 更新数据D的任务, 添 加到不同的任务队列。 说明书 6/16 页 10 CN 111368207 A 10 0077 其中, 被请求的数据的大小与对应的生产方的QPS的比值, 表示更新被请求的该部 分数据所需的时间长短, 即被请求的数据的大小与对应的生产方的QPS的比值越小, 表示更 新被请求的该部分数据所需的时间越短。 因此, 本发明实施例中, 根据更新被请求的数据所 需时间的长短, 将更新不同数据的任务添加到不同的任务队列。 0078 本发明实施例中, 例如令数据大小与QPS的比值为目标参数, 不同任务。
40、队列分别对 应有一目标参数的取值范围, 例如第一队列对应的目标参数的范围为y1y2, 第二队列对 应的目标参数的范围为y2y3, 第三队列对应的目标参数的范围为y3y4, 则若上述举例 中, a/x1、 b/x2分别处于y1y2范围之内, 则将该对数据A的更新任务和对数据B的更新任务 添加到第一队列中, 若c/x3、 d/x4处于y2y3范围之内, 则将对数据C的更新任务和对数据D 的更新任务添加到第二队列中。 0079 具体的, 例如第一队列对应的目标参数可以是0小时24小时, 则第一队列中的数 据更新任务属于更新时间为小时级别的任务; 第二队列对应的目标参数可以是1天7天, 则第二队列中的。
41、数据更新任务属于更新时间为天级别的任务; 第三队列对应的目标参数可 以是1周4周, 则第三队列中的数据更新任务属于更新时间为周级别的任务。 0080 其中, 对于添加到同一个队列中的多个数据更新任务的排列顺序, 可以随机进行 排列, 也可以按照各个数据更新任务对应的数据请求的接收时间的先后顺序进行排列。 0081 另外, 例如第一队列中包括有任务一和任务二, 第二队列中包括有任务三和任务 四, 第三队列中包括有任务五和任务六, 其中, 任务一排在任务二前面, 任务三排在任务四 前面, 任务五排在任务六前面, 则在执行这三个队列中的任务时, 存在三个并行的通道, 通 道一执行第一队列中的任务, 。
42、通道二执行第二队列中的任务, 通道三执行第三队列中的任 务。 而通道一中则优先执行任务一, 其次执行任务二; 通道二中优先执行任务三, 其次执行 任务四; 通道三中优先执行任务五, 其次执行任务六。 0082 此外, 现有技术中, 对于数据更新任务只设置一个队列, 例如这个队列中包括两个 任务, 其中前一个批次需要批量刷新1亿条数据(处理完毕可能需要几天), 之后一次需要批 量刷新一万条数据(可能只需要几分钟), 这一万条数据如果和一亿条数据投入同一个队 列, 则必须要等待一亿条数据处理完毕之后才能刷新一万条数据。 0083 而本发明实施例中, 采用被请求的数据的大小与对应的生产方的QPS的比。
43、值, 表示 更新被请求的该部分数据所需的时间长短(即被请求的数据的大小与对应的生产方的QPS 的比值越小, 表示更新被请求的该部分数据所需的时间越短), 即通过估算每个数据更新任 务所需的时间, 从而根据消耗时间的长短, 选择不同的任务队列, 例如上述一亿数据的批量 刷新, 进入第二队列, 一万数据的批量刷新进入第一队列, 从而可以进一步减少执行多个数 据更新任务所需的时间。 0084 由此可知, 本发明的实施例, 在对数据进行批量更新时, 不同于传统的批量处理任 务。 其中, 传统的批量处理任务一次性针对所有的数据进行更新, 同时只会有一个任务运 行, 一个任务运行完毕之后, 才能启动下一个。
44、任务。 而本发明的实施例中, 对数据进行批量 更新时, 每个数据更新任务所需更新的数据大小不确定, 任务启动的时间点不确定, 多个数 据更新任务处理的数据, 都会作为数据流进入批量更新任务的任务队列中, 每个数据更新 任务的数据都是数据流的一部分, 不同的数据更新任务之间没有显式的分隔。 0085 可选的, 所述数据处理方法还包括: 说明书 7/16 页 11 CN 111368207 A 11 0086 在接收到用户输入的情况下, 获取第三目标数据, 所述第三目标数据中包括至少 一次第三数据请求所请求的数据中数据结构发生变化的数据, 所述至少一次第三数据请求 是处于所述用户输入的接收时刻之前。
45、的第二预设时间内的数据请求; 0087 对所述第三目标数据进行更新; 0088 其中, 若所述第一数据请求处于所述第二预设时间内, 则所述至少一次第三数据 请求中包括所述第一数据请求; 若所述第一数据请求处于所述第二预设时间之外, 则所述 至少一次第三数据请求中不包括所述第一数据请求。 0089 其中, 所述用户输入可以为对预先设置的开关按钮的操作。 0090 由上述可知, 本发明实施例中, 可以在接收到用户输入时, 触发一次数据更新, 即 本发明的实施例还可通过人工触发, 进行数据的批量更新。 但是, 本发明实施例中, 人工触 发进行批量更新的对象并不是整个候选数据池中的数据, 而是在接收到。
46、用户输入之前的一 段时间内, 累计被请求的数据中发生了数据结构变化的数据。 0091 可选的, 所述对所述第三目标数据进行更新, 包括: 0092 获取每一次所述第三数据请求所请求的数据的第三生产方的数据传输接口的每 秒查询率; 0093 计算每一次所述第三数据请求所请求的数据的大小与对应的所述第三生产方的 数据传输接口的每秒查询率的比值; 0094 根据所述比值的大小, 将各第三数据请求所请求的数据的更新任务添加到不同的 任务队列; 0095 分别执行所述任务队列中的数据更新任务, 其中, 不同任务队列的任务并行处理, 同一任务队列的任务按照在队列中的排序顺序执行。 0096 本发明的实施例。
47、中, 可以将所述至少一次第三数据请求所请求的数据的更新任 务, 添加到不同的任务队列。 由此可知, 在通过人工触发进行数据的批量更新时, 也可以根 据需要处理的数据量大小, 估算需要处理的时间, 根据消耗时间的长短, 选择不同的任务队 列, 从而可以进一步减少多个批次的数据进行更新所需要的时间。 0097 此外, 可选的, 上述步骤201中的第一数据请求包括位于一个数据有效窗口内的, 对同一数据的多次请求, 即在一个数据有效窗口内, 可能对同一数据进行了多次请求, 则可 以将对同一数据的多次请求聚合起来, 仅执行一次更新过程。 例如数据A在一个时间窗口内 可能多次被请求, 这种情况下, 可以将。
48、数据A的多次更新流程会聚合起来, 仅进行一次更新, 即可满足需求, 从而避免了针对位于同一个数据有效窗口中对同一数据的多次请求分别都 执行一次数据更新任务, 而导致整体数据更新时间过长, 且过程繁琐。 0098 综上所述, 本发明的实施例, 将传统的批量数据更新任务, 被按需的、 少量的强制 数据刷新替代, 大幅节省了计算资源; 并且, 大批量的数据强制刷新需求, 也通过流式任务 执行。 0099 图3是本发明实施例提供的一种候选数据池的结构框图。 所述候选数据池与数据 使用方组成一系统, 如图3所示, 该候选数据池50可以包括: 0100 服务模块501, 用于获取数据使用方发送的第一数据请。
49、求; 0101 所述服务模块501还用于根据预先确定的数据有效窗口的时长以及数据有效规 则, 判断所述第一数据请求所请求的第一目标数据是否需要更新; 说明书 8/16 页 12 CN 111368207 A 12 0102 补偿模块502, 用于在所述服务模块判定所述第一目标数据需要更新的情况下, 对 所述第一目标数据进行更新; 0103 其中, 所述第一目标数据是所述候选数据池中存储的数据, 所述数据有效规则包 括至少一种对数据的特征的要求。 0104 由此可知, 本发明的实施例, 通过候选数据池获取到数据使用方发送的第一数据 请求时, 根据预先确定的数据有效窗口的时长以及数据有效规则, 判。
50、断该第一数据请求所 请求的该候选数据池中保存的第一目标数据是否需要更新, 并在需要更新时才进行更新, 因此, 本发明的实施例, 只有被请求的数据需要被更新时才进行更新, 即按需进行强制更 新, 而不是在每一次更新时都对数据库中全部的数据进行更新, 因而, 本发明的实施例, 在 进行数据更新时, 并不会占据过多的计算资源, 从而在一定程度上减少了更新候选数据池 时所消耗的计算资源。 0105 图4是本发明实施例提供的一种候选数据池的结构框图。 所述候选数据池与数据 使用方组成一系统, 如图4所示, 该候选数据池60可以包括: 0106 服务模块601, 用于获取数据使用方发送的第一数据请求; 0。
- 内容关键字: 数据处理 方法 系统 候选 数据 电子设备 计算机 可读 存储 介质
高精度的低重频窄脉冲延迟控制电路.pdf
重金属污染土壤修复装置.pdf
微型扬声器音腔焊接装置.pdf
测试无人机避障功能的训练迷宫.pdf
半导体老化检测装置.pdf
车用尿素液的生产配比装置.pdf
管材转运稳定输送装置.pdf
灯光积木块.pdf
空压机滤芯.pdf
化工桶倒料机构.pdf
旋转式远端帽.pdf
细胞分类恒温箱.pdf
煤粉传输带用残余清洁机构.pdf
生物基可降解纤维面料生产用喂纱机构及针织大圆机.pdf
卷扬机调速机构.pdf
烧伤整形植皮辅助设备.pdf
快速充电电池组结构.pdf
高效率的废边吸附平台.pdf
变排量汽车空调压缩机后盖气动立式定心夹具.pdf
建筑保温板切割装置.pdf
高炉烟灰布袋除尘输灰系统.pdf
提高挤浆机的脱水装置.pdf
无人驾驶汽车辅助检修装置.pdf
类蛇毒肽的制备方法.pdf
中控系统探测方法、装置、设备及存储介质.pdf
有机电致发光材料及其制备方法与应用.pdf
涤纶线抗拉强度检测方法.pdf
与印度南瓜侧枝数量相关基因连锁的分子标记及应用.pdf
LED显示装置.pdf
云台摄像机及控制系统.pdf
高含有机质渣土低碳固化材料及其制备方法和应用.pdf
基于图像视觉处理的基坑位移监测系统.pdf
一种花卉培育装置.pdf
用于磁粉探伤的磁悬液自动喷灌装置.pdf
胭脂虫养殖系统.pdf
堆粪棚.pdf
一种悬浮驱鸟剂及其制备方法.pdf
一种除皱精华液的配制方法.pdf
娃娃鱼养殖方法.pdf
一种三角梅高效生根剂及其制备方法.pdf
农用喷雾管路控制器.pdf
种子网、种子膜、种子带的制造装置.pdf
一种安神补脑的中药保健茶及其制备方法.pdf
农田施肥灌溉入水口PH测定型阀装置.pdf
一种治疗腰椎病、颈椎病的外用药.pdf
果树高空采摘装置.pdf
一种回流抗堵塞滴灌系统及抗堵塞滴灌毛管.pdf
一种组合式育秧播种机.pdf
一种多能源补给水力驱动除粪装置和方法.pdf
一种祛斑眼霜的配制方法.pdf
苗木挖掘移植装置及移植方法.pdf