标签数据获取方法、装置、设备及可读存储介质.pdf
《标签数据获取方法、装置、设备及可读存储介质.pdf》由会员分享,可在线阅读,更多相关《标签数据获取方法、装置、设备及可读存储介质.pdf(24页完成版)》请在专利查询网上搜索。
1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202010106082.3 (22)申请日 2020.02.20 (71)申请人 口碑 (上海) 信息技术有限公司 地址 200135 上海市浦东新区民生路1199 弄1号2901-2903、 2905-2909室 (72)发明人 高泽锋范建文汪正光薛超 李昱罗亮 (74)专利代理机构 北京中强智尚知识产权代理 有限公司 11448 代理人 黄耀威 (51)Int.Cl. G06Q 30/02(2012.01) G06F 16/28(2019.01) (54)发明名称 标签数据。
2、获取方法、 装置、 设备及可读存储 介质 (57)摘要 本发明公开了一种标签数据获取方法、 装 置、 设备及可读存储介质, 涉及互联网技术领域, 当接收到标签获取请求时, 获取目标逻辑表编码 指示目标逻辑表, 在目标逻辑表维护的物理子表 中获取目标标签编码对应的目标标签数据并返 回, 使得在获取标签数据时, 基于目标逻辑表限 制了获取标签数据的范围, 避免由于搜索范围过 大而导致获取到的标签数据量也被成倍放大, 最 大程度上保证了标签获取任务的成功, 避免浪费 大量的数据资源。 所述方法包括: 当接收到标签 获取请求时, 对标签获取请求的圈选要求进行解 析, 得到目标逻辑表编码和目标标签编码;。
3、 获取 目标逻辑表编码指示的目标逻辑表; 在多个物理 子表中获取目标标签编码对应的目标标签数据; 返回目标标签数据。 权利要求书2页 说明书12页 附图9页 CN 111311329 A 2020.06.19 CN 111311329 A 1.一种标签数据获取方法, 其特征在于, 包括: 当接收到标签获取请求时, 对所述标签获取请求的圈选要求进行解析, 得到目标逻辑 表编码和目标标签编码; 获取所述目标逻辑表编码指示的目标逻辑表, 所述目标逻辑表维护了多个物理子表之 间的关联关系; 在所述多个物理子表中获取所述目标标签编码对应的目标标签数据; 返回所述目标标签数据。 2.根据权利要求1所述的方。
4、法, 其特征在于, 所述当接收到标签获取请求时, 对所述标 签获取请求的圈选要求进行解析, 得到逻辑表编码和标签编码之前, 所述方法还包括: 获取全量表, 将所述全量表的主键或所述主键的非空子集作为业务实体, 所述全量表 包括的数据量高于其他任何表; 确定主键与所述业务实体一致的所述多个物理子表, 基于所述多个物理子表与所述业 务实体的关系, 将所述多个物理子表进行关联, 生成所述目标逻辑表; 为所述目标逻辑表进行编号, 生成所述目标逻辑表编码; 为所述多个物理子表包括的多个标签数据进行编号, 生成多个标签编码; 采用所述业务实体、 所述目标逻辑编码和所述多个标签编码对所述目标逻辑表进行标 注。
5、。 3.根据权利要求1所述的方法, 其特征在于, 所述当接收到标签获取请求时, 对所述标 签获取请求的圈选要求进行解析, 得到目标逻辑表编码和目标标签编码, 包括: 确定接收到所述标签获取请求的描述对象, 查询与所述描述对象一致的业务实体对应 的所述目标逻辑表编码; 在所述圈选要求中提取标签名称和取值范围, 将所述标签名称和所述取值范围进行组 合, 得到所述目标标签编码。 4.根据权利要求1所述的方法, 其特征在于, 所述返回所述目标标签数据, 包括: 确定发送所述标签获取请求的发送方, 将所述目标标签数据返回给发送方; 或, 将所述目标标签数据存储至外部存储器, 生成所述目标标签数据在所述外。
6、部存储器上 的存储地址, 将所述存储地址返回给所述发送方。 5.根据权利要求1所述的方法, 其特征在于, 所述方法还包括: 当接收到范围放大请求时, 在所述范围放大请求中提取指定放大倍数; 根据所述目标标签数据的特征分布, 生成所述目标标签数据的目标特征向量; 计算所述多个物理子表包括的全部标签数据与所述目标特征向量的相似度; 确定所述指定放大倍数对应的相似度阈值, 在所述全部标签数据中提取相似度大于所 述相似度阈值的指定标签数据; 返回所述指定标签数据。 6.根据权利要求5所述的方法, 其特征在于, 所述计算所述多个物理子表包括的全部标 签数据与所述目标特征向量的相似度, 包括: 对于所述全。
7、部标签数据中的每个标签数据, 提取所述标签数据的至少一个标签特征; 统计所述至少一个标签特征中与所述目标特征向量匹配的标签特征的特征数以及所 述至少一个标签特征的总个数; 权利要求书 1/2 页 2 CN 111311329 A 2 计算所述特征数与所述总个数的比值作为所述标签数据与所述特征向量的相似度。 7.根据权利要求1所述的方法, 其特征在于, 所述方法还包括: 若所述标签获取请求包括多个圈选要求, 则对所述多个圈选要求进行解析, 获取多个 候选标签数据; 在所述标签获取请求中提取操作符, 所述操作符用于对所述多个候选字段进行筛选; 当所述操作符为相交符号时, 获取所述多个候选标签数据的。
8、标签数据交集, 返回所述 标签数据交集; 当所述操作符为相并符号时, 返回所述多个候选标签数据包括的全部标签数据; 当所述操作符为相差符号时, 按照所述多个圈选要求在所述标签获取请求中的排列顺 序, 对所述多个候选标签数据进行排序, 获取排序后的所述多个候选标签数据中前一个候 选标签数据剔除后一个候选标签数据的标签数据差集, 返回所述标签数据差集。 8.一种标签数据获取装置, 其特征在于, 包括: 解析模块, 用于当接收到标签获取请求时, 对所述标签获取请求的圈选要求进行解析, 得到目标逻辑表编码和目标标签编码; 第一获取模块, 用于获取所述目标逻辑表编码指示的目标逻辑表, 所述目标逻辑表维 。
9、护了多个物理子表之间的关联关系; 第二获取模块, 用于在所述多个物理子表中获取所述目标标签编码对应的目标标签数 据; 返回模块, 用于返回所述目标标签数据。 9.一种设备, 包括存储器和处理器, 所述存储器存储有计算机程序, 其特征在于, 所述 处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。 10.一种可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序被处理 器执行时实现权利要求1至7中任一项所述的方法的步骤。 权利要求书 2/2 页 3 CN 111311329 A 3 标签数据获取方法、 装置、 设备及可读存储介质 技术领域 0001 本发明涉及互联。
10、网技术领域, 特别是涉及一种标签数据获取方法、 装置、 设备及可 读存储介质。 背景技术 0002 随着互联网技术的广泛普及, 海量数据的存储和访问成了系统设计的瓶颈问题。 越来越多的企业会通过一些特定的标签数据对线上用户进行标记, 从而分析出用户的上网 行为, 再根据用户的行为特征, 进行有针对性的信息推送, 指导产生新的产品策略、 推广策 略、 营销策略, 最终达到精准营销的目的。 通常企业中会设置标签管理系统, 基于该标签管 理系统实现对标签数据的存储、 获取以及分析等操作。 对于一个大型企业的标签管理系统 来说, 每天几十亿的页面浏览量无疑对数据库造成了相当高的负载, 对企业标签管理系。
11、统 的稳定性和扩展性造成了极大的问题, 因此, 如何更好的标签数据的获取服务显得尤为重 要。 0003 相关技术中, 标签管理系统在提供标签获取服务时, 通常接收用户提供的规则条 件, 根据规则条件的关键字、 数据名称等, 在当前存储的所有标签数据中获取相应的标签数 据, 进而将该标签数据输出。 0004 在实现本发明的过程中, 发明人发现相关技术至少存在以下问题: 0005 标签管理系统中可能会存在很多字段名称相同的标签数据, 在获取标签数据时, 很可能由于字段名称相同的标签数据过多而导致获取到的标签数据量被成倍放大, 造成标 签获取任务的失败, 浪费大量的数据资源。 发明内容 0006 有。
12、鉴于此, 本发明提供了一种标签数据获取方法、 装置、 设备及可读存储介质, 主 要目的在于解决目前获取到的标签数据量被成倍放大, 造成标签获取任务的失败, 浪费大 量的数据资源的问题。 0007 依据本发明第一方面, 提供了一种标签数据获取方法, 该方法包括: 0008 当接收到标签获取请求时, 对所述标签获取请求的圈选要求进行解析, 得到目标 逻辑表编码和目标标签编码; 0009 获取所述目标逻辑表编码指示的目标逻辑表, 所述目标逻辑表维护了多个物理子 表之间的关联关系; 0010 在所述多个物理子表中获取所述目标标签编码对应的目标标签数据; 0011 返回所述目标标签数据。 0012 在另。
13、一个实施例中, 所述当接收到标签获取请求时, 对所述标签获取请求的圈选 要求进行解析, 得到逻辑表编码和标签编码之前, 所述方法还包括: 0013 获取全量表, 将所述全量表的主键或所述主键的非空子集作为业务实体, 所述全 量表包括的数据量高于其他任何表; 说明书 1/12 页 4 CN 111311329 A 4 0014 确定主键与所述业务实体一致的所述多个物理子表, 基于所述多个物理子表与所 述业务实体的关系, 将所述多个物理子表进行关联, 生成所述目标逻辑表; 0015 为所述目标逻辑表进行编号, 生成所述目标逻辑表编码; 0016 为所述多个物理子表包括的多个标签数据进行编号, 生成。
14、多个标签编码; 0017 采用所述业务实体、 所述目标逻辑编码和所述多个标签编码对所述目标逻辑表进 行标注。 0018 在另一个实施例中, 所述当接收到标签获取请求时, 对所述标签获取请求的圈选 要求进行解析, 得到目标逻辑表编码和目标标签编码, 包括: 0019 确定接收到所述标签获取请求的描述对象, 查询与所述描述对象一致的业务实体 对应的所述目标逻辑表编码; 0020 在所述圈选要求中提取标签名称和取值范围, 将所述标签名称和所述取值范围进 行组合, 得到所述目标标签编码。 0021 在另一个实施例中, 所述返回所述目标标签数据, 包括: 0022 确定发送所述标签获取请求的发送方, 将。
15、所述目标标签数据返回给发送方; 或, 0023 将所述目标标签数据存储至外部存储器, 生成所述目标标签数据在所述外部存储 器上的存储地址, 将所述存储地址返回给所述发送方。 0024 在另一个实施例中, 所述方法还包括: 0025 当接收到范围放大请求时, 在所述范围放大请求中提取指定放大倍数; 0026 根据所述目标标签数据的特征分布, 生成所述目标标签数据的目标特征向量; 0027 计算所述多个物理子表包括的全部标签数据与所述目标特征向量的相似度; 0028 确定所述指定放大倍数对应的相似度阈值, 在所述全部标签数据中提取相似度大 于所述相似度阈值的指定标签数据; 0029 返回所述指定标。
16、签数据。 0030 在另一个实施例中, 所述计算所述多个物理子表包括的全部标签数据与所述目标 特征向量的相似度, 包括: 0031 对于所述全部标签数据中的每个标签数据, 提取所述标签数据的至少一个标签特 征; 0032 统计所述至少一个标签特征中与所述目标特征向量匹配的标签特征的特征数以 及所述至少一个标签特征的总个数; 0033 计算所述特征数与所述总个数的比值作为所述标签数据与所述特征向量的相似 度。 0034 在另一个实施例中, 所述方法还包括: 0035 若所述标签获取请求包括多个圈选要求, 则对所述多个圈选要求进行解析, 获取 多个候选标签数据; 0036 在所述标签获取请求中提取。
17、操作符, 所述操作符用于对所述多个候选字段进行筛 选; 0037 当所述操作符为相交符号时, 获取所述多个候选标签数据的标签数据交集, 返回 所述标签数据交集; 0038 当所述操作符为相并符号时, 返回所述多个候选标签数据包括的全部标签数据; 说明书 2/12 页 5 CN 111311329 A 5 0039 当所述操作符为相差符号时, 按照所述多个圈选要求在所述标签获取请求中的排 列顺序, 对所述多个候选标签数据进行排序, 获取排序后的所述多个候选标签数据中前一 个候选标签数据剔除后一个候选标签数据的标签数据差集, 返回所述标签数据差集。 0040 依据本发明第二方面, 提供了一种标签数。
18、据获取装置, 该装置包括: 0041 解析模块, 用于当接收到标签获取请求时, 对所述标签获取请求的圈选要求进行 解析, 得到目标逻辑表编码和目标标签编码; 0042 第一获取模块, 用于获取所述目标逻辑表编码指示的目标逻辑表, 所述目标逻辑 表维护了多个物理子表之间的关联关系; 0043 第二获取模块, 用于在所述多个物理子表中获取所述目标标签编码对应的目标标 签数据; 0044 返回模块, 用于返回所述目标标签数据。 0045 在另一个实施例中, 所述装置还包括: 0046 第三获取模块, 用于获取全量表, 将所述全量表的主键或所述主键的非空子集作 为业务实体, 所述全量表包括的数据量高于。
19、其他任何表; 0047 关联模块, 用于确定主键与所述业务实体一致的所述多个物理子表, 基于所述多 个物理子表与所述业务实体的关系, 将所述多个物理子表进行关联, 生成所述目标逻辑表; 0048 第一生成模块, 用于为所述目标逻辑表进行编号, 生成所述目标逻辑表编码; 0049 第二生成模块, 用于为所述多个物理子表包括的多个标签数据进行编号, 生成多 个标签编码; 0050 标注模块, 用于采用所述业务实体、 所述目标逻辑编码和所述多个标签编码对所 述目标逻辑表进行标注。 0051 在另一个实施例中, 所述解析模块, 包括: 0052 解析单元, 用于确定接收到所述标签获取请求的描述对象, 。
20、查询与所述描述对象 一致的业务实体对应的所述目标逻辑表编码; 0053 组合单元, 用于在所述圈选要求中提取标签名称和取值范围, 将所述标签名称和 所述取值范围进行组合, 得到所述目标标签编码。 0054 在另一个实施例中, 所述返回模块, 用于确定发送所述标签获取请求的发送方, 将 所述目标标签数据返回给发送方; 或, 将所述目标标签数据存储至外部存储器, 生成所述目 标标签数据在所述外部存储器上的存储地址, 将所述存储地址返回给所述发送方。 0055 在另一个实施例中, 所述装置还包括: 0056 第一提取模块, 用于当接收到范围放大请求时, 在所述范围放大请求中提取指定 放大倍数; 00。
21、57 第三生成模块, 用于根据所述目标标签数据的特征分布, 生成所述目标标签数据 的目标特征向量; 0058 计算模块, 用于计算所述多个物理子表包括的全部标签数据与所述目标特征向量 的相似度; 0059 第二提取模块, 用于确定所述指定放大倍数对应的相似度阈值, 在所述全部标签 数据中提取相似度大于所述相似度阈值的指定标签数据; 0060 所述返回模块, 还用于返回所述指定标签数据。 说明书 3/12 页 6 CN 111311329 A 6 0061 在另一个实施例中, 所述计算模块, 包括: 0062 提取单元, 用于对于所述全部标签数据中的每个标签数据, 提取所述标签数据的 至少一个标。
22、签特征; 0063 统计单元, 用于统计所述至少一个标签特征中与所述目标特征向量匹配的标签特 征的特征数以及所述至少一个标签特征的总个数; 0064 计算单元, 用于计算所述特征数与所述总个数的比值作为所述标签数据与所述特 征向量的相似度。 0065 在另一个实施例中, 所述解析模块, 用于若所述标签获取请求包括多个圈选要求, 则对所述多个圈选要求进行解析, 获取多个候选标签数据; 0066 所述装置还包括: 0067 第三提取模块, 用于在所述标签获取请求中提取操作符, 所述操作符用于对所述 多个候选字段进行筛选; 0068 所述返回模块, 还用于当所述操作符为相交符号时, 获取所述多个候选。
23、标签数据 的标签数据交集, 返回所述标签数据交集; 0069 所述返回模块, 还用于当所述操作符为相并符号时, 返回所述多个候选标签数据 包括的全部标签数据; 0070 所述返回模块, 还用于当所述操作符为相差符号时, 按照所述多个圈选要求在所 述标签获取请求中的排列顺序, 对所述多个候选标签数据进行排序, 获取排序后的所述多 个候选标签数据中前一个候选标签数据剔除后一个候选标签数据的标签数据差集, 返回所 述标签数据差集。 0071 依据本发明第三方面, 提供了一种设备, 包括存储器和处理器, 所述存储器存储有 计算机程序, 所述处理器执行所述计算机程序时实现上述第一方面所述方法的步骤。 0。
24、072 依据本发明第四方面, 提供了一种可读存储介质, 其上存储有计算机程序, 所述计 算机程序被处理器执行时实现上述第一方面所述的方法的步骤。 0073 借由上述技术方案, 本发明提供的一种标签数据获取方法、 装置、 设备及可读存储 介质, 本发明当接收到标签获取请求时, 对标签获取请求的圈选要求进行解析, 得到目标逻 辑表编码和目标标签编码, 并获取目标逻辑表编码指示的维护了多个物理子表之间的关联 关系的目标逻辑表, 在多个物理子表中获取目标标签编码对应的目标标签数据并返回, 使 得在获取标签数据时, 基于目标逻辑表限制了获取标签数据的范围, 避免由于搜索范围过 大而导致获取到的标签数据量。
25、也被成倍放大, 最大程度上保证了标签获取任务的成功, 避 免浪费大量的数据资源。 0074 上述说明仅是本发明技术方案的概述, 为了能够更清楚了解本发明的技术手段, 而可依照说明书的内容予以实施, 并且为了让本发明的上述和其它目的、 特征和优点能够 更明显易懂, 以下特举本发明的具体实施方式。 附图说明 0075 通过阅读下文优选实施方式的详细描述, 各种其他的优点和益处对于本领域普通 技术人员将变得清楚明了。 附图仅用于示出优选实施方式的目的, 而并不认为是对本发明 的限制。 而且在整个附图中, 用相同的参考符号表示相同的部件。 在附图中: 说明书 4/12 页 7 CN 111311329。
26、 A 7 0076 图1示出了本发明实施例提供的一种标签数据获取方法流程示意图; 0077 图2示出了本发明实施例提供的一种标签管理系统的架构图; 0078 图3A示出了本发明实施例提供的一种标签数据获取方法流程示意图; 0079 图3B示出了本发明实施例提供的一种标签数据获取方法的示意图; 0080 图3C示出了本发明实施例提供的一种标签数据获取方法流程示意图; 0081 图4A示出了本发明实施例提供的一种标签数据获取装置的结构示意图; 0082 图4B示出了本发明实施例提供的一种标签数据获取装置的结构示意图; 0083 图4C示出了本发明实施例提供的一种标签数据获取装置的结构示意图; 00。
27、84 图4D示出了本发明实施例提供的一种标签数据获取装置的结构示意图; 0085 图4E示出了本发明实施例提供的一种标签数据获取装置的结构示意图; 0086 图4F示出了本发明实施例提供的一种标签数据获取装置的结构示意图; 0087 图5示出了本发明实施例提供的一种设备的装置结构示意图。 具体实施方式 0088 下面将参照附图更详细地描述本发明的示例性实施例。 虽然附图中显示了本发明 的示例性实施例, 然而应当理解, 可以以各种形式实现本发明而不应被这里阐述的实施例 所限制。 相反, 提供这些实施例是为了能够更透彻地理解本发明, 并且能够将本发明的范围 完整的传达给本领域的技术人员。 0089。
28、 本发明实施例提供了一种标签数据获取方法, 如图1所示, 该方法包括: 0090 101、 当接收到标签获取请求时, 对标签获取请求的圈选要求进行解析, 得到目标 逻辑表编码和目标标签编码。 0091 102、 获取目标逻辑表编码指示的目标逻辑表, 目标逻辑表维护了多个物理子表之 间的关联关系。 0092 103、 在多个物理子表中获取目标标签编码对应的目标标签数据。 0093 104、 返回目标标签数据。 0094 本发明实施例提供的方法, 当接收到标签获取请求时, 对标签获取请求的圈选要 求进行解析, 得到目标逻辑表编码和目标标签编码, 并获取目标逻辑表编码指示的维护了 多个物理子表之间的。
29、关联关系的目标逻辑表, 在多个物理子表中获取目标标签编码对应的 目标标签数据并返回, 使得在获取标签数据时, 基于目标逻辑表限制了获取标签数据的范 围, 避免由于搜索范围过大而导致获取到的标签数据量也被成倍放大, 最大程度上保证了 标签获取任务的成功, 避免浪费大量的数据资源。 0095 在对本发明进行详细的解释说明之前, 先对本发明涉及的标签管理系统的架构进 行简单介绍。 0096 参见图2, 标签管理系统包括业务层、 解析层、 后台管理层、 监控层和DB(Database, 数据库)层。 业务层用于与外部系统对接, 接收外部系统对标签进行调用的标签获取请求, 一般来说基于算法模块、 调度模。
30、块和对外服务模块对外提供服务。 业务层与解析层、 监控层 之间均存在数据流转。 解析层用于获取业务层接收到的标签获取请求, 通过对标签获取请 求进行解析以及拼接, 将标签获取请求转换为可执行的SQL(Structured Query Language, 结构化查询语言), 以便按照标签获取请求的指示来获取相应的标签数据。 解析层基于转换 说明书 5/12 页 8 CN 111311329 A 8 模块和请求解析模块对外提供服务, 与业务层、 DB层之间存在数据流转。 后台管理层用于对 整个标签管理系统中的业务进行管理, 包括后台管理模块, 与DB层、 监控层之间存在数据流 转。 监控层用于对标。
31、签管理系统中发生的行为、 操作进行监控, 包括日志模块和监控模块, 基于日志模块生成标签管理系统的行为日志, 基于监控模块对发生的操作进行监控。 DB层 用于存储标签管理系统中的标签数据, 包括ADS(Analytic Database Service, 分析型数据 库)、 ODPS(Open Data Processing Service, 大数据计算服务)和MySQL(关系型数据库管理 系统)。 在本发明执行的过程中, DB层会将标签数据从ODPS同步至ADS中, 同时将ODPS上物理 子表的元数据同步到MySQL中, 并在后台管理页面中获取到物理子表的元数据信息, 从而保 证成功对外提供。
32、标签数据获取服务。 0097 本发明实施例提供了一种标签数据获取方法, 如图3A所示, 该方法包括: 0098 301、 建立目标逻辑表。 0099 发明人认识到, 通过统计和挖掘, 很多企业都形成了自己的用户标签库, 包含用户 的基本属性、 消费行为和偏好习惯等。 有效的管理和应用这部分的标签数据, 可以对目标人 群进行洞察分析, 指导产生新的产品策略、 推广策略、 营销策略, 最终达到精准营销的目的。 但是, 目前企业中在对用户标签库进行管理时, 仅是粗略的进行管理, 在获取并调用标签数 据时, 通常使用模糊查询的方式实现, 很可能会使返回的标签数据不准确, 不仅浪费了大量 的查询资源, 。
33、还没有较好的完成用户下发的任务。 因此, 本发明提出一种标签数据获取方 法, 应用于标签管理系统中, 使标签管理系统承载着通用圈集能力和标签集中管理, 建立健 全生命周期的管理能力, 对接算法平台, 形成标签管理、 人群自定义、 扩展、 分析、 名单输出 等能力。 0100 其中, 本发明提出的标签数据获取方法, 主要基于逻辑表实现。 逻辑表用于维护多 个物理子表之间的关联关系, 对外透出一个逻辑上的大宽表供查询, 生成查询SQL时, 再自 动拼接多表之间的关联条件, 从而保证查询的准确性。 使用逻辑表提供标签数据的获取服 务, 可以在最大程度上保证返回给用户的标签数据刚好是用户希望获取到的标。
34、签数据, 避 免由于多个物理子表中存在相同的字段名而导致数据量被成倍放大, 标签数据圈选失败。 因此, 在本发明实施例中, 首选需要建立一个目标逻辑表, 基于该目标逻辑表对外提供标签 数据获取服务。 0101 在建立目标逻辑表时, 为了保证建立的目标逻辑表可以囊括最多的标签数据, 涉 及的标签数据量达到最广, 可以获取一张全量表, 在全量表的基础上建立目标逻辑表。 其 中, 全量表包括的数据量高于其他任何表, 也即数据量最全的一张表。 具体建立目标逻辑表 的过程如下: 首先, 获取全量表, 将全量表的主键或主键的非空子集作为业务实体。 实际上 也就是将全量表作为即将生成的目标逻辑表的主表, 以。
35、便在后续可以基于该主表挂载多个 物理子表。 随后, 在确定了主表和业务实体后, 确定主键与业务实体一致的多个物理子表, 基于多个物理子表与业务实体的关系, 将多个物理子表进行关联, 生成目标逻辑表。 需要说 明的是, 物理子表是具有选择范围的, 需要主键与业务实体一致才能作为多个物理子表中 的一个。 例如, 假设业务实体为A、 B两个字段, 那么可挂载的物理子表的主键必须是A或者B, 或者是A、 B的联合主键, 从而保证获取到的多个物理子表之间是存在关联关系的。 0102 在实际应用的过程中, 考虑到标签管理系统中包括的标签数据是海量的, 一个目 标逻辑表可能无法覆盖全部的标签数据, 因此, 。
36、可以获取多张全量表, 并基于多张全量表生 说明书 6/12 页 9 CN 111311329 A 9 成多张不同的逻辑表, 保证能够涉及到海量标签数据的查询和获取。 这样, 在完成目标逻辑 表的建立后, 为了对不同逻辑表以及逻辑表中包括的不同标签数据进行区分, 需要为目标 逻辑表进行编号, 生成目标逻辑表编码, 并为多个物理子表包括的多个标签字段进行编号, 生成多个标签编码。 随后, 采用业务实体、 目标逻辑编码和多个标签编码对目标逻辑表进行 标注, 从而使后续提供的标签数据获取服务能够在最大程度上保证获取到的标签数据的精 确度。 需要说明的是, 可以通过调用标签管理系统的对外服务接口获取到该。
37、目标逻辑表的 目标逻辑表编码和该目标逻辑表的所有标签编码, 这个标签编码唯一对应一张物理子表中 的一个字段, 从而使得用户可以在标签管理系统中看到其想要获取的标签以及想要过滤的 条件。 0103 302、 当接收到标签获取请求时, 对标签获取请求的圈选要求进行解析, 得到目标 逻辑表编码和目标标签编码。 0104 在本发明实施例中, 当生成了目标逻辑表后, 便可以基于生成的目标逻辑表为用 户提供标签获取服务。 由于用户在标签获取请求中会指定获取哪种或者哪些标签数据, 指 定的方式通常为文字形式的圈选要求, 例如, 圈选要求为 “年龄在21岁到30岁之间的人群” , 而在标签管理系统中, 标签数。
38、据的区分是基于逻辑表编码和标签编码实现的, 因此, 为了按 照标签获取请求中圈选要求的指示来获取标签数据, 需要将标签数据中的圈选要求映射为 具体的哪个物理子表中的哪个字段, 从而保证获取到的标签数据的准确性。 0105 其中, 在实现圈选要求的映射时, 首先, 确定接收到所述标签获取请求的描述对 象, 查询与描述对象一致的业务实体对应的目标逻辑表编码。 例如, 若携带圈选要求的标签 获取请求是基于描述对象为 “用户” 的数据集接收到的, 则确定业务实体 “用户” 对应的逻辑 表编码为目标逻辑表编码。 需要说明的是, 还可以通过对标签获取请求中实体名词进行提 取来确定描述对象, 进而选择相应的。
39、目标逻辑表编码, 从而减轻用户的工作量, 提高标签数 据获取的效率。 例如, 对于标签获取请求 “年龄在21岁到30岁之间的人群” 来说, 其中的实体 名词仅为 “人群” , 所以可以直接将 “人群” 作为描述对象。 所以, 将业务实体 “人群” 对应的目 标逻辑表编码作为后续需要依赖查询的基本要素。 本发明对确定描述对象的方式不进行具 体限定。 随后, 在圈选要求中提取标签名称和取值范围, 将标签名称和取值范围进行组合, 得到目标标签编码。 例如, 若在圈选要求中提取的标签名称为 “年龄” , 提取到的取值范围为 “20至30” , 则可以将标签名称和取值范围进行组合后作为目标标签编码, 目。
40、标标签编码即 为 “ 【年龄】 + 【20至30】 ” 。 通过对圈选要求进行解析映射得到目标逻辑表编码和目标标签编 码后, 即可开始对标签数据的获取过程。 0106 在实际应用的过程中, 为了便于实现上述对圈选要求进行解析的过程, 标签管理 系统可以在前端提供一个管理页面, 在该管理页面上对当前已经完成建立的逻辑表进行一 个描述, 将描述内容展示以供用户选择。 比如, 描述内容A为用户, 描述内容B为店铺等。 这 样, 当用户选择了自己想要的描述内容时, 也即选定了目标逻辑表, 即可获取到目标逻辑表 编码。 随后, 标签管理系统会将该目标逻辑表编码指示的目标逻辑表中包含的标签项目展 示给用户。
41、, 比如, 假定用户选择了描述内容A, 则将该描述内容A对应的目标逻辑表中包括的 年龄、 身高、 职业等的标签项目返回给用户。 用户可以通过对标签项目进行勾选以及为标签 项目设置范围来向标签管理系统下发标签名称以及取值范围。 最后, 在确定用户对该管理 页面进行确认后, 便可以通过上述每个步骤中直接获取到的信息, 确定目标逻辑表编码以 说明书 7/12 页 10 CN 111311329 A 10 及目标标签编码。 0107 303、 获取目标逻辑表编码指示的目标逻辑表, 在多个物理子表中获取目标标签编 码对应的目标圈选标签数据。 0108 在本发明实施例中, 由于通过对圈选要求进行解析映射得。
42、到了目标逻辑表编码和 目标标签编码, 且目标逻辑表具有维护多个物理子表之间的关联关系的属性, 使得通过该 目标逻辑表编码和目标标签编码已经可以直接根据关联关系确定需要获取的目标圈选标 签数据具体在哪个物理子表的哪一行, 因此, 可以直接获取目标逻辑表编码指示的目标逻 辑表, 在多个物理子表中获取目标标签编码对应的目标圈选标签数据。 0109 在实际应用的过程中, 例如, 若某逻辑表M维护了物理子表A、 物理子表B和物理子 表C之间的关联关系, 这些物理子表的关联关系是基于用户标签关联起来的。 其中, 物理子 表A存储了用户的身高、 年龄; 物理子表B存储了用户的工作、 住址; 物理子表C存储了。
43、用户的 喜好。 那么在某次的标签获取任务中, 如果用户希望圈选出年龄在20岁至30岁之间的用户 的喜好分布如何, 则在本次标签获取任务中, 实际涉及到的表只有逻辑表M、 物理子表A和物 理子表C, 所以在恢复物理子表之间的关联关系时, 只需要关联物理子表A和物理子表C即 可。 0110 需要说明的是, 上面获取目标圈选标签数据的过程是一个查询的具体过程。 而在 实际应用的过程中, 上面获取目标圈选标签数据的过程可以通过执行语句来实现。 具体过 程为: 标签管理系统的解析模块通过MySQL中存储的元数据便可以解析得到具体的物理子 表以及具体的标签字段, 随后, 标签管理系统调用解析层的转换模块,。
44、 将获取到的目标逻辑 表编码和目标标签编码拼接成可执行的SQL语句, 调用ADS执行该SQL语句, 便可以直接获取 到执行该SQL语句后返回的标签明细数据, 该标签明细数据也即目标圈选标签数据。 上述过 程仅为一种获取目标圈选标签数据的方式, 在实际应用的过程中还可以采用其他方式实 现, 本发明对此不进行具体限定。 0111 304、 返回目标圈选标签数据。 0112 在本发明实施例中, 当获取到目标圈选标签数据, 便可以将该目标圈选标签数据 返回。 其中, 在返回该目标圈选标签数据时, 可以采用两种方式。 一种方式是, 确定发送标签 获取请求的发送方, 直接将获取到的目标圈选标签数据返回给发。
45、送方。 另一种方式是, 考虑 到直接返回目标圈选标签数据可以造成并发量过高的情况, 为了减轻服务器的负担, 还可 将目标圈选标签数据存储至外部存储器, 生成目标圈选标签数据在外部存储器上的存储地 址, 将存储地址返回给发送方, 以供发送方基于存储地址下载该目标圈选标签数据并进行 使用。 0113 至此, 整个标签数据获取流程完毕, 本发明还可以提供定时获取服务, 在标签管理 系统中设置一个定时器, 当基于定时器确定需要获取标签数据时, 便可以通过执行上述步 骤301至步骤304中的过程获取到相应的标签数据。 由于数据层清洗出来的离线数据在不同 时间是不同的, 因此, 可以根据同样的圈选要求圈选。
46、到不同的标签数据, 以满足用户每天的 不同需求。 0114 需要说明的是, 上述步骤301至步骤304中的过程只描述了标签获取请求中携带一 个圈选要求的情况。 在实际应用的过程中, 发送该标签获取请求的用户很可能会在标签获 取请求中携带两个或者两个以上的圈选要求。 若标签获取请求包括多个圈选要求, 则需要 说明书 8/12 页 11 CN 111311329 A 11 按照上述步骤301至步骤304中的过程, 依次对多个圈选要求进行解析, 获取多个候选标签 数据。 随后, 按照用户在标签获取请求中携带的用于对多个候选字段进行筛选的操作符, 对 得到的多个候选标签数据进行筛选, 从而返回满足用户。
47、要求的标签字段。 具体地, 操作符可 为相交符号、 相并符号以及相差符号中的任一种。 相交符号也即 “AND” 符号, 用于指示多个 集合的交集。 相并符号也即 “OR” 符号, 用于指示多个集合的并集。 相差符号也即 “EXCLUD” 符 号, 用于指示前一个集合与后一个集合的差集。 本发明对标签获取请求中携带的圈选要求 的个数不进行具体限定。 0115 具体地, 当操作符为相交符号时, 获取多个圈选要求得到的标签数据集的候选标 签数据的标签数据交集, 并返回标签数据交集, 其中判断是否为相同数据的依据是业务实 体是否相同。 当操作符为相并符号时, 返回多个圈选要求得到的候选标签数据的并集。。
48、 当操 作符为相差符号时, 按照多个圈选要求在标签获取请求中的排列顺序, 对多个候选标签数 据进行排序, 计算前一个圈选要求对应的候选标签数据中剔除后一个圈选要求对应的候选 标签数据对应的标签数据差集, 返回标签数据差集。 0116 参见图3B, 假设标签获取请求包括2个圈选要求, 根据2个圈选要求获取到的候选 标签数据分别为图中A和B, A表示图中白色区域, B表示图中阴影区域, C表示图中黑色区域。 这样, 当操作符为相交符号时, 也即操作符为 “AND” , 则返回C区域的标签数据。 当操作符为 相并符号时, 也即操作符为 “OR” , 则返回A+B+C区域的标签数据。 当操作符为相差符。
49、号时, 也 即操作符为 “EXCLUDE” , 则返回A区域的标签数据。 0117 在实际应用的过程中, 本发明还提供圈选放大功能。 如果用户对当前获取到的目 标圈选标签数据的数量或者质量不满意, 则用户可以调用该圈选放大功能, 对具有该目标 圈选标签数据的特征的数据集进行指定倍数的放大, 从而获取到更多符合用户的圈选要求 的标签数据。 具体方法参见图3C, 包括下述步骤305至步骤307。 0118 305、 当接收到范围放大请求时, 在范围放大请求中提取指定放大倍数。 0119 在本发明实施例中, 当接收到范围放大请求时, 由于用户会在范围放大请求中携 带指定放大倍数, 因此, 在范围放大。
50、请求中提取指定放大倍数, 并在后续按照指定放大倍数 为用户返回更多符合圈选要求的标签数据。 0120 306、 根据目标圈选标签数据的特征分布, 生成目标圈选标签数据的目标特征向 量, 计算多个物理子表包括的全部标签数据与目标特征向量的相似度。 0121 在本发明实施例中, 由于放大的实际意义在于为用户获取更多的符合圈选要求的 标签数据, 而严格符合圈选要求的标签数据为目标圈选标签数据, 其他的标签数据只会与 目标圈选标签数据相似, 只有获取到与目标圈选标签数据最为相似的标签数据才能实现对 数据量的放大, 所以, 需要计算其他标签数据与目标圈选标签数据的相似度, 将相似度最高 的标签数据返回给。
- 内容关键字: 标签 数据 获取 方法 装置 设备 可读 存储 介质
变速箱.pdf
再生铅烟气中铅尘环保治理湿电除尘超低排放设备.pdf
混合加料机构.pdf
漆包线脱漆机.pdf
灯具的透镜反光杯一体式结构.pdf
防坠网-栏一体装置.pdf
装修用管线固定结构.pdf
物料压平测高装置.pdf
氢溴酸山莨菪碱分析溶解仪器.pdf
粉料分散上料机.pdf
电磁屏蔽壳体以及新能源汽车.pdf
枫叶魔方.pdf
骨科助行装置.pdf
钣金件调直装置.pdf
节能建筑保温体系.pdf
超薄柔性关节镜通道.pdf
适用于有水状态下闸门井封堵后干地修复的施工方法.pdf
车辆充电桩用防尘防水枪头结构.pdf
棉浆粕生产用的蒸球.pdf
码垛机器人几何精度标定与辨识方法.pdf
钕铁硼自动化发蓝设备.pdf
钢管外涂塑粉末自清洁回收装置.pdf
货物出库管理方法、系统及介质.pdf
词汇标签的确定方法及系统和查询语句的生成方法及系统.pdf
用于电机定子的端部叠片和电机定子.pdf
船舶目标检测方法、系统、可读存储介质及计算机.pdf
具有圆柱螺旋形液流流道的磁流变阻尼器.pdf
基于AES算法的硬件安全方法、设备及存储介质.pdf
接口管理方法及接口管理系统.pdf
涂料的质量监测方法及系统.pdf
空气灰尘检测仪.pdf
高铬合金离心铸管机及其使用方法.pdf