大数据交换系统.pdf

上传人:刘** 文档编号:10494263 上传时间:2021-06-22 格式:PDF 页数:7 大小:284.96KB
收藏 版权申诉 举报 下载
大数据交换系统.pdf_第1页
第1页 / 共7页
大数据交换系统.pdf_第2页
第2页 / 共7页
大数据交换系统.pdf_第3页
第3页 / 共7页
文档描述:

《大数据交换系统.pdf》由会员分享,可在线阅读,更多相关《大数据交换系统.pdf(7页完成版)》请在专利查询网上搜索。

1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202010492504.5 (22)申请日 2020.06.03 (71)申请人 成都中科大旗软件股份有限公司 地址 610000 四川省成都市高新区天华二 路219号5栋1单元6层1、 2、 3、 4号 (72)发明人 周道华李武鸿杨陈周涛 曾俊洪江罗玉刘杰黄维 刘瑞东彭容张明娟许江泽 吴婷婷詹飞程武彬杨眉 (74)专利代理机构 成都立新致创知识产权代理 事 务 所( 特 殊 普 通 合 伙 ) 51277 代理人 周方建 (51)Int.Cl. G06F 16/215(20。

2、19.01) G06F 16/25(2019.01) (54)发明名称 大数据交换系统 (57)摘要 本发明涉及大数据交换系统, 该系统包括 ODS数据原始层、 DWD数据清洗明细层、 DWS数据汇 总层、 DM数据集市层以及ST数据应用层, 和传统 的数据交换平台相比, 本发明提供了多种数据清 洗规则, 对原始数据进行清洗, 同时保留原始数 据进行备份, 从而得到可适用于任一方使用的有 效数据, 消除了传统模式下数据交换后无法直接 使用的问题。 权利要求书1页 说明书4页 附图1页 CN 111581202 A 2020.08.25 CN 111581202 A 1.一种大数据交换系统, 其。

3、特征在于, 该系统包括ODS数据原始层、 DWD数据清洗明细 层、 DWS数据汇总层、 DM数据集市层以及ST数据应用层; 所述ODS数据原始层是数据仓库原始准备区, 为DWD数据清洗明细层提供基础原始数 据; 所述DWD数据清洗明细层为DWS数据汇总层提供来源明细数据, 进行清洗转换; 所述DWS数据汇总层为DM数据集市层提供细粒度数据, 根据DWD数据清洗明细层数据按 各个维度进行粗粒度汇总聚合; 所述DM数据集市层是根据DWS数据汇总层数据按照各种维度或多种维度组合把需要查 询的一些事实字段进行汇总统计并作为单独的列进行存储; 所述ST数据应用层面向用户应用和分析需求面向最终结果用户。 。

4、2.根据权利要求1所述的大数据交换系统, 其特征在于, 所述ODS数据原始层从业务系 统增量抽取原始数据, 原始数据的保留时间由业务需求决定、 原始数据可分表进行周期存 储、 原始数据不做清洗转换与业务系统数据模型保持一致、 按主题逻辑划分。 3.根据权利要求2所述的大数据交换系统, 其特征在于, 所述清洗转换的规则包括: 非空检核: 要求字段为非空的情况下, 需要对该字段数据进行检核; 主键重复: 多个业务系统中同类数据经过清洗后, 在同一保存时, 为保证主键唯一性, 需要进行检核工作; 非法代码清洗、 非法值清洗: 非法代码问题包括非法代码、 代码与数据标准不一致等, 非法值包括取值错误、。

5、 格式错误、 多余字符、 乱码, 需根据具体情况进行校核及修正; 数据格式检核: 通过检查表中属性值的格式是否正确来衡量其准确性, 如时间格式、 币 种格式、 多与字符、 乱码; 记录数检核: 指各个系统相关数据之间的数据总数检核。 4.根据权利要求3所述的大数据交换系统, 其特征在于, 所述清洗转换还包括一个缺失 值清洗, 其步骤如下: 1) 、 确定缺失值范围: 按照缺失比例和字段重要性, 分别制定策略: 重要性高, 缺失率低: 通过计算进行填充; 通过经验或知识估计; 重要性高, 缺失率高: 尝试从其他渠道取数补全; 使用其他字段通过计算获取; 重要性低, 缺失率低: 不做处理或简单填充。

6、; 重要性低, 缺失率高: 去掉该字段; 2) 、 去掉不需要的字段, 将不需要的字段直接删掉即可; 3) 、 填充缺失内容, 某些缺失值可以进行填充, 方法包括: 以业务知识或经验推测填充 缺失值; 或以同一指标的计算结果 (均值、 中位数、 众数等) 填充缺失值; 或以不同指标的计 算结果填充缺失值; 4) 、 格式内容清洗, 包括时间、 日期、 数值、 全半角、 显示格式不一致的清洗, 以及内容中 有不该存在的字符。 5.根据权利要求4所述的大数据交换系统, 其特征在于, 所述用户应用和分析需求包括 前端报表、 分析图表、 KPI、 仪表盘、 OLAP、 专题分析。 权利要求书 1/1 。

7、页 2 CN 111581202 A 2 大数据交换系统 技术领域 0001 本发明涉及数据交换, 具体涉及一种大数据交换系统。 背景技术 0002 数据交换平台是提供客户接入端软件部署在每个应用系统的前置机上, 实现数据 交换平台和各信息系统的有机结合, 在客户接入端实现数据的自动提取与转换, 同时支持 手工录入与审核数据。 它是一个为不同数据库、 不同数据格式之间, 进行数据交换而提供服 务的平台。 它要解决企业、 政府机构在不同信息库间信息数据无法自由转换的问题。 0003 现有平台的主要缺陷在于: 由于各机构上传的数据格式不统一, 使得交换后的数 据实用性较低, 第三方无法对该交换数据。

8、进行直接使用, 只能使用一些与自己数据类型相 同的数据, 从而极大的限制了数据交换的有效性。 发明内容 0004 本发明的目的在于克服现有技术的不足, 提供一种大数据交换系统, 对交换的数 据进行格式清洗, 使其适用于任意一方使用, 从而提高了交换数据的有效性。 0005 本发明的目的是通过以下技术方案来实现的: 一种大数据交换系统, 该系统包括ODS数据原始层、 DWD数据清洗明细层、 DWS数据汇总 层、 DM数据集市层以及ST数据应用层; 所述ODS数据原始层是数据仓库原始准备区, 为DWD数据清洗明细层提供基础原始数 据; 所述DWD数据清洗明细层为DWS数据汇总层提供来源明细数据, 。

9、进行清洗转换; 所述DWS数据汇总层为DM数据集市层提供细粒度数据, 根据DWD数据清洗明细层数据按 各个维度进行粗粒度汇总聚合; 所述DM数据集市层是根据DWS数据汇总层数据按照各种维度或多种维度组合把需要查 询的一些事实字段进行汇总统计并作为单独的列进行存储; 所述ST数据应用层面向用户应用和分析需求面向最终结果用户。 0006 进一步的, 所述ODS数据原始层从业务系统增量抽取原始数据, 原始数据的保留时 间由业务需求决定、 原始数据可分表进行周期存储、 原始数据不做清洗转换与业务系统数 据模型保持一致、 按主题逻辑划分。 0007 进一步的, 所述清洗转换的规则包括: 非空检核: 要求。

10、字段为非空的情况下, 需要对该字段数据进行检核; 主键重复: 多个业务系统中同类数据经过清洗后, 在同一保存时, 为保证主键唯一性, 需要进行检核工作; 非法代码清洗、 非法值清洗: 非法代码问题包括非法代码、 代码与数据标准不一致等, 非法值包括取值错误、 格式错误、 多余字符、 乱码, 需根据具体情况进行校核及修正; 数据格式检核: 通过检查表中属性值的格式是否正确来衡量其准确性, 如时间格式、 币 说明书 1/4 页 3 CN 111581202 A 3 种格式、 多与字符、 乱码。 0008 记录数检核: 指各个系统相关数据之间的数据总数检核。 0009 进一步的, 所述清洗转换还包括。

11、一个缺失值清洗, 其步骤如下: 1) 、 确定缺失值范围: 按照缺失比例和字段重要性, 分别制定策略: 重要性高, 缺失率低: 通过计算进行填充; 通过经验或知识估计; 重要性高, 缺失率高: 尝试从其他渠道取数补全; 使用其他字段通过计算获取; 重要性低, 缺失率低: 不做处理或简单填充; 重要性低, 缺失率高: 去掉该字段; 2) 、 去掉不需要的字段, 将不需要的字段直接删掉即可; 3) 、 填充缺失内容, 某些缺失值可以进行填充, 方法包括: 以业务知识或经验推测填充 缺失值; 或以同一指标的计算结果 (均值、 中位数、 众数等) 填充缺失值; 或以不同指标的计 算结果填充缺失值。 0。

12、010 4) 、 格式内容清洗, 包括时间、 日期、 数值、 全半角、 显示格式不一致的清洗, 以及内 容中有不该存在的字符。 0011 进一步的, 所述用户应用和分析需求包括前端报表、 分析图表、 KPI、 仪表盘、 OLAP、 专题分析。 0012 本发明的有益效果是: 和传统的数据交换平台相比, 本发明提供了多种数据清洗 规则, 对原始数据进行清洗, 同时保留原始数据进行备份, 从而得到可适用于任一方使用的 有效数据, 消除了传统模式下数据交换后无法直接使用的问题。 附图说明 0013 图1为本发明系统分层结构示意图。 具体实施方式 0014 下面结合具体实施例进一步详细描述本发明的技术。

13、方案, 但本发明的保护范围不 局限于以下所述。 0015 参考图1所示, 一种大数据交换系统, 该系统包括ODS数据原始层、 DWD数据清洗明 细层、 DWS数据汇总层、 DM数据集市层以及ST数据应用层。 为方便描述以下分别简称为ODS 层、 DWD层、 DWS层、 DM层以及ST层。 0016 ODS数据原始层是数据仓库原始准备区, 为DWD数据清洗明细层提供基础原始数 据; DWD数据清洗明细层为DWS数据汇总层提供来源明细数据, 进行清洗转换; DWS数据汇总层为DM数据集市层提供细粒度数据, 根据DWD数据清洗明细层数据按各个 维度进行粗粒度汇总聚合; DM数据集市层是根据DWS数据。

14、汇总层数据按照各种维度或多种维度组合把需要查询的 一些事实字段进行汇总统计并作为单独的列进行存储; ST数据应用层面向用户应用和分析需求面向最终结果用户。 0017 ODS数据原始层: 功能: ODS层是数据仓库原始准备区, 为DWD层提供基础原始数据, 可减少对业务系统的 说明书 2/4 页 4 CN 111581202 A 4 影响; 建模方式及原则: 从业务系统增量抽取、 保留时间由业务需求决定、 可分表进行周期存 储、 数据不做清洗转换与业务系统数据模型保持一致、 按主题逻辑划分; DWD数据清洗明细层: 功能: 为DWS层提供来源明细数据, 经行清洗转换, 包括不限于维度转代理键、 。

15、身份证清 洗 (脱敏) 、 会员注册来源清晰、 字段合并、 空值处理、 脏数据处理、 IP清洗转换、 账号余额清 洗、 资金来源清洗等; 脱敏策略: 采用AES128加密方式, BASE64转码的方式对身份证号码和手机号码进行加 密。 将JAVA编译后的程序写成UDF在进行转换时, 直接调用UDF函数; 加密UDF: encudf; 解密UDF: decudf; DWS数据汇总层: 功能: 为DM层提供细粒度数据, DWS; DWS是根据DWD层数据按各个维度进行粗粒度汇总 聚合, 包括不限于按地区, 时间, 来源, 类型等进行汇合 ; 建模方式及原则: 聚合、 汇总增加派生事实; 关联其它主。

16、题的事实表, DWS层可能会跨主 题域; DWS保持高粒度汇总数据; 数据模型可能采用反范式设计, 合并信息等; DM数据集市层: 功能: 可以是一些宽表, 是根据DWS层数据按照各种维度或多种维度组合把需要查询的 一些事实字段进行汇总统计并作为单独的列进行存储; 满足一些特定查询、 数据挖掘应用; 应用集市数据存储。(主要根据各个项目系统想要展示的特殊定制指标进行相应汇总统 计) ; 建模方式及原则: 尽量减少数据访问时计算, 优化检索; 维度建模, 星型模型; 事实拉 宽, 度量预先计算; 分表存储; ST数据应用层: 功能: ST层面向用户应用和分析需求, 包括前端报表、 分析图表、 K。

17、PI、 仪表盘、 OLAP、 专 题等分析, 面向最终结果用户; 适合作OLAP、 报表模型, 包括不限于ROLAP,MOLAP; 根据DWS层 经过聚合汇总统计后的粗粒度事实表; 建模方式及原则: 保持数据量小; 维度建模, 星形模型; 各位维度代理键+度量; 增加数 据业务日期字段, 支持数据重跑; 不分表存储。 0018 作为一种优选实施例, ODS数据原始层从业务系统增量抽取原始数据, 原始数据的 保留时间由业务需求决定、 原始数据可分表进行周期存储、 原始数据不做清洗转换与业务 系统数据模型保持一致、 按主题逻辑划分。 0019 作为一种优选实施例, 清洗转换的规则包括: 非空检核:。

18、 要求字段为非空的情况下, 需要对该字段数据进行检核; 主键重复: 多个业务系统中同类数据经过清洗后, 在同一保存时, 为保证主键唯一性, 需要进行检核工作; 非法代码清洗、 非法值清洗: 非法代码问题包括非法代码、 代码与数据标准不一致等, 非法值包括取值错误、 格式错误、 多余字符、 乱码, 需根据具体情况进行校核及修正; 数据格式检核: 通过检查表中属性值的格式是否正确来衡量其准确性, 如时间格式、 币 说明书 3/4 页 5 CN 111581202 A 5 种格式、 多与字符、 乱码。 0020 记录数检核: 指各个系统相关数据之间的数据总数检核。 0021 作为一种优选实施例, 清。

19、洗转换还包括一个缺失值清洗, 其步骤如下: 1) 、 确定缺失值范围: 按照缺失比例和字段重要性, 分别制定策略: 重要性高, 缺失率低: 通过计算进行填充; 通过经验或知识估计; 重要性高, 缺失率高: 尝试从其他渠道取数补全; 使用其他字段通过计算获取; 重要性低, 缺失率低: 不做处理或简单填充; 重要性低, 缺失率高: 去掉该字段; 2) 、 去掉不需要的字段, 将不需要的字段直接删掉即可; 3) 、 填充缺失内容, 某些缺失值可以进行填充, 方法包括: 以业务知识或经验推测填充 缺失值; 或以同一指标的计算结果 (均值、 中位数、 众数等) 填充缺失值; 或以不同指标的计 算结果填充。

20、缺失值。 0022 4) 、 格式内容清洗, 包括时间、 日期、 数值、 全半角、 显示格式不一致的清洗, 以及内 容中有不该存在的字符。 某些内容可能值包括一部分字符, 比如身份证是数字+字母, 中国 人姓名是汉字。 最典型的就是头、 尾、 中间的空格, 也可能出现姓名中存在数字符号、 身份证 中出现汉字等问题。 这种情况下, 需要以半自动校验半人工方式来找出可能存在的问题, 并 去除不需要的字符。 0023 还包括一个逻辑错误清洗, 主要包含去重、 去除不合理值、 修正矛盾内容、 非需求 数据清洗几个步骤。 0024 原则: 把不要的字段删了。 如果数据量没有大到不删除字段就没有办法处理的。

21、程 度, 那么能不删的字段尽量不删。 0025 最后本发明还提供一个关联性验证, 如果数据多个来源, 那么有必要进行关联性 验证。 0026 作为一种优选实施例, 用户应用和分析需求包括前端报表、 分析图表、 KPI、 仪表 盘、 OLAP、 专题分析。 0027 以上所述仅是本发明的优选实施方式, 应当理解本发明并非局限于本文所披露的 形式, 不应看作是对其他实施例的排除, 而可用于各种其他组合、 修改和环境, 并能够在本 文所述构想范围内, 通过上述教导或相关领域的技术或知识进行改动。 而本领域人员所进 行的改动和变化不脱离本发明的精神和范围, 则都应在本发明所附权利要求的保护范围 内。 说明书 4/4 页 6 CN 111581202 A 6 图1 说明书附图 1/1 页 7 CN 111581202 A 7 。

展开阅读全文
内容关键字: 数据 交换 系统
关于本文
本文标题:大数据交换系统.pdf
链接地址:https://www.zhuanlichaxun.net/pdf/10494263.html
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1