用于复杂工业过程的多源异构数据治理系统及方法.pdf

上传人:梁腾 文档编号:14525758 上传时间:2024-05-19 格式:PDF 页数:15 大小:962.91KB
收藏 版权申诉 举报 下载
用于复杂工业过程的多源异构数据治理系统及方法.pdf_第1页
第1页 / 共15页
用于复杂工业过程的多源异构数据治理系统及方法.pdf_第2页
第2页 / 共15页
用于复杂工业过程的多源异构数据治理系统及方法.pdf_第3页
第3页 / 共15页
文档描述:

《用于复杂工业过程的多源异构数据治理系统及方法.pdf》由会员分享,可在线阅读,更多相关《用于复杂工业过程的多源异构数据治理系统及方法.pdf(15页完成版)》请在专利查询网上搜索。

1、(19)国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 202410002248.5(22)申请日 2024.01.02(71)申请人 贵州航天云网科技有限公司地址 550000 贵州省贵阳市贵阳国家高新技术产业开发区黔灵山路357号德福中心A5栋2单元17层1-6号 申请人 清华大学(72)发明人 杨灵运赵千川杨文峰李鑫赵紫怡王明慧肖应强王雄陈竹(74)专利代理机构 重庆强大凯创专利代理事务所(普通合伙)50217专利代理师 邓美琦(51)Int.Cl.G06F 16/22(2019.01)G06F 16/245(2019.01)G06F 16/28。

2、(2019.01)(54)发明名称一种用于复杂工业过程的多源异构数据治理系统及方法(57)摘要本发明涉及数据治理技术领域,具体涉及了一种用于复杂工业过程的多源异构数据治理系统及方法。包括数据采集模块,用于对各节点所产生的工业数据进行采集并进行预处理,根据数据来源节点对工业数据添加唯一数据标识;数据盘点模块,用于对工业数据进行探查,生成工业数据探查报告,对工业数据探查报告进行规则判断;数据规划模块,用于对初步质量问题处理后的工业数据,根据数据应用需求进行数据逻辑层次划分;数据稽核模块,用于对数据资源池中的工业数据进行对应层级及类型的准确性、完整性、一致性以及时效性要求的判断;数据计算模块,用于获。

3、取数据应用需求,根据数据应用需求从数据资源池中收取数据进行加工计算生成应用数据集。权利要求书3页 说明书9页 附图2页CN 117520352 A2024.02.06CN 117520352 A1.一种用于复杂工业过程的多源异构数据治理系统,其特征在于:包括数据采集模块、数据盘点模块、数据规划模块、数据稽核模块以及数据计算模块;数据采集模块,用于对各节点所产生的工业数据进行采集并进行预处理,根据数据来源节点对工业数据添加唯一数据标识,所述工业数据包括业务数据、设备互联数据以及企业外部数据;数据盘点模块,用于对工业数据进行探查,生成工业数据探查报告,对工业数据探查报告进行规则判断,获取工业数据中。

4、的初步质量问题,并对存在初步质量问题的工业数据按照预设规则进行初步质量问题处理;数据规划模块,用于对初步质量问题处理后的工业数据,根据数据应用需求进行数据逻辑层次划分,以及从不同维度添加分类标签建立对应数据库进行存储形成数据资源池;数据稽核模块,用于对数据资源池中的工业数据进行对应层级及类型的准确性、完整性、一致性以及时效性要求的判断,对不满足准确性、完整性、一致性以及时效性中任一项的工业数据从数据资源池中筛除;数据计算模块,用于获取数据应用需求,根据数据应用需求从数据资源池中收取数据进行加工计算生成应用数据集;所述数据规划模块包括类型划分模块,所述类型划分模块包括密级分类模块、来源分类模块以。

5、及影响分类模块;密级分类模块,用于对工业数据按照秘密等级进行分类,所述秘密等级包括公开、一般、机密以及绝密;来源分类模块,用于对工业数据根据数据来源进行分类,所述数据来源包括内部系统、内部设备、外部单位以及互联网;影响分类模块,用于对根据工业数据所关联的事件影响分级分类,所述事件影响包括一级影响事件、二级影响事件以及三级影响事件;重要等级模块,用于根据工业数据各维度的分类识别工业数据的重要等级,并生成维度重要评分,在秘密等级分类维度中,重要等级从高到低依次为绝密、机密、一般、公开,在数据来源分类维度中,重要程度从高到底依次为内部系统、内部设备、外部单位、互联网,从事件影响分类维度,重要等级从高。

6、到底依次为三级影响事件、二级影响事件、以及一级影响事件,并根据各维度预设权重,以及各维度的重要评分,计算综合评分;数据稽核模块,还用于当综合评分高于预设阈值的工业数据被筛除时,立即重新获取进行填补的工业数据,当综合评分低于预设阈值的工业数据被筛除时,将被筛除的工业数据计入补充表单,并定期对补充表单中记录的工业数据重新获取其进行补充的工业数据,当获取到后,将其从补充表单中取出。2.根据权利要求1所述的一种用于复杂工业过程的多源异构数据治理系统,其特征在于:所述数据盘点模块包括探查配置模块、数据探查模块;探查配置模块,用于配置进行探查的数据来源、探查规则;数据探查模块,用于根据探查规则,对选取的数。

7、据来源中的工业数据的数据集、数据字段以及数据质量中的一种或多种进行探查。3.根据权利要求1所述的一种用于复杂工业过程的多源异构数据治理系统,其特征在于:所述数据规划模块包括层级划分模块;权利要求书1/3 页2CN 117520352 A2层级划分模块,用于对工业数据按照数据层次进行划分,所述数据层次包括原始数据、基础数据、主题数据以及知识数据。4.根据权利要求1所述的一种用于复杂工业过程的多源异构数据治理系统,其特征在于:还包括数据编目模块;数据编目模块,用于对工业数据按照级别划分、类型划分进行编目,生成工业数据资源目录,并将工业数据进行编目再放入数据资源池。5.一种用于复杂工业过程的多源异构。

8、数据治理方法,其特征在于,其特征在于:包括以下步骤:S100:对各节点所产生的工业数据进行采集并进行预处理,根据数据来源节点对工业数据添加唯一数据标识,所述工业数据包括业务数据、设备互联数据以及企业外部数据;S200:对工业数据进行探查,生成工业数据探查报告,对工业数据探查报告进行规则判断,获取工业数据中的初步质量问题,并对存在初步质量问题的工业数据按照预设规则进行初步质量问题处理;S300:对初步质量问题处理后的工业数据,根据数据应用需求进行数据逻辑层次划分,以及从不同维度添加分类标签建立对应数据库进行存储形成数据资源池;S400:对数据资源池中的工业数据进行对应层级及类型的准确性、完整性、。

9、一致性以及时效性要求的判断,对不满足准确性、完整性、一致性以及时效性中任一项的工业数据从数据资源池中筛除;S500:获取数据应用需求,根据数据应用需求从数据资源池中收取数据进行加工计算生成应用数据集;所述S300还包括以下步骤:S321:对工业数据按照秘密等级进行分类,所述秘密等级包括公开、一般、机密以及绝密;S322:对工业数据根据数据来源进行分类,所述数据来源包括内部系统、内部设备、外部单位以及互联网;S323:对根据工业数据所关联的事件影响分级分类,所述事件影响包括一级影响事件、二级影响事件以及三级影响事件;S300还包括以下步骤:S330:根据工业数据各维度的分类识别工业数据的重要等级。

10、,并生成维度重要评分,在秘密等级分类维度中,重要等级从高到低依次为绝密、机密、一般、公开,在数据来源分类维度中,重要程度从高到底依次为内部系统、内部设备、外部单位、互联网,从事件影响分类维度,重要等级从高到底依次为三级影响事件、二级影响事件、以及一级影响事件,并根据各维度预设权重,以及各维度的重要评分,计算综合评分;S400还包括以下步骤:S410:当综合评分高于预设阈值的工业数据被筛除时,立即重新获取进行填补的工业数据,当综合评分低于预设阈值的工业数据被筛除时,将被筛除的工业数据计入补充表单,并定期对补充表单中记录的工业数据重新获取其进行补充的工业数据,当获取到后,将其从补充表单中取出。6.。

11、根据权利要求5所述的一种用于复杂工业过程的多源异构数据治理方法,其特征在权利要求书2/3 页3CN 117520352 A3于:所述S200包括以下步骤:S210:配置进行探查的数据来源、探查规则;S220:根据探查规则,对选取的数据来源中的工业数据的数据集、数据字段以及数据质量中的一种或多种进行探查。7.根据权利要求6所述的一种用于复杂工业过程的多源异构数据治理方法,其特征在于:所述S300包括以下步骤:S310:对工业数据按照数据层次进行划分,所述数据层次包括原始数据、基础数据、主题数据以及知识数据。8.根据权利要求7所述的一种用于复杂工业过程的多源异构数据治理方法,其特征在于:还包括以下。

12、步骤:S600:对工业数据按照级别划分、类型划分进行编目,生成工业数据资源目录,并将工业数据进行编目再放入数据资源池。权利要求书3/3 页4CN 117520352 A4一种用于复杂工业过程的多源异构数据治理系统及方法技术领域0001本发明涉及数据治理技术领域,具体涉及了一种用于复杂工业过程的多源异构数据治理系统及方法。背景技术0002对于复杂工业过程,会带来海量历史/实时的时空大数据,其中要包括三个部分,一是与企业运营相关的业务数据,主要来源于企业内部信息化管理系统,包括PLM、ERP、谷器MES、SCM和CRM等。这些数据,诸如产品、工业、生产、采购、订单、服务等数据,是企业的核心数据资产。

13、,以结构化数据为主。第二部分是产线设备互联数据,主要是指生产过程中产线、设备、物流等工况(如压力、温度、振动、应力等)、运行状态、环境参数等数据,一般采集自设备PLC、SCADA以及部分外接传感器,这类数据以时序数据为主,数据量大,采集频率高。第三部分是企业外部数据,包括产品交付给用户之后的工况、运营以及维修等相关数据,同时还包括大量来自于互联网市场、环境、供应链、网络社区等外部环境的数据。其中,产品运营服务数据以结构化数据为主,如与企业内部的业务数据融合。0003而复杂工业过程中所产生的数据,数据量大、来源多、分布广、数据种类多、结构复杂,会由于受到传感器、人为操作因素、系统误差、多异构数据。

14、、网络传输等多种因素导致数据质量差等问题。数据质量差会对企业的决策以及经营造成影响,因此如何对工业过程中的复杂数据进行规范统一管理,是亟待解决的问题。发明内容0004本发明所解决的技术问题在于提供一种用于复杂工业过程的多源异构数据治理系统及方法,能够对工业过程中产生的海量复杂数据提供统一规范的数据管理。0005本发明提供的基础方案:一种用于复杂工业过程的多源异构数据治理系统,包括数据采集模块、数据盘点模块、数据规划模块、数据稽核模块以及数据计算模块;数据采集模块,用于对各节点所产生的工业数据进行采集并进行预处理,根据数据来源节点对工业数据添加唯一数据标识,所述工业数据包括业务数据、设备互联数据。

15、以及企业外部数据;数据盘点模块,用于对工业数据进行探查,生成工业数据探查报告,对工业数据探查报告进行规则判断,获取工业数据中的初步质量问题,并对存在初步质量问题的工业数据按照预设规则进行初步质量问题处理;数据规划模块,用于对初步质量问题处理后的工业数据,根据数据应用需求进行数据逻辑层次划分,以及从不同维度添加分类标签建立对应数据库进行存储形成数据资源池;数据稽核模块,用于对数据资源池中的工业数据进行对应层级及类型的准确性、完整性、一致性以及时效性要求的判断,对不满足准确性、完整性、一致性以及时效性中任一项的工业数据从数据资源池中筛除;说明书1/9 页5CN 117520352 A5数据计算模块。

16、,用于获取数据应用需求,根据数据应用需求从数据资源池中收取数据进行加工计算生成应用数据集本发明的原理在于:首先,对工业过程各节点所产生的工业数据进行采集、预处理,并对工业数据添加上唯一数据标识以作标志。工业数据包括有企业运营相关的业务数据,产线设备的互联数据以及企业外部数据,将工业过程所产生的所有数据进行汇集。之后,将所采集到的工业数据进行探查分析,生成探查报告,发现所采集到的工业数据的原始数据中,所存在的初步质量问题,针对探查得到的数据初步质量问题,如去除异常值、填补缺失值、数据格式转换等,提高数据质量,以及将来自不同传感器、系统或网络的数据进行融合,消除数据冗余和噪声,提高数据可靠性。通过。

17、数据探查的方式,对现有数据资源情况、字段情况、数据质量等进行初步探查,了解数据意义。之后对数据进行规划处理,通过数据规划,对工业数据逻辑、物流存储进行统一规划,根据数据应用需求,按照数据定义的标准统一、流程规范的组织方案,实现数据资源分类建库,按照数据逻辑层划分对应的物理数据库,并对各个物理数据库中的数据进行分类标签定义,形成数据资源池,此后对数据资源池中的工业数据进行准确性、完整性、一致性以及时效性判断处理,保证数据进一步保证数据质量,对于不同层级,不同类型的数据,可以设置不同的判断要求,以满足算力的最优化。此后当获取到数据应用需求时,将经过数据质量判断后的数据资源池中的工业数据加工进行利用。

18、,从而保障了工业数据使用时数据质量高。0006相比于现有技术,本方案中,对数据质量进行审查中,通过两个方面进行完成,在第一个阶段中,对于刚获取到的原始数据进行初步质量核查,核查出通过简单规则判断便能够核查得到的初步质量问题,对存在的异常值、缺失值进行处理,冗余数据进行融合等。之后将工业数据分层级通过不同数据库进行存储,以及对不同层级的工业数据进行类型划分形成数据资源池。之后再对数据资源池的工业数据本身的准确性、完整性、一致性以及时效性进行判断处理,对不满足其中任意一项的工业资源数据进行筛除。从而针对不同层级,不同类型工业数据,在其对应层级及类型进行不同要求判断,使所产生的工业数据在其对应层级及。

19、要求,同时保障从数据采集到数据资源池生成这一全过程中,因各种因素所产生的数据异常,如传感器失灵、人员填报错误、系统故障等,保障数据的真实可靠。0007进一步,所述数据盘点模块包括探查配置模块、数据探查模块;探查配置模块,用于配置进行探查的数据来源、探查规则;数据探查模块,用于根据探查规则,对选取的数据来源中的工业数据的数据集、数据字段以及数据质量中的一种或多种进行探查。0008通过配置进行探查的数据来源以及探查规则,按照探查规则对所选择的数据来源的工业数据的数据集、数据字段、数据质量进行探查,数据集如数据总量、数据更新情况、业务含义,数据字段如字段格式、取值分布,数据质量如字段存在空值等。00。

20、09进一步,所述数据规划模块包括层级划分模块;层级划分模块,用于对工业数据按照数据层次进行划分,所述数据层次包括原始数据、基础数据、主题数据以及知识数据。0010将工业数据按照不同层级进行划分,其中原始数据为未经加工处理,没有修改、清洗、筛选的数据,基础数据为对原始数据进行处理后的按照数据基本信息所划分出的数据,主题数据是指对原始数据进行处理后按照数据主题划分出的数据,知识数据指知识类型数说明书2/9 页6CN 117520352 A6据,如规则、基础知识等。0011进一步,所述数据规划模块包括类型划分模块,所述类型划分模块包括密级分类模块、来源分类模块以及影响分类模块;密级分类模块,用于对工。

21、业数据按照秘密等级进行分类,所述秘密等级包括公开、一般、机密以及绝密;来源分类模块,用于对工业数据根据数据来源进行分类,所述数据来源包括内部系统、内部设备、外部单位以及互联网;影响分类模块,用于根据工业数据所关联的事件影响分级分类,所述事件影响包括一级影响事件、二级影响事件以及三级影响事件。0012对工业数据按照应用需求,不同维度进行分类,可根据工业数据的秘密等级、来源、影响进行添加分类标签,通过多维度的分类形式,以使工业数据利用多样性。0013进一步,还包括数据编目模块;数据编目模块,用于对工业数据按照级别划分、类型划分进行编目,生成工业数据资源目录,并将工业数据进行编目再放入数据资源池。0。

22、014还包括数据编目模块;数据编目模块,用于对工业数据按照级别划分、类型划分进行编目,生成工业数据资源目录,并将工业数据进行编目再放入数据资源池。0015对各个层级,各个分类进行编目,使对数据资源池中的数据查看更加方便,也更容易从数据资源池中的工业数据进行选取。0016本发明还公开了一种复杂工业过程的多源异构数据治理方法,包括以下步骤:S100:对各节点所产生的工业数据进行采集并进行预处理,根据数据来源节点对工业数据添加唯一数据标识,所述工业数据包括业务数据、设备互联数据以及企业外部数据,对工业数据进行存储;S200:对工业数据进行探查,生成工业数据探查报告,对工业数据探查报告进行规则判断,获。

23、取工业数据中的初步质量问题,并对存在初步质量问题的工业数据按照预设规则进行初步质量问题处理;S300:对初步质量问题处理后的工业数据,根据数据应用需求进行数据逻辑层次划分,以及从不同维度添加分类标签建立对应数据库进行存储形成数据资源池;S400:对数据资源池中的工业数据进行对应层级及类型的准确性、完整性、一致性以及时效性要求的判断,对不满足准确性、完整性、一致性以及时效性中任一项的工业数据从数据资源池中筛除;S500:获取数据应用需求,根据数据应用需求从数据资源池中收取数据进行加工计算生成应用数据集。0017进一步,所述S200包括以下步骤:S210:配置进行探查的数据来源、探查规则;S220。

24、:根据探查规则,对选取的数据来源中的工业数据的数据集、数据字段以及数据质量中的一种或多种进行探查。0018进一步,所述S300包括以下步骤:S310:对工业数据按照数据层次进行划分,所述数据层次包括原始数据、基础数据说明书3/9 页7CN 117520352 A7主题数据以及知识数据。0019进一步,所述S300还包括以下步骤:S321:对工业数据按照秘密等级进行分类,所述秘密等级包括公开、一般、机密以及绝密;S322:对工业数据根据数据来源进行分类,所述数据来源包括内部系统、内部设备、外部单位以及互联网;S323:对根据工业数据所关联的事件影响分级分类,所述事件影响包括一级影响事件、二级影响。

25、事件以及三级影响事件。0020进一步,还包括以下步骤:S600:对工业数据按照级别划分、类型划分进行编目,生成工业数据资源目录,并将工业数据进行编目再放入数据资源池。附图说明0021图1为本发明一种用于复杂工业过程的多源异构数据治理系统实施例的逻辑框图;图2为本发明一种用于复杂工业过程的多源异构数据治理系统实施例中数据盘点模块的逻辑框图;图3为本发明一种用于复杂工业过程的多源异构数据治理系统实施例中数据规划模块的逻辑框图。具体实施方式0022下面通过具体实施方式进一步详细说明:实施例基本如附图1所示:一种用于复杂工业过程的多源异构数据治理系统,包括数据采集模块、数据判断模块、数据规划模块、数据。

26、稽核模块、数据编目模块以及数据计算模块。0023数据采集模块,用于对各节点所产生的工业数据进行采集并进行预处理,根据数据来源节点对工业数据添加唯一数据标识,所述工业数据包括业务数据、设备互联数据以及企业外部数据。具体的,数据采集模块对各节点产生的工业数据进行采集,采集的数据来源包括来自企业内部信息化系统的业务数据,通过各类传感器对生成过程中产线、设备、物理等工况、运行环境等数据进行采集的产线设备互联数据,以及通过外部系统、互联网采集的企业外部数据。0024本实施例中,数据采集方式包括以下几种方式:1.关系数据库采集,支持增量和全量数据采集策略采集数据,支持国内外主流数据库如MySQL、Orac。

27、le、Sybase、SqlSever、PostgreSQL、KingbaseES、达梦(DM)、南大通用(GBase)等数据采集,适用于结构化的的关系型数据库采集。00252.文件数据采集,支持从文件服务器上(FTP、SFTP、Samba、NFS、文件目录)采集文件,并且能够对文件进行解析处理,加载到目标存储中,文件解析支持XML、JSON、CSV、Excel、Text、Word等格式。适用于结构化以及非结构化的文件数据采集。00263.接口数据采集,支持提供主动采集和上报采集两种模块,主动采集支持REST、说明书4/9 页8CN 117520352 A8SOAP,并且能够自定义JSON、CS。

28、V、XML、文本报文数据的提取,上报采集主要是配置接口的方式给第三方应用直接报送数据,适用于借口方式采集数据。00274.消息队列数据采集,支持接收消息队列的数据,并对数据进行解析收,加载到目标存储中,支持RabbitMQ、Kafaka、ActiveMQ等常用消息队列,适用于采用消息队列传输数据。00285.业务数据填报采集,提供基于表单方式进行配置数据采集表单,用户可以直接填写数据,报送到数据库中,适用于小批量业务数据填报采集。00296.NoSQL数据采集,提供对常用的NoSQL数据库(ElasticSearch、MongoDB)数据进行采集,并加载到目标存储中,适用于常用的NoSQL数据。

29、库。0030当采集到工业数据后,根据数据来源,对工业数据添加唯一数据标识。0031数据盘点模块,用于对中的工业数据进行探查,生成工业数据探查报告,对工业数据探查报告进行规则判断,获取工业数据中的初步质量问题,并对存在初步质量问题的工业数据按照预设规则进行初步质量问题处理。0032数据盘点模块包括探查配置模块、数据探查模块。0033探查配置模块,用于配置进行探查的数据来源、探查规则。0034数据探查模块,用于根据探查规则,对选取的数据来源中的工业数据的数据集、数据字段以及数据质量中的一种或多种进行探查。其中数据集为数据总量以及更新情况,数据字段为字段格式以及取值分布,数据质量如字段是否空值等。0。

30、035具体的,首先进行新增数据探查配置,选择数据源名称以及数据库类型,编辑数据源说明,之后对探查规则进行配置,例如数据集探查,具体配置的有数据源、包含Schema、排除表规则,以及是否启用数据量统计、是否定时衔接测试、是否启用数据探索。通过配置好探查规则后,执行探查规则,最终输出探查报告。报告以表单的形式呈现,本实施例里,表头包括序号、原始表名、原始数据库名、Schema、数据量(记录)、存储量(预估)、字段数量、查探时间。又例如字段探查,配置字段探查的适用表,适用字段以及探查规则,如空值率探查、重复值探查等。输出探查报告包括字段名、中文名称、字段类型、字段约束,探查情况,本实例中探查规则为又。

31、空值率探查,则对探查到具有空值的对于字段的探查情况里的生成满足空值率规则。本方案中,还可对异常值、冗余数据等常见的通过简单规则判断能够发现的数据基本数据质量问题进行探查。0036当数据探查完成后,对具有初步数据异常的工业数据进行简单处理,例如去除异常值、填补缺失值、数据格式转换、来自不同传感器、系统、网络的数据进行融合,消除数据冗余和噪声等,可通过现有的数据处理算法完成,此处不过多赘述。0037数据规划模块,用于对初步质量问题处理后的工业数据根据数据应用需求进行数据逻辑层划分建立对应数据库进行存储形成,并对各个数据库中的工业数据从不同维度添加分类标签,形成数据资源池。0038数据规划模块包括层。

32、级划分模块。0039层级划分模块,用于对工业数据按照数据层次进行划分,所述数据层次包括原始数据、基础数据主题数据以及知识数据。0040对于数据规划数包括数据逻辑规划和数据物理规划,其中数据逻辑规划可根据数据层级进行规划,本实施例中以原始数据、基础数据主题数据以及知识数据进行规划数据说明书5/9 页9CN 117520352 A9层次,例如原始数据层次下的层级域有包括有内部系统、外部系统、设备传感器。基础数据数据层次下的层级域包括工厂基础数据、工厂等级数据、工厂检验数据、工厂安全数据、工厂相关数据、生产订单数据、事故调查数据等。0041数据规划模块包括类型划分模块,所述类型划分模块包括密级分类模。

33、块、来源分类模块以及影响分类模块。0042密级分类模块,用于对工业数据按照秘密等级进行分类,此分类维度用于定义数据的秘密等级,根据管理需要对设计密码数据适用进行安全管理,秘密等级包括公开、一般、机密以及绝密。其中公开指可以对外公开的数据,一般指可以对内单位公开的数据,机密指带有秘密信息的数据,可以在有限范围内公开的数据,绝密指绝密信息,只有掌握的部分人员能够查看和了解。对于秘密等级的划分,本实施例中可根据具体需求进行预设的方式进行秘密等级设定,例如合同订单数据可设置为机密等级,在获取到合同订单的工业数据时,将其归为机密数据。配方可设定为绝密数据,销售额、销售量可设为公开数据。0043来源分类模。

34、块,用于对工业数据根据数据来源进行分类,所述数据来源包括内部系统、内部设备、外部单位以及互联网。0044影响分类模块,用于根据工业数据所关联的事件影响分级分类,此分类维度根据不同类别工业数据遭篡改、破坏或非法利用后,可能对工业生产、经济效益等带来潜在影响。所述事件影响包括一级影响事件、二级影响事件以及三级影响事件。其中一级影响事件指遭篡改、破坏或非法利用后,对工业控制系统及设备、工业互联网平台等正常运行影响较小,给企业造成负面影响较小,或直接经济损失较小,恢复工业数据或消除负面影响所需付出的代价较小的工业数据。二级影响事件指,遭篡改、破坏或非法利用后,容易引发较大或重大生产安全事故或突发环境事。

35、件,给企业造成较大负面影响,或直接经济损失较大,引发级联效应明显,影响范围涉及多个行业、区域或行业内多个企业,或影响持续事件长,或可导致大量供应商、客户资源被非法获取或大量个人信息泄露的工业数据。三级影响事件指,遭篡改、破坏或非法利用后易引发特别重大生产安全事故或突发环境事件,或造成直接经济损失特别巨大,对国民经济、行业发展、公众利益、社会秩序乃至国际安全造成严重影响的工业数据。影响分级的划分,本实施例中,同样根据具体需求进行预设的方式进行设定。0045通过对工业数据进行层级划分,以及对工业数据进行分类,完成工业数据的数据逻辑规划。此后根据物理数据库建立,通过不同数据库存储不同层级,不同分类的。

36、数据,完成对工业数据的数据物理规划,以形成数据资源池,当新增数据时,在对应的数据库中新增目标表即可。0046数据稽核模块,用于对数据资源池中的工业数据进行对应层级及类型的准确性、完整性、一致性以及时效性要求的判断,对不满足准确性、完整性、一致性以及时效性中任一项的工业数据从数据资源池中筛除。0047此后,依次对数据资源池中各个层级及分类中的工业数据进行稽核,对各层级,各类型的工业数据的准确性、完整性、一致性以及时效性按照要求进行判断。00481.数据准确性,数据的准确性反映统计数据的真实性和可靠性,数据的准确性受两大因素影响,一是数据来源可靠性,二是数据记录和处理的准确性。本实施例中,通过外部。

37、数据印证、数据相互印证以及数据合理性判断三种方式来判断工业数据的准确性,外部数据印证为对有多个数据源的工业数据,对工业数据进行准确性验证时,从原始数据中提说明书6/9 页10CN 117520352 A10取到多个数据源的相同类型数据进行相互比对,当其中能够对上的数据源占比更高时,判断数据准确性通过。数据相互印证为对进行数据加工过的工业数据,将数据加工过程中前后数据进行比对,例如同一个指标的平均值,在数据处理前后出现巨大差异而又不符合逻辑,则说明数据加工出现问题。数据合理性判断为对于数值类数据,通过预设其合理范围,或者是根据数据分布设定合理范围,当出现不处于合理范围内的值,则不符合数据准确性。。

38、00492.数据完整性判断,数据完整性值数据是否全面完整,数据的完整性与数据的准确性密切相关,只有数据完整才能保证数据的准确性。本实施例中,通过外部数据印证判断数据完整性。即拿多个数据源的数据进行相互比对,判断工业数据是否完整。00503.数据一致性判断,数据一致性是指同一数据在不同环节或不同事件点之间是否一致,数据一致性是数据质量的重要表征。本实施例中,通过KDE(核密度估计)分布图判断数据一致性,可以通过核密度估计图来比较直观地看出数据样本本身的分布特征。00514.时效性判断,数据时效性值数据产生、采集及处理的速度和反应时效。本方案中,通过数据产生、采集及处理时的时间戳判断数据时效性。0。

39、052对于不同层级、不同分类的工业数据,可以设置对数据准确性、完整性、一致性、时效性各自判断要求不同。例如对于密度等级为公开的工业数据,准确性、时效性的判断要求可以偏低,对于影响分级为重大事件严重,准确性要求高、完整性要求高、一致性要求高、时效性要求高。通过设定好不同层级,不同分类工业数据的数据准确性、完整性、一致性、时效性要求后,按照对应要求对对应数据库中工业数据的质量判断,已达到对系统算力的合理分配,避免不必要的资源消耗。0053数据计算模块,用于获取数据应用需求,根据数据应用需求从数据资源池中收取数据进行加工计算生成应用数据集。通过预先对各个数据库中的工业数据进行建立模型提取数据特征,当。

40、具有数据应用需求时,根据数据应用需求,通过对数据应用需求进行语义分析,根据语义分析结果与所提取的数据提取进行匹配,将特征匹配对应的数据进行提取形成新的数据集,作为应用数据集以供适用。0054数据编目模块,用于对工业数据按照级别划分、类型划分进行编目,生成工业数据资源目录,并将工业数据进行编目再放入数据资源池。对数据进行编写目录,便于查看。0055本实施例还公开了一种复杂工业过程的多源异构数据治理方法,包括以下步骤:S100:对各节点所产生的工业数据进行采集并进行预处理,根据数据来源节点对工业数据添加唯一数据标识,所述工业数据包括业务数据、设备互联数据以及企业外部数据;S200:对工业数据进行探。

41、查,生成工业数据探查报告,对工业数据探查报告进行规则判断,获取工业数据中的初步质量问题,并对存在初步质量问题的工业数据按照预设规则进行初步质量问题处理;S300:对初步质量问题处理后的工业数据,根据数据应用需求进行数据逻辑层次划分,以及从不同维度添加分类标签建立对应数据库进行存储形成数据资源池;S400:对数据资源池中的工业数据进行对应层级及类型的准确性、完整性、一致性以及时效性要求的判断,对不满足准确性、完整性、一致性以及时效性中任一项的工业数据从数据资源池中筛除;S500:获取数据应用需求,根据数据应用需求从数据资源池中收取数据进行加工说明书7/9 页11CN 117520352 A11计。

42、算生成应用数据集。0056所述S200包括以下步骤:S210:配置进行探查的数据来源、探查规则;S220:根据探查规则,对选取的数据来源中的工业数据的数据集、数据字段以及数据质量中的一种或多种进行探查。0057所述S300包括以下步骤:S310:对工业数据按照数据层次进行划分,所述数据层次包括原始数据、基础数据主题数据以及知识数据。0058所述S300还包括以下步骤:S321:对工业数据按照秘密等级进行分类,所述秘密等级包括公开、一般、机密以及绝密;S322:对工业数据根据数据来源进行分类,所述数据来源包括内部系统、内部设备、外部单位以及互联网;S323:对根据工业数据所关联的事件影响分级分类。

43、,所述事件影响包括一级影响事件、二级影响事件以及三级影响事件。0059还包括以下步骤:S600:对工业数据按照级别划分、类型划分进行编目,生成工业数据资源目录,并将工业数据进行编目再放入数据资源池。0060实施例二本实施例和实施例一的区别在于,本实施例中,还包括所属类型划分模块还包括重要等级模块,重要等级模块,用于根据工业数据各维度的分类识别工业数据的重要等级,并生成维度重要评分,在秘密等级分类维度中,重要等级从高到低依次为绝密、机密、一般、公开,在数据来源分类维度中,重要程度从高到底依次为内部系统、内部设备、外部单位、互联网,从事件影响分类维度,重要等级从高到底依次为三级影响事件、二级影响事。

44、件、以及一级影响事件,并根据各维度预设权重,以及各维度的重要评分,计算综合评分;具体的,按照在秘密等级分类维度进行重要程度评分,绝密的工业数据重要评分为4分,机密为3分,一般为2分,公开为1分。在来源分类维度中,内部系统为4分、内部设备为3分、外部单位为2分、互联网为1分。在影响分类维度,三级影响事件为3分,二级影响事件为2分,一级影响事件为1分。0061当一个工业数据秘密等级为机密,来源为内部设备,影响为二级影响事件时,各维度重要评分可记为MM3LY2YX2。0062之后根据各维度的权重,计算出综合评分,例如秘密等级分类维度权重为0.3,来源分类维度权重为0.2,影响分类维度权重为0.5,以。

45、此计算中综合评分。0063数据稽核模块,还用于当综合评分高于预设阈值的工业数据被筛除时,立即重新获取进行填补的工业数据,当综合评分低于预设阈值的工业数据被筛除时,将被筛除的工业数据计入补充表单,并定期对补充表单中记录的工业数据重新获取其进行补充的工业数据,当获取到后,将其从补充表单中取出。0064具体的,当工业数据被筛除后,根据其综合评分,若是综合评分较高,则需要立即说明书8/9 页12CN 117520352 A12进行补充,而若是综合评分较低,则可以进行记录,记录下哪些数据被筛除了,并且定期对综合评分较低的数据定期进行统一获取,降低系统负荷。0065本实施例还公开了一种用于复杂工业过程的多。

46、源异构数据治理方法,该方法与实施例一的区别在于,S300还包括以下步骤:S330:根据工业数据各维度的分类识别工业数据的重要等级,并生成维度重要评分,在秘密等级分类维度中,重要等级从高到低依次为绝密、机密、一般、公开,在数据来源分类维度中,重要程度从高到底依次为内部系统、内部设备、外部单位、互联网,从事件影响分类维度,重要等级从高到底依次为三级影响事件、二级影响事件、以及一级影响事件,并根据各维度预设权重,以及各维度的重要评分,计算综合评分;S400还包括以下步骤:S410:当综合评分高于预设阈值的工业数据被筛除时,立即重新获取进行填补的工业数据,当综合评分低于预设阈值的工业数据被筛除时,将被。

47、筛除的工业数据计入补充表单,并定期对补充表单中记录的工业数据重新获取其进行补充的工业数据,当获取到后,将其从补充表单中取出。0066以上的仅是本发明的实施例,方案中公知的具体结构及特性等常识在此未作过多描述,所属领域普通技术人员知晓申请日或者优先权日之前发明所属技术领域所有的普通技术知识,能够获知该领域中所有的现有技术,并且具有应用该日期之前常规实验手段的能力,所属领域普通技术人员可以在本申请给出的启示下,结合自身能力完善并实施本方案,一些典型的公知结构或者公知方法不应当成为所属领域普通技术人员实施本申请的障碍。应当指出,对于本领域的技术人员来说,在不脱离本发明结构的前提下,还可以作出若干变形和改进,这些也应该视为本发明的保护范围,这些都不会影响本发明实施的效果和专利的实用性。本申请要求的保护范围应当以其权利要求的内容为准,说明书中的具体实施方式等记载可以用于解释权利要求的内容。说明书9/9 页13CN 117520352 A13图1说明书附图1/2 页14CN 117520352 A14图2图3说明书附图2/2 页15CN 117520352 A15。

展开阅读全文
内容关键字: 用于 复杂 工业 过程 多源异构 数据 治理 系统 方法
关于本文
本文标题:用于复杂工业过程的多源异构数据治理系统及方法.pdf
链接地址:https://www.zhuanlichaxun.net/pdf/14525758.html
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1