书签 分享 收藏 举报 版权申诉 / 16

一种非结构化数据处理方法及装置.pdf

  • 上传人:32
  • 文档编号:4527202
  • 上传时间:2018-10-18
  • 格式:PDF
  • 页数:16
  • 大小:1.35MB
  • 摘要
    申请专利号:

    CN201410466111.1

    申请日:

    2014.09.12

    公开号:

    CN104239506A

    公开日:

    2014.12.24

    当前法律状态:

    驳回

    有效性:

    无权

    法律详情:

    发明专利申请公布后的驳回IPC(主分类):G06F 17/30申请公布日:20141224|||实质审查的生效IPC(主分类):G06F 17/30申请日:20140912|||公开

    IPC分类号:

    G06F17/30

    主分类号:

    G06F17/30

    申请人:

    北京优特捷信息技术有限公司

    发明人:

    陈军; 梁玫娟

    地址:

    100102 北京市朝阳区望京阜通西大街望京SOHO塔二B座1707

    优先权:

    专利代理机构:

    北京尚伦律师事务所 11477

    代理人:

    张俊国

    PDF完整版下载: PDF下载
    内容摘要

    本发明提供一种非结构化数据处理方法及装置,用以将非结构化数据转换为结构化数据。该方法包括:获取用于抽取非结构化数据中关键字段的解析规则;利用所述解析规则,抽取非结构化数据中的关键字段;将抽取的关键字段命名为预设参数,并将所述预设参数赋值为抽取的关键字段,生成结构化数据。上述技术方案可以将非结构化数据转换为结构化数据,从而便于查询统计,节省计算空间和查询时间。

    权利要求书

    权利要求书
    1.  一种非结构化数据处理方法,其特征在于,包括:
    获取用于抽取非结构化数据中关键字段的解析规则;
    利用所述解析规则,抽取非结构化数据中的关键字段;
    将抽取的关键字段命名为预设参数,并将所述预设参数赋值为抽取的关键字段,生成结构化数据。

    2.  如权利要求1所述的方法,其特征在于,
    所述获取用于抽取非结构化数据中关键字段的解析规则,包括:根据生成所述非结构化数据的应用程序信息,查找用户自定义解析规则;
    所述利用所述解析规则,抽取非结构化数据中的关键字段,包括:利用所述用户自定义解析规则抽取非结构化数据中的关键字段;当未查找到所述用户自定义解析规则、或者所述用户自定义解析规则与所述非结构化数据不匹配时,查找系统内置解析规则;利用所述系统内置解析规则抽取非结构化数据中的关键字段。

    3.  如权利要求2所述的方法,其特征在于,
    所述根据生成所述非结构化数据的应用程序信息,查找用户自定义解析规则,包括:根据生成所述非结构化数据的应用程序信息,查找预先为所述非结构化数据配置的用户自定义解析规则;
    所述利用所述用户自定义解析规则抽取非结构化数据中的关键字段,包括:利用所述预先为所述非结构化数据配置的用户自定义解析规则抽取非结构化数据中的关键字段。

    4.  如权利要求2所述的方法,其特征在于,
    所述利用所述用户自定义解析规则抽取非结构化数据中的关键字段,包括:当所述用户自定义解析规则有多个时,依次使用每个用户自定义解析规则抽取非结构化数据中的关键字段;或者
    所述利用所述系统内置解析规则抽取非结构化数据中的关键字段,包括:当所述系统内置解析规则有多个时,依次使用每个系统内置解析规则抽取非结构化数据中的关键字段。

    5.  如权利要求1所述的方法,其特征在于,所述方法还包括:
    判断所述结构化数据中的预设参数的值是否满足预设告警条件;
    当所述结构化数据中的预设参数的值满足预设告警条件时,发出告警和/或阻断所述预设参数对应的操作。

    6.  如权利要求1所述的方法,其特征在于,所述方法还包括:
    通过数据交换接口,从第三方数据库中查找与所述结构化数据匹配的数据,所述第三方数据库中的数据与所述结构化数据来源一致;或者,通过数据交换接口,导入第三方数据库中的数据,所述第三方数据库中的数据与所述结构化数据来源一致;在所述导入的数据中查找与所述结构化数据相匹配的数据;
    对与所述结构化数据相匹配的数据进行可视化处理。

    7.  如权利要求6所述的方法,其特征在于,所述方法还包括:
    将所述结构化数据导入到第三方数据库中,以更新所述第三方数据库中的数据。

    8.  一种非结构化数据处理装置,其特征在于,包括:
    规则获取模块,用于获取用于抽取非结构化数据中关键字段的解析规则;
    字段抽取模块,用于利用所述解析规则,抽取非结构化数据中的关键字段;
    数据生成模块,用于将抽取的关键字段命名为预设参数,并将所述预设参数赋值为抽取的关键字段,生成结构化数据。

    9.  如权利要求8所述的装置,其特征在于,
    所述规则获取模块包括:
    第一查找子模块,用于根据生成所述非结构化数据的应用程序信息,查 找用户自定义解析规则;
    所述字段抽取模块包括:
    第一抽取子模块,用于利用所述用户自定义解析规则抽取非结构化数据中的关键字段;
    第二查找子模块,用于当所述第一查找子模块未查找到所述用户自定义解析规则、或者所述用户自定义解析规则与所述非结构化数据不匹配时,查找系统内置解析规则;
    第二抽取子模块,用于利用所述系统内置解析规则抽取非结构化数据中的关键字段。

    10.  如权利要求9所述的装置,其特征在于,
    所述第一查找子模块包括:
    查找单元,用于根据生成所述非结构化数据的应用程序信息,查找预先为所述非结构化数据配置的用户自定义解析规则;
    所述第一抽取子模块包括:
    第一抽取单元,用于利用所述预先为所述非结构化数据配置的用户自定义解析规则抽取非结构化数据中的关键字段。

    11.  如权利要求9所述的装置,其特征在于,
    所述第一抽取子模块包括:第二抽取单元,用于当所述用户自定义解析规则有多个时,依次使用每个用户自定义解析规则抽取非结构化数据中的关键字段;或者
    所述第二抽取子模块包括:第三抽取单元,用于当所述系统内置解析规则有多个时,依次使用每个系统内置解析规则抽取非结构化数据中的关键字段。

    12.  如权利要求8所述的装置,其特征在于,所述装置还包括:
    判断模块,用于判断所述结构化数据中的预设参数的值是否满足预设告警条件;
    第一处理模块,用于当所述结构化数据中的预设参数的值满足预设告警条件时,发出告警和/或阻断所述预设参数对应的操作。

    13.  如权利要求8所述的装置,其特征在于,所述装置还包括:
    第一查找模块,用于通过数据交换接口,从第三方数据库中查找与所述结构化数据匹配的数据,所述第三方数据库中的数据与所述结构化数据来源一致;
    第一导入模块,用于通过数据交换接口,导入第三方数据库中的数据,所述第三方数据库中的数据与所述结构化数据来源一致;
    第二查找模块,用于在所述导入的数据中查找与所述结构化数据相匹配的数据;
    第二处理模块,用于对与所述结构化数据相匹配的数据进行可视化处理。

    14.  如权利要求13所述的装置,其特征在于,所述装置还包括:
    第二导入模块,用于将所述结构化数据导入到第三方数据库中,以更新所述第三方数据库中的数据。

    说明书

    说明书一种非结构化数据处理方法及装置
    技术领域
    本发明涉及非结构化数据处理技术领域,尤其涉及一种非结构化数据处理方法及装置。
    背景技术
    在信息技术飞速发展的今天,人们在各种社会和经济活动中产生大量的数字信息,企业信息技术基础设施建设规模不断扩大,IT监控、运维系统也得到广泛运用,同时各种传感器、智能家电产生的数据,以及各种交易系统(证券交易系统、电子商务交易系统)产生的数据数量巨大,格式也不尽相同,很难得到利用。
    非结构化数据是计算机或人生成的文本信息,其中的数据并不一定遵循标准的数据结构(如模式定义规范的行和列),不容易被计算机程序直接理解和利用。将非结构化数据转化为结构化数据后,可存入搜索引擎、SQL(Structured Query Language,结构化查询语言)、NoSQL(Not Only SQL,非关系型数据)等系统,做进一步分析。大部分商业智能(Business Intelligence)软件只能分析基于数据库的结构化数据。例如Oracle数据库通过运算符合并智能数据类型和优化数据结构,以分析和操作XML(Exteile Marku Laguage,扩展性标识语言)文档、多媒体内容、文本和地理空间信息等非结构化数据。
    非结构化数据格式多样,通过“基于指针的”方法可以使用数据库对存储在文件中的文档、影像和媒体内容进行编目和引用。使用XML格式组织并保存半结构化数据将不同类别的信息保存在XML不同的节点中,但是查询效率比较低,需要借助XPATH(XML Path,XML路径语言)完成查询统 计。另外,使用数据库存储非结构化数据的缺点是需要预先定义Schema,即数据库表的格式,定义好之后,比较难修改,导致灵活性比较差,无法适应目前各种非结构化数据。
    其中,非结构化数据具有非结构化数据的特点,是一种非结构化数据,非结构化数据亦具有前述不便于查询统计、存储困难的问题。
    发明内容
    为克服相关技术中存在的问题,本发明实施例提供一种非结构化数据处理方法及装置,用以将非结构化数据转换为结构化数据。
    根据本发明实施例的第一方面,提供一种非结构化数据处理方法,包括:
    获取用于抽取非结构化数据中关键字段的解析规则;
    利用所述解析规则,抽取非结构化数据中的关键字段;
    将抽取的关键字段命名为预设参数,并将所述预设参数赋值为抽取的关键字段,生成结构化数据。
    在一个实施例中,所述获取用于抽取非结构化数据中关键字段的解析规则,包括:根据生成所述非结构化数据的应用程序信息,查找用户自定义解析规则;
    所述利用所述解析规则,抽取非结构化数据中的关键字段,包括:利用所述用户自定义解析规则抽取非结构化数据中的关键字段;当未查找到所述用户自定义解析规则、或者所述用户自定义解析规则与所述非结构化数据不匹配时,查找系统内置解析规则;利用所述系统内置解析规则抽取非结构化数据中的关键字段。
    在一个实施例中,所述根据生成所述非结构化数据的应用程序信息,查找用户自定义解析规则,包括:根据生成所述非结构化数据的应用程序信息,查找预先为所述非结构化数据配置的用户自定义解析规则;
    所述利用所述用户自定义解析规则抽取非结构化数据中的关键字段,包 括:利用所述预先为所述非结构化数据配置的用户自定义解析规则抽取非结构化数据中的关键字段。
    在一个实施例中,所述利用所述用户自定义解析规则抽取非结构化数据中的关键字段,包括:
    当所述用户自定义解析规则有多个时,依次使用每个用户自定义解析规则抽取非结构化数据中的关键字段。
    在一个实施例中,所述利用所述系统内置解析规则抽取非结构化数据中的关键字段,包括:
    当所述系统内置解析规则有多个时,依次使用每个系统内置解析规则抽取非结构化数据中的关键字段。
    在一个实施例中,所述方法还包括:
    判断所述结构化数据中的预设参数的值是否满足预设告警条件;
    当所述结构化数据中的预设参数的值满足预设告警条件时,发出告警和/或阻断所述预设参数对应的操作。
    在一个实施例中,所述方法还包括:
    通过数据交换接口,从第三方数据库中查找与所述结构化数据匹配的数据,所述第三方数据库中的数据与所述结构化数据来源一致;或者,通过数据交换接口,导入第三方数据库中的数据,所述第三方数据库中的数据与所述结构化数据来源一致;在所述导入的数据中查找与所述结构化数据相匹配的数据;
    对与所述结构化数据相匹配的数据进行可视化处理。
    在一个实施例中,所述方法还包括:
    将所述结构化数据导入到第三方数据库中,以更新所述第三方数据库中的数据。
    根据本发明实施例的第二方面,提供一种非结构化数据处理装置,包括:
    规则获取模块,用于获取用于抽取非结构化数据中关键字段的解析规则;
    字段抽取模块,用于利用所述解析规则,抽取非结构化数据中的关键字段;
    数据生成模块,用于将抽取的关键字段命名为预设参数,并将所述预设参数赋值为抽取的关键字段,生成结构化数据。
    在一个实施例中,所述规则获取模块可包括:
    第一查找子模块,用于根据生成所述非结构化数据的应用程序信息,查找用户自定义解析规则;
    所述字段抽取模块包括:
    第一抽取子模块,用于利用所述用户自定义解析规则抽取非结构化数据中的关键字段;
    第二查找子模块,用于当所述第一查找子模块未查找到所述用户自定义解析规则、或者所述用户自定义解析规则与所述非结构化数据不匹配时,查找系统内置解析规则;
    第二抽取子模块,用于利用所述系统内置解析规则抽取非结构化数据中的关键字段。
    在一个实施例中,所述第一查找子模块可包括:
    查找单元,用于根据生成所述非结构化数据的应用程序信息,查找预先为所述非结构化数据配置的用户自定义解析规则;
    所述第一抽取子模块包括:
    第一抽取单元,用于利用所述预先为所述非结构化数据配置的用户自定义解析规则抽取非结构化数据中的关键字段。
    在一个实施例中,所述第一抽取子模块可包括:
    第二抽取单元,用于当所述用户自定义解析规则有多个时,依次使用每个用户自定义解析规则抽取非结构化数据中的关键字段。
    在一个实施例中,所述第二抽取子模块可包括:
    第三抽取单元,用于当所述系统内置解析规则有多个时,依次使用每个 系统内置解析规则抽取非结构化数据中的关键字段。
    在一个实施例中,所述装置还包括:
    判断模块,用于判断所述结构化数据中的预设参数的值是否满足预设告警条件;
    第一处理模块,用于当所述结构化数据中的预设参数的值满足预设告警条件时,发出告警和/或阻断所述预设参数对应的操作。
    在一个实施例中,所述装置还包括:
    第一查找模块,用于通过数据交换接口,从第三方数据库中查找与所述结构化数据匹配的数据,所述第三方数据库中的数据与所述结构化数据来源一致;
    第一导入模块,用于通过数据交换接口,导入第三方数据库中的数据,所述第三方数据库中的数据与所述结构化数据来源一致;
    第二查找模块,用于在所述导入的数据中查找与所述结构化数据相匹配的数据;
    第二处理模块,用于对与所述结构化数据相匹配的数据进行可视化处理。
    在一个实施例中,所述装置还包括:
    第二导入模块,用于将所述结构化数据导入到第三方数据库中,以更新所述第三方数据库中的数据。
    本发明的实施例提供的技术方案可以包括以下有益效果:
    本发明实施例提供的上述方法可以将非结构化数据转换为结构化数据,从而便于查询统计,节省计算空间和查询时间。转换为结构化数据之后,可将其实时导入、批处理导入或实时流式导入其他系统,也可以作为结构化数据存入搜索引擎、SQL、NoSQL等系统,提供数据可视化,或供商业智能(Business Intelligence)软件做分析。
    应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
    附图说明
    此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
    图1是本发明实施例提供的一种非结构化数据处理方法的流程图。
    图2是具体实施例一提供的一种非结构化数据处理方法的流程图。
    图3是本发明实施例提供的一种非结构化数据处理装置的结构图。
    图4是本发明实施例提供的另一种非结构化数据处理装置的结构图。
    具体实施方式
    这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
    图1是根据一示例性实施例示出的一种非结构化数据处理方法的流程图,该方法可应用于数据处理设备或者数据处理程序,如图1所示,该方法包括以下步骤S101-S103:
    步骤S101、获取用于抽取非结构化数据中关键字段的解析规则。
    其中,解析规则可以是正则表达式规则或者其它形式的能实现抽取非结构化数据中关键字段的规则。解析规则中定义了抽取非结构化数据中关键字段的操作规则。
    步骤S102、利用解析规则,抽取非结构化数据中的关键字段。
    步骤S103、将抽取的关键字段命名为预设参数,并将预设参数赋值为抽取的关键字段,生成结构化数据。
    上述方法中,解析规则包括用户预先自定义的用户自定义解析规则、和系统预先配置的系统内置解析规则,为了提高解析效率,上述方法可以先利 用用户自定义解析规则抽取非结构化数据中的关键字段,当利用用户自定义解析规则不能成功抽取关键字段时,再利用系统内置解析规则抽取非结构化数据中的关键字段。后续,可以对抽取的关键字段建立索引提供搜索服务,或者存入数据库提供查询服务;非结构化数据被转换为结构化数据之后,可供商业智能(Business Intelligence)软件进行分析及做数据可视化。具体见下述具体实施例的说明:
    实施例一
    在本实施例一中,先利用用户自定义解析规则抽取非结构化数据中的关键字段,当利用用户自定义解析规则不能成功抽取关键字段时,再利用系统内置解析规则抽取非结构化数据中的关键字段,如图2所示,该方法包括:
    步骤S201、根据生成非结构化数据的应用程序信息,查找用户自定义解析规则(是前述步骤S101的一种实施方式)。当能查找到用户自定义解析规则时,继续执行步骤S202;当未查找到用户自定义解析规则时,继续执行步骤S203。
    其中,应用程序信息可以是应用程序的标识如App Name。
    步骤S202、利用用户自定义解析规则抽取非结构化数据中的关键字段,继续执行步骤S205。
    在一个实施例中,步骤S201可实施为:根据生成非结构化数据的应用程序信息,查找预先为非结构化数据配置的用户自定义解析规则。此时,步骤S202可实施为:利用预先为非结构化数据配置的用户自定义解析规则抽取非结构化数据中的关键字段。这样做的好处是可以提高抽取效率。
    在另一个实施例中,步骤S202还可实施为:当用户自定义解析规则有多个时,依次使用每个用户自定义解析规则抽取非结构化数据中的关键字段。
    步骤S203、当未查找到用户自定义解析规则、或者用户自定义解析规则与非结构化数据不匹配时(即利用用户自定义解析规则不能成功抽取关键字段时),查找系统内置解析规则,继续执行步骤S204。
    步骤S204、利用系统内置解析规则抽取非结构化数据中的关键字段(步骤S202-204是前述步骤102的一种实施方式),继续执行步骤S205。
    在一个实施例中,步骤S204可实施为:当系统内置解析规则有多个时,依次使用每个系统内置解析规则抽取非结构化数据中的关键字段。
    步骤S205、将抽取的关键字段命名为预设参数,并将预设参数赋值为抽取的关键字段,生成结构化数据,继续执行步骤S206。
    比如:将抽取的关键字段命名为field_name,并建立field_name=field_value这样的对应关系(即将field_name赋值为field_value),其中,field_value为抽取的关键字段,从而生成了结构化数据。
    步骤S206、对结构化数据进行应用处理,比如对抽取的关键字段建立索引以提供搜索服务,或者存入数据库提供查询服务等。
    例如以下是一条Apache服务器的非结构化数据:
    ”114.249.30.56--[12/Sep/2011:21:00:42+0800]"GET/zabbix/images/gradients/button.tif HTTP/1.1"2001706"http://map.so.com/?ie=utf-8&t=map&k=%E5%8D%97%E6%98%8C%E6%B4%AA%E9%83%BD%E5%A4%A7%E5%B8%82&c=%EF%BF%BD%D0%B9%EF%BF%BD&src=360se6_search""Mozilla/5.0(Windows;U;Windows NT 6.1;)AppleWebKit/534.12(KHTML,like Gecko)Maxthon/3.0Safari/534.12“
    }
    利用本发明实施例提供的上述方法抽取出来的关键字段为如下所示,其中,“:”该符号之前位于“”内的文字为对抽取的关键字段进行命名所形成的预设参数,“:”该符号之后位于“”内的文字为抽取的关键字段:
    "clientip":"114.249.30.56",
    "ident":"-",
    "auth":"-",
    "timestamp":"12/Sep/2011:21:00:42+0800",
    "verb":"GET",
    "request":"/zabbix/images/gradients/button.tif",
    "httpversion":"1.1",
    "response":"200",
    "bytes":"1706",
    "referrer":
    "\"http://map.so.com/?ie=utf-8&t=map&k=%E5%8D%97%E6%98%8C%E6%B4%AA%E9%83%BD%E5%A4%A7%E5%B8%82&c=%EF%BF%BD%D0%B9%EF%BF%BD&src=360se6_search\"",
    "agent":"\"Mozilla/5.0(Windows;U;Windows NT 6.1;)AppleWebKit/534.12(KHTML,like Gecko)Maxthon/3.0 Safari/534.12\""
    }
    可见,这条Apache服务器的非结构化数据已经转换为结构化数据。
    本发明实施例提供的上述方法可以将非结构化数据转换为结构化数据,从而便于查询统计,节省计算空间和查询时间。转换为结构化数据之后,可将其实时导入、批处理导入或实时流式导入其他系统,也可以作为结构化数据存入搜索引擎、SQL、NoSQL等系统,提供数据可视化,或供商业智能(Business Intelligence)软件做分析。
    本发明实施例中所述非结构化数据可以是任何形式的非结构化数据,比如非结构化日志。
    本发明实施例生成的结构化数据可以应用于各种数据应用系统中,此时,上述非结构化数据处理方法还可包括以下步骤A1-A2:
    步骤A1、判断结构化数据中的预设参数的值是否满足预设告警条件。
    步骤A2、当结构化数据中的预设参数的值满足预设告警条件时,发出告警和/或阻断预设参数对应的操作。
    上述步骤S101-S103、A1-A2可以实时执行,即:在每生成一条非结构化数据之后,就立即执行步骤S101-S103将非结构化数据转化为结构化数据,然后,立即执行步骤A1-A2,从而实现实时地、智能地进行数据处理和安全操作,可应用于各种信息系统,实现不同的功能。
    下面分别根据不同信息系统的特点说明上述方法。
    车联网
    本发明实施例提供的上述方法可以用于车联网。下面先介绍一下车联网。车联网作为移动互联网大背景下诞生的产物,将车和网络连接,每辆汽 车都安装了大量的传感器和微处理器,会随时间推移产生庞大的数据。从接收行车数据、发送数据形成数据分析,再到反馈给车主,车联网有大量数据可以利用。车辆上传的每一组数据都带有位置信息和时间信息,都可以看做是时间序列数据,并且很容易形成海量数据。不少数据,如发动机转速、轮轴转动情况等,数值方面有一定的重复性,但产生数据的位置信息和时间信息是不同的,因此,车联网数据里的位置信息和时间信息购成了这些信息的重要组成部分。如果这些数据完整而精准,可以分析驾驶员的驾驶行为。当前市场上出现了OBD(on-board diagnostic)车载自动诊断系统,主要任务是为汽车的电子控制模块ECU提供发动机和环境温度、车速、进气量等数据。通过OBD接口,可以获取包括发动机故障、汽车电子线路、车轮胎压、车内空气质量等数据。基于OBD的车联网产品和普通的GPS产品的缺陷在于产品功能不够智能化,实时性也不够,不能及时把信息处理、分析结果反馈给用户。对于车辆驾驶员来说,仅仅了解车辆情况是不够的,了解自己的驾驶习惯也很关键。在行车过程中驾驶员希望能实时获取安全提醒。
    因此,为了使得车辆驾驶员能实时获取安全提醒,本发明实施例可以在前述方法基础上,利用产生的结构化数据,实现对车辆驾驶员的安全提醒,此时,上述方法中的非结构化数据可以是车联网产生的车联网数据,利用上述方法生成的结构化数据中的预设参数可以被定义为车速、持续驾驶时长、驾驶员行为参数、行驶里程、车况等驾驶数据中的任一项或者多项;其中,每个预设参数都对应一个预设告警条件,该预设告警条件为预先设置的,设置过程可以是预先分析历史车联网数据,从中分析出用于界定驾驶状态是否安全的驾驶数据参考值,根据该驾驶数据参考值确定出预设告警条件。利用结构化数据中的预设参数的值是否满足预设告警条件,来决定是否发出告警。下面举例说明:
    当预设参数为车速时,预设告警条件可以是当前车速值超出预设安全车速值20%、或者其它条件。进行安全告警操作时,可首先判断当前车速的值 是否满足预设告警条件时,当满足时发出告警,该告警用于通知驾驶员已经超速,提醒驾驶员降低车速。当预设参数为持续驾驶时长时,预设告警条件可以是当前持续驾驶时长等于或大于预设疲劳驾驶时长最大值、或者其它条件。进行安全告警操作时,可首先判断当前持续驾驶时长是否满足预设告警条件时,当满足时发出告警,该告警用于通知驾驶员处于疲劳驾驶装填,提醒驾驶员停车休息。当预设参数为驾驶员行为参数时,驾驶员行为参数可以具体是紧急制动状况、急转弯状况、急加速状况、超速行为状况、当前所处位置状况等;针对每一种驾驶员行为参数,都可以对应预先设置一个预设告警条件;比如对于紧急制动状况,预设告警条件可以是当前紧急制动频率等于或大于紧急制动频率阈值,因此,在当前紧急制动频率等于或大于紧急制动频率阈值,发出告警,该告警用于通知驾驶员过于频繁地紧急制动,提醒驾驶员注意。当预设参数为车况时,车况可以具体是汽油剩余量、机油剩余量、部件运行情况等,当这些参数的值满足预设告警条件时,发出告警,告警用于通知驾驶员及时加汽油、加机油、做保养、做维修等。
    上述方法对车辆驾驶员带来很大便利,在行驶过程中如果出现疲劳驾驶、超速行驶等危险驾驶行为会得到实时提醒,实时监控车辆行驶安全,在驾驶时间或行为异常时向用户发送告警信息。本发明也实时监控车辆状况,在车辆部件出问题前,及时通知驾驶员做检修、保养。
    审计系统
    目前,有很多行业领域如政务部门、金融部门等,都应用了审计系统来监督行业内操作是否满足内部安全标准和流程要求,识别潜在的安全风险等。通常的流程是记录系统中各个信息设备的工作日志(如操作行为日志、管理日志等),通过对系统中各个信息设备的工作日志进行监控,从而可以对内部流程的合规性和安全性作独立评估,有效避免系统或人为失误造成的损失,以及确保及时进行业务决策所需系统的可靠性。目前,通常是由安全管理人员或审计人员进行人工审计,因此,一般需要集中收集各个信息设备的日志 数据,其次通过工具或者人工识别行为的风险度,通过人工识别出的行为风险与合规审计的条文、安全操作流程或管理制度进行比对,审计出真正的违规事件。这种人工审计方式需要投入大量的人力资源和系统资源用于数据的收集与风险识别,还需要耗费精力进行合规要求的比对,很容易出现漏审、错审等问题,从而在管理上不能做到准确的信息安全审计,存在管理漏洞。而且是定时、集中处理,实时性较差,不能及时发现问题。
    为了给用户提供一种同时满足实时性、智能化和安全性良好的合规化审计技术,本发明实施例提供的上述方法可以应用于审计系统:
    将审计系统中各个信息设备产生的非结构化的工作日志转换为结构化数据,再利用结构化数据实现智能的审计过程。
    此时,上述方法中的非结构化数据可以是审计系统中各个信息设备产生的工作日志,利用上述方法生成的结构化数据为结构化日志,其中的预设参数可以被定义为操作对象、操作时间、操作地点、操作类型、授权等级、数据金额等工作参数中的任一项或者多项;其中,每个预设参数都对应一个预设告警条件,该预设告警条件为预先设置的,设置过程可以是根据历史审计数据、合规条文、安全操作流程或管理制度等制定出预设告警条件,当预设参数的值满足预设告警条件时,发出告警,告警用于告知不合规的行为,同时,如果有阻断不合规行为的手段,还可以同时启动该手段。下面举例说明:
    当预设参数为操作对象时,假设对应的预设告警条件为操作对象不是预设操作对象,此时,假如预设参数的值表明当前操作对象不是预设操作对象,则可发出告警,告警用于告知当前操作对象不是合法操作对象,同时,可以阻止当前操作对象继续操作。当预设参数为数据金额时,假设对应的预设告警条件为数据金额等于或大于预设数据金额,此时,假如预设参数的值表明当前数据金额等于或大于预设数据金额,则可发出告警,告警用于告知当前数据金额超限,同时,可以阻止对数据金额的进一步操作。
    上述方法应用于审计系统中,可以大大提高审计效率、节约时间和人力 成本,而且可以达到实时审计,比目前的定时审计及时得多;而且能够在发现违规行为时,自动切断违规操作。
    此外,本发明实施例生成的结构化数据还可以应用于与第三方数据库进行数据的交换。此时,上述非结构化数据处理方法在实施步骤S101-103之后,还可按如下两种方式实施:
    方式一(包括步骤B1-B2)
    步骤B1,通过数据交换接口,从第三方数据库中查找与结构化数据匹配的数据,第三方数据库中的数据与结构化数据来源一致;
    步骤B2,对与结构化数据相匹配的数据进行可视化处理。
    方式二(包括步骤C1-C3)
    步骤C1,通过数据交换接口,导入第三方数据库中的数据,第三方数据库中的数据与结构化数据来源一致;
    步骤C2,在导入的数据中查找与结构化数据相匹配的数据;
    步骤C3,对与结构化数据相匹配的数据进行可视化处理。
    上述方法中,数据交换接口可以是Restful API(Application Programming Interface,应用程序编程接口),所交换的数据的格式可以是JSON(JavaScript Object Notation)、XML、CSV Comma-Separated Values,逗号分隔值文件格式)、TSV或ProtocolBuffer等任何可以交换的数据格式。
    例如,上述非结构化数据处理方法应用于互联网中,生成的结构化数据为:“ip”:[“124.230.159.131”]。预设参数为IP地址。因此可通过数据交换接口,将系统和与结构化数据来源一致的第三方数据库——IP全国地址库对接,从IP全国地址库中查找上述IP地址,或者将IP全国地址库中的数据导入至系统中,进而从导入的数据中查找上述IP地址,如查询结果为该IP地址为“XX省XX市电信”。对于多个结构化数据查询的结果,系统对查询结果进行统计分析或可视化处理(例如形成统计数据或分析图表等),并将结果呈现给用户,使得用户仅需上传数据即可获取到分析统计报表或可视化结 果,很大程度上提高了用户的体验。
    在一个实施例中,还可将系统中积累的结构化数据导入到第三方数据库中,以更新第三方数据库中的数据,从而供第三方数据库使用。
    对应本发明实施例提供的上述方法,本发明实施例还提供了一种非结构化数据处理装置,如图3所示,包括:
    规则获取模块31,用于获取用于抽取非结构化数据中关键字段的解析规则;
    字段抽取模块32,用于利用解析规则,抽取非结构化数据中的关键字段;
    数据生成模块33,用于将抽取的关键字段命名为预设参数,并将预设参数赋值为抽取的关键字段,生成结构化数据。
    在一个实施例中,如图4所示,上述规则获取模块31可包括:
    第一查找子模块41,用于根据生成非结构化数据的应用程序信息,查找用户自定义解析规则;
    字段抽取模块32可包括:
    第一抽取子模块42,用于利用用户自定义解析规则抽取非结构化数据中的关键字段;
    第二查找子模块43,用于当第一查找子模块未查找到用户自定义解析规则、或者用户自定义解析规则与非结构化数据不匹配时,查找系统内置解析规则;
    第二抽取子模块44,用于利用系统内置解析规则抽取非结构化数据中的关键字段。
    在一个实施例中,上述第一查找子模块可包括:
    查找单元,用于根据生成非结构化数据的应用程序信息,查找预先为非结构化数据配置的用户自定义解析规则;
    第一抽取子模块包括:
    第一抽取单元,用于利用预先为非结构化数据配置的用户自定义解析规 则抽取非结构化数据中的关键字段。
    在一个实施例中,第一抽取子模块可包括:
    第二抽取单元,用于当用户自定义解析规则有多个时,依次使用每个用户自定义解析规则抽取非结构化数据中的关键字段。
    在一个实施例中,第二抽取子模块可包括:
    第三抽取单元,用于当系统内置解析规则有多个时,依次使用每个系统内置解析规则抽取非结构化数据中的关键字段。
    在一个实施例中,上述装置还可包括:
    判断模块,用于判断结构化数据中的预设参数的值是否满足预设告警条件;
    第一处理模块,用于当结构化数据中的预设参数的值满足预设告警条件时,发出告警和/或阻断预设参数对应的操作。
    在一个实施例中,上述装置还可包括:
    第一查找模块,用于通过数据交换接口,从第三方数据库中查找与结构化数据匹配的数据,第三方数据库中的数据与结构化数据来源一致;
    第一导入模块,用于通过数据交换接口,导入第三方数据库中的数据,第三方数据库中的数据与结构化数据来源一致;
    第二查找模块,用于在导入的数据中查找与结构化数据相匹配的数据;
    第二处理模块,用于对与结构化数据相匹配的数据进行可视化处理。
    在一个实施例中,上述装置还可包括:
    第二导入模块,用于将结构化数据导入到第三方数据库中,以更新第三方数据库中的数据。
    本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘 存储器和光学存储器等)上实施的计算机程序产品的形式。
    本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
    这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
    这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
    显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

    关 键  词:
    一种 结构 数据处理 方法 装置
      专利查询网所有文档均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    0条评论

    还可以输入200字符

    暂无评论,赶快抢占沙发吧。

    关于本文
    本文标题:一种非结构化数据处理方法及装置.pdf
    链接地址:https://www.zhuanlichaxun.net/p-4527202.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
    经营许可证编号:粤ICP备2021068784号-1