《一种非结构化数据处理方法及装置.pdf》由会员分享,可在线阅读,更多相关《一种非结构化数据处理方法及装置.pdf(16页完整版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 104239506 A (43)申请公布日 2014.12.24 CN 104239506 A (21)申请号 201410466111.1 (22)申请日 2014.09.12 G06F 17/30(2006.01) (71)申请人 北京优特捷信息技术有限公司 地址 100102 北京市朝阳区望京阜通西大街 望京 SOHO 塔二 B 座 1707 (72)发明人 陈军 梁玫娟 (74)专利代理机构 北京尚伦律师事务所 11477 代理人 张俊国 (54) 发明名称 一种非结构化数据处理方法及装置 (57) 摘要 本发明提供一种非结构化数据处理方法及装 置, 用以将非。
2、结构化数据转换为结构化数据。 该方 法包括 : 获取用于抽取非结构化数据中关键字段 的解析规则 ; 利用所述解析规则, 抽取非结构化 数据中的关键字段 ; 将抽取的关键字段命名为预 设参数, 并将所述预设参数赋值为抽取的关键字 段, 生成结构化数据。 上述技术方案可以将非结构 化数据转换为结构化数据, 从而便于查询统计, 节 省计算空间和查询时间。 (51)Int.Cl. 权利要求书 2 页 说明书 10 页 附图 3 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书2页 说明书10页 附图3页 (10)申请公布号 CN 104239506 A CN 10423950。
3、6 A 1/2 页 2 1. 一种非结构化数据处理方法, 其特征在于, 包括 : 获取用于抽取非结构化数据中关键字段的解析规则 ; 利用所述解析规则, 抽取非结构化数据中的关键字段 ; 将抽取的关键字段命名为预设参数, 并将所述预设参数赋值为抽取的关键字段, 生成 结构化数据。 2. 如权利要求 1 所述的方法, 其特征在于, 所述获取用于抽取非结构化数据中关键字段的解析规则, 包括 : 根据生成所述非结构 化数据的应用程序信息, 查找用户自定义解析规则 ; 所述利用所述解析规则, 抽取非结构化数据中的关键字段, 包括 : 利用所述用户自定义 解析规则抽取非结构化数据中的关键字段 ; 当未查找。
4、到所述用户自定义解析规则、 或者所 述用户自定义解析规则与所述非结构化数据不匹配时, 查找系统内置解析规则 ; 利用所述 系统内置解析规则抽取非结构化数据中的关键字段。 3. 如权利要求 2 所述的方法, 其特征在于, 所述根据生成所述非结构化数据的应用程序信息, 查找用户自定义解析规则, 包括 : 根 据生成所述非结构化数据的应用程序信息, 查找预先为所述非结构化数据配置的用户自定 义解析规则 ; 所述利用所述用户自定义解析规则抽取非结构化数据中的关键字段, 包括 : 利用所述 预先为所述非结构化数据配置的用户自定义解析规则抽取非结构化数据中的关键字段。 4. 如权利要求 2 所述的方法, 。
5、其特征在于, 所述利用所述用户自定义解析规则抽取非结构化数据中的关键字段, 包括 : 当所述用 户自定义解析规则有多个时, 依次使用每个用户自定义解析规则抽取非结构化数据中的关 键字段 ; 或者 所述利用所述系统内置解析规则抽取非结构化数据中的关键字段, 包括 : 当所述系统 内置解析规则有多个时, 依次使用每个系统内置解析规则抽取非结构化数据中的关键字 段。 5. 如权利要求 1 所述的方法, 其特征在于, 所述方法还包括 : 判断所述结构化数据中的预设参数的值是否满足预设告警条件 ; 当所述结构化数据中的预设参数的值满足预设告警条件时, 发出告警和 / 或阻断所述 预设参数对应的操作。 6。
6、. 如权利要求 1 所述的方法, 其特征在于, 所述方法还包括 : 通过数据交换接口, 从第三方数据库中查找与所述结构化数据匹配的数据, 所述第三 方数据库中的数据与所述结构化数据来源一致 ; 或者, 通过数据交换接口, 导入第三方数据 库中的数据, 所述第三方数据库中的数据与所述结构化数据来源一致 ; 在所述导入的数据 中查找与所述结构化数据相匹配的数据 ; 对与所述结构化数据相匹配的数据进行可视化处理。 7. 如权利要求 6 所述的方法, 其特征在于, 所述方法还包括 : 将所述结构化数据导入到第三方数据库中, 以更新所述第三方数据库中的数据。 8. 一种非结构化数据处理装置, 其特征在于。
7、, 包括 : 规则获取模块, 用于获取用于抽取非结构化数据中关键字段的解析规则 ; 权 利 要 求 书 CN 104239506 A 2 2/2 页 3 字段抽取模块, 用于利用所述解析规则, 抽取非结构化数据中的关键字段 ; 数据生成模块, 用于将抽取的关键字段命名为预设参数, 并将所述预设参数赋值为抽 取的关键字段, 生成结构化数据。 9. 如权利要求 8 所述的装置, 其特征在于, 所述规则获取模块包括 : 第一查找子模块, 用于根据生成所述非结构化数据的应用程序信息, 查找用户自定义 解析规则 ; 所述字段抽取模块包括 : 第一抽取子模块, 用于利用所述用户自定义解析规则抽取非结构化数。
8、据中的关键字 段 ; 第二查找子模块, 用于当所述第一查找子模块未查找到所述用户自定义解析规则、 或 者所述用户自定义解析规则与所述非结构化数据不匹配时, 查找系统内置解析规则 ; 第二抽取子模块, 用于利用所述系统内置解析规则抽取非结构化数据中的关键字段。 10. 如权利要求 9 所述的装置, 其特征在于, 所述第一查找子模块包括 : 查找单元, 用于根据生成所述非结构化数据的应用程序信息, 查找预先为所述非结构 化数据配置的用户自定义解析规则 ; 所述第一抽取子模块包括 : 第一抽取单元, 用于利用所述预先为所述非结构化数据配置的用户自定义解析规则抽 取非结构化数据中的关键字段。 11. 。
9、如权利要求 9 所述的装置, 其特征在于, 所述第一抽取子模块包括 : 第二抽取单元, 用于当所述用户自定义解析规则有多个时, 依次使用每个用户自定义解析规则抽取非结构化数据中的关键字段 ; 或者 所述第二抽取子模块包括 : 第三抽取单元, 用于当所述系统内置解析规则有多个时, 依 次使用每个系统内置解析规则抽取非结构化数据中的关键字段。 12. 如权利要求 8 所述的装置, 其特征在于, 所述装置还包括 : 判断模块, 用于判断所述结构化数据中的预设参数的值是否满足预设告警条件 ; 第一处理模块, 用于当所述结构化数据中的预设参数的值满足预设告警条件时, 发出 告警和 / 或阻断所述预设参数。
10、对应的操作。 13. 如权利要求 8 所述的装置, 其特征在于, 所述装置还包括 : 第一查找模块, 用于通过数据交换接口, 从第三方数据库中查找与所述结构化数据匹 配的数据, 所述第三方数据库中的数据与所述结构化数据来源一致 ; 第一导入模块, 用于通过数据交换接口, 导入第三方数据库中的数据, 所述第三方数据 库中的数据与所述结构化数据来源一致 ; 第二查找模块, 用于在所述导入的数据中查找与所述结构化数据相匹配的数据 ; 第二处理模块, 用于对与所述结构化数据相匹配的数据进行可视化处理。 14. 如权利要求 13 所述的装置, 其特征在于, 所述装置还包括 : 第二导入模块, 用于将所述。
11、结构化数据导入到第三方数据库中, 以更新所述第三方数 据库中的数据。 权 利 要 求 书 CN 104239506 A 3 1/10 页 4 一种非结构化数据处理方法及装置 技术领域 0001 本发明涉及非结构化数据处理技术领域, 尤其涉及一种非结构化数据处理方法及 装置。 背景技术 0002 在信息技术飞速发展的今天, 人们在各种社会和经济活动中产生大量的数字信 息, 企业信息技术基础设施建设规模不断扩大, IT 监控、 运维系统也得到广泛运用, 同时各 种传感器、 智能家电产生的数据, 以及各种交易系统 ( 证券交易系统、 电子商务交易系统 ) 产生的数据数量巨大, 格式也不尽相同, 很难。
12、得到利用。 0003 非结构化数据是计算机或人生成的文本信息, 其中的数据并不一定遵循标准的数 据结构 ( 如模式定义规范的行和列 ), 不容易被计算机程序直接理解和利用。将非结构化 数据转化为结构化数据后, 可存入搜索引擎、 SQL(Structured Query Language, 结构化查 询语言 )、 NoSQL(Not Only SQL, 非关系型数据 ) 等系统, 做进一步分析。大部分商业智能 (Business Intelligence)软件只能分析基于数据库的结构化数据。 例如Oracle数据库通 过运算符合并智能数据类型和优化数据结构, 以分析和操作 XML(Exteile。
13、 Marku Laguage, 扩展性标识语言 ) 文档、 多媒体内容、 文本和地理空间信息等非结构化数据。 0004 非结构化数据格式多样, 通过 “基于指针的” 方法可以使用数据库对存储在文件 中的文档、 影像和媒体内容进行编目和引用。使用 XML 格式组织并保存半结构化数据将不 同类别的信息保存在 XML 不同的节点中, 但是查询效率比较低, 需要借助 XPATH(XML Path, XML路径语言)完成查询统计。 另外, 使用数据库存储非结构化数据的缺点是需要预先定义 Schema, 即数据库表的格式, 定义好之后, 比较难修改, 导致灵活性比较差, 无法适应目前各 种非结构化数据。 。
14、0005 其中, 非结构化数据具有非结构化数据的特点, 是一种非结构化数据, 非结构化数 据亦具有前述不便于查询统计、 存储困难的问题。 发明内容 0006 为克服相关技术中存在的问题, 本发明实施例提供一种非结构化数据处理方法及 装置, 用以将非结构化数据转换为结构化数据。 0007 根据本发明实施例的第一方面, 提供一种非结构化数据处理方法, 包括 : 0008 获取用于抽取非结构化数据中关键字段的解析规则 ; 0009 利用所述解析规则, 抽取非结构化数据中的关键字段 ; 0010 将抽取的关键字段命名为预设参数, 并将所述预设参数赋值为抽取的关键字段, 生成结构化数据。 0011 在一。
15、个实施例中, 所述获取用于抽取非结构化数据中关键字段的解析规则, 包括 : 根据生成所述非结构化数据的应用程序信息, 查找用户自定义解析规则 ; 0012 所述利用所述解析规则, 抽取非结构化数据中的关键字段, 包括 : 利用所述用户自 说 明 书 CN 104239506 A 4 2/10 页 5 定义解析规则抽取非结构化数据中的关键字段 ; 当未查找到所述用户自定义解析规则、 或 者所述用户自定义解析规则与所述非结构化数据不匹配时, 查找系统内置解析规则 ; 利用 所述系统内置解析规则抽取非结构化数据中的关键字段。 0013 在一个实施例中, 所述根据生成所述非结构化数据的应用程序信息, 。
16、查找用户自 定义解析规则, 包括 : 根据生成所述非结构化数据的应用程序信息, 查找预先为所述非结构 化数据配置的用户自定义解析规则 ; 0014 所述利用所述用户自定义解析规则抽取非结构化数据中的关键字段, 包括 : 利用 所述预先为所述非结构化数据配置的用户自定义解析规则抽取非结构化数据中的关键字 段。 0015 在一个实施例中, 所述利用所述用户自定义解析规则抽取非结构化数据中的关键 字段, 包括 : 0016 当所述用户自定义解析规则有多个时, 依次使用每个用户自定义解析规则抽取非 结构化数据中的关键字段。 0017 在一个实施例中, 所述利用所述系统内置解析规则抽取非结构化数据中的关。
17、键字 段, 包括 : 0018 当所述系统内置解析规则有多个时, 依次使用每个系统内置解析规则抽取非结构 化数据中的关键字段。 0019 在一个实施例中, 所述方法还包括 : 0020 判断所述结构化数据中的预设参数的值是否满足预设告警条件 ; 0021 当所述结构化数据中的预设参数的值满足预设告警条件时, 发出告警和 / 或阻断 所述预设参数对应的操作。 0022 在一个实施例中, 所述方法还包括 : 0023 通过数据交换接口, 从第三方数据库中查找与所述结构化数据匹配的数据, 所述 第三方数据库中的数据与所述结构化数据来源一致 ; 或者, 通过数据交换接口, 导入第三方 数据库中的数据,。
18、 所述第三方数据库中的数据与所述结构化数据来源一致 ; 在所述导入的 数据中查找与所述结构化数据相匹配的数据 ; 0024 对与所述结构化数据相匹配的数据进行可视化处理。 0025 在一个实施例中, 所述方法还包括 : 0026 将所述结构化数据导入到第三方数据库中, 以更新所述第三方数据库中的数据。 0027 根据本发明实施例的第二方面, 提供一种非结构化数据处理装置, 包括 : 0028 规则获取模块, 用于获取用于抽取非结构化数据中关键字段的解析规则 ; 0029 字段抽取模块, 用于利用所述解析规则, 抽取非结构化数据中的关键字段 ; 0030 数据生成模块, 用于将抽取的关键字段命名。
19、为预设参数, 并将所述预设参数赋值 为抽取的关键字段, 生成结构化数据。 0031 在一个实施例中, 所述规则获取模块可包括 : 0032 第一查找子模块, 用于根据生成所述非结构化数据的应用程序信息, 查找用户自 定义解析规则 ; 0033 所述字段抽取模块包括 : 0034 第一抽取子模块, 用于利用所述用户自定义解析规则抽取非结构化数据中的关键 说 明 书 CN 104239506 A 5 3/10 页 6 字段 ; 0035 第二查找子模块, 用于当所述第一查找子模块未查找到所述用户自定义解析规 则、 或者所述用户自定义解析规则与所述非结构化数据不匹配时, 查找系统内置解析规 则 ; 。
20、0036 第二抽取子模块, 用于利用所述系统内置解析规则抽取非结构化数据中的关键字 段。 0037 在一个实施例中, 所述第一查找子模块可包括 : 0038 查找单元, 用于根据生成所述非结构化数据的应用程序信息, 查找预先为所述非 结构化数据配置的用户自定义解析规则 ; 0039 所述第一抽取子模块包括 : 0040 第一抽取单元, 用于利用所述预先为所述非结构化数据配置的用户自定义解析规 则抽取非结构化数据中的关键字段。 0041 在一个实施例中, 所述第一抽取子模块可包括 : 0042 第二抽取单元, 用于当所述用户自定义解析规则有多个时, 依次使用每个用户自 定义解析规则抽取非结构化数。
21、据中的关键字段。 0043 在一个实施例中, 所述第二抽取子模块可包括 : 0044 第三抽取单元, 用于当所述系统内置解析规则有多个时, 依次使用每个系统内置 解析规则抽取非结构化数据中的关键字段。 0045 在一个实施例中, 所述装置还包括 : 0046 判断模块, 用于判断所述结构化数据中的预设参数的值是否满足预设告警条件 ; 0047 第一处理模块, 用于当所述结构化数据中的预设参数的值满足预设告警条件时, 发出告警和 / 或阻断所述预设参数对应的操作。 0048 在一个实施例中, 所述装置还包括 : 0049 第一查找模块, 用于通过数据交换接口, 从第三方数据库中查找与所述结构化数。
22、 据匹配的数据, 所述第三方数据库中的数据与所述结构化数据来源一致 ; 0050 第一导入模块, 用于通过数据交换接口, 导入第三方数据库中的数据, 所述第三方 数据库中的数据与所述结构化数据来源一致 ; 0051 第二查找模块, 用于在所述导入的数据中查找与所述结构化数据相匹配的数据 ; 0052 第二处理模块, 用于对与所述结构化数据相匹配的数据进行可视化处理。 0053 在一个实施例中, 所述装置还包括 : 0054 第二导入模块, 用于将所述结构化数据导入到第三方数据库中, 以更新所述第三 方数据库中的数据。 0055 本发明的实施例提供的技术方案可以包括以下有益效果 : 0056 本。
23、发明实施例提供的上述方法可以将非结构化数据转换为结构化数据, 从而便于 查询统计, 节省计算空间和查询时间。转换为结构化数据之后, 可将其实时导入、 批处理导 入或实时流式导入其他系统, 也可以作为结构化数据存入搜索引擎、 SQL、 NoSQL 等系统, 提 供数据可视化, 或供商业智能 (Business Intelligence) 软件做分析。 0057 应当理解的是, 以上的一般描述和后文的细节描述仅是示例性和解释性的, 并不 能限制本发明。 说 明 书 CN 104239506 A 6 4/10 页 7 附图说明 0058 此处的附图被并入说明书中并构成本说明书的一部分, 示出了符合本。
24、发明的实施 例, 并与说明书一起用于解释本发明的原理。 0059 图 1 是本发明实施例提供的一种非结构化数据处理方法的流程图。 0060 图 2 是具体实施例一提供的一种非结构化数据处理方法的流程图。 0061 图 3 是本发明实施例提供的一种非结构化数据处理装置的结构图。 0062 图 4 是本发明实施例提供的另一种非结构化数据处理装置的结构图。 具体实施方式 0063 这里将详细地对示例性实施例进行说明, 其示例表示在附图中。下面的描述涉及 附图时, 除非另有表示, 不同附图中的相同数字表示相同或相似的要素。 以下示例性实施例 中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反。
25、, 它们仅是与如所附 权利要求书中所详述的、 本发明的一些方面相一致的装置和方法的例子。 0064 图 1 是根据一示例性实施例示出的一种非结构化数据处理方法的流程图, 该方法 可应用于数据处理设备或者数据处理程序, 如图 1 所示, 该方法包括以下步骤 S101-S103 : 0065 步骤 S101、 获取用于抽取非结构化数据中关键字段的解析规则。 0066 其中, 解析规则可以是正则表达式规则或者其它形式的能实现抽取非结构化数据 中关键字段的规则。解析规则中定义了抽取非结构化数据中关键字段的操作规则。 0067 步骤 S102、 利用解析规则, 抽取非结构化数据中的关键字段。 0068 。
26、步骤 S103、 将抽取的关键字段命名为预设参数, 并将预设参数赋值为抽取的关键 字段, 生成结构化数据。 0069 上述方法中, 解析规则包括用户预先自定义的用户自定义解析规则、 和系统预先 配置的系统内置解析规则, 为了提高解析效率, 上述方法可以先利用用户自定义解析规则 抽取非结构化数据中的关键字段, 当利用用户自定义解析规则不能成功抽取关键字段时, 再利用系统内置解析规则抽取非结构化数据中的关键字段。后续, 可以对抽取的关键字段 建立索引提供搜索服务, 或者存入数据库提供查询服务 ; 非结构化数据被转换为结构化数 据之后, 可供商业智能 (Business Intelligence) 。
27、软件进行分析及做数据可视化。具体见 下述具体实施例的说明 : 0070 实施例一 0071 在本实施例一中, 先利用用户自定义解析规则抽取非结构化数据中的关键字段, 当利用用户自定义解析规则不能成功抽取关键字段时, 再利用系统内置解析规则抽取非结 构化数据中的关键字段, 如图 2 所示, 该方法包括 : 0072 步骤 S201、 根据生成非结构化数据的应用程序信息, 查找用户自定义解析规则 ( 是前述步骤 S101 的一种实施方式 )。当能查找到用户自定义解析规则时, 继续执行步骤 S202 ; 当未查找到用户自定义解析规则时, 继续执行步骤 S203。 0073 其中, 应用程序信息可以是。
28、应用程序的标识如 App Name。 0074 步骤 S202、 利用用户自定义解析规则抽取非结构化数据中的关键字段, 继续执行 步骤 S205。 说 明 书 CN 104239506 A 7 5/10 页 8 0075 在一个实施例中, 步骤 S201 可实施为 : 根据生成非结构化数据的应用程序信息, 查找预先为非结构化数据配置的用户自定义解析规则。此时, 步骤 S202 可实施为 : 利用预 先为非结构化数据配置的用户自定义解析规则抽取非结构化数据中的关键字段。 这样做的 好处是可以提高抽取效率。 0076 在另一个实施例中, 步骤 S202 还可实施为 : 当用户自定义解析规则有多个时。
29、, 依 次使用每个用户自定义解析规则抽取非结构化数据中的关键字段。 0077 步骤 S203、 当未查找到用户自定义解析规则、 或者用户自定义解析规则与非结构 化数据不匹配时 ( 即利用用户自定义解析规则不能成功抽取关键字段时 ), 查找系统内置 解析规则, 继续执行步骤 S204。 0078 步骤 S204、 利用系统内置解析规则抽取非结构化数据中的关键字段 ( 步骤 S202-204 是前述步骤 102 的一种实施方式 ), 继续执行步骤 S205。 0079 在一个实施例中, 步骤 S204 可实施为 : 当系统内置解析规则有多个时, 依次使用 每个系统内置解析规则抽取非结构化数据中的关。
30、键字段。 0080 步骤 S205、 将抽取的关键字段命名为预设参数, 并将预设参数赋值为抽取的关键 字段, 生成结构化数据, 继续执行步骤 S206。 0081 比如 : 将抽取的关键字段命名为 fi eld_name, 并建立 fi eld_name fi eld_value 这 样的对应关系 ( 即将 fi eld_name 赋值为 fi eld_value), 其中, fi eld_value 为抽取的关键字 段, 从而生成了结构化数据。 0082 步骤 S206、 对结构化数据进行应用处理, 比如对抽取的关键字段建立索引以提供 搜索服务, 或者存入数据库提供查询服务等。 0083 例。
31、如以下是一条 Apache 服务器的非结构化数据 : 0084 ”114.249.30.56-12/Sep/2011:21:00:42+0800“GET/zabbix/images/ gradients/button.gif HTTP/1.1“2001706“http:/map.so.com/ ? ie utf-8&t map&k E5 8D 97 E6 98 8C E6 B4 AA E9 83 BD E5 A4 A7 E5 B8 82&c EF BF BD D0 B9 EF BF BD&src 360se6_ search“Mozilla/5.0(Windows ; U ; Windows 。
32、NT 6.1 ; )AppleWebKit/534.12(KHTML,like Gecko)Maxthon/3.0Safari/534.12“ 0085 0086 利用本发明实施例提供的上述方法抽取出来的关键字段为如下所示, 其中,“: ” 该 符号之前位于 “” 内的文字为对抽取的关键字段进行命名所形成的预设参数,“ : ” 该符号 之后位于 “” 内的文字为抽取的关键字段 : 0087 “clientip“ : “114.249.30.56“, 0088 “ident“ : “-“, 0089 “auth“ : “-“, 0090 “timestamp“ : “12/Sep/2011:21。
33、:00:42+0800“, 0091 “verb“ : “GET“, 0092 “request“ : “/zabbix/images/gradients/button.gif“, 0093 “httpversion“ : “1.1“, 0094 “response“ : “200“, 说 明 书 CN 104239506 A 8 6/10 页 9 0095 “bytes“ : “1706“, 0096 “referrer“ : 0097 “http:/map.so.com/?ieutf-8&tmap&kE58D97E698 8C E6 B4 AA E9 83 BD E5 A4 A7 E5 B。
34、8 82&c EF BF BD D0 B9 EF BF BD&src 360se6_search“, 0098 “agent“ : “Mozilla/5.0(Windows ; U ; Windows NT 6.1 ; ) AppleWebKit/534.12(KHTML,like Gecko)Maxthon/3.0 Safari/534.12“ 0099 0100 可见, 这条 Apache 服务器的非结构化数据已经转换为结构化数据。 0101 本发明实施例提供的上述方法可以将非结构化数据转换为结构化数据, 从而便于 查询统计, 节省计算空间和查询时间。转换为结构化数据之后, 可将其实时导入。
35、、 批处理导 入或实时流式导入其他系统, 也可以作为结构化数据存入搜索引擎、 SQL、 NoSQL 等系统, 提 供数据可视化, 或供商业智能 (Business Intelligence) 软件做分析。 0102 本发明实施例中所述非结构化数据可以是任何形式的非结构化数据, 比如非结构 化日志。 0103 本发明实施例生成的结构化数据可以应用于各种数据应用系统中, 此时, 上述非 结构化数据处理方法还可包括以下步骤 A1-A2 : 0104 步骤 A1、 判断结构化数据中的预设参数的值是否满足预设告警条件。 0105 步骤 A2、 当结构化数据中的预设参数的值满足预设告警条件时, 发出告警和。
36、 / 或 阻断预设参数对应的操作。 0106 上述步骤 S101-S103、 A1-A2 可以实时执行, 即 : 在每生成一条非结构化数据之 后, 就立即执行步骤 S101-S103 将非结构化数据转化为结构化数据, 然后, 立即执行步骤 A1-A2, 从而实现实时地、 智能地进行数据处理和安全操作, 可应用于各种信息系统, 实现不 同的功能。 0107 下面分别根据不同信息系统的特点说明上述方法。 0108 车联网 0109 本发明实施例提供的上述方法可以用于车联网。下面先介绍一下车联网。车联 网作为移动互联网大背景下诞生的产物, 将车和网络连接, 每辆汽车都安装了大量的传感 器和微处理器,。
37、 会随时间推移产生庞大的数据。从接收行车数据、 发送数据形成数据分析, 再到反馈给车主, 车联网有大量数据可以利用。车辆上传的每一组数据都带有位置信息和 时间信息, 都可以看做是时间序列数据, 并且很容易形成海量数据。不少数据, 如发动机 转速、 轮轴转动情况等, 数值方面有一定的重复性, 但产生数据的位置信息和时间信息是 不同的, 因此, 车联网数据里的位置信息和时间信息购成了这些信息的重要组成部分。如 果这些数据完整而精准, 可以分析驾驶员的驾驶行为。当前市场上出现了 OBD(on-board diagnostic) 车载自动诊断系统, 主要任务是为汽车的电子控制模块 ECU 提供发动机和。
38、环 境温度、 车速、 进气量等数据。通过 OBD 接口, 可以获取包括发动机故障、 汽车电子线路、 车 轮胎压、 车内空气质量等数据。基于 OBD 的车联网产品和普通的 GPS 产品的缺陷在于产品 功能不够智能化, 实时性也不够, 不能及时把信息处理、 分析结果反馈给用户。对于车辆驾 驶员来说, 仅仅了解车辆情况是不够的, 了解自己的驾驶习惯也很关键。 在行车过程中驾驶 说 明 书 CN 104239506 A 9 7/10 页 10 员希望能实时获取安全提醒。 0110 因此, 为了使得车辆驾驶员能实时获取安全提醒, 本发明实施例可以在前述方法 基础上, 利用产生的结构化数据, 实现对车辆驾。
39、驶员的安全提醒, 此时, 上述方法中的非结 构化数据可以是车联网产生的车联网数据, 利用上述方法生成的结构化数据中的预设参数 可以被定义为车速、 持续驾驶时长、 驾驶员行为参数、 行驶里程、 车况等驾驶数据中的任一 项或者多项 ; 其中, 每个预设参数都对应一个预设告警条件, 该预设告警条件为预先设置 的, 设置过程可以是预先分析历史车联网数据, 从中分析出用于界定驾驶状态是否安全的 驾驶数据参考值, 根据该驾驶数据参考值确定出预设告警条件。利用结构化数据中的预设 参数的值是否满足预设告警条件, 来决定是否发出告警。下面举例说明 : 0111 当预设参数为车速时, 预设告警条件可以是当前车速值。
40、超出预设安全车速值 20、 或者其它条件。 进行安全告警操作时, 可首先判断当前车速的值是否满足预设告警条 件时, 当满足时发出告警, 该告警用于通知驾驶员已经超速, 提醒驾驶员降低车速。当预设 参数为持续驾驶时长时, 预设告警条件可以是当前持续驾驶时长等于或大于预设疲劳驾驶 时长最大值、 或者其它条件。 进行安全告警操作时, 可首先判断当前持续驾驶时长是否满足 预设告警条件时, 当满足时发出告警, 该告警用于通知驾驶员处于疲劳驾驶装填, 提醒驾驶 员停车休息。 当预设参数为驾驶员行为参数时, 驾驶员行为参数可以具体是紧急制动状况、 急转弯状况、 急加速状况、 超速行为状况、 当前所处位置状况。
41、等 ; 针对每一种驾驶员行为参 数, 都可以对应预先设置一个预设告警条件 ; 比如对于紧急制动状况, 预设告警条件可以是 当前紧急制动频率等于或大于紧急制动频率阈值, 因此, 在当前紧急制动频率等于或大于 紧急制动频率阈值, 发出告警, 该告警用于通知驾驶员过于频繁地紧急制动, 提醒驾驶员注 意。 当预设参数为车况时, 车况可以具体是汽油剩余量、 机油剩余量、 部件运行情况等, 当这 些参数的值满足预设告警条件时, 发出告警, 告警用于通知驾驶员及时加汽油、 加机油、 做 保养、 做维修等。 0112 上述方法对车辆驾驶员带来很大便利, 在行驶过程中如果出现疲劳驾驶、 超速行 驶等危险驾驶行为。
42、会得到实时提醒, 实时监控车辆行驶安全, 在驾驶时间或行为异常时向 用户发送告警信息。 本发明也实时监控车辆状况, 在车辆部件出问题前, 及时通知驾驶员做 检修、 保养。 0113 审计系统 0114 目前, 有很多行业领域如政务部门、 金融部门等, 都应用了审计系统来监督行业内 操作是否满足内部安全标准和流程要求, 识别潜在的安全风险等。通常的流程是记录系统 中各个信息设备的工作日志 ( 如操作行为日志、 管理日志等 ), 通过对系统中各个信息设备 的工作日志进行监控, 从而可以对内部流程的合规性和安全性作独立评估, 有效避免系统 或人为失误造成的损失, 以及确保及时进行业务决策所需系统的可。
43、靠性。 目前, 通常是由安 全管理人员或审计人员进行人工审计, 因此, 一般需要集中收集各个信息设备的日志数据, 其次通过工具或者人工识别行为的风险度, 通过人工识别出的行为风险与合规审计的条 文、 安全操作流程或管理制度进行比对, 审计出真正的违规事件。 这种人工审计方式需要投 入大量的人力资源和系统资源用于数据的收集与风险识别, 还需要耗费精力进行合规要求 的比对, 很容易出现漏审、 错审等问题, 从而在管理上不能做到准确的信息安全审计, 存在 管理漏洞。而且是定时、 集中处理, 实时性较差, 不能及时发现问题。 说 明 书 CN 104239506 A 10 8/10 页 11 0115。
44、 为了给用户提供一种同时满足实时性、 智能化和安全性良好的合规化审计技术, 本发明实施例提供的上述方法可以应用于审计系统 : 0116 将审计系统中各个信息设备产生的非结构化的工作日志转换为结构化数据, 再利 用结构化数据实现智能的审计过程。 0117 此时, 上述方法中的非结构化数据可以是审计系统中各个信息设备产生的工作日 志, 利用上述方法生成的结构化数据为结构化日志, 其中的预设参数可以被定义为操作对 象、 操作时间、 操作地点、 操作类型、 授权等级、 数据金额等工作参数中的任一项或者多项 ; 其中, 每个预设参数都对应一个预设告警条件, 该预设告警条件为预先设置的, 设置过程可 以是。
45、根据历史审计数据、 合规条文、 安全操作流程或管理制度等制定出预设告警条件, 当预 设参数的值满足预设告警条件时, 发出告警, 告警用于告知不合规的行为, 同时, 如果有阻 断不合规行为的手段, 还可以同时启动该手段。下面举例说明 : 0118 当预设参数为操作对象时, 假设对应的预设告警条件为操作对象不是预设操作对 象, 此时, 假如预设参数的值表明当前操作对象不是预设操作对象, 则可发出告警, 告警用 于告知当前操作对象不是合法操作对象, 同时, 可以阻止当前操作对象继续操作。 当预设参 数为数据金额时, 假设对应的预设告警条件为数据金额等于或大于预设数据金额, 此时, 假 如预设参数的值。
46、表明当前数据金额等于或大于预设数据金额, 则可发出告警, 告警用于告 知当前数据金额超限, 同时, 可以阻止对数据金额的进一步操作。 0119 上述方法应用于审计系统中, 可以大大提高审计效率、 节约时间和人力成本, 而且 可以达到实时审计, 比目前的定时审计及时得多 ; 而且能够在发现违规行为时, 自动切断违 规操作。 0120 此外, 本发明实施例生成的结构化数据还可以应用于与第三方数据库进行数据的 交换。此时, 上述非结构化数据处理方法在实施步骤 S101-103 之后, 还可按如下两种方式 实施 : 0121 方式一 ( 包括步骤 B1-B2) 0122 步骤 B1, 通过数据交换接口。
47、, 从第三方数据库中查找与结构化数据匹配的数据, 第 三方数据库中的数据与结构化数据来源一致 ; 0123 步骤 B2, 对与结构化数据相匹配的数据进行可视化处理。 0124 方式二 ( 包括步骤 C1-C3) 0125 步骤 C1, 通过数据交换接口, 导入第三方数据库中的数据, 第三方数据库中的数据 与结构化数据来源一致 ; 0126 步骤 C2, 在导入的数据中查找与结构化数据相匹配的数据 ; 0127 步骤 C3, 对与结构化数据相匹配的数据进行可视化处理。 0128 上述方法中, 数据交换接口可以是 Restful API(Application Programming Interf。
48、ace, 应 用 程 序 编 程 接 口 ), 所 交 换 的 数 据 的 格 式 可 以 是 JSON(JavaScript Object Notation)、 XML、 CSV Comma-Separated Values, 逗号分隔值文件格式 )、 TSV 或 ProtocolBuffer 等任何可以交换的数据格式。 0129 例如, 上述非结构化数据处理方法应用于互联网中, 生成的结构化数据为 :“ ip” :“124.230.159.131” 。预设参数为 IP 地址。因此可通过数据交换接口, 将系统和 与结构化数据来源一致的第三方数据库IP 全国地址库对接, 从 IP 全国地址库中查找 说 明 书 CN 104239506 A 11 9/10 页 12 上述IP地址, 或者将IP全国地址库中的数据导入至系统中, 进而从导入的数据中查找上述 IP 地址, 如查询结果为该 IP 地址为 “XX 省 XX 市电信” 。对于多个结构化数据查询的结果, 系统对查询结果进行统计分析或可视化处理 ( 例如形成统计数据或分析图表等 ), 并将结 果呈现给用户, 使得用户仅需上传数据即可获取到分析统计报表或可视化结果, 很大程度 上提高了用户的体验。 0130。