一种GIS软件中针对大数据的可视化管理方法技术领域
本发明涉及计算机技术领域和地理信息系统领域,具体涉及一种GIS软件中针对
大数据的可视化管理方法。
背景技术
随着云时代的来临,大数据(BigData)也吸引了越来越多的关注。而大数据及其技
术中的价值含量、挖掘成本比数量更为重要。对众多行业而言,如何利用这些大规模数据是
关键。大数据的存储和处理显得尤为重要。大数据处理,将以价值为导向,可对大数据进行
加工、挖掘和优化等各种处理。
大数据是一种规模大到在获取、存储、管理、分析等方面大大超出传统数据库软件
工具能力范围的数据集合,它具有大的数据规模、快速的数据流转、多样的数据类型和价值
密度低四大特征。大数据技术的核心在于对这些含有意义的数据进行专业化处理。大数据
的数据量一般在TB级别以上,一般无法用单台的计算机进行处理,通常采用分布式架构。它
的特色在于对大数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数
据库和云存储、虚拟化技术。大数据的价值体现在以下3个方面: (1)对大量消费者提供产
品或服务的企业可基于大数据技术进行精准营销; (2)做小而美模式的中小微企业可以利
用大数据技术服务转型; (3)面临互联网压力之下必须转型的传统企业需充分发挥大数据
的潜在价值。
不管是对数据分析专家还是普通用户,数据可视化是数据分析工具最基本的要
求。可视化可以直观的展示数据,让数据自己说话,让观众听到结果。而GIS软件,可以让数
据和空间地理位置结合起来,更直观的在地图上看到结果,进行更深层次的数据挖掘。
现有的针对大数据可视化管理的软件,多为专业的数据分析软件,多为部署了
Hadoop运行环境的Linux操作系统,但是也要耗费高昂的学习成本、更长的时间成本并为此
担负巨额的费用。
国际上不缺乏对大数据进行加工、挖掘和优化的专业数据处理软件,但是能够将
大数据与地理信息系统软件结合,在地理信息系统软件中对大数据进行加工、挖掘,并结合
地理位置进行展示的专业GIS软件确不多见,而且还需可视化的方式实现,这在国内的GIS
行业中还属于空白领域。
发明内容
本发明的主要目的在于提供一种GIS软件中针对大数据的可视化管理方法,以解
决现有技术中GIS软件在处理时空大数据时面临的分析效率低,显示效果不佳等问题。
为了解决上述技术问题,本申请提供了一种GIS软件中针对大数据的可视化管理
方法。该方法包括:1)构建适用不同数据存储方式的分布式数据源;2)根据数据的存储方
式,输入已知参数打开对应的数据源,访问并读取存储在服务器端的大数据;3)对读取到的
大数据,实现可视化的数据管理操作,包括设置字段、创建索引、数据追加、数据导入和数据
导出;4)将处理完成的数据上传到服务器端,实现数据入库或者给他人共享。
进一步的,所述步骤1)中的数据源包括有HDFS数据源和MongoDB数据源。
进一步的,所述步骤3)在大数据读取的过程中,用户可在自定义配置,将符合配置
条件的数据批量转换为地理空间数据。
进一步的,所述步骤3)的数据管理为多任务操作,在可视化的方式展示出目前正
在进行的多任务,可以查看任务进度,支持对正在进行中的任务进行取消等操作。
本发明的有益效果是:
1.增加新的引擎方式,即前述的两种数据源:HDFS数据源和MongoDB数据源,用户只需
要输入相应的参数,就可以直接读取到存储在服务器中的大数据;在大数据读取的过程中,
用户可以基于自定义配置,将符合配置条件的数据批量转换为地理空间数据,而这一过程,
也都是可视化的。
2.本发明在国产化GIS软件中集成了对大数据的读取与管理,并且采用的是可视
化的方式,增加了便于用户理解的两种引擎方式,这两种引擎方式也是常见的大数据的存
储方式,在读取到的大数据的管理上,也采用了便于操作、易用理解的处理方式,并支持将
源数据转换为地理空间数据。
3.用户通过交互的方式访问部署在服务器端的大数据,最终获取适用与地理信息
操作的数据格式,并将包含了地理空间位置的信息自动转换为地理空间数据;另外,大数据
都采用的是分布式存储的方式,而在本发明中,系统自动适配底层物理环境,用户无需知道
数据是存储在哪台计算机中,只需输入相关参数,系统会自动在后台匹配读取数据并展示
在前端。
4.针对常见的国产化GIS软件在处理时空大数据时面临的分析效率低,显示效果
不佳等问题,本发明将实现国产化GIS软件对大数据的可视化管理,通过交互式的操作,方
便直观的对数据集群进行操作和管理,实现直接的数据分析效果展示,帮助普通用户更好
的理解数据,数据分析专家进行更深入的分析,辅助管理者进行决策。
5.本发明基于Spark框架,Scala编程语言,在国产化桌面GIS软件中构建可打开的
分布式数据源,用户即通过输入地址、实例名、用户名、密码等相应的参数,就可获取存储在
服务器端的数据资源,再通过相应的字段参数设置,即可转换为GIS软件可读取的数据格式
(例如将包含有地理坐标信息的文本文件(CSV)转换为空间点数据集),从而实现对大数据
的高效可视化管理。
本发明的目的就是填补国产GIS软件中对分布式大数据管理的空白,并且是不依
赖操作系统,不依赖Hadoop运行环境,以可视化的方式管理分布式大数据,降低用户的操作
难度,极大提升用户的使用效率。
附图说明
图1是根据本发明的一种GIS软件中针对大数据的可视化管理方法的流程图;
图2是根据本发明第一实施例的读取CSV文件的流程图。
具体实施方式
下面结合实施例对本发明的具体实施方式作进一步详细说明:
第一实施例
如图1与图2所示,一种GIS软件中针对大数据的可视化管理方法,如图所示,该方法包
括以下的步骤S01至步骤S03。
步骤S01:构建HDFS分布式数据源,服务器端存储的数据格式为CSV文件。
步骤S02:根据数据的存储方式,输入已知参数打开对应的数据源,访问并读取存
储在服务器端的大数据。
数据是存储在Oracle数据库中,在SuperMap GIS软件中打开时,需要输入服务器
地址(存放数据的服务器地址)、实例名称、别名(显示在GIS软件中的名称)、用户名、密码等
参数,打开HDFS数据源;
步骤S03:对读取到的大数据,实现可视化的数据管理操作,包括设置字段、创建索引、
数据追加、数据导入和数据导出;服务器端存储的数据格式为CSV文件;用以转化为GIS软件
可识别的数据方式,将带有地理坐标信息的数据转换为点数据集;导入CSV文件时,其首行
字段、分隔符等都是可以设定的,导入之后数据索引的创建,也支持对分批导入的数据进行
追加、数据导出等操作;
a)管理读取的数据:基于目录树的方式展示数据文件的目录结构,支持新建、删除目
录,并对其重命名;通过输入服务器地址、实例名、用户名、密码等,打开HDFS数据源;配置读
取CSV文件时的相关属性,读取CSV文件中的字段信息并转换为软件可识别的字段信息;读
取CSV文件流程包括:预定义读取CSV文件时相关属性,如文件路径、开始行、字符编码、分隔
符等;根据预定的参数项,设置读取CSV文件时的相关属性;预定义CSV文件的字段结构;创
建索引;读取CSV文件中的字段,并按照原有类型进行创建;检测到包含有地理坐标信息字
段,则直接生成点数据集;
b)对数据的可视化操作。支持数据的新建、追加,支持客户端与服务器的交互操作,上
传和下载数据,并支持断点续传,支持数据的导入导出操作;采用子窗口的方式展示出访问
的服务器目录下的文件,显示的内容包括索引、文件名称、大小、占用的Blocksize大小、所
有者、分组等信息;
c)在任务管理中可查看当前进行的各种数据管理操作,在可视化的方式展示出目前正
在进行的多任务,可以查看任务进度,支持对正在进行中的任务进行取消等操作:针对HDFS
数据源:首先对数据建立索引时指定字段信息;没有索引的数据在计算、分析时,支持指定
字段信息;并可通过设置字段信息匹配数据集类型。
步骤S04:将处理完成的数据上传到服务器端,实现数据入库或者给他人共享。
第二实施例
如图1与图2所示,一种GIS软件中针对大数据的可视化管理方法,如图所示,该方法包
括以下的步骤S01至步骤S03。
步骤S01:构建MongoDB分布式数据源,服务器端存储的数据格式为CSV文件。
步骤S02:根据数据的存储方式,输入已知参数打开对应的数据源,访问并读取存
储在服务器端的大数据。
数据是存储在Oracle数据库中,在SuperMap GIS软件中打开时,需要输入服务器
地址(存放数据的服务器地址)、实例名称、别名(显示在GIS软件中的名称)、用户名、密码等
参数,打开MongoDB数据源;
步骤S03:对读取到的大数据,实现可视化的数据管理操作,包括设置字段、创建索引、
数据追加、数据导入和数据导出;服务器端存储的数据格式为CSV文件;用以转化为GIS软件
可识别的数据方式,将带有地理坐标信息的数据转换为点数据集;导入CSV文件时,其首行
字段、分隔符等都是可以设定的,导入之后数据索引的创建,也支持对分批导入的数据进行
追加、数据导出等操作;
b)管理读取的数据:支持新建、删除目录,并对其重命名;通过输入服务器地址、实例
名、用户名、密码等,打开MongoDB数据源;配置读取CSV文件时的相关属性,读取CSV文件中
的字段信息并转换为软件可识别的字段信息;读取CSV文件流程包括:预定义读取CSV文件
时相关属性,如文件路径、开始行、字符编码、分隔符等;根据预定的参数项,设置读取CSV文
件时的相关属性;预定义CSV文件的字段结构;创建索引;读取CSV文件中的字段,并按照原
有类型进行创建;检测到包含有地理坐标信息字段,则直接生成点数据集;
b)对数据的可视化操作。支持数据的新建、追加,支持客户端与服务器的交互操作,上
传和下载数据,并支持断点续传,支持数据的导入导出操作;采用子窗口的方式展示出访问
的服务器目录下的文件,显示的内容包括索引、文件名称、大小、占用的Blocksize大小、所
有者、分组等信息;
c)在任务管理中可查看当前进行的各种数据管理操作,在可视化的方式展示出目前正
在进行的多任务,可以查看任务进度,支持对正在进行中的任务进行取消等操作:针对
MongoDB数据源:通过固定名字的表(例如smFieldInfos),存储所有表的字段。通过设置的
字段信息匹配数据集类型。
步骤S04:将处理完成的数据上传到服务器端,实现数据入库或者给他人共享。
术语介绍:
Spark:开源的通用并行框架,它可在大规模集群上以一种可靠且容错的方式并行地处
理大数据(TB级别)。通过启用内存分布数据集,它不仅能够提供交互式查询外,还可以优化
迭代工作负载。Spark 基于Scala 语言实现,它将 Scala 用作其应用程序框架。Spark 和
Scala 能够紧密集成,Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。
Spark可用来构建大型的、低延迟的数据分析应用程序。Spark 提供内存中的分布式计算能
力,具有Java、 Scala、Python、R四种编程语言的API编程接口。
Scala:一门多范式的编程语言,具有面向对象、函数式编程、静态类型等特性,并
具有扩展性,可与Java和.NET实现互操作。
HDFS:Hadoop分布式文件系统。HDFS是一个高度容错性的系统,适合部署在廉价的
机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。
以上所述仅是本发明的优选实施方式,应当指出,对于本领域的普通技术人员来
说,在不脱离本发明技术原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应
当视为在本发明的保护范围之内。