书签分享收藏举报版权申诉 / 8

立即下载加入VIP,免费下载

当前位置：首页 > 物理 > 计算；推算；计数 > 一种GIS软件中针对大数据的可视化管理方法.pdf

一种GIS软件中针对大数据的可视化管理方法.pdf

上传人：罗明

文档编号：6028870

上传时间：2019-04-03

格式：PDF

页数：8

大小：459.14KB

《一种GIS软件中针对大数据的可视化管理方法.pdf》由会员分享，可在线阅读，更多相关《一种GIS软件中针对大数据的可视化管理方法.pdf（8页完整版）》请在专利查询网上搜索。

本发明公开了一种GIS软件中针对大数据的可视化管理方法，该方法包括：1）构建适用不同数据存储方式的分布式数据源；2）根据数据的存储方式，输入已知参数打开对应的数据源，访问并读取存储在服务器端的大数据；3）对读取到的大数据，实现可视化的数据管理操作；4）将处理完成的数据上传到服务器端，实现数据入库或者给他人共享。本发明通过交互式的操作，方便直观的对数据集群进行操作和管理，实现直接的数据分析效果展示，。

摘要
申请专利号：	CN201611182291.6	申请日：	2016.12.20
公开号：	CN106599241A	公开日：	2017.04.26
当前法律状态：	实审	有效性：	审中
法律详情：	实质审查的生效IPC(主分类):G06F 17/30申请日:20161220\|\|\|公开
IPC分类号：	G06F17/30	主分类号：	G06F17/30
申请人：	北京超图软件股份有限公司
发明人：	钟耳顺; 王尔琪; 陈国雄; 陈勇; 胡辰璞; 王少华; 刘晓妮
地址：	100015 北京市朝阳区酒仙桥北路甲10号电子城IT产业园107号楼6层
优先权：
专利代理机构：	北京恒都律师事务所 11395	代理人：	王清亮
PDF完整版下载：	PDF下载

内容摘要

本发明公开了一种GIS软件中针对大数据的可视化管理方法，该方法包括：1）构建适用不同数据存储方式的分布式数据源；2）根据数据的存储方式，输入已知参数打开对应的数据源，访问并读取存储在服务器端的大数据；3）对读取到的大数据，实现可视化的数据管理操作；4）将处理完成的数据上传到服务器端，实现数据入库或者给他人共享。本发明通过交互式的操作，方便直观的对数据集群进行操作和管理，实现直接的数据分析效果展示，帮助普通用户更好的理解数据，数据分析专家进行更深入的分析，辅助管理者进行决策。

权利要求书

1.一种GIS软件中针对大数据的可视化管理方法，该方法包括：1）构建适用不同数据存
储方式的分布式数据源；2）根据数据的存储方式，输入已知参数打开对应的数据源，访问并
读取存储在服务器端的大数据；3）对读取到的大数据，实现可视化的数据管理操作，包括设
置字段、创建索引、数据追加、数据导入和数据导出；4）将处理完成的数据上传到服务器端，
实现数据入库或者给他人共享。
2.根据权利要求1所述的一种GIS软件中针对大数据的可视化管理方法，其特征在于，
所述步骤1）中的数据源包括有HDFS数据源和MongoDB数据源。
3.根据权利要求1所述的一种GIS软件中针对大数据的可视化管理方法，其特征在于，
所述步骤3）在大数据读取的过程中，用户可在自定义配置，将符合配置条件的数据批量转
换为地理空间数据。
4.根据权利要求1所述的一种GIS软件中针对大数据的可视化管理方法，其特征在于，
所述步骤3）的数据管理为多任务操作，在可视化的方式展示出目前正在进行的多任务，可
以查看任务进度，支持对正在进行中的任务进行取消等操作。

说明书

一种GIS软件中针对大数据的可视化管理方法

技术领域

本发明涉及计算机技术领域和地理信息系统领域，具体涉及一种GIS软件中针对
大数据的可视化管理方法。

背景技术

随着云时代的来临，大数据（BigData）也吸引了越来越多的关注。而大数据及其技
术中的价值含量、挖掘成本比数量更为重要。对众多行业而言，如何利用这些大规模数据是
关键。大数据的存储和处理显得尤为重要。大数据处理，将以价值为导向，可对大数据进行
加工、挖掘和优化等各种处理。

大数据是一种规模大到在获取、存储、管理、分析等方面大大超出传统数据库软件
工具能力范围的数据集合，它具有大的数据规模、快速的数据流转、多样的数据类型和价值
密度低四大特征。大数据技术的核心在于对这些含有意义的数据进行专业化处理。大数据
的数据量一般在TB级别以上，一般无法用单台的计算机进行处理，通常采用分布式架构。它
的特色在于对大数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数
据库和云存储、虚拟化技术。大数据的价值体现在以下3个方面：（1）对大量消费者提供产
品或服务的企业可基于大数据技术进行精准营销；（2）做小而美模式的中小微企业可以利
用大数据技术服务转型；（3）面临互联网压力之下必须转型的传统企业需充分发挥大数据
的潜在价值。

不管是对数据分析专家还是普通用户，数据可视化是数据分析工具最基本的要
求。可视化可以直观的展示数据，让数据自己说话，让观众听到结果。而GIS软件，可以让数
据和空间地理位置结合起来，更直观的在地图上看到结果，进行更深层次的数据挖掘。

现有的针对大数据可视化管理的软件，多为专业的数据分析软件，多为部署了
Hadoop运行环境的Linux操作系统，但是也要耗费高昂的学习成本、更长的时间成本并为此
担负巨额的费用。

国际上不缺乏对大数据进行加工、挖掘和优化的专业数据处理软件，但是能够将
大数据与地理信息系统软件结合，在地理信息系统软件中对大数据进行加工、挖掘，并结合
地理位置进行展示的专业GIS软件确不多见，而且还需可视化的方式实现，这在国内的GIS
行业中还属于空白领域。

发明内容

本发明的主要目的在于提供一种GIS软件中针对大数据的可视化管理方法，以解
决现有技术中GIS软件在处理时空大数据时面临的分析效率低，显示效果不佳等问题。

为了解决上述技术问题，本申请提供了一种GIS软件中针对大数据的可视化管理
方法。该方法包括：1）构建适用不同数据存储方式的分布式数据源；2）根据数据的存储方
式，输入已知参数打开对应的数据源，访问并读取存储在服务器端的大数据；3）对读取到的
大数据，实现可视化的数据管理操作，包括设置字段、创建索引、数据追加、数据导入和数据
导出；4）将处理完成的数据上传到服务器端，实现数据入库或者给他人共享。

进一步的，所述步骤1）中的数据源包括有HDFS数据源和MongoDB数据源。

进一步的，所述步骤3）在大数据读取的过程中，用户可在自定义配置，将符合配置
条件的数据批量转换为地理空间数据。

进一步的，所述步骤3）的数据管理为多任务操作，在可视化的方式展示出目前正
在进行的多任务，可以查看任务进度，支持对正在进行中的任务进行取消等操作。

本发明的有益效果是：

1.增加新的引擎方式，即前述的两种数据源：HDFS数据源和MongoDB数据源，用户只需
要输入相应的参数，就可以直接读取到存储在服务器中的大数据；在大数据读取的过程中，
用户可以基于自定义配置，将符合配置条件的数据批量转换为地理空间数据，而这一过程，
也都是可视化的。

2.本发明在国产化GIS软件中集成了对大数据的读取与管理，并且采用的是可视
化的方式，增加了便于用户理解的两种引擎方式，这两种引擎方式也是常见的大数据的存
储方式，在读取到的大数据的管理上，也采用了便于操作、易用理解的处理方式，并支持将
源数据转换为地理空间数据。

3.用户通过交互的方式访问部署在服务器端的大数据，最终获取适用与地理信息
操作的数据格式，并将包含了地理空间位置的信息自动转换为地理空间数据；另外，大数据
都采用的是分布式存储的方式，而在本发明中，系统自动适配底层物理环境，用户无需知道
数据是存储在哪台计算机中，只需输入相关参数，系统会自动在后台匹配读取数据并展示
在前端。

4.针对常见的国产化GIS软件在处理时空大数据时面临的分析效率低，显示效果
不佳等问题，本发明将实现国产化GIS软件对大数据的可视化管理，通过交互式的操作，方
便直观的对数据集群进行操作和管理，实现直接的数据分析效果展示，帮助普通用户更好
的理解数据，数据分析专家进行更深入的分析，辅助管理者进行决策。

5.本发明基于Spark框架，Scala编程语言，在国产化桌面GIS软件中构建可打开的
分布式数据源，用户即通过输入地址、实例名、用户名、密码等相应的参数，就可获取存储在
服务器端的数据资源，再通过相应的字段参数设置，即可转换为GIS软件可读取的数据格式
（例如将包含有地理坐标信息的文本文件（CSV）转换为空间点数据集），从而实现对大数据
的高效可视化管理。

本发明的目的就是填补国产GIS软件中对分布式大数据管理的空白，并且是不依
赖操作系统，不依赖Hadoop运行环境，以可视化的方式管理分布式大数据，降低用户的操作
难度，极大提升用户的使用效率。

附图说明

图1是根据本发明的一种GIS软件中针对大数据的可视化管理方法的流程图；

图2是根据本发明第一实施例的读取CSV文件的流程图。

具体实施方式

下面结合实施例对本发明的具体实施方式作进一步详细说明：

第一实施例

如图1与图2所示，一种GIS软件中针对大数据的可视化管理方法，如图所示，该方法包
括以下的步骤S01至步骤S03。

步骤S01：构建HDFS分布式数据源，服务器端存储的数据格式为CSV文件。

步骤S02：根据数据的存储方式，输入已知参数打开对应的数据源，访问并读取存
储在服务器端的大数据。

数据是存储在Oracle数据库中，在SuperMap GIS软件中打开时，需要输入服务器
地址（存放数据的服务器地址）、实例名称、别名（显示在GIS软件中的名称）、用户名、密码等
参数，打开HDFS数据源；

步骤S03：对读取到的大数据，实现可视化的数据管理操作，包括设置字段、创建索引、
数据追加、数据导入和数据导出；服务器端存储的数据格式为CSV文件；用以转化为GIS软件
可识别的数据方式，将带有地理坐标信息的数据转换为点数据集；导入CSV文件时，其首行
字段、分隔符等都是可以设定的，导入之后数据索引的创建，也支持对分批导入的数据进行
追加、数据导出等操作；

a)管理读取的数据：基于目录树的方式展示数据文件的目录结构，支持新建、删除目
录，并对其重命名；通过输入服务器地址、实例名、用户名、密码等，打开HDFS数据源；配置读
取CSV文件时的相关属性，读取CSV文件中的字段信息并转换为软件可识别的字段信息；读
取CSV文件流程包括：预定义读取CSV文件时相关属性，如文件路径、开始行、字符编码、分隔
符等；根据预定的参数项，设置读取CSV文件时的相关属性；预定义CSV文件的字段结构；创
建索引；读取CSV文件中的字段，并按照原有类型进行创建；检测到包含有地理坐标信息字
段，则直接生成点数据集；

b)对数据的可视化操作。支持数据的新建、追加，支持客户端与服务器的交互操作，上
传和下载数据，并支持断点续传，支持数据的导入导出操作；采用子窗口的方式展示出访问
的服务器目录下的文件，显示的内容包括索引、文件名称、大小、占用的Blocksize大小、所
有者、分组等信息；

c)在任务管理中可查看当前进行的各种数据管理操作，在可视化的方式展示出目前正
在进行的多任务，可以查看任务进度，支持对正在进行中的任务进行取消等操作：针对HDFS
数据源：首先对数据建立索引时指定字段信息；没有索引的数据在计算、分析时，支持指定
字段信息；并可通过设置字段信息匹配数据集类型。

步骤S04：将处理完成的数据上传到服务器端，实现数据入库或者给他人共享。

第二实施例

如图1与图2所示，一种GIS软件中针对大数据的可视化管理方法，如图所示，该方法包
括以下的步骤S01至步骤S03。

步骤S01：构建MongoDB分布式数据源，服务器端存储的数据格式为CSV文件。

步骤S02：根据数据的存储方式，输入已知参数打开对应的数据源，访问并读取存
储在服务器端的大数据。

数据是存储在Oracle数据库中，在SuperMap GIS软件中打开时，需要输入服务器
地址（存放数据的服务器地址）、实例名称、别名（显示在GIS软件中的名称）、用户名、密码等
参数，打开MongoDB数据源；

步骤S03：对读取到的大数据，实现可视化的数据管理操作，包括设置字段、创建索引、
数据追加、数据导入和数据导出；服务器端存储的数据格式为CSV文件；用以转化为GIS软件
可识别的数据方式，将带有地理坐标信息的数据转换为点数据集；导入CSV文件时，其首行
字段、分隔符等都是可以设定的，导入之后数据索引的创建，也支持对分批导入的数据进行
追加、数据导出等操作；

b)管理读取的数据：支持新建、删除目录，并对其重命名；通过输入服务器地址、实例
名、用户名、密码等，打开MongoDB数据源；配置读取CSV文件时的相关属性，读取CSV文件中
的字段信息并转换为软件可识别的字段信息；读取CSV文件流程包括：预定义读取CSV文件
时相关属性，如文件路径、开始行、字符编码、分隔符等；根据预定的参数项，设置读取CSV文
件时的相关属性；预定义CSV文件的字段结构；创建索引；读取CSV文件中的字段，并按照原
有类型进行创建；检测到包含有地理坐标信息字段，则直接生成点数据集；

b)对数据的可视化操作。支持数据的新建、追加，支持客户端与服务器的交互操作，上
传和下载数据，并支持断点续传，支持数据的导入导出操作；采用子窗口的方式展示出访问
的服务器目录下的文件，显示的内容包括索引、文件名称、大小、占用的Blocksize大小、所
有者、分组等信息；

c)在任务管理中可查看当前进行的各种数据管理操作，在可视化的方式展示出目前正
在进行的多任务，可以查看任务进度，支持对正在进行中的任务进行取消等操作：针对
MongoDB数据源：通过固定名字的表（例如smFieldInfos），存储所有表的字段。通过设置的
字段信息匹配数据集类型。

步骤S04：将处理完成的数据上传到服务器端，实现数据入库或者给他人共享。

术语介绍：

Spark：开源的通用并行框架，它可在大规模集群上以一种可靠且容错的方式并行地处
理大数据（TB级别）。通过启用内存分布数据集，它不仅能够提供交互式查询外，还可以优化
迭代工作负载。Spark 基于Scala 语言实现，它将 Scala 用作其应用程序框架。Spark 和
Scala 能够紧密集成，Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。
Spark可用来构建大型的、低延迟的数据分析应用程序。Spark 提供内存中的分布式计算能
力，具有Java、 Scala、Python、R四种编程语言的API编程接口。

Scala：一门多范式的编程语言，具有面向对象、函数式编程、静态类型等特性，并
具有扩展性，可与Java和.NET实现互操作。

HDFS：Hadoop分布式文件系统。HDFS是一个高度容错性的系统，适合部署在廉价的
机器上。HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。

以上所述仅是本发明的优选实施方式，应当指出，对于本领域的普通技术人员来
说，在不脱离本发明技术原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应
当视为在本发明的保护范围之内。