一种基于聚合请求的地理栅格数据并行读写方法.pdf

资源ID：6184631 资源大小：809.96KB 全文页数：8页
资源格式： PDF 下载积分：30金币

快捷下载

账号登录下载

三方登录下载：

下载资源需要30金币

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

加入VIP,免费下载

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

一种基于聚合请求的地理栅格数据并行读写方法.pdf

1、(10)申请公布号 CN 103761291 A (43)申请公布日 2014.04.30 CN 103761291 A (21)申请号 201410020074.1 (22)申请日 2014.01.16 G06F 17/30(2006.01) (71)申请人中国人民解放军国防科学技术大学地址 410073 湖南省长沙市开福区德雅路 109 号 (72)发明人熊伟陈荦景宁刘露吴秋云赫高进 (74)专利代理机构国防科技大学专利服务中心 43202 代理人王文惠 (54) 发明名称一种基于聚合请求的地理栅格数据并行读写方法 (57) 摘要本发明提供一种基于聚合请求的地理栅

2、格数据并行读写方法。技术方案包括所有进程调用 GDAL 库读取待处理的地理栅格数据文件，从中获取地理栅格元数据的信息；各个处理进程按照统一的数据划分方式计算在地理栅格数据文件中各自所需读取的地理栅格数据划分大小和偏移量；任意一个进程负责创建 GTIFF 的输出文件，创建完毕后，该进程将创建完毕状态向其它处理进程进行广播，其它处理进程读入待处理的地理栅格数据；每个处理进程完成各自的计算任务，将计算任务完成的结果按照统一的数据划分方式写出到输出文件。本发明能够处理多种数据格式，并行处理机制好，提高了总体输入 / 输出效率。 (51)Int.Cl. 权

3、利要求书 1 页说明书 4 页附图 2 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请权利要求书1页说明书4页附图2页 (10)申请公布号 CN 103761291 A CN 103761291 A 1/1 页 2 1. 一种基于聚合请求的地理栅格数据并行读写方法，设有若干个处理进程同时处理同一个待处理的地理栅格数据文件，其特征在于，包括下述步骤：第一步，在多节点多处理器集群环境下，所有进程调用地理空间数据抽象库读取待处理的地理栅格数据文件，从中获取地理栅格元数据的信息并记录在内存数据结构 PDataset 中；第二步，各个处理进程根据地理栅

4、格元数据信息，按照统一的数据划分方式计算在地理栅格数据文件中各自所需读取的地理栅格数据划分大小和偏移量；第三步，由任意一个进程负责读取待处理的地理栅格元数据中的地理参考信息，创建地理参考标签影像文件格式的输出文件，并在输出文件中写入地理参考信息以及内存数据结构 PDataset 中的元数据信息；创建完毕后，该进程将创建完毕状态向其它处理进程进行广播，其它处理进程按照统一的数据划分方式从地理栅格数据文件中读入待处理的地理栅格数据；第四步，每个处理进程完成各自的计算任务，然后打开输出文件，设置各自的文件视图，将计算任务完成的结果按照统一的数据划分方式写出

5、到输出文件。 2. 根据权利要求 1 所述的基于聚合请求的地理栅格数据并行读写方法，其特征在于，获取的地理栅格元数据信息包括：消息传递接口文件句柄，栅格数据网格单元列数，栅格数据网格单元行数，栅格数据波段数，栅格网格单元数据类型，数据类型字节数，栅格数据在地理栅格数据文件中的绝对偏移地址。 3. 根据权利要求 2 所述的基于聚合请求的地理栅格数据并行读写方法，其特征在于，统一的数据划分方式按照行、列或者块的方式读取。权利要求书 CN 103761291 A 2 1/4 页 3 一种基于聚合请求的地理栅格数据并行读写方法技术领域 0001 本发明涉及一种

6、面向多节点多处理器集群环境下地理栅格数据文件的并行读写方法，技术应用领域为地理信息系统中大规模地理栅格数据的并行处理。背景技术 0002 地理栅格数据是地理信息系统和空间信息应用中非常重要的一种数据类型，主要用于描述和表达地表的各类采样和统计信息，在遥感影像处理、数字地形分析、空间统计等方面具有广泛的用途。地理栅格数据按网格单元行与列排列，用大小相等分布均匀、紧密相连的像元（网格单元）阵列来表示空间地物或现象分布的数据结构。网格单元的大小决定了其所覆盖的地表范围内地理数据的精度，网格单元越细，所表示的地理数据越精细。 0003 随着遥感技术和测绘技术的快速进

7、步发展，地理栅格数据的空间分辨率和时间分辨率都有了大幅度的提高，空间信息应用需要计算的区域不断增大 , 对地理过程模型的复杂程度和计算精度需求日益增强，地理计算越来越明显地呈现出数据密集型和计算密集型的特征。如何实现其高性能处理已成为制约其进一步应用的关键所在。采用多处理器的集群计算环境和并行计算技术来解决地理栅格数据的高效处理问题成为一种必然的发展趋势。通过提高处理器性能和增加处理器个数的方式，可以提升并行集群的并行处理性能，但是如果对于地理栅格数据的 I/O(Input/Output，输入 / 输出 ) 仍然采用串行方式的话， I/O 性能将成为影响整体性能的瓶颈

8、。在此背景下，地理栅格数据的并行访问技术成为地理栅格数据高效处理的一个重要内容。 0004 目前支持地理栅格数据并行读写的工具库主要有两种。一种是采用 GDAL （Geospatial Data Abstract Library，地理空间数据抽象库）进行读写， GDAL提供了统一的数据访问接口，通过抽象数据模型支持可扩展的地理栅格数据格式。因为并行读写地理栅格数据需要进行数据划分，现有的并行处理算法通常采用按照行、列或是块的方式进行划分。GDAL 存在的主要问题在于只支持地理栅格数据按照行划分的并行读写，当多个进程使用 GDAL 并行读写列划分或者块划分时，一方面读写

9、效率很低，另一方面写出的数据正确性也无法得到保证。第二种是适合并行读写的地理栅格数据模型库，如： HDF5(Hierarchical DataFormatFive，层次数据格式第 5 版 )、 NetCDF（Network Common Data Form，网络通用数据格式）等，然而以这些数据模型来存储地理栅格数据的应用相对较少，在处理时需要将其他常用的数据格式进行转换，增加了应用的繁琐性。 0005 地理栅格数据的并行读写方法包括两种。一种是 DDC（Data Distribution and Collection，数据分发 / 收集）方法。该方法将参与并行计算的

10、多进程分为主进程和从进程，只有主进程负责所有的地理栅格数据读写操作，从进程负责数据处理，从进程与主进程之间通过进程间消息传递机制完成所处理数据的接收和发送。DDC 方法的缺点在于主进程数据读写容易成为瓶颈，并行处理进程增加时，主、从进程间通信代价容易增加计算延迟。另外一种是并行读写方法，不依赖于主进程进行数据的分发、收集，而是每个进程都可以相对独立地进行数据的存取操作。这样，各个进程同时进行数据的存取，可以很大程度地增大说明书 CN 103761291 A 3 2/4 页 4 总体 I/O 带宽，从而提升总体 I/O 效率。然而这种方式需要底层有并行文

11、件系统的支持，在非并行文件系统中，如果读写请求分布随机性强， I/O 效率将大幅降低。发明内容 0006 本发明的目的是改进地理栅格数据并行读写的性能，通过引入 MPI（Message Passing Interface，消息传递接口）中文件视图的机制，减少多进程并行访问地理栅格数据时非连续的、零碎的数据请求的数量，将 I/0 请求聚合成为少量的、整块的数据请求。在本发明中，多进程之间只进行状态信息通信，而不进行数据通信，提高多节点多处理器集群环境下地理栅格数据文件的并行读写性能。 0007 本发明的技术解决方案为：一种基于聚合请求的地理栅格数据并行读写方

12、法，设有若干个处理进程同时处理同一个待处理的地理栅格数据文件，其特征在于，包括下述步骤： 0008 第一步，在多节点多处理器集群环境下，所有进程调用 GDAL 库读取待处理的地理栅格数据文件，从中获取地理栅格元数据的信息并记录在内存数据结构 PDataset 中，其中地理栅格元数据信息包括： MPI 文件句柄，栅格数据网格单元列数，栅格数据网格单元行数，栅格数据波段数，栅格网格单元数据类型，数据类型字节数，栅格数据在文件中（即地理栅格数据文件）的绝对偏移地址。 0009 第二步，各个处理进程根据地理栅格元数据信息，按照统一的数据划分方式计算在

13、地理栅格数据文件中各自所需读取的地理栅格数据划分大小和偏移量。数据划分方式可以按照行、列或者块的方式读取。 0010 第三步，由任意一个进程负责读取待处理的地理栅格元数据中的地理参考信息，创建 GTIFF（Georeferenced Tagged Image File Format，地理参考标签影像文件格式）的输出文件，并在输出文件中写入地理参考信息以及内存数据结构 PDataset 中的元数据信息。创建完毕后，该进程将创建完毕状态向其它处理进程进行广播，其它处理进程按照统一的数据划分方式从地理栅格数据文件中读入待处理的地理栅格数据。 0011 第四步，每个处理进

14、程完成各自的计算任务，然后打开输出文件，设置各自的文件视图，将计算任务完成的结果按照统一的数据划分方式写出到输出文件。 0012 本发明的有益效果是： 0013 （1）本发明能够处理多种数据格式。因为 GDAL 库本身能够读取多种格式地理栅格数据，所以本发明中的所有处理进程读取的地理栅格数据格式不受限制。 0014 （2）在对地理栅格数据进行读写时，可以按照行、列或者块的方式读写，不限制对地理栅格数据进行划分的方式。 0015 （3）本发明并行处理机制好。仅在创建输出文件时，各个处理进程需要进行一次等待，并且创建输出文件时只完成对输出文件头信息的操作，因此

15、等待时间可以忽略不计。 0016 （4）各个处理进程在计算任务完成后采用文件视图，可以将随机的 I/O 请求聚合起来，提高总体 I/O 效率。附图说明 0017 图 1 为本发明的流程示意图；说明书 CN 103761291 A 4 3/4 页 5 0018 图 2 为本发明某一实施例中创建的文件视图示意图； 0019 图 3 为本发明和其它方法进行对比的仿真实验示意图。具体实施方式 0020 结合附图对本发明作进一步描述。 0021 图 1 为本发明的流程示意图。如图所示，假设有 n 个进程（P0， P1， P2，Pn）同时处理同一个待处理的地理栅格数据文件，

16、所有进程调用 GDAL 库读取待处理的地理栅格数据文件，从中获取地理栅格元数据的信息并记录在内存数据结构 PDataset 中；各个处理进程根据地理栅格元数据信息，按照统一的数据划分方式计算在地理栅格数据文件中各自所需读取的地理栅格数据划分大小和偏移量；任意一个进程负责读取待处理的地理栅格元数据中的地理参考信息，创建 GTIFF 的输出文件，并在输出文件中写入地理参考信息以及内存数据结构 PDataset 中的元数据信息；创建完毕后，该进程将创建完毕状态向其它处理进程进行广播，其它处理进程按照统一的数据划分方式从地理栅格数据文件中读入待处理的地理栅格数据

17、；每个处理进程完成各自的计算任务，然后打开输出文件，设置各自的文件视图，将计算任务完成的结果按照统一的数据划分方式写出到输出文件。 0022 图 2 为本发明某一实施例中创建的文件视图示意图。本实施例中，统一的数据划分方式采用块的方式。如图所示，在本发明的第四步处理中，每个处理进程设置自己的文件视图，文件视图定义每个处理进程在输出文件中可操作的数据位置。文件视图包括三个元素定义：绝对偏移地址（Displacement），元素基本类型（ElementType）和文件类型（FileType）。假设 n 个处理进程 P0， P1， P2，Pn 记录在内存数据

18、结构 PDataset 中，待处理地理栅格数据网格单元行数为 RasterYSize，待处理地理栅格数据网格单元列数为 RasterXSize，栅格网格单元数据类型为元素基本类型 ElementType，栅格数据在文件中的绝对偏移地址即绝对偏移地址 Displacement。 0023 按照统一的块划分方式将地理栅格数据划分为 n 块，计算在地理栅格数据文件中每个处理进程所需读取的地理栅格数据划分大小和偏移量，即得到下列参数：所需块的起始行 BlockFirstRow，结束行 BlockLastRow，所需块的起始列 BlockFirstColumn，结束列 Bl

19、ockLastColumn。对于每个处理进程来说，处理的数据块行单元数 BlockYSize=BlockLa stRow-BlockFirstRow，列单元数 BlockXSize=BlockLastColumn-BlockFirstColumn，假设在行上有 m 块，则每个处理进程处理的数据块大小为 BlockXSize*BlockYSize，文件类型为 BlockXSize个元素基本类型，再加上RasterXSize-BlockXSize个空洞所组成。设置文件类型后，每个处理进程就可以根据上述参数设置文件视图。 0024 图 3 为本发明和其它方法进行对比的仿真实验示意

20、图。如图所示，带矩形标记的曲线表示不使用文件视图，以非聚合请求的方式将计算结果并行写出到数据文件， I/O 性能（纵坐标所示）将大幅低于聚合请求方式（即本发明的结果，带菱形标记的曲线）。当处理进程数增加时，非聚合请求并行读写方式 I/O 性能将随进程数增加而降低，本发明给出的实施方案中，在进程数低于 32 个时， I/O 性能基本保持稳定。 0025 本发明未详细阐述部分属于本领域公知常识。 0026 以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应说明书 CN 103761291 A 5 4/4 页 6 视为本发明的保护范围。说明书 CN 103761291 A 6 1/2 页 7 图 1 图 2 说明书附图 CN 103761291 A 7 2/2 页 8 图 3 说明书附图 CN 103761291 A 8

注意事项: 本文（一种基于聚合请求的地理栅格数据并行读写方法.pdf）为本站会员（00****42）主动上传，专利查询网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知专利查询网（点击联系客服），我们立即给予删除！