一种分布式、异构地学数据资源共享访问的方法及装置 【技术领域】
本发明涉及数据资源共享访问技术,特别是一种分布式、异构地学数据资源共享访问的方法及装置。
背景技术
地学数据资源是支撑地球科学各分支学科研究和地球系统科学综合集成研究的重要基础,也是国家和各行业部门进行战略决策和行政管理,其他各学科研究的基础。地学数据资源分布在不同的行业部门、科研院所、高等院校和数据组织中,具有地理位置的分布性。同时,地学数据资源包括:矢量、栅格、遥感影像、属性等格式,这些数据又分别以文件、数据库等形式进行存储,具有格式和存储方式的异构性。因此,跨部门、跨区域之间共享(检索、浏览和下载)不同格式、不同存储形式的地学数据资源非常重要。
当前网络环境下,信息共享的普遍方式是采用元数据技术。元数据是关于数据的数据,能够对数据资源的主要内容、时空范围、数据格式、数据质量以及数据资源的获取方式进行描述。数据拥有者通过元数据告诉数据使用者有什么样的数据、这些数据在哪里、怎么获取这些数据资源等信息,数据使用者根据上述信息通过在线下载或离线联系等方式获取数据,从而实现地学数据资源的共享。国内外许多行业或部门的数据中心纷纷建立自身的元数据体系,并利用元数据的标准化来统一管理分布式的数据资源,进而通过网络实现数据共享与服务。然而元数据只能够描述和发现数据资源,元数据技术本身并不能解决异构数据资源的在线访问。
为了解决分布式异构数据资源的访问,中国科学院计算机网络信息中心研发了数据访问服务系统(Data Access System,DAS)。DAS由数据访问服务端、数据库映射工具以及可自动生成的Web检索前端构成,能够对外提供统一的数据访问接口,屏蔽分布式环境中数据资源的多样性和异构性,消除数据孤岛,实现科学数据库数据资源的集成与共享。该系统存在的主要问题是只针对已建好库的数据资源,难以适应地学数据资源中矢量、栅格、遥感影像等其他格式的数据资源的访问,而且在使用之前需要在各个建库单位进行系统的安装和数据库的映射等。
针对地学空间数据的共享,主要的方法有:数据转换、标准数据格式化交换、开放的数据标准、直接调用应用编程接口、利用通用的存放在数据管理系统的要素结构和网络地理信息服务。地理信息服务以网络服务的形式提供对分布式、异构空间数据的获取、浏览、要素查询和空间分析等操作。目前,地理信息服务已经成为分布式、异构空间数据共享和互操作的主流。然而该方法需要一个地理信息服务的注册中心,否则用户并不知道已经分布在网络上的地理信息服务,也就无法共享这些空间数据资源了。
公开号为CN101329682的中国专利文献公开了一种分布式异构信息资源的整合方法,其中,信息资源提供者通过信息的发现、元数据配置、形成分类体系、数据打包和数据上传等步骤将信息发送给信息使用者。信息使用者收到信息包后进行解压缩、配置文件分析和数据存储,从而实现分布异构资源的共享。该方法只提供一种点对点的数据共享方式,信息使用者无法按照自己的意愿进行数据资源的搜索、在线浏览和自由下载。
综上,现有的技术没有将元数据和数据访问技术有机结合在一起。通过元数据只能搜索到数据资源,难以在线浏览或访问真正的数据资源。而现有的数据访问技术只考虑底层单一类型数据资源的访问,往往需要在数据源端进行复杂的配置,缺乏数据资源的注册和搜索功能。
【发明内容】
本发明所要解决的技术问题在于,提供一种分布式、异构地学数据资源共享访问的方法及装置,通过元数据和数据服务的结合,使得数据使用者能够快速搜索到元数据,并且能够在线浏览和下载对应的数据资源。
为达到上述目的,本发明提供的分布式、异构地学数据资源共享访问的方法包括地学数据资源发布步骤和地学数据资源访问步骤,其特征在于,包括:
所述地学数据资源发布步骤进一步包括:
按照设定的地学元数据标准通过预设界面汇交地学元数据;
根据数据资源的格式和存储形式汇交该地学元数据相应的数据服务;
将数据服务绑定到对应的地学元数据;
对外发布经过绑定地元数据和数据服务。
上述地学数据资源共享访问的方法,其特征在于,所述地学数据资源发布步骤还包括:对汇交的元数据进行审验的步骤,用于系统根据地学元数据标准的结构自动对汇交元数据进行有效性检验,通过检验的元数据直接进入元数据库,否则提示返回修改。
上述地学数据资源共享访问的方法,其特征在于,所述地学元数据标准的模式结构包括:数据集标识信息、内容信息、分发信息、数据质量信息、图示表达目录信息、数据模式信息、元数据维护信息和元数据参考信息。
上述地学数据资源共享访问的方法,其特征在于,所述数据服务的类型包括:文件服务、数据库服务、FTP服务、地理信息服务、HTTP服务。
上述地学数据资源共享访问的方法,其特征在于,所述地学数据资源访问步骤进一步包括:
查询所需的地学元数据;
确定查询到所需的地学元数据信息,进行数据访问;
进入数据访问步骤,系统自动列出对应的数据服务列表;
根据该数据服务列表访问具体的数据服务。
上述地学数据资源共享访问的方法,其特征在于,在汇交所述数据服务时,以文件存储的数据发布成文件服务,以数据库形式存储的数据发布成数据库服务,以FTP形成存储的数据发布成FTP服务,以网页形式存储的数据发成HTTP服务,空间数据发成地理信息服务。
上述地学数据资源共享访问的方法,其特征在于,在进行数据访问时,如果是文件服务直接提供下载;如果是数据库服务则提供在线数据浏览;如果是FTP服务提供数据文件列表浏览和下载;如果是地理信息服务提供空间数据的交互查看和下载;如果是HTTP服务提供网页浏览。
进一步的,本发明还提供了一种实现上述方法的装置,其特征在于,包括:地学数据资源发布系统和地学数据资源访问系统,所述地学数据资源发布系统进一步包括:
元数据汇交模块,用于按照设定的地学元数据标准通过预设界面汇交地学元数据;
数据服务汇交模块,用于根据数据资源的格式和存储形式汇交该地学元数据相应的数据服务;
数据服务绑定模块,用于将地学数据服务绑定到对应的地学元数据;
数据资源发布模块,用于对外发布经过绑定的地学元数据和数据服务;
所述地学数据资源访问系统进一步包括:
搜索模块,用于通过设定界面搜索所需的地学元数据;
数据访问模块,用于在确定查询到所需的地学元数据信息,进行数据服务的访问服务;
数据获取模块,根据不同的数据服务形式,进行地学数据资源的在线浏览或者直接下载。
上述装置,其特征在于,所述地学数据资源发布系统还包括:一审验模块,用于根据地学元数据标准的结构自动对汇交元数据进行有效性检验。
上述装置,其特征在于,所述搜索模块进一步包括:简单搜索界面单元,用于只输入检索的关键词即可进行搜索;
高级搜索界面单元,用于设置不同的检索项组成复杂的检索条件进行搜索;
区域搜索界面单元,用于提供一种基于区域的主题关键词进行搜索。
与现有技术现比,本发明的技术效果是:
通过本发明提出的分布式、异构地学数据资源的共享访问方法,使得数据使用者能够对地理位置分布、数据格式和存储形式不同的地学数据资源进行透明访问。用户可以首先查询获得地学元数据,然后通过与该元数据绑定的数据服务在线浏览或直接下载分布式、异构的地学数据资源。
【附图说明】
图1为本发明的分布式、异构地学数据资源发布的流程示意图;
图2为本发明的分布式、异构地学数据资源获取的流程示意图;
图3为本发明的数据库连接信息串向导式生成界面示意图;
图4为本发明的地学元数据在线汇交界面示意图;
图5为本发明的地学数据服务在线汇交界面示意图;
图6为本发明的分布式、异构地学数据资源共享装置示意图。
【具体实施方式】
下面结合附图和具体实施例对本发明做详细的描述,以进一步了解本发明之目的、方案及功效,但所附图式并非用于限定本发明,本发明的保护范围以所附权利要求书请求保护的范围为准。
本发明的基本思想是:通过元数据和数据服务两个层次对分布式、异构地学数据资源进行抽象和对外发布。利用元数据和数据服务相结合的方法,使得数据使用者能够对地理位置分布、数据格式和存储形式不同的地学数据资源进行透明访问。具体实施分两个过程:地学数据资源发布过程和地学数据资源获取过程。图1为本发明的分布式、异构地学数据资源发布的流程示意图,图2是本发明的分布式、异构地学数据资源获取的流程示意图。以下将结合图1、图2对本发明实现分布式、异构地学数据资源共享访问包含的两个过程进行详细的说明。
图1所示的分布式、异构地学数据资源发布的流程,包括以下几个实施步骤:
步骤S101:按照设定元数据标准通过预设界面进行元数据汇交。
在实际应用中,数据提供者可以网络在线通过预设界面按照设定地学元数据标准填写各个元数据项或者是将符合地学元数据标准的XML(ExtensibleMarkup Language,可扩展标识语言)文件直接上传到网站上。地学元数据标准的模式结构采用XML Schema进行定制,地学元数据标准的核心元数据项的模式结构包括:数据集标识信息、内容信息、分发信息、数据质量信息、图示表达目录信息、数据模式信息、元数据维护信息和元数据参考信息。
数据集标识信息包括数据集的名称、数据集创建或发布的日期、数据集摘要、数据集负责方(引用联系方复合元数据,联系方复合元数据结构见后)、数据集格式、数据集本身的语种、字符集、数据集开发的目的、数据集生产与完成情况、表示方式、数据集维护信息、缩略图、数据集内容关键词以及数据集的使用限制信息。
数据集内容信息是对数据集内容的描述信息,包括:数据集所在的资源范围、数据集的分类、空间范围、时间范围等。由于地学研究对象总是在一定的时空范围下产生的,因此,在地学元数据中必须准确描述地学数据集的时空参数,包括数据集的平面范围、垂向范围和时间范围。平面范围包括:数据集的东西经度和南北纬度以及所采用的坐标系统、投影系统、空间分辨率;垂向范围包括:数据集的垂向最小值、最大值,所采用的高程系统;时间范围包括数据集的开始时间和结束时间。
分发信息提供获取数据所需的分发格式、分发者(引用联系方复合元数据)和分发方式的信息。
数据质量信息提供数据集质量的总体评价信息,包括非量化的数据质量信息(数据源、数据处理步骤和方法等)和量化的数据质量报告(评价方法、评价结果、评价人等)。
图示表达目录信息提供为数据集图示表达而规定的编目规则信息。
数据模式信息提供有关数据集物理模式的信息。
元数据维护信息提供有关元数据的更新频率以及更新范围的信息。
元数据参考信息指所利用的元数据标准及其元数据语种、字符、创建者等方面相关的参考信息,包括:元数据的唯一标识、元数据的语种、元数据字符集、元数据的联系方(引用联系方复合元数据)、元数据创建日期以及元数据标准名称和版本信息。
联系方复合元数据规定了联系方的具体联系人及其联系方式,可被地学元数据标准中的多个模块调用,具体包括:负责人姓名、负责单位名、负责人职务、负责方联系信息(电话、地址、在线资源、服务时间、联系方法)和负责方职责。
完成元数据汇交后,系统将根据地学元数据标准的结构,自动对汇交元数据是否缺项、各元数据的类型、最大、最小值、是否在枚举范围中等进行有效性检验,通过有效性检验的元数据直接进入元数据库,否则提示数据提供者重新修改元数据。
由于地学元数据结构比较复杂,数据项之间可以嵌套,而且某些数据项可以重复,如不同的模块中都有联系人信息。因此,如果采用传统的关系数据库来存储元数据的话,会存在如下问题:数据库表之间难以反映出元数据中不同数据项之间的关联关系;难以将元数据元素一一映射为数据库表字段,即使映射了也造成数据库表极其复杂;如果将元素与表字段一一对应的话,很难适应元数据的扩展。每次扩展后,都得更改数据库表结构。为了解决上述问题,本发明采用XML混合数据库来存储元数据。在XML混合数据库中一条元数据对应一条记录,元数据内容分为两部分进行保存。第一部分为常用的元数据项(如数据集名称、关键词、所属学科等)单独提取出来以关系数据库表字段的形式存储,便于用户的快速检索查询;第二部分是更精细的元数据信息以整个文档为单位用XML的形式保存在数据库的大对象字段中。
步骤S102:根据数据资源的格式和存储形式进行数据服务汇交。
数据提供者根据数据资源的格式和存储形式,发布不同的数据服务。数据服务的结构描述文件如下:
<?xml version=″1.0″encoding=″UTF-8″?>
<xs:schema xmlns:xs=″http://www.w3.org/2001/XMLSchema″
elementFormDefault=″qualified″attributeFormDefault=″unqualified″>
<xs:element name=″DataService″>
<xs:annotation>
<xs:documentation>Comment describing your root element</xs:documentation>
</xs:annotation>
<xs:complexType>
<xs:sequence>
<xs:element name=″ServiceType″/>
<xs:element name=″ServiceName″/>
<xs:element name=″ServiceParams″>
<xs:complexType>
<xs:sequence>
<xs:element name=″ServiceParam″maxOccurs=″unbounded″>
<xs:complexType>
<xs:sequence>
<xs:element name=″ParamName″/>
<xs:element name=″ParamValue″/>
</xs:sequence>
</xs:complexType>
</xs:element>
</xs:sequence>
</xs:complexType>
</xs:element>
<xs:element name=″ServiceDesc″minOccurs=″0″/>
</xs:sequence>
</xs:complexType>
</xs:element>
</xs:schema>
本发明支持的数据服务类型包括五种:文件服务、数据库服务、FTP服务、地理信息服务、HTTP服务。
文件服务专门针对文件数据,其参数包括:服务的标题、文件的地址及文件名。当数据提供者填写完文件服务参数时,系统自动将指定的文件上传到服务器,并把文件服务记录保存到数据库中。
FTP服务针对已经存放在FTP服务器中的数据资源,其参数包括:服务的标题、FTP服务器地址、端口、路径、访问FTP的用户名和密码。数据提供者填写完参数后,可以点击测试连接,当场测试该FTP是否可以访问。
HTTP服务针对已经被制作成网页或基于网络的查询系统的数据资源,其参数包括:服务的标题和HTTP的URL。数据提供者填写完参数后,可以点击测试连接,当场测试该HTTP服务是否可以访问。
数据库服务针对已经存放在网络数据库并且可以对外访问的数据资源,其参数包括:服务的标题、连接信息串、数据库类型、SQL查询语句或表名、访问数据库的用户名、密码。连接信息串是指不同类型的数据库访问驱动,本发明目前支持的数据库类型包括Oracle数据库、SQLServer数据库和MySQL数据库。连接信息串通过向导式的形式(如图4)帮助用户自动用成,用户需要填写服务器地址、端口和服务名或数据库名,如生成的Oracle连接信息串为:jdbc:oracle:thin:@192.168.1.1:1521:orcl,192.168.1.1为服务器地址、1521为端口号、orcl为服务名。对在线数据库的访问可以是一个完整的表也可以是一条SQL语句查询表中符合条件的部分记录,注意本发明的数据库服务不提供跨表查询。数据提供者填写完参数后,可以点击测试连接,当场测试该数据库服务是否可以访问。
地理信息服务针对空间矢量和栅格数据,其参数包括:服务的标题、地理信息服务的URL、地图名称、服务类型。本发明支持的地理信息服务包括OGC(Open Geospatial Consortium,开放地理空间协会)的WMS(Web Map Service,网络地图服务)规范,ESRI(Environment System Research Institute)公司的ArcIMS服务以及本发明创造的GeoMap服务。如果是WMS服务,只需要填写URL不需要填写地图名称参数,如:WMS服务的URL地址http://159.226.111.21/WebGIS/wms.aspx?MAP=Region;ArcIMS服务和GeoMap服务除了URL地址外,还得填写地图名称参数。ArcIMS的URL是指ArcIMS服务的地址,如:http://159.226.111.21:5300,地图名称是指ArcIMS的AXL文件的名称;GeoMap服务是由本发明创造的,在GeoMap中一个地图服务由地图名称、创建日期、创建作者、地图服务摘要、描述、地图服务空间范围以及核心的图层集组成。图层集由一系列的图层要素构成,图层要素包括图层的名称、图层的日期、图层类型、图层的可见性、图层注释、图层渲染方式、最小可见的比例尺分母以及最大可见的比例尺分母。GeoMap支持的地学空间数据格式包括:矢量的Shapefile格式,栅格的ESRI Grid格式,以其ArcSDE支持的矢量和栅格格式的空间数据。GeoMap服务器端遵循OGC WMS规范,在.NET环境下,利用ArcEngine实现WMS的GetCapabilities操作、GetMap操作,同时增加了MapList操作、DescriptMap操作、ExtractMap操作。MapList操作主要是枚举出地理信息服务器中提供的地图服务;DescriptMap操作返回地图服务的详细信息;ExtractMap按用户指定的范围剪切空间数据,可以对用户指定的图层进行剪切。
步骤S103:将数据服务与元数据进行绑定。
在实际应用中,一条元数据可以绑定多个数据服务。数据服务与元数据的绑定主要是通过元数据的ID进行的。比如说:数据提供者发布了一条“中国2000年土地利用现状元数据”,由于该数据集是矢量格式的空间数据,因此,在发布数据服务时,数据提供者可以将整个数据集作为文件的形式发布成文件服务“中国2000年土地利用现状文件服务”,也可以将土地利用现状数据做成地图通过ArcIMS或GeoMap对外发布成可访问的“中国2000年土地利用现状地理信息服务”,在元数据与数据服务绑定时,这条元数据就可以同时与“中国2000年土地利用现状文件服务”和“中国2000年土地利用现状地理信息服务”绑定。
步骤S104:对审查通过的发布元数据和数据服务进行发布。
系统根据预定标准对汇交的元数据、数据服务的完整性、规范性以及安全性进行审查,审查通过后对外发布,否则返回数据提供者。
为了保障数据资源的可获取性,数据提供者不能直接删除已经对外发布的元数据和数据服务,但可以提供删除请求,经审核确定后才能删除。
图2所示的分布式、异构地学数据资源获取的流程,包括以下几个实施步骤:
步骤S201:通过设定界面搜索所需的地学元数据。
地学元数据搜索界面可以设定三种方式:一是简单搜索界面,只需要输入检索的关键词,根据需要可以选择检索结果的排序方式和每页显示的条数;二是高级搜索界面,可以选择不同的检索项组成复杂的检索条件进行搜索,包括数据集的名称、关键词、摘要、数据集提交人以及发布时间等。三是区域搜索界面,利用网络地理信息系统(WebGIS)的功能,可以在地图上拉框选择想要搜索的区域,系统自动把选择到的区域列出来,用户可以进一步在空间搜索区域结果中选择自己想要搜索的区域,同时输入查询的主题关键词,即提供一种基于区域的主题关键词搜索方式。
步骤202:通过上述搜索步骤确定查询到所需的地学元数据信息,则可进行数据访问服务;
数据使用者查看元数据列表,点击浏览元数据详细信息。判断是否符合自己的需要,如果符合,进入步骤203,否则返回步骤201重新进行元数据的搜索。
步骤203:进入数据访问后,系统自动列出该所需的地学元数据对应的数据服务列表;
系统通过显著的图标区分数据服务的类型。如前述的步骤103所述,如果一条元数据绑定了若干数据服务时,此时所有的数据服务都能看到。比如在步骤103中将“中国2000年土地利用现状元数据”与“中国2000年土地利用现状文件服务”和“中国2000年土地利用现状地理信息服务”进行了绑定,此时用户就可以看到这两个服务。
步骤204:根据数据服务列表访问所需数据服务。
点击具体的数据服务,系统可以要求数据使用者登录,判断使用者是否具有访问该数据的权限。
步骤205:获取地学数据资源。
系统根据数据服务的类型,如果是文件服务则提供数据资源的直接下载;
如果是FTP服务则直接导航到指定的FTP目录下,供用户下载相应的数据文件;如果是HTTP服务直接导航到HTTP指定的页面中,根据HTTP页面的实际情况查询、浏览或下载具体的数据;如果是数据库服务则根据数据库服务的连接参数,直接浏览指定的数据库表数据或根据SQL查询条件查询出相应的数据;如果是地理信息服务则调用本发明创造的统一地理空间数据浏览工具,提供在线的地理空间数据的浏览操作和剪切打包下载。
统一地理空间数据浏览工具采用Java语言,用JSP编写Web页面,Tomcat作为JSP运行环境,Axis作为Web Services支持环境。支持对ArcIMS、GeoMap和WMS等WebGIS服务的统一操作浏览。统一地理空间数据浏览工具提供的功能包括:分布式地理空间图层(必须是前述规定的ArcIMS、GeoMap和WMS三种服务中的图层)的添加、删除、图层顺序调整,地图的放大、缩小、漫游、全图查看以及剪切下载(用户指定区域范围,系统自动将该区域剪切打包下载给用户)。
参考图6,本发明还提供了一种实现上述方法的装置,包括:地学数据资源发布系统10和地学数据资源访问系统20,地学数据资源发布系统10进一步包括:一元数据汇交模块101,用于按照设定的地学元数据标准通过预设界面汇交地学元数据;一数据服务汇交模块102,用于根据数据资源的格式和存储形式汇交相应该地学元数据的数据服务;一数据服务绑定模块103,用于将地学数据服务绑定到对应的地学元数据;一数据资源发布模块104,用于对外发布经过绑定的地学元数据和数据服务。一审验模块105,用于根据地学元数据标准的结构自动对汇交元数据进行有效性检验。 进一步的,该元数据汇交模块101进一步包括一元数据汇交界面单元1011,用于进行地学元数据的在线汇交。该数据服务汇交模块102也包括一数据服务汇交界面单元1021,用于进行地学数据服务的在线汇交。
地学数据资源访问系统20进一步包括:搜索模块201,用于通过设定界面搜索所需的地学元数据;数据访问单元202,用于在确定查询到所需的地学元数据信息,进行数据访问服务;数据获取单元203,用在进行地学元数据访问时,根据需要获取所需元数据。该搜索模块201进一步包括简单搜索界面单元2011,用于只需要输入检索的关键词即可进行搜索;高级搜索界面单元2012,该界面单元可以选择不同的检索项组成复杂的检索条件进行搜索;区域搜索界面单元2013,用于利用WebGIS的功能,可以在地图上拉框选择想要搜索的区域,系统自动把选择到的区域列出来,用户可以进一步在空间搜索区域结果中选择自己想要搜索的区域,同时输入查询的主题关键词,即提供一种基于区域的主题关键词搜索界面。该数据访问单元202进一步包括数据服务列表生成单元2021,用于自动生成所需的地学元数据对应的数据服务列表,以备进行具体数据服务访问。
虽然本发明已以较佳实施例揭露如上,然其并非用以限定本发明,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。