书签 分享 收藏 举报 版权申诉 / 23

图书机读目录的转换方法.pdf

  • 上传人:a2
  • 文档编号:505540
  • 上传时间:2018-02-19
  • 格式:PDF
  • 页数:23
  • 大小:892.47KB
  • 摘要
    申请专利号:

    CN200410066445.6

    申请日:

    2004.09.16

    公开号:

    CN1588362A

    公开日:

    2005.03.02

    当前法律状态:

    终止

    有效性:

    无权

    法律详情:

    专利权的视为放弃|||实质审查的生效|||公开

    IPC分类号:

    G06F17/30

    主分类号:

    G06F17/30

    申请人:

    卢利华;

    发明人:

    卢利华

    地址:

    315211浙江省宁波市镇海庄市宁大宿舍16号楼418室

    优先权:

    专利代理机构:

    宁波天一专利代理有限公司

    代理人:

    杨高

    PDF完整版下载: PDF下载
    内容摘要

    图书机读目录的转换方法,通过对机读目录格式进行分析和编码,建立输出库的输出表,生成输出表的结构分析,产生机读目录元数据与输出表字段连接关系表,选择元数据和判别方法、设计关键字和权值产生条件判断表,读取一条机读目录,生成字段元数据,取得对应元数据值,比较总权植乘以模糊度同有效权值关系,根据比较结果产生已连接元数据的值并保存在特色数据库中,本系统能自动读取机读目录,自动进行线型转换成关系型的循环,转换完成后生成的关系型数据库具有易于发布、检索速度快,可按各个字段检索的优点。

    权利要求书

    1、  图书机读目录的转换方法,其特征在于包含以下步骤。
    a、对中国机读目录格式的字段、子字段、指示符和定长信息进行编码,生成编码结果;
    b、指定某个关系型数据库作为转换的输出库,选择输出库中的某个表作为输出表,对输出表的结构进行分析,生成输出表的分析结果;
    c、根据步骤b产生的输出表的分析结果和步骤a产生的编码结果,生成机读目录元数据与输出表字段连接关系表;
    d、根据步骤a的编码结果,通过选择元数据和判别方法、设计关键字和权值,生成条件判断表;
    e、读取一条机读目录,生成基于字段元数据的分析结果;
    f、根据步骤d生成的条件判断表,查询步骤e生成的字段元数据分析结果,取得对应元数据值,根据查询返回的值与关键字的关系进行条件判断和计算有效权值;
    g、根据步骤f生成的判断结果,比较总权值乘以模糊度同有效权值关系,返回条件判别结果;
    h、根据步骤c生成的字段连接关系表,结合步骤e生成的字段元数据的分析结果,返回对应的元数据值,生成已连接元数据的元数据值表;
    i、参见步骤b生成的输出表的分析结果和步骤c生成的字段连接关系表,将步骤h生成的已连接元数据值表,保存元数据值到特色库中;
    j、判断机读目录记录是否转换结束,如果结束,则转换结束;否则,返回到步骤e,进行下一条机读目录的转换。

    2、
      根据权利要求1所述的图书机读目录的转换方法,其特征是图书馆的图书信息管理员应用机读目录转换方法的操作步骤如下:
    ①、指定某个关系型数据库作为转换的输出库,选择输出库中的某个表作为输出表,然后系统对指定的输出表的结构进行分析;
    ②、根据步骤①产生的输出表的分析结果和系统已存贮的编码结果生成机读目录元数据与输出表字段的连接关系表;
    ③、根据系统已存贮的编码结果,通过选择元数据和判别方法、设计关键字和权值,生成条件判断表;
    ④、在系统进行了①②和③基础上自动读取一条机读目录自动完成转换,进行自动循环机读目录读取和转换。

    说明书

    图书机读目录的转换方法
    技术领域
    本发明涉及利用计算机技术,对图书机读目录进行自动化二次加工,建立特色资源库的装备及其方法。
    背景技术
    “CNMARC”全称“中国机读目录格式”。缘于上个世纪80年代末90年代初,我国图书馆的书目数据大多以FOX系列的数据库格式进行管理。因此馆与馆之间书目数据不能共享,要进行交流,必须将书目数据的格式统一,即将原数据库的数据改进或转化成能相互交流的统一格式。出于这种考虑,文化部于1996年2月6日发布中国机读目录格式,并于同年7月实施这种国家标准格式,是一种线性数据库。
    在图书馆信息化管理中,基于国家标准的MARC记录已成为实体书本的衍生,是一种虚拟的图书,替代实体成为信息自动化管理的主体。每条MARC存储1K字节左右的信息,记录一本实体图书的各种属性和基本内容。大中型图书馆几十万甚至上百万数量级的印刷图书资源,在计算机里表现为这种MARC记录的数据库,成为一个虚拟的电子资源库。因为在格式上的统一性,可实现在网络上的联机查询和书目的交换。
    然而,这种线性关系的Marc格式记录在实际的使用中存在一些问题:
    不易于发布。如果从Marc库中提取出某学科、某主题、某类型的特定的Marc记录组成特色Marc库,这时,这些特色Marc库里的Marc记录,因为是线性格式,就存在发布困难的问题。当前图书馆行业发布Marc记录库主要是依赖联机检索系统,简称“OPAC”,OPAC只是按照位置顺序对Marc库里的全部Marc记录逐条检索,不适合也无法单独发布特色库资源。这时寻找一种通用的易于发布各种特色Marc库资源的方法就成了必需;
    检索速度慢。因为Marc记录是线性格式,记录间存放位置没有严格的关于检索点的索引关系,检索的速度相对于关系型数据库(可设置各种索引)较慢,当返回满足条件的记录数越多,这种现象越明显。OPAC为了弥补这方面缺陷,常有最大返回行数设置;
    检索点少。同样,因为Marc格式记录是线性格式,为了检索只能设置了一些最常用的检索点,如出版社、主题、作者、题名等,这些检索点并不能满足全部要求,例如要检索所有关于专利文献的资料,105字段的a子字段中内容特征代码k表示专利文献,但对于Marc记录,因为105不是检索点,所以OPAC不能直接检索105字段的a子字段中的内容特征代码。
    目前图书馆对印刷型书刊的CNMARC书目进行二次筛选、加工,来创建特色资源库,图书馆信息管理员通过OPAC检索到满足要求的记录,或者用编目工具检索满足要求的Marc记录,将Marc记录逐条翻译,添加到关系型数据库中,形成关系型特色库,这是一种手工转换模式。实践表明,这种传统作业模式使得特色资源的开发工作为此作出了高昂的费用和大量的作业时间,成为图书馆行业深层次资源开发工作的桎梏,图书馆行业迫切需要能实现自动化作业的新技术的出现。
    目前图书馆行业主要问题是对现有的馆藏资源的深层次的开发利用不够,图书馆工作重心正在转向信息资源的二三次加工利用上,特色数据库信息资源的建设成为当前迫切的需要,尤其目前高等院校图书馆充分利用馆藏资源的优势,开发特色专业的信息资源,包括科研成果、学术论文、专利成果、及针对特定需求的各类专题、专业数据库、并使其标准化和规范化,推向市场,提供更高水平的信息服务。这种特色馆藏已成为衡量图书馆信息服务水平的重要性指标。
    当前图书馆特色资源主要是印刷型书籍的CNMARC信息转换而来,信息管理员通过搜寻得到满足要求的CNMARC记录,再将CNMARC逐条翻译,手工存放到关系型特色库中。因此图书馆行业迫切需要有便捷的自动转换工具的出现来提高作业的效率,使管理人员从重复的劳动和内部工作中解脱出来,为读者提供更丰富、更深层次的信息服务。
    图书机读目录转换系统的应用,使得馆藏资源二、三次加工利用实现了全面的自动化。只要通过计算机简单的操作就能实现特色资源建库作业的任务。这一技术必将替代手工作业,成为推动图书馆行业进一步快速健康发展的工具。
    发明内容
    图书机读目录转换系统作为一种自动建库工具,是基于CNMARC这种国家标准上实现的,在图书馆行业可以作为一种通用作业工具使用。在从线性Marc库到关系性数据库的转化中,解决了线性Marc不易于发布、检索速度慢、检索点少的缺点,同时把图书信息管理员从繁重的手工工作中解脱出来,从而为读者提供更丰富、更深层次的信息服务。同时,从图书馆行业发展来看,这一系统地出现为目前图书馆行业良好发展提供了一个支持平台,基于这种自动化管理,图书馆对信息资源的深层次特色资源的开发,变得轻松、快速。
    本发明采用下述技术方案实现上述目标:
    图书机读目录的转换方法,其特征在于包含以下步骤。
    a、对中国机读目录格式的字段、子字段、指示符和定长信息进行编码,生成编码结果;
    b、指定某个关系型数据库作为转换的输出库,选择输出库中的某个表作为输出表,对输出表的结构进行分析,生成输出表的分析结果;
    c、根据步骤b产生的输出表的分析结果和步骤a产生的编码结果,生成机读目录元数据与输出表字段连接关系表;
    d、根据步骤a的编码结果,通过选择元数据和判别方法、设计关键字和权值,生成条件判断表;
    e、读取一条机读目录,生成基于字段元数据的分析结果;
    f、根据步骤d生成的条件判断表,查询步骤e生成的字段元数据分析结果,取得对应元数据值,根据查询返回的值与关键字的关系进行条件判断和计算有效权值;
    g、根据步骤f生成的判断结果,比较总权值乘以模糊度同有效权值关系,返回条件判别结果;
    h、根据步骤c生成的字段连接关系表,结合步骤e生成的字段元数据的分析结果,返回对应的元数据值,生成已连接元数据的元数据值表;
    i、参见步骤b生成的输出表的分析结果和步骤c生成的字段连接关系表,将步骤h生成的已连接元数据值表,保存元数据值到特色库中;
    j、判断机读目录记录是否转换结束,如果结束,则转换结束;否则,返回到步骤e,进行下一条机读目录的转换。
    上述图书机读目录转换系统的输入装置可以是微电脑用的输入键盘和鼠标,输出显示设备可以是微电脑显示器,内存16M和磁盘32M。
    以上是中国图书机读目录从线型转化为关系型的全部步骤,对于图书馆的图书信息管理员来说,在对机读目录格式进行拆分、编码,并将编码结果存贮在转换系统之后,应用机读目录转换方法的操作步骤如下:
    ①、指定某个关系型数据库作为转换的输出库,选择输出库中的某个表作为输出表,然后系统对指定的输出表的结构进行分析;
    ②、根据步骤①产生的输出表的分析结果和系统已存贮的编码结果生成机读目录元数据与输出表字段的连接关系表;
    ③、根据系统已存贮的编码结果,通过选择元数据和判别方法、设计关键字和权值,生成条件判断表;
    ④、在系统进行了①②和③基础上自动读取一条机读目录自动完成转换,进行自动循环机读目录读取和转换。
    转换完成自生成的输出库属于关系型数据库,关系型数据库具有易于发布、检索速度快,可按各个字段检索,这是大家出认的关系型数据库的优点。
    附图说明
    图1、机读目录转化系统结构框图。
    图2、机读目录转化方法流程图。
    图3、机读目录元数据与输出表字段的连接图,其中表1为机读目录字段分析表,表2为元数据连接关系表。
    图4、机读目录的判定条件设置流程,其中表3为判定条件设置表。
    图5、输出表的字段逻辑结构。
    图6、输出表的字段分析结果,与图3表1相对应。
    图7、机读目录元数据与输出表字段的连接关系,与图3表2相对应。
    图8、有标记位的输出表字段分析结果。
    图9、元数据的条件关系表,与图4表3相对应。
    图10、一条中国机读目录样例。
    图11、字段元数据值。
    图12、基于元数据的条件项判断结果。
    图13、已连接元数据值表。
    图14、特色库当中的一条记录。
    Marc,中国机读目录格式的简称。
    Marc字段、子字段、指示符和定长信息是中国机读目录格式不同的功能单位。一条机读目录有若干个字段组成;一个字段一般由若干个子字段和两个指示符组成;或者一个字段由字长信息组成;子字段分为固定长度子字段和非固定长度子字段,固定长度子字段有固定长度,由若干个定长信息组成,可以把固定长度子字段划分若干个定长信息,非固定长度子字段是不可划分的。
    元数据,是对中国机读目录格式中,字段、子字段、指示符和定长信息的统称。
    编码规则:
    字段元数据编码格式为“CN###Field”,“###”表示字段号、例如“CN001 Field”表示001字段。
    子字段元数据编码格式为“CN###%”,“###”表示字段号,“%”表示字段号,例如“CN100a”表示100字段的a子字段。
    指示符号元数据编码格式为“CN###%”,“###”表示字段号,“%”表示1或2,例如“CN1001”表示100字段的第1指示符。
    定长信息的编码(省略)。
    输出库,是保存经转换系统处理后的元数据值的关系型数据库。
    输出表,是输出库具体保存元数据值的表。
    具体实施方式
    图1所示为本发明所说的系统硬件至少的配置,其中转换控制器的CPU至少是奔II芯片及其相配套的主板,内存至少16兆,以及相适应的显示器、键盘和鼠标。
    在图2流程图中,引用记号“S1”指示“输出库结构分析、与机读目录元数据的连接登记”步骤,该步骤对输出库结构进行分析,在此基础上配置输出库字段与机读目录元数据的连接关系。“S2”指示“指定检索判断条件项”,该步骤设置检索条件,满足此检索条件的机读目录才能被转换。“S3”指示“指定机读目录存放的路径”,该步骤指定机读目录库存放的位置。引用“S4”指示“读取、分析一条机读目录”,该步骤从“S3”步骤指定的位置取得一条机读目录,并分析此机读目录,根据机读目录格式,拆分为字段元数据组。“S5”指示条件判断处理步骤,判断各条件项是否成立。“S6”指示条件满足判断步骤,当有效权值大于等于总权值乘以模糊度时,条件有效,当有效权值小于总权值乘以模糊度时,条件无效。“S7”指示当“S6”条件满足时,根据“S1”配置的输出表字段与机读目录字段的连接关系,取得对应的元数据值。“S8”指示把在“S7”取得的相应元数据值保存到对应输出表字段。“S9”指示一个目录结构语句判断步骤,该步骤判别“S3”步骤指定的路径上,机读目录记录是否结束。如果结束,则终止;否则,跳回到步骤“S4”。
    图3说明前叙的图2中的“S1”步骤输出库结构分析与机读目录元数据的连接登记的细节。在图3中,引用记号“S11”指示指定输出库和输出库的连接属性步骤,该步骤指定输出库的路径、连接用户名、密码等属性。“S12”指示指定输出表步骤,该步骤指定要输出元数据值到库中的表。“S13”指示分析输出表结构步骤,该步骤对输出库中的输出表进行结构分析,包括字段名、必备性、类型、长度、默认值、允许零长度属性。引用符号“S14”指示字段登记,该步骤登记字段各个属性到表1:字段名、必备性、类型、长度、默认值、允许零长度,标记位暂为空,表1指示输出库字段属性表,该表包括输出表的各字段属性。“S15”指示指定输出表字段与机读目录元数据连接步骤,该步骤配置输出表字段与机读目录元数据的连接关系。“S16”指示登记连接关系步骤,该步骤把在“S15”配置的连接关系登记到表2,同时在表1中设置标记位。表2指示字段连接关系表,格式:字段引用编号    元数据,字段引用编号对应表1中的标号列中的某个数字表示,元数据表示机读目录元数据的唯一标记。
    图4说明前叙的图2中的“S2”步骤指定检索判断条件项的细节。在图4中引用记号“S21”指示选择基于条件判断的元数据并登记元数据到表3的元数据列。表3表示用于登记条件判断的表。引用记号“S22”指示登记判别方法步骤,该步骤登记条件判别方式到表3的判别方式列。引用记号“S23”指示登记关键字步骤,该步骤登记关键字到表3的关键字列。引用记号“S24”指示设置权值步骤,该步骤登记权值到表3的权值列。引用记号“S25”指示是否设置多重条件。引用记号“S26”指示设置模糊度。
    参考图2、图3和图4详细描述各步骤的操作。
    已有设计好的关系型数据库,例如“示例库”,“示例库”中有“示例表”。
    在图3的“S11”步骤中指定“示例库”为输出库,同时登记“示例库”的连接属性,如连接密码、用户名等。在“S12”中指定“示例表”为输出表。图5表示输出表“示例表”的逻辑结构。此例的输出库采用“Access”格式,“Access”格式的关系型数据库与其他格式的关系型数据库,如“SQL Server”,“Oracle”,转化非常方便。
    接着,在“S13”步骤中分析输出表“示例表”的逻辑结构,并在“S14”步骤中,登记到表1中。表1的格式:编号指示登记输出表中字段属性时产生的表示字段的唯一数字表示;字段名指示输出表中字段名称;必备性指示输出表中的字段是否必备,逻辑表示(是/否);类型指示输出表中的字段的类型,数字表示,如:字符型为10;长度指示输出表中的字段的允许的最长长度,数字表示;默认值指示输出表中的字段的默认值,如没有则为空;允许零长度指示输出表中的字段是否用“NULL”填入,逻辑表示(是/否);标记位在“S14”步骤全部为空,在后面的“S16“步骤中修改。“S14”步骤的登记结果,在图6中表示。例如:“示例表”中的字段“F005”,登记结果为:编号---470、字段名---F005、必备性---false、类型---10、长度---50、默认值---(空)、允许零长度---false、标记位---    。
    在“S15”步骤中指定输出表字段与机读目录元数据连接关系,并在“S16”步骤中,登记连接关系到表2中。登记结果在图7中显示。表2的格式:“字段引用编号”的值对应步骤“S14”中登记的结果图6的编号列中的某个数字表示,如图7中连接关系项:字段引用编号---470、元数据---CN005Field,字段引用编号为470,对应图6中的第三项:字段名为F005的数字表示470;“元数据”指示表示元数据的关键字,如图7中连接关系项:字段引用编号---470、元数据---CN005Field,CN005Field是字段元数据005的关键字。又如:如图7中连接关系项:字段引用编号---483、元数据---CN100Date,CN100Date指示100字段的日期定长信息元数据,483指示“示例表”的字段“记录生成日期”的数字表示,通过这条连接关系项,表示要把100字段的日期定长信息存放到“示例表”的字段“记录生成日期”中去。
    同时在“S16”步骤中修改在“S14”步骤生成的图6中的标记位信息。具体步骤如下:CN001Field指示字段元数据001,字段001表示机读目录格式中唯一标识的流水号;在图7中检索元数据值为CN001Field的连接项,找到第一项,对应的字段引用编号为469;在图6中检索编号为469的项,找到第二项,修改第二项的标记为true。标记位作用,在保存机读目录元数据时,对具有标记位标记的字段进行检索,判断输出库中是否有相同信息。修改后结果在图8中显示。
    在图4的“S21”中登记元数据关键字,“S22”中登记条件判别方法,“S23”中登记条件关键字,“S24”中登记条件权值。登记后的结构保存在表3中,表3的格式:元数据指示元数据的关键词;判别方式指示条件判别方式,有7种方式:有(用数字1表示)、包含(用数字2表示)、相等(用数字3表示)、不相等(用数字4表示)、大于等于(用数字5表示)、小于(用数字6表示)、介于(用数字7表示);关键字指示检索判断时的关键词语;权值指示条件项的权;元数据值指示在机读目录记录中取得的对应的元数据值;满足,逻辑型,指示条件项是否成立。结果在图9中显示。例如,图9中,条件项:元数据---CN100Date、判别方式---5、关键字---2000、权值---1,CN100Date表示字段100的生成日期字长信息元数据,5表示判别方法大于等于,2000表示检索关键字,权为1,这条条件项表示检索满足条件生成日期大于(等于)2000年的机读目录。又如,图9中,条件项:元数据---CN210C、判别方式---3、关键字---科技出版社、权值---1,CN210C表示字段210的子字段出版、发行者名称,3表示判别方法相等,科技出版社表示检索关键词,权为1,这条条件项表示检索满足条件出版社为科技出版社的机读目录。
    在“S26”步骤中设置模糊度。如:设置模糊度为0.4。
    在“S3”中指定机读目录存放的路径。
    在“S4”步骤读取一条机读目录,样例在图10中显示。分析此记录,以字段元数据为基础,进行拆分,结果在图11中显示。图11格式:Marc字段指示Marc字段名称(000字段表示头标区);Marc字段值指示Marc机读目录中Marc字段对应的值。例如,字段项:Marc字段---005、Marc字段值---20020610154816.5,表示005字段的值为20020610154816.5。又如,字段项:Marc字段---100、Marc字段值---a20020604g2002 em yochiy0120 ea,表示100字段的值为a20020604g2002 em yochiy0120 ea。
    在“S5”步骤中进行条件判断处理。该步骤处理过程:根据的图9条件关系表,由元数据列的元数据名,通过元数据名称规则,从图11中,取得对应的元数据值,存放到图12的元数据值列中,比较图12中的关键字列与元数据值列是否满足判别方式列中的关系,如果满足条件,图12中的满足列填是,否则填否。该步骤处理后的结果在图12中显示。例如,图12中的第一项,“字段名称---CN100Date、判别方式---5、关键字---2000、权值---1、元数据值---20020604、满足---是”,CN100Date表示字段100的时间定长信息,根据元数据名称规则,从图11取得返回值为20020604,存放到元数据值列中,列关键字中的值等于2000,所以此条条件项成立,在满足列中填是;又如,图12中的第二项,“字段名称---CN210C、判别方式---3、关键字---科技出版社、权值---1、元数据值---满足---否”,CN210C表示字段210的出版者信息,根据元数据名称规则,从图11取得返回值为百花文艺出版社,存放到元数据值列中,列关键字中的值百花文艺出版社不为科技出版社,所以此条条件项不成立,在满足列中填“否“。
    “S6“步骤比较判断结果,比较有效权值同(总权*模糊度)关系,当有效权值大于等于(总权*模糊度)时,当前记录满足条件;当有效权值小于(总权*模糊度)时,当前记录不满足条件。总权的计算方法:基于条件项不同的字段名称,将对应的权值进行累加。例如,在“S26”中模糊度设置为0.4,图12中有3个条件项,第二条件项“CN210C 3科技出版社 1”与第三条件项“CN210C 3百花文艺出版社1”的元数据名称相同,是“或”关系,指示检索出版社为科技出版社或百花文艺出版社,这两个条件项表示CN210C权值为1。图12的总权为2(CN210C权为1,CN100Date权为1),有效权值为2(第一条满足,权1;第二条不满足,第三条满足,第二、第三条满足“或”关系,只要有一条满足,就指定基于的字段满足),总权*模糊度=0.8,有效权2大于0.8,当前记录满足条件。
    “S7“步骤根据图7的连接关系表,由元数据列中的元数据名,根据元数据的命名规则,从图11的字段元数据表中,返回对应的元数据值,结果在图13中显示。图13表的格式:元数据—指示元数据名,元数据值—指示存放返回的元数据值。例如,图7中的字段引用编号为479项,元数据为CN606Field,根据命名规则,从图11的字段元数据中取得的元数据为606的Marc字段的元数据值为“oa古典文学x作品y中国x汉语x英语j对照读物02CT3S026848a古典文学”存放到图13中,元数据为CN606Field、元数据值为oa古典文学x作品y中国x汉语x英语j对照读物。
    “S8”步骤根据图13,图7和图8,利用图8的列名“编号”和图7列名“字段引用编号”,图7列名“元数据”和图13列名“元数据”的对应关系,分别把元数据值放入到输出表对应的字段。例如,一个元数据的存放步骤:根据图8,要存放F001字段,查到对应的字段编号为469,再由图7,查询字段引用编号为469,取得对应的元数据为CN001 Field,再根据图13,查询元数据列为CN001Field的项,取得对应的元数据值为012002046211,结合图8的F001字段的属性,把012002046211存放到输出库的输出表示图8的F001字段。
    “S9”判断是否到结束。如没到结束,返回到S4,转换下一条记录,S8步骤完成在特色库中添加一条记录如图14所示。

    关 键  词:
    图书 目录 转换 方法
      专利查询网所有文档均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    0条评论

    还可以输入200字符

    暂无评论,赶快抢占沙发吧。

    关于本文
    本文标题:图书机读目录的转换方法.pdf
    链接地址:https://www.zhuanlichaxun.net/p-505540.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
    经营许可证编号:粤ICP备2021068784号-1