《用于提取文档结构的方法和装置.pdf》由会员分享,可在线阅读,更多相关《用于提取文档结构的方法和装置.pdf(7页完整版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 102855243 A (43)申请公布日 2013.01.02 C N 1 0 2 8 5 5 2 4 3 A *CN102855243A* (21)申请号 201110179972.8 (22)申请日 2011.06.28 G06F 17/30(2006.01) G06F 17/27(2006.01) (71)申请人北大方正集团有限公司 地址 100871 北京市海淀区成府路298号方 正大厦5层 申请人北京北大方正电子有限公司 (72)发明人曲刚 (74)专利代理机构北京英赛嘉华知识产权代理 有限责任公司 11204 代理人王达佐 (54) 发明名称 用于提取文。
2、档结构的方法和装置 (57) 摘要 本发明提供了一种用于提取文档结构的方 法,包括:获取文档的对象;将对象转换为预定义 的标准格式;识别和标注标准格式的对象内的各 个项;提取所匹配的各个项的内容,以组织成关 于文档的结构化数据。本发明还提供了一种用于 提取文档结构的装置,包括:获取模块,用于获取 文档的对象;转换模块,用于将对象转换为预定 义的标准格式;标引模块,用于识别和标注标准 格式的对象内的各个项;提取模块,用于提取所 匹配的各个项的内容,以组织成关于文档的结构 化数据。本发明达到了提高提取文档结构的效率 的效果。 (51)Int.Cl. 权利要求书1页 说明书3页 附图2页 (19)中。
3、华人民共和国国家知识产权局 (12)发明专利申请 权利要求书 1 页 说明书 3 页 附图 2 页 1/1页 2 1.一种用于提取文档结构的方法,其特征在于,包括: 获取文档的对象; 将所述对象转换为预定义的标准格式; 识别和标注所述标准格式的对象内的各个项; 提取所匹配的各个项的内容,以组织成关于所述文档的结构化数据。 2.根据权利要求1所述的方法,其特征在于,获取文档的对象包括: 获取所述文档内部嵌入的对象和所述文档外部链接的对象。 3.根据权利要求1所述的方法,其特征在于,识别和标注所述标准格式的对象内的各 个项包括: 使用预设的匹配规则匹配所述标准格式的对象,以识别符合所述匹配规则的所。
4、述各个 项; 按照预设的标引规则对所述各个项予以相应地标注。 4.根据权利要求3所述的方法,其特征在于,识别和标注所述标准格式的对象内的各 个项还包括: 提供界面以接受对所述标注的修改。 5.根据权利要求3所述的方法,其特征在于,采用标签和/或内容控件进行标注。 6.根据权利要求5所述的方法,其特征在于,采用XML格式定义所述匹配规则和所述标 引规则。 7.根据权利要求1所述的方法,其特征在于,还包括: 预先将所述文档的版本转换为设置的版本。 8.根据权利要求1至7任一项所述的方法,其特征在于,所述对象包括以下至少之一: 字符、图形、图像、公式和表格。 9.一种用于提取文档结构的装置,其特征在。
5、于,包括: 获取模块,用于获取文档的对象; 转换模块,用于将所述对象转换为预定义的标准格式; 标引模块,用于识别和标注所述标准格式的对象内的各个项; 提取模块,用于提取所匹配的各个项的内容,以组织成关于所述文档的结构化数据。 10.根据权利要求9所述的装置,其特征在于,所述获取模块获取所述文档内部嵌入的 对象和所述文档外部链接的对象。 权 利 要 求 书CN 102855243 A 1/3页 3 用于提取文档结构的方法和装置 技术领域 0001 本发明涉及数字出版领域,具体而言,涉及用于提取文档结构的方法和装置。 背景技术 0002 在传统出版领域,书籍、报刊的文档格式只是为了满足传统印刷的需。
6、求,对于内容 的描述局限于文字、图形、图像的轮廓、颜色、位置等视觉要素,没有构建文档的逻辑内容和 内在关系。在数字出版领域,对文档的逻辑内容、关联关系、内容的颗粒度更为关注,对文档 进行结构化加工是进行数字内容再利用的前提条件。 0003 目前,对文档内容结构化加工的方法主要采用手动加工,加工人员根据预先定义 的规则,肉眼识别文档中符合规则的文档内容,手工填写到自定义的表单中。这种操作方式 效率较低,工作量大,而且容易出错。 0004 还有一种解决方案是采用计算机执行预设的匹配规则识别文档结构。发明人发 现,由于现存的常用文档格式较多,目前的解决方案是对多不同的文档格式采用不同的加 工方法和系。
7、统,操作比较繁琐。 发明内容 0005 本发明旨在提供一种用于提取文档结构的方法和装置,以解决相关技术操作比较 繁琐的问题。 0006 在本发明的实施例中,提供了一种用于提取文档结构的方法,包括:获取文档的对 象;将对象转换为预定义的标准格式;识别和标注标准格式的对象内的各个项;提取所匹 配的各个项的内容,以组织成关于文档的结构化数据。 0007 在本发明的实施例中,提供了一种用于提取文档结构的装置,包括:获取模块,用 于获取文档的对象;转换模块,用于将对象转换为预定义的标准格式;标引模块,用于识别 和标注标准格式的对象内的各个项;提取模块,用于提取所匹配的各个项的内容,以组织成 关于文档的结。
8、构化数据。 0008 本发明上述实施例的用于提取文档结构的方法和装置,因为预先统一了对象的格 式,所以可以执行数据项的自动识别,解决了相关技术操作比较繁琐的问题,达到了提高提 取文档结构的效率的效果。 附图说明 0009 此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发 明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中: 0010 图1示出了根据本发明实施例的用于提取文档结构的方法的流程图; 0011 图2示出了根据本发明优选实施例的用于提取文档结构的方法的流程图; 0012 图3示出了根据本发明实施例的用于提取文档结构的装置的示意图。 说 明。
9、 书CN 102855243 A 2/3页 4 具体实施方式 0013 下面将参考附图并结合实施例,来详细说明本发明。 0014 图1示出了根据本发明实施例的用于提取文档结构的方法的流程图,包括: 0015 步骤S10,获取文档的对象; 0016 步骤S20,将对象转换为预定义的标准格式; 0017 步骤S30,识别和标注标准格式的对象内的各个项; 0018 步骤S40,提取所匹配的各个项的内容,以组织成关于文档的结构化数据。 0019 常用的电子文档有PDF、WORD等各种格式,现有的文档结构识别技术不能同时识 别不同格式的文档中的对象,因此只能对多不同的文档格式采用不同的加工方法和系统, 。
10、操作比较繁琐,工作量大,容易出错。而本实施例中,因为预先统一了对象的格式,在定义统 一的输出格式的基础上,将文档的加工过程规范化,经过多个环节的处理,达到使用同一种 工具和系统即可对多种格式的文档进行结构化,提高了加工速度,规范了输出文档格式,而 且减少了人为出错。 0020 优选地,步骤S10包括:获取文档内部嵌入的对象和文档外部链接的对象。现有的 文档格式比较复杂,不仅将对象嵌入在文档中,还可以在文档中仅仅包含对象的链接地址。 本优选实施例通过获取文档内部嵌入的对象和文档外部链接的对象,从而可以确保不遗漏 对象。 0021 优选地,步骤S20包括:使用预设的匹配规则匹配标准格式的对象,以识。
11、别符合匹 配规则的各个项;按照预设的标引规则对各个项予以相应地标注。通过设置匹配规则和标 引规则,从而可以很容易地通过计算机编程来执行这些规则,使得操作自动化。 0022 优选地,步骤S20还包括:提供界面以接受对标注的修改。因为文档内容的高度复 杂,所以计算机自动识别和标注的内容有可能不准确,本优选实施例通过提供人机交互的 界面,可以人工地修正错误,予以补充。 0023 优选地,采用标签和/或内容控件进行标注。这是比较常用的标注方式,容易实 现。 0024 优选地,采用XML格式定义匹配规则和标引规则。XML是标准的结构化语言,用于 定义匹配规则和标引规则比较容易实现。 0025 优选地,本。
12、方法还包括:预先将文档的版本转换为设置的版本。目前,即使是同一 格式的文档,往往因为版本的不同也会导致不能处理。例如WORD 2003和WORD 2007就有 较大的区别。通常各种软件的版本是向上兼容的,即高版本可以兼容低版本。因此可以预 先将所有不同格式的文档的版本都统一转换为该格式的最高版本。 0026 优选地,对象包括以下至少之一:字符、图形、图像、公式和表格。这些都是常用的 对象,本优选实施例通过处理这些对象,可以应用于绝大多数场景。 0027 图2示出了根据本发明优选实施例的用于提取文档结构的方法的流程图,包括以 下步骤: 0028 (1)对待加工的文档进行预处理,包括收集文档中的字。
13、符、图形、图像、公式、表格 等文档内部嵌入的对象数据和文档外部链接的对象数据,分类编号存储;还可以对文档的 版本进行归一化处理,将同一类型文档的不同版本处理为同一版本,例如,常用的办公软 件,由于软件版本不同,其生成的文档的版本也不相同,为了简化处理,将低版本的文档转 说 明 书CN 102855243 A 3/3页 5 换为高版本的文档。 0029 (2)对文档预处理后的数据进行规范化处理,包括将不同数据标准的文字、图形、 公式、表格等对象数据转换为预定义的标准格式的数据;该标准格式、自动标引装置中的标 引规则以及导出装置的结果文件的格式采用XML格式定义。 0030 (3)对预处理后的文档。
14、数据进行自动识别,包括识别文档的特有元素,如目录、版 心、页眉、页脚、标题、脚注、尾注、页码等内容。 0031 (4)对自动识别后的文档数据进行自动标引,即按照预先制定的标引规则,对文 档中符合规则的数据进行标记;对文档进行自动标引的装置可采用标签和内容控件进行标 记。该标引规则可采用XML格式定义。 0032 (5)对自动识别处理后的数据进行交互标引加工,即提供交互界面,修改自动标引 中因规则的二义性造成的不符合要求的标引结果,以及给文档增加文档自身内容以外的附 属数据。 0033 (6)对数据进行抽取导出,即抽取标引的数据和附属数据,导出生成预定义的结果 文件。该结果文件的格式可采用XML。
15、格式定义。 0034 本优选实施例在定义统一的输出格式的基础上,将文档的加工过程规范化,经过 多个环节的处理(包括预处理、规范化、自动识别、自动标引、交互标引、抽取导出等环节), 达到使用同一种工具和系统即可对多种格式的文档进行结构化,提高了加工速度,规范了 输出文档格式。 0035 图3示出了根据本发明实施例的用于提取文档结构的装置的示意图,包括: 0036 获取模块10,用于获取文档的对象; 0037 转换模块20,用于将对象转换为预定义的标准格式; 0038 标引模块30,用于识别和标注标准格式的对象内的各个项; 0039 提取模块40,用于提取所匹配的各个项的内容,以组织成关于文档的结。
16、构化数据。 0040 本装置可对多种格式的文档进行结构化,提高了加工速度,规范了输出文档格式, 而且减少了人为出错。 0041 优选地,获取模块10获取文档内部嵌入的对象和文档外部链接的对象。本优选实 施例可以确保不遗漏对象。 0042 从以上的描述中可以看出,本发明上述的实施例达到使用同一种工具和系统即可 对多种格式的文档进行结构化,提高了加工速度,规范了输出文档格式,减少了人为出错。 0043 显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用 的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成 的网络上,可选地,它们可以用计算装置可执行的程。
17、序代码来实现,从而可以将它们存储在 存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中 的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬 件和软件结合。 0044 以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技 术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修 改、等同替换、改进等,均应包含在本发明的保护范围之内。 说 明 书CN 102855243 A 1/2页 6 图1 说 明 书 附 图CN 102855243 A 2/2页 7 图2 图3 说 明 书 附 图CN 102855243 A 。