用于提取文档结构的方法和装置.pdf

上传人：1***

文档编号：4417195

上传时间：2018-09-30

格式：PDF

页数：7

大小：352.72KB

《用于提取文档结构的方法和装置.pdf》由会员分享，可在线阅读，更多相关《用于提取文档结构的方法和装置.pdf（7页完整版）》请在专利查询网上搜索。

1、(10)申请公布号 CN 102855243 A (43)申请公布日 2013.01.02 C N 1 0 2 8 5 5 2 4 3 A *CN102855243A* (21)申请号 201110179972.8 (22)申请日 2011.06.28 G06F 17/30(2006.01) G06F 17/27(2006.01) (71)申请人北大方正集团有限公司地址 100871 北京市海淀区成府路298号方正大厦5层申请人北京北大方正电子有限公司 (72)发明人曲刚 (74)专利代理机构北京英赛嘉华知识产权代理有限责任公司 11204 代理人王达佐 (54) 发明名称用于提取文。

2、档结构的方法和装置 (57) 摘要本发明提供了一种用于提取文档结构的方法，包括：获取文档的对象；将对象转换为预定义的标准格式；识别和标注标准格式的对象内的各个项；提取所匹配的各个项的内容，以组织成关于文档的结构化数据。本发明还提供了一种用于提取文档结构的装置，包括：获取模块，用于获取文档的对象；转换模块，用于将对象转换为预定义的标准格式；标引模块，用于识别和标注标准格式的对象内的各个项；提取模块，用于提取所匹配的各个项的内容，以组织成关于文档的结构化数据。本发明达到了提高提取文档结构的效率的效果。 (51)Int.Cl. 权利要求书1页说明书3页附图2页 (19)中。

3、华人民共和国国家知识产权局 (12)发明专利申请权利要求书 1 页说明书 3 页附图 2 页 1/1页 2 1.一种用于提取文档结构的方法，其特征在于，包括：获取文档的对象；将所述对象转换为预定义的标准格式；识别和标注所述标准格式的对象内的各个项；提取所匹配的各个项的内容，以组织成关于所述文档的结构化数据。 2.根据权利要求1所述的方法，其特征在于，获取文档的对象包括：获取所述文档内部嵌入的对象和所述文档外部链接的对象。 3.根据权利要求1所述的方法，其特征在于，识别和标注所述标准格式的对象内的各个项包括：使用预设的匹配规则匹配所述标准格式的对象，以识别符合所述匹配规则的所。

4、述各个项；按照预设的标引规则对所述各个项予以相应地标注。 4.根据权利要求3所述的方法，其特征在于，识别和标注所述标准格式的对象内的各个项还包括：提供界面以接受对所述标注的修改。 5.根据权利要求3所述的方法，其特征在于，采用标签和/或内容控件进行标注。 6.根据权利要求5所述的方法，其特征在于，采用XML格式定义所述匹配规则和所述标引规则。 7.根据权利要求1所述的方法，其特征在于，还包括：预先将所述文档的版本转换为设置的版本。 8.根据权利要求1至7任一项所述的方法，其特征在于，所述对象包括以下至少之一：字符、图形、图像、公式和表格。 9.一种用于提取文档结构的装置，其特征在。

5、于，包括：获取模块，用于获取文档的对象；转换模块，用于将所述对象转换为预定义的标准格式；标引模块，用于识别和标注所述标准格式的对象内的各个项；提取模块，用于提取所匹配的各个项的内容，以组织成关于所述文档的结构化数据。 10.根据权利要求9所述的装置，其特征在于，所述获取模块获取所述文档内部嵌入的对象和所述文档外部链接的对象。权利要求书CN 102855243 A 1/3页 3 用于提取文档结构的方法和装置技术领域 0001 本发明涉及数字出版领域，具体而言，涉及用于提取文档结构的方法和装置。背景技术 0002 在传统出版领域，书籍、报刊的文档格式只是为了满足传统印刷的需。

6、求，对于内容的描述局限于文字、图形、图像的轮廓、颜色、位置等视觉要素，没有构建文档的逻辑内容和内在关系。在数字出版领域，对文档的逻辑内容、关联关系、内容的颗粒度更为关注，对文档进行结构化加工是进行数字内容再利用的前提条件。 0003 目前，对文档内容结构化加工的方法主要采用手动加工，加工人员根据预先定义的规则，肉眼识别文档中符合规则的文档内容，手工填写到自定义的表单中。这种操作方式效率较低，工作量大，而且容易出错。 0004 还有一种解决方案是采用计算机执行预设的匹配规则识别文档结构。发明人发现，由于现存的常用文档格式较多，目前的解决方案是对多不同的文档格式采用不同的加工方法和系。

7、统，操作比较繁琐。发明内容 0005 本发明旨在提供一种用于提取文档结构的方法和装置，以解决相关技术操作比较繁琐的问题。 0006 在本发明的实施例中，提供了一种用于提取文档结构的方法，包括：获取文档的对象；将对象转换为预定义的标准格式；识别和标注标准格式的对象内的各个项；提取所匹配的各个项的内容，以组织成关于文档的结构化数据。 0007 在本发明的实施例中，提供了一种用于提取文档结构的装置，包括：获取模块，用于获取文档的对象；转换模块，用于将对象转换为预定义的标准格式；标引模块，用于识别和标注标准格式的对象内的各个项；提取模块，用于提取所匹配的各个项的内容，以组织成关于文档的结。

8、构化数据。 0008 本发明上述实施例的用于提取文档结构的方法和装置，因为预先统一了对象的格式，所以可以执行数据项的自动识别，解决了相关技术操作比较繁琐的问题，达到了提高提取文档结构的效率的效果。附图说明 0009 此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中： 0010 图1示出了根据本发明实施例的用于提取文档结构的方法的流程图； 0011 图2示出了根据本发明优选实施例的用于提取文档结构的方法的流程图； 0012 图3示出了根据本发明实施例的用于提取文档结构的装置的示意图。说明。

9、书CN 102855243 A 2/3页 4 具体实施方式 0013 下面将参考附图并结合实施例，来详细说明本发明。 0014 图1示出了根据本发明实施例的用于提取文档结构的方法的流程图，包括： 0015 步骤S10，获取文档的对象； 0016 步骤S20，将对象转换为预定义的标准格式； 0017 步骤S30，识别和标注标准格式的对象内的各个项； 0018 步骤S40，提取所匹配的各个项的内容，以组织成关于文档的结构化数据。 0019 常用的电子文档有PDF、WORD等各种格式，现有的文档结构识别技术不能同时识别不同格式的文档中的对象，因此只能对多不同的文档格式采用不同的加工方法和系统，。

10、操作比较繁琐，工作量大，容易出错。而本实施例中，因为预先统一了对象的格式，在定义统一的输出格式的基础上，将文档的加工过程规范化，经过多个环节的处理，达到使用同一种工具和系统即可对多种格式的文档进行结构化，提高了加工速度，规范了输出文档格式，而且减少了人为出错。 0020 优选地，步骤S10包括：获取文档内部嵌入的对象和文档外部链接的对象。现有的文档格式比较复杂，不仅将对象嵌入在文档中，还可以在文档中仅仅包含对象的链接地址。本优选实施例通过获取文档内部嵌入的对象和文档外部链接的对象，从而可以确保不遗漏对象。 0021 优选地，步骤S20包括：使用预设的匹配规则匹配标准格式的对象，以识。

11、别符合匹配规则的各个项；按照预设的标引规则对各个项予以相应地标注。通过设置匹配规则和标引规则，从而可以很容易地通过计算机编程来执行这些规则，使得操作自动化。 0022 优选地，步骤S20还包括：提供界面以接受对标注的修改。因为文档内容的高度复杂，所以计算机自动识别和标注的内容有可能不准确，本优选实施例通过提供人机交互的界面，可以人工地修正错误，予以补充。 0023 优选地，采用标签和/或内容控件进行标注。这是比较常用的标注方式，容易实现。 0024 优选地，采用XML格式定义匹配规则和标引规则。XML是标准的结构化语言，用于定义匹配规则和标引规则比较容易实现。 0025 优选地，本。

12、方法还包括：预先将文档的版本转换为设置的版本。目前，即使是同一格式的文档，往往因为版本的不同也会导致不能处理。例如WORD 2003和WORD 2007就有较大的区别。通常各种软件的版本是向上兼容的，即高版本可以兼容低版本。因此可以预先将所有不同格式的文档的版本都统一转换为该格式的最高版本。 0026 优选地，对象包括以下至少之一：字符、图形、图像、公式和表格。这些都是常用的对象，本优选实施例通过处理这些对象，可以应用于绝大多数场景。 0027 图2示出了根据本发明优选实施例的用于提取文档结构的方法的流程图，包括以下步骤： 0028 (1)对待加工的文档进行预处理，包括收集文档中的字。

13、符、图形、图像、公式、表格等文档内部嵌入的对象数据和文档外部链接的对象数据，分类编号存储；还可以对文档的版本进行归一化处理，将同一类型文档的不同版本处理为同一版本，例如，常用的办公软件，由于软件版本不同，其生成的文档的版本也不相同，为了简化处理，将低版本的文档转说明书CN 102855243 A 3/3页 5 换为高版本的文档。 0029 (2)对文档预处理后的数据进行规范化处理，包括将不同数据标准的文字、图形、公式、表格等对象数据转换为预定义的标准格式的数据；该标准格式、自动标引装置中的标引规则以及导出装置的结果文件的格式采用XML格式定义。 0030 (3)对预处理后的文档。

14、数据进行自动识别，包括识别文档的特有元素，如目录、版心、页眉、页脚、标题、脚注、尾注、页码等内容。 0031 (4)对自动识别后的文档数据进行自动标引，即按照预先制定的标引规则，对文档中符合规则的数据进行标记；对文档进行自动标引的装置可采用标签和内容控件进行标记。该标引规则可采用XML格式定义。 0032 (5)对自动识别处理后的数据进行交互标引加工，即提供交互界面，修改自动标引中因规则的二义性造成的不符合要求的标引结果，以及给文档增加文档自身内容以外的附属数据。 0033 (6)对数据进行抽取导出，即抽取标引的数据和附属数据，导出生成预定义的结果文件。该结果文件的格式可采用XML。

15、格式定义。 0034 本优选实施例在定义统一的输出格式的基础上，将文档的加工过程规范化，经过多个环节的处理(包括预处理、规范化、自动识别、自动标引、交互标引、抽取导出等环节)，达到使用同一种工具和系统即可对多种格式的文档进行结构化，提高了加工速度，规范了输出文档格式。 0035 图3示出了根据本发明实施例的用于提取文档结构的装置的示意图，包括： 0036 获取模块10，用于获取文档的对象； 0037 转换模块20，用于将对象转换为预定义的标准格式； 0038 标引模块30，用于识别和标注标准格式的对象内的各个项； 0039 提取模块40，用于提取所匹配的各个项的内容，以组织成关于文档的结。

16、构化数据。 0040 本装置可对多种格式的文档进行结构化，提高了加工速度，规范了输出文档格式，而且减少了人为出错。 0041 优选地，获取模块10获取文档内部嵌入的对象和文档外部链接的对象。本优选实施例可以确保不遗漏对象。 0042 从以上的描述中可以看出，本发明上述的实施例达到使用同一种工具和系统即可对多种格式的文档进行结构化，提高了加工速度，规范了输出文档格式，减少了人为出错。 0043 显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程。

17、序代码来实现，从而可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。 0044 以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。说明书CN 102855243 A 1/2页 6 图1 说明书附图CN 102855243 A 2/2页 7 图2 图3 说明书附图CN 102855243 A 。