欢迎来到专利查询网! | 帮助中心 查专利用我们更专业!
专利查询网
换一换
首页 专利查询网 > 资源分类 > PDF文档下载
分享到微信 分享到微博 分享到QQ空间

一种从WORD文档中快速提取文字格式的方法和装置.pdf

  • 资源ID:6120334       资源大小:1.52MB        全文页数:8页
  • 资源格式: PDF        下载积分:30金币
快捷下载 游客一键下载
账号登录下载
三方登录下载: 微信开放平台登录 QQ登录
下载资源需要30金币
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
如填写123,账号就是123,密码也是123。
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 
账号:
密码:
验证码:   换一换
  忘记密码?
    
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

一种从WORD文档中快速提取文字格式的方法和装置.pdf

1、(10)申请公布号 CN 103902918 A (43)申请公布日 2014.07.02 CN 103902918 A (21)申请号 201210587758.0 (22)申请日 2012.12.30 G06F 21/60(2013.01) (71)申请人 航天信息股份有限公司 地址 100195 北京市海淀区杏石口路甲 18 号航天信息园 (72)发明人 王申 金端峰 郭向国 (74)专利代理机构 北京工信联合知识产权代理 事务所 ( 普通合伙 ) 11266 代理人 郭一斐 黄晓军 (54) 发明名称 一种从 Word 文档中快速提取文字格式的方 法和装置 (57) 摘要 本发明实施例

2、提供了一种从 Word 文档中快 速提取文字格式的方法和装置, 包括以下步骤 : 将文档切分为多个部分 ; 将每个部分的文档内容 转换为字符串格式, 得到每个部分的文档内容分 别对应的字符串数据 ; 提取所述字符串数据中所 用字体及颜色集合 ; 解析每个字符串数据, 并按 照树形数据结构保存 ; 从所述树形数据结构中 提取文字格式, 将所有文字格式汇总。本发明将 ms-com 接口与字符串处理相结合, 研究出一系列 解析规则, 即吸取了 ms-com 接口操作便利的优 势, 又避免了反复调用 ms-com 接口导致效率低下 的缺点, 能够快速提取文档中全部文字格式。可 以与电子签章等一些文档处

3、理相关应用程序相结 合, 具有很高的使用价值。 (51)Int.Cl. 权利要求书 2 页 说明书 4 页 附图 1 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书2页 说明书4页 附图1页 (10)申请公布号 CN 103902918 A CN 103902918 A 1/2 页 2 1. 一种从 Word 文档中快速提取文字格式的方法, 其特征在于, 包括以下步骤 : 将文档切分为多个部分 ; 将每个部分的文档内容转换为字符串格式, 得到每个部分的文档内容分别对应的字符 串数据 ; 提取所述字符串数据中所用字体及颜色集合 ; 解析每个字符串数据, 并按照树形数据

4、结构保存 ; 从所述树形数据结构中提取文字格式, 将所有文字格式汇总。 2. 根据权利要求 1 所述的一种从 Word 文档中快速提取文字格式的方法, 其特征在于, 所述将文档切分为多个部分具体包括 : 获取上层电子签章程序传入的当前要处理的文档的 Com 指针 ; 调用 ms-word Com 接口查找所述文档中的所有图片与控件 ; 以图片与控件作为分隔点将所述文档分隔为多个部分, 每个部分中均不包含图片及控 件。 3. 根据权利要求 1 所述的一种从 Word 文档中快速提取文字格式的方法, 其特征在于, 所述将每个部分的文档内容转换为字符串格式, 得到每个部分的文档内容分别对应的字符 串

5、数据具体包括 : 使用 ms-word Com 接口将每个部分的文档内容设置为选中状态, 并且将每个部分的文 档内容复制到系统剪切板系统剪切板上 ; 以 RTF 格式打开所述系统剪切板系统剪切板 ; 提取所述系统剪切板系统剪切板中的字符串数据, 得到每个部分的文档内容分别对应 的字符串数据。 4. 根据权利要求 1 所述的一种从 Word 文档中快速提取文字格式的方法, 其特征在于, 所述提取所述字符串数据中所用字体及颜色集合具体包括 : 查找并提取描述字体集合与颜色集合的字符串数据 ; 解析所述描述字体集合与颜色集合的字符串数据, 查找字体名与所对应的序列号, 查 找颜色与所对应的序列号 ;

6、 将字体名对应的序列号、 颜色对应的序列号保存, 供解析文本时使用。 5. 根据权利要求 4 所述的一种从 Word 文档中快速提取文字格式的方法, 其特征在于, 所述的查找并提取描述字体集合与颜色集合的字符串数据, 包括 : 通 过 查 找 “fonttbl”与 相 匹 配 的 “”提 取 字 体 集 合 字 符 串, 通 过 查 找 “colortbl” 与相匹配的 “” 提取颜色集合字符串。 6. 根据权利要求 1 所述的一种从 Word 文档中快速提取文字格式的方法, 其特征在于, 所述解析每个字符串数据, 并按照树形数据结构保存具体包括 : 查找并提取描述文字集合的字符串数据 ; 递

7、归解析所述描述文字集合的字符串数据, 查找所有 中包含的元素内容, 以树形数 据结构保存 ; 判断树形数据结构中每个节点是否包含文字内容, 如果不包含则舍去该节点。 7. 根据权利要求 1 所述的一种从 Word 文档中快速提取文字格式的方法, 其特征在于, 所述从所述树形数据结构中提取文字格式, 将所有文字格式汇总具体包括 : 权 利 要 求 书 CN 103902918 A 2 2/2 页 3 遍历树形数据结构, 提取所有节点内容 ; 从每个节点内容中获取文字及文字格式 ; 将所述文字格式中的颜色序列号转化为颜色数据, 字体序列号转化为字体名称 ; 合并相邻且具有相同格式的文字格式 ; 将

8、文档各个部分的文字格式合并, 获取整个文档的文字格式。 8. 一种从 Word 文档中快速提取文字格式的装置, 其特征在于, 所述装置包括 : 文档处理模块, 用于将文档切分为多个部分 ; 文档转换模块, 用于将每个部分的文档内容转换为字符串格式, 得到每个部分的文档 内容分别对应的字符串数据 ; 字符串解析模块, 用于提取所述字符串数据中所用字体及颜色集合, 解析每个字符串 数据, 并按照树形数据结构保存, 从所述树形数据结构中提取文字格式, 将所有文字格式汇 总。 9. 根据权利要求 8 所述的一种从 Word 文档中快速提取文字格式的装置, 其特征在于 : 所述的文档处理模块, 具体用于

9、获取上层电子签章程序传入的当前要处理的文档的 Com 指针 ; 调用 ms-word Com 接口查找所述文档中的所有图片与控件 ; 以图片与控件作为分隔点将所述文档分隔为多个部分, 每个部分中均不包含图片及控 件。 10. 根据权利要求 8 所述的一种从 Word 文档中快速提取文字格式的装置, 其特征在 于 : 所述的文档转换模块, 具体用于使用 ms-word Com 接口将每个部分的文档内容设置为 选中状态, 并且将每个部分的文档内容复制到系统剪切板系统剪切板上 ; 以 RTF 格式打开所述系统剪切板系统剪切板 ; 提取所述系统剪切板系统剪切板中的字符串数据, 得到每个部分的文档内容分

10、别对应 的字符串数据。 11. 根据权利要求 8 所述的一种从 Word 文档中快速提取文字格式的装置, 其特征在 于 : 所述的字符串解析模块, 具体用于查找并提取描述字体集合与颜色集合的字符串数 据, 解析所述描述字体集合与颜色集合的字符串数据, 查找字体名与所对应的序列号, 查找 颜色与所对应的序列号, 将字体名对应的序列号、 颜色对应的序列号保存 ; 查找并提取描述文字集合的字符串数据, 递归解析所述描述文字集合的字符串数据, 查找所有 中包含的元素内容, 以树形数据结构保存, 判断树形数据结构中每个节点是否 包含文字内容, 如果不包含则舍去该节点 ; 从每个节点内容中获取文字及文字格

11、式, 将所述文字格式中的颜色序列号转化为颜色 数据, 字体序列号转化为字体名称, 合并相邻且具有相同格式的文字格式, 将文档各个部分 的文字格式合并, 获取整个文档的文字格式。 权 利 要 求 书 CN 103902918 A 3 1/4 页 4 一种从 Word 文档中快速提取文字格式的方法和装置 技术领域 0001 本发明涉及文档处理、 信息安全等领域, 特别涉及电子签章应用中一种从 Word 文 档中快速提取文字格式的方法和装置。 背景技术 0002 随着技术的发展, 越来越多的企事业单位及国家机关逐渐采取了电子化办公, 极 大的提高了工作效率。随之而来的便是电子办公所带来的安全性问题。

12、由于电子文档易被 拷贝或篡改, 所签发的电子文档是否被修改, 是否为签发人所签发等问题随之而来。 电子签 章产品的出现解决了上述问题, 为电子文档的安全需求提供了技术依据。 0003 Microsoft Word 是微软公司出品的一个文档处理应用程序, Word 文档是目前电 子文档中的主流文档格式。所有电子签章产品均需要支持 Word 文档格式, 保证能够检测出 Word 文档中文字是否经过篡改。 0004 另一方面, 很多情况下不仅文字起着重要作用, 文字格式也发挥了很大作用。 不同 的文字格式含义可能完全不同, 在一份电子合同或电子文档中, 如果更改了部分文字格式, 可能会引起不同的含义

13、, 从而提取 Word 文档所有文字格式, 进行检测具有很重要的意义。 0005 目前常用的 Word 文档文字格式提取的方法有以下几种 : 方法一 : 调用 ms-word 所提供的 Com 接口, 获取每个文字对象, 提取其属性值 ; 方法二 : 使用一些开源文档处理软 件进行解析及提取, 如调用 OpenOffice 接口进行解析文档并提取文字格式 ; 方法三 : 根据 Word 文档格式解析, 并提取文字格式。 0006 对于方法一来说, 是目前电子签章产品获取文档格式的主流方法, 使用简单, 与 Word应用系统兼容性好, 但是每解析一个Word元素均要调用一次Com接口, 效率低下

14、, 运行 时间长, 文档较大时运行速度非常缓慢, 严重影响应用系统的使用, 从而使用该方法的电子 签章产品均不支持对大文档进行文字格式的签章。 0007 对于方法二来说, 一方面与 Word 应用程序兼容不好, 很难集成使用 ; 另一方面对 doc 格式文档支持不好, 稳定性差, 文档较复杂时, 容易出现获取不到格式的情况。 0008 对于方法三来说, 目前只公布了docx文档格式, 对于doc文档格式不支持, 从而无 法支持 Word2003 与 Word2000 文档。 0009 因此, 找到一种能够快速提取 Word 文档中所有文字格式的方法, 对于保护文档安 全, 具有很大意义。 发明

15、内容 0010 本发明实施例提供了一种从 Word 文档中快速提取文字格式的方法和装置, 以实 现在微软 Word 应用程序中, 快速提取文档中文字格式, 用于检测电子文档的安全性。 0011 本发明解决上述技术问题的技术方案是, 一种从 Word 文档中快速提取文字格式 的方法, 包括以下步骤 : 0012 将文档切分为多个部分 ; 说 明 书 CN 103902918 A 4 2/4 页 5 0013 将每个部分的文档内容转换为字符串格式, 得到每个部分的文档内容分别对应的 字符串数据 ; 0014 提取所述字符串数据中所用字体及颜色集合 ; 0015 解析每个字符串数据, 并按照树形数据

16、结构保存 ; 0016 从所述树形数据结构中提取文字格式, 将所有文字格式汇总。 0017 以及一种从 Word 文档中快速提取文字格式的装置, 所述装置包括 : 0018 文档处理模块, 用于将文档切分为多个部分 ; 0019 文档转换模块, 用于将每个部分的文档内容转换为字符串格式, 得到每个部分的 文档内容分别对应的字符串数据 ; 0020 字符串解析模块, 用于提取所述字符串数据中所用字体及颜色集合, 解析每个字 符串数据, 并按照树形数据结构保存, 从所述树形数据结构中提取文字格式, 将所有文字格 式汇总。 0021 本发明将 ms-com 接口与字符串处理相结合, 研究出一系列解析

17、规则, 即吸取了 ms-com 接口操作便利的优势, 又避免了反复调用 ms-com 接口导致效率低下的缺点, 能够快 速提取文档中全部文字格式。可以与电子签章等一些文档处理相关应用程序相结合, 具有 很高的使用价值。 附图说明 0022 为了更清楚地说明本发明实施例的技术方案, 下面将对实施例描述中所需要使用 的附图作简单地介绍, 显而易见地, 下面描述中的附图仅仅是本发明的一些实施例, 对于本 领域普通技术人员来讲, 在不付出创造性劳动性的前提下, 还可以根据这些附图获得其他 的附图。 0023 图 1 为本发明实施例提供的一种 Word 文档中快速提取文字格式方法的处理流程 图。 002

18、4 图 2 为本发明实施例提供的一种 Word 文档中快速提取文字格式方法的装置结构 示意图。 具体实施方式 0025 为便于对本发明实施例的理解, 下面将结合附图并以具体实施例为例做进一步的 解释说明, 且各个实施例并不构成对本发明的限定。 0026 一种 Word 文档中快速提取文字格式的方法, 可以与文档处理的一些应用程序相 结合, 快速提取文档内所有文字格式。其具体实施之一, 与电子签章装置相结合, 在 Word 文档中执行签章验章等操作时, 需要提取当前文档所有文字格式, 如图 1 所示, 包括以下步 骤 : 0027 步骤 101, 将文档切分为多个部分。具体的, 获取上层电子签章

19、程序传入的当前要 处理的文档的 Com 指针 ; 调用 ms-word Com 接口查找文档中的所有图片与控件 ; 以图片与 控件作为分隔点将文档分隔为多个部分, 每个部分中均不包含图片及控件, 从而在步骤 102 中该部分转化为字符串格式后, 字符串数据小, 解析速度快。 0028 步骤 102, 将每个部分的文档内容转换为字符串格式, 得到每个部分的文档内容分 说 明 书 CN 103902918 A 5 3/4 页 6 别对应的字符串数据。 具体的, 使用ms-word Com接口 ; 将每个部分的文档内容设置为选中 状态, 并且将每个部分的文档内容复制到系统剪切板上 ; 以 RTF 格

20、式打开系统剪切板 ; 提取 系统剪切板中的字符串数据, 得到每个部分的文档内容分别对应的字符串数据。Word 文档 的 RTF 格式是一种能够记录 Word 元素的文本格式, 便于通过字符串解析提取元素。该步骤 通过 ms-word Com 接口及剪切板的 RFT 格式, 能快速及方便的将 Word 部分文档内容转化为 字符串数据。 0029 步骤 103, 提取字符串数据中所用字体及颜色集合。具体的, 查找并提取描述字体 集合与颜色集合的字符串数据, 通过查找 “fonttbl” 与相匹配的 “” 可以提取字体集合 字符串, 通过查找 “colortbl” 与相匹配的 “” 可以提取颜色集合

21、字符串 ; 解析该描述字 体集合与颜色集合的字符串数据, 查找字体名与所对应的序列号, 查找颜色与所对应的序 列号 ; 将字体名对应的序列号、 颜色对应的序列号保存, 供解析文本时使用。由于不同文档 内容, 不同文档格式, 其描述文本格式的颜色序列号与字体序列号所对应的颜色、 字体可能 都不同, 从而需要先解析出对应关系, 供后续操作取得字体名及颜色数据。 0030 步骤104, 解析每个字符串数据, 并按照树形数据结构保存。 具体的, 首先查找并提 取描述文字集合的字符串数据, Word 文档的 RTF 格式字符串中, 以嵌套的方式描述整个文 档内容, 每个部分用 划分 ; 递归解析描述文字

22、集合的字符串数据, 查找所有 中包含的 元素内容, 以树形数据结构保存, 因为这些元素内容最适合树形数据结构表示, 每个节点可 表示该部分文字元素, 包括文字格式如颜色、 大小、 字体、 粗体等 ; 判断树形数据结构中每个 节点是否包含文字内容, 如果不包含则舍去该节点, 从而每个节点均表示文字内容与文字 格式, 如颜色、 大小、 字体、 粗体等。 0031 步骤105, 从树形数据结构中提取文字格式, 将所有文字格式汇总。 具体的, 遍历树 形数据结构, 提取所有节点内容 ; 从每个节点内容中获取文字及文字格式 ; 将文字格式中 的颜色序列号转化为颜色数据, 字体序列号转化为字体名称 ; 合

23、并相邻且具有相同格式的 文字格式, 树形数据结构中每个节点均包含文字元素, 根据标签解析出文字格式, 由于大部 分相邻文字的格式是相同的, 合并后有利于极大的压缩最终内容 ; 将文档各个部分的文字 格式合并, 获取整个文档的文字格式。 0032 基于上述提取方法, 本发明还提出了一种从 Word 文档中快速提取文字格式的装 置结构。如图 2 所示, 该装置结构至少包括文档处理模块 100、 文档转换模块 200 和字符串 解析模块 300, 其中 : 0033 文档处理模块 100, 用于将文档切分为多个部分。具体的, 文档处理模块 100 首先 获取上层电子签章程序传入的当前要处理文档的 C

24、om 指针, 调用 ms-word Com 接口查找文 档中所有图片及控件。在 Word 文档中, 所有元素均有一个起点及终点位置编号, 按顺序排 列, 从而根据图片及控件在文档中的位置, 以图片与控件作为分隔点将文档分隔为多个部 分, 每部分中均不包含图片及控件。 0034 文档转换模块 200, 用于将每个部分的文档内容转换为字符串格式, 得到每个部分 的文档内容分别对应的字符串数据。具体的, 使用 ms-word Com 接口, 将每个部分的文档内 容设置为选中状态, 并且复制到系统剪切板系统剪切板。以 RTF 格式打开剪切板, 提取所 述系统剪切板系统剪切板中的字符串数据, 得到每个部

25、分的文档内容分别对应的字符串数 据, 即获得该部分文档内容的字符串格式数据。文档转换模块 200 通过 ms-word Com 接口 说 明 书 CN 103902918 A 6 4/4 页 7 及系统剪切板系统剪切板, 能够快速且方便的将每个部分的 Word 文档内容转换为字符串 格式。 0035 字符串解析模块 300, 用于提取字符串数据中所用字体及颜色集合, 解析每个字 符串数据, 并按照树形数据结构保存, 从树形数据结构中提取文字格式, 将所有文字格式汇 总。具体的 : 0036 在步骤 103 中, 字符串解析模块 300 首先从待解析字符串数据中查找并提取字体 集合字符串与颜色集

26、合字符串数据, 通过查找 “fonttbl” 与相匹配的 “” 可以提取字体 集合字符串, 通过查找 “colortbl” 与相匹配的 “” 可以提取颜色集合字符串。从字体 集合字符串中提取每个字体元素, 每个字体名均对应一个序列号, 将对应关系保存, 供后续 操作使用 ; 从颜色集合字符串中提取每个颜色元素, 每个颜色的红绿蓝属性均对应一个序 列号, 将对应关系保存, 供后续操作使用。 0037 在步骤 104 中, 字符串解析模块 300 从待解析字符串中提取描述文档内容的字符 串数据。首先查找并提取描述文字集合的字符串数据, Word 文档的 RTF 格式字符串中, 以 嵌套的方式描述文

27、档中所有元素内容, 每个元素用 划分。通过递归方式解析描述文字 集合的字符串数据, 查找所有 中包含的元素内容, 以树形数据结构保存, 因为这些元素 内容最适合树形数据结构表示, 每个节点可表示该部分文字元素, 包括文字格式如颜色、 大 小、 字体、 粗体等。判断树形数据结构中每个节点是否包含文字内容, 如果不包含舍去该节 点, 从而每个节点均表示文字内容与文字格式, 如颜色、 大小、 字体、 粗体等。 0038 在步骤 105 中, 字符串解析模块 300 遍历步骤 104 中所产生的树形数据结构, 通过 深度优先检索方式进行检索, 提取所有节点内容。 从每个节点内容中获取文字及文字格式,

28、包括通过查询 “b” 、“i” 、“af” 、“fs” 、“cf” 等关键词提取粗细、 倾斜、 字体、 大小、 颜色等文字 格式。使用步骤 103 中获得的对应关系, 将文字格式中的颜色序列号转化为颜色数据, 字体 序列号转化为字体名称。 合并相邻且具有相同格式的文字格式, 压缩数据。 最后将步骤101 中切分文档后各个部分的文字格式合并, 获取整个文档的文字格式。 0039 用本发明实施例的装置从 Word 文档中快速提取文字格式的具体过程与前述方法 实施例类似, 此处不再赘述。 0040 应当理解的是, 以上所述仅为本发明的较佳实施例而已, 并不足以限制本发明的 技术方案, 对本领域普通技术人员来说, 在本发明的精神和原则之内, 可以根据上述说明加 以增减、 替换、 变换或改进, 而所有这些增减、 替换、 变换或改进后的技术方案, 都应属于本 发明所附权利要求的保护范围。 说 明 书 CN 103902918 A 7 1/1 页 8 图 1 图 2 说 明 书 附 图 CN 103902918 A 8


注意事项

本文(一种从WORD文档中快速提取文字格式的方法和装置.pdf)为本站会员(1520****312)主动上传,专利查询网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知专利查询网(点击联系客服),我们立即给予删除!




关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1