《一种基于文档片段的翻译处理方法.pdf》由会员分享,可在线阅读,更多相关《一种基于文档片段的翻译处理方法.pdf(6页完整版)》请在专利查询网上搜索。
1、(10)申请公布号 (43)申请公布日 (21)申请号 201410830632.0 (22)申请日 2014.12.26 G06F 17/28(2006.01) (71)申请人 武汉传神信息技术有限公司 地址 430074 湖北省武汉市东湖开发区光谷 软件园一期以西、 南湖南路以南、 光谷 软件园六期 2 幢 5 层 205 号 (72)发明人 江潮 王杰 (74)专利代理机构 北京华沛德权律师事务所 11302 代理人 刘杰 (54) 发明名称 一种基于文档片段的翻译处理方法 (57) 摘要 本发明涉及计算机语言与信息处理技术领 域, 具体公开了一种基于文档片段的翻译处理方 法, 包括 :。
2、 将获取的文本根据标点符号拆分为句 子, 并对拆分得到的句子设置相应标记标签, 所述 标签记录句子在整篇文本中的位置 ; 根据主题将 文档划分为包含若干句子的片段 , 并建立所述片 段和句子的映射关系 ; 将多个相对独立的不同行 业、 领域(主题)的文档片段推送至相应的译员处 理, 达到多人并行处理, 减少翻译时限的目的, 同 时有利于提高翻译处理的质量。且记录了句子和 片段的映射关系, 有利于译文的标记组合校对。 (51)Int.Cl. (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书1页 说明书3页 附图1页 (10)申请公布号 CN 104484323 A (43)。
3、申请公布日 2015.04.01 CN 104484323 A 1/1 页 2 1.一种基于文档片段的翻译处理方法, 其特征在于, 包括以下步骤 : 将获取的文本根据标点符号拆分为句子, 并对拆分得到的句子设置相应标记标签, 所 述标签记录句子在整篇文本中的位置 ; 根据主题将文档划分为包含若干句子的片段 , 并建立所述片段和句子的映射关系 ; 将所述片段分配给相应的译员进行翻译 ; 根据句子位置标签顺序对译后的片段进行组合, 得到完成的文档译稿。 2.根据权利要求 1 所述的基于文档片段的翻译处理方法, 其特征在于, 所述标记标签 以 XML 方式将句子进行封装。 3.根据权利要求 1 所述。
4、的基于文档片段的翻译处理方法, 其特征在于, 所述根据主题 将文档划分为包含若干句子的片段, 包括以下步骤 : 对于行业领域主题关键字运行 Gibbs 抽样算法, 迭代足够次 ; 以整句 s 作为 LDA 模型的文本 d, 遍历待分割文本的所有关键词记号, 运行 Gibbs 抽样 算法, 迭代少数几次 ; 求取待分割文本词汇的概率分布 P(w|s) ; 基于 P(w|s), 利用 Clarity 度量计算句间的相似值 Sim ; 结合局部最小值的边界估计策略, 通过句间相似值 Sim 识别片段边界。 4.根据权利要求 3 所述的基于文档片段的翻译处理方法, 其特征在于, 所述通过句间 相似值 。
5、Sim 识别片段边界, 包括以下步骤 : 假设待分割文本有 n 个整句, 则相邻句间的相似值表为 SimTable Sim1,Sim2,.Simi.Simn-1, 其中 Simi Sim(s i,si+1),1 i n-1 在表中选择局部最小值 Simmin(s1,s2) ; 从 每一个局部最小值出发向左、 向右分别寻找距离最近的较大值 Simmaxl以及 Sim maxr, 利用 公式计算相对深度 ; 令 c 为一常数, 若相对深度 drel(s1,s2) c, 则 s1,s2 分属于不同的片段。 权 利 要 求 书 CN 104484323 A 2 1/3 页 3 一种基于文档片段的翻译处。
6、理方法 技术领域 0001 本发明涉及计算机语言与信息处理技术领域, 具体涉及到一种文档片段处理的方 法。 背景技术 0002 一个文档往往包括若干不同行业、 领域的信息, 在自动翻译领域, 由于译员所熟悉 的行业或专业领域的局限性, 将一篇混合行业、 领域文档交给某一个译员处理时, 一方面译 员处理很吃力, 难以保证翻译质量。另一方面, 对于翻译时限紧迫的任务, 一个译员处理难 以达到所需时限。 如果能够合理的将一篇文档分成多个相对独立的不同行业、 领域(主题) 的文档片段, 然后每个片段推送至相应的工作人员处理, 则可达到多人并行处理, 减少翻译 时限的目的, 同时有利于提高翻译处理的质量。
7、。 0003 文本划分又称文本分割, 是指在一个书面文档或语音序列中自动识别具有独立意 义的单元 ( 片段 ) 之间的边界。这种预处理在很多领域有着极为重要的应用, 比如在信息 提取、 文本解析、 语言建模等领域。现有主要的文本分割技术主要基于语句 - 语义分析, 为 文本建构诸如 PLSA 模型、 LDA 模型或小世界模型, 进行主题分割。 发明内容 0004 本发明所要解决的技术问题是提供一种基于文档片段的翻译处理方法, 以实现行 业领域匹配的多人并行翻译处理。 0005 为解决上述技术问题, 本发明提供一种基于文档片段的翻译处理方法, 包括以下 步骤 : 0006 将获取的文本根据标点符。
8、号拆分为句子, 并对拆分得到的句子设置相应标记标 签, 所述标签记录句子在整篇文本中的位置 ; 0007 根据主题将文档划分为包含若干句子的片段 , 并建立所述片段和句子的映射关 系 ; 0008 将所述片段分配给相应的译员进行翻译 ; 0009 根据句子位置标签顺序对译后的片段进行组合, 得到完成的文档译稿。 0010 标记标签以 XML 方式将句子进行封装, 保证数据的通用和交换性。 0011 所述根据主题将文档划分为包含若干句子的片段, 包括以下步骤 : 0012 对于行业领域主题关键字运行 Gibbs 抽样算法, 迭代足够次 ; 0013 以整句 s 作为 LDA 模型的文本 d, 遍。
9、历待分割文本的所有关键词记号, 运行 Gibbs 抽样算法, 迭代少数几次 ; 0014 求取待分割文本词汇的概率分布 P(w|s) ; 0015 基于 P(w|s), 利用 Clarity 度量计算句间的相似值 Sim ; 0016 结合局部最小值的边界估计策略, 通过句间相似值 Sim 识别片段边界。 0017 所述通过句间相似值 Sim 识别片段边界包括 : 假设待分割文本有 n 个整句 , 则相 说 明 书 CN 104484323 A 3 2/3 页 4 邻句间的相似值表为 0018 SimTable Sim1, Sim2, .Simi.Simn-1, 0019 其中 Simi Si。
10、m(s i, si+1), 1 i n-1 在表中选择局部最小值 Simmin(s1, s2) ; 从 每一个局部最小值出发向左、 向右分别寻找距离最近的较大值Simmaxl以及Simmaxr, 利用公式 计算相对深度 ; 令 c 为一常数, 若相对深度 drel(s1, s2) c, 则 s1,s2 分属于不同的片段。 0020 本发明将一篇文档分成多个相对独立的不同行业、 领域(主题)的文档片段, 每个 片段推送至相应的工作人员处理, 达到多人并行处理, 减少翻译时限的目的, 同时有利于提 高翻译处理的质量。且记录了句子和片段的映射关系, 有利于译文的标记组合校对。 附图说明 0021 下。
11、面结合附图和具体实施方式对本发明的技术方案作进一步具体说明。 0022 图 1 为本发明具体实施方式的流程图。 具体实施方式 0023 结合图 1 所述, 本发明提供的基于文档片段的翻译处理方法, 包括以下步骤 : 0024 步骤 : 将获取的文本根据标点符号拆分为句子, 并对拆分得到的句子设置相应 标记标签, 所述标签记录句子在整篇文本中的位置 ; 标记标签以 XML 方式将句子进行封装, 保证数据的通用和交换性。 0025 步骤 : 根据主题将文档划分为包含若干句子的片段 , 并建立所述片段和句子的 映射关系 ; 根据主题将文档划分为包含若干句子的片段, 基于 LDA 模型, 包括以下步骤。
12、 : 0026 步骤 1 : 对于行业领域主题关键字运行 Gibbs 抽样算法, 迭代足够次 ; 0027 步骤 2 : 以整句 s 作为 LDA 模型下列公式 (1) 的文本 d, 遍历待分割文本的所有关 键词记号, 运行 Gibbs 抽样算法, 迭代少数几次 ; 0028 0029 其中, 假设 T 个主题形成 D 个文本以 W 个唯一词汇表示, 理解为, 在见到语料库 的任何词汇之前, 从主题抽样获得的词汇出现频率, 理解为, 在见到任何文档文字之前, 主题被抽样的频率 ; 0030 步骤 3 : 按照以下公式 (2) 计算 LDA 模型的参数 和 值 ; 0031 0032 步骤 4 。
13、: 根据公式求取待分割文本词汇的概率分布 说 明 书 CN 104484323 A 4 3/3 页 5 P(w|s), 其中, T 为文本的主题数, j 代表某个主题, z 是潜在变量。 0033 步骤 5 : 基于 P(w|s), 利用 Clarity 度量计算句间的相似值 Sim ; 0034 步骤 6 : 结合局部最小值的边界估计策略, 通过句间相似值 Sim 识别片段边界。 0035 所述通过句间相似值 Sim 识别片段边界包括 : 假设待分割文本有 n 个整句 , 则相 邻句间的相似值表为 0036 SimTable Sim1, Sim2, .Simi.Simn-1, 0037 其中。
14、 Simi Sim(s i, si+1), 1 i n-1 在表中选择局部最小值 Simmin(s1, s2) ; 从 每一个局部最小值出发向左、 向右分别寻找距离最近的较大值Simmaxl以及Simmaxr, 利用公式 计算相对深度 ; 令 c 为一常数, 若相对深度 drel(s1, s2) c, 则 s1,s2 分属于不同的片段。 0038 步骤 : 将所述片段分配给相应的译员进行翻译 ; 0039 步骤 : 根据句子位置标签顺序对译后的片段进行组合, 得到完成的文档译稿。 由 于记录了句子和片段的映射关系, 有利于译文的标记组合校对。 0040 最后所应说明的是, 以上具体实施方式仅用以说明本发明的技术方案而非限制, 尽管参照较佳实施例对本发明进行了详细说明, 本领域的普通技术人员应当理解, 可以对 本发明的技术方案进行修改或者等同替换, 而不脱离本发明技术方案的精神和范围, 其均 应涵盖在本发明的权利要求范围当中。 说 明 书 CN 104484323 A 5 1/1 页 6 图 1 说 明 书 附 图 CN 104484323 A 6 。