《一种关键词翻译统一的方法.pdf》由会员分享,可在线阅读,更多相关《一种关键词翻译统一的方法.pdf(7页完整版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 103678287 A (43)申请公布日 2014.03.26 CN 103678287 A (21)申请号 201310633857.2 (22)申请日 2013.11.30 G06F 17/28(2006.01) (71)申请人 武汉传神信息技术有限公司 地址 430073 湖北省武汉市东湖开发区光谷 软件园一期以西、 南湖南路以南、 光谷 软件园六期 2 幢 5 层 205 号 (72)发明人 江潮 (54) 发明名称 一种关键词翻译统一的方法 (57) 摘要 本发明公开了一种关键词翻译统一的方法, 包括 : 从待译文档中确定关键词, 找到该关键词 对应的若干。
2、翻译项 ; 在所述待译文档中截取包含 有所述关键词的部分文本, 作为第一子文档 ; 根 据每个所述翻译项, 截取包含该翻译项的部分文 本的原文, 分别作为第二子文档 ; 将所有所述翻 译项按照语义分类, 得到若干语义相似类 ; 分别 对每个所述语义相似类中的所述翻译项所对应的 所述第二子文档与所述第一子文档进行文档相似 度计算 ; 计算得到的所述文档相似度最大的所述 语义相似类所对应的翻译项作为所述关键词的候 选翻译项。本发明有效的降低了在翻译过程中的 人工成本, 并且提高了关键词的翻译的准确性及 一致性。 (51)Int.Cl. 权利要求书 1 页 说明书 4 页 附图 1 页 (19)中华。
3、人民共和国国家知识产权局 (12)发明专利申请 权利要求书1页 说明书4页 附图1页 (10)申请公布号 CN 103678287 A CN 103678287 A 1/1 页 2 1. 一种关键词翻译统一的方法, 其特征在于, 包括 : 从待译文档中确定关键词, 找到该关键词对应的所有翻译项 ; 在所述待译文档中截取包含有所述关键词的部分文本, 作为第一子文档 ; 根据每个所述翻译项, 截取包含该翻译项的部分文本的原文, 分别作为第二子文档 ; 将所有所述翻译项按照语义聚类处理, 得到若干语义相似类 ; 分别对每个所述语义相似类中的所述翻译项所对应的所述第二子文档与所述第一子 文档进行文档相。
4、似度计算 ; 计算得到的所述文档相似度最大的所述语义相似类所对应的翻译项作为所述关键词 的候选翻译项。 2. 根据权利要求 1 所述的方法, 其特征在于, 所述将所有所述翻译项按照语义分类的 过程, 包括 : 提取所有所述翻译项中的第一翻译项, 将所述第一翻译项作为第一语义相似类, 计算 所述第一语义相似类与所述所有翻译项中的下一个未归入到任一语义相似类中的翻译项 的语义相似度, 若结果大于预定阈值将该翻译项加入到第一语义相似类, 重复该过程, 直到 未归入到任一语义相似类中的翻译项都与第一语义相似类进行了语义相似度比较, 过程结 束, 得到最终的第一语义相似类 ; 提取除所述第一语义相似类之。
5、外的所有所述翻译项中的任一项, 将该所述翻译项作为 第二语义相似类, 重复上步的翻译项聚类过程, 得到最终第二语义相似类 ; 重复该过程, 直至每个所述翻译项聚类完成。 3. 根据权利要求 1 所述的方法, 其特征在于, 所述从待译文档中确定关键词的过程包 括 : 提取并扫描所述待译文档, 按照词性对所述待译文档进行分词处理, 并剔除其中的停 用词, 得到若干各不相同的候选词 ; 对所述候选词进行去噪处理, 得到若干所述关键词。 4. 根据权利要求 3 所述的方法, 其特征在于, 在所述剔除其中的停用词的同时, 至少保 留以下之一词性的词语作为所述候选词 : 形容词、 副词、 动词、 名词、 。
6、成语、 简称略语和习用 语。 5. 根据权利要求 1 所述的方法, 其特征在于, 在所述找到该关键词对应的若干翻译项 之前, 还包括 : 确定所述待译文档的源语言和目标语言 ; 在翻译参考库中提取与所述待译文档的源语言和目标语言均一致的已翻译文档的原 文和译文。 6. 根据权利要求 5 所述的方法, 其特征在于, 所述找到该关键词对应的若干翻译项的 过程包括 : 以所述关键词为检索词, 在所述提取的所述已翻译文档的所述原文中进行检索匹配, 在所述已翻译文档中的译文中找到所述关键词映射的若干所述翻译项。 7. 根据权利要求 6 所述的方法, 其特征在于, 截取获得所述子文档, 以单句、 多句、 。
7、段落 或固定字数为获取单位。 权 利 要 求 书 CN 103678287 A 2 1/4 页 3 一种关键词翻译统一的方法 技术领域 0001 本发明涉及计算机辅助翻译领域, 具体而言涉及一种关键词翻译统一的方法。 背景技术 0002 计算机辅助翻译 (CAT) , 类似于 CAD (计算机辅助设计) , 实际起了辅助翻译的作用, 简称 CAT(Computer Aided Translation)。它能够帮助翻译者优质、 高效、 轻松地完成翻译 工作。 它不同于以往的机器翻译软件, 不依赖于计算机的自动翻译, 而是在人的参与下完成 整个翻译过程, 与人工翻译相比, 质量相同或更好, 翻译效。
8、率可大幅度提高。 CAT使得繁重的 手工翻译流程自动化, 并大幅度提高了翻译效率和翻译质量。 0003 计算机技术在翻译中的应用主要指将其他行业的一些成熟的方法、 工具和资源等 利用计算机技术应用到翻译过程中从而辅助翻译。 计算机辅助翻译是研究如何设计或应用 “方法、 工具和资源” 以便帮助译员更好的完成翻译工作, 同时也能有助于研究和教学活动 的进行。 0004 文档中的高频词往往是文档中的关键词, 对于这些高频词或关键词的翻译的准确 一致是保证整篇文档翻译质量的基础。在实际的翻译生产过程中, 一个大的翻译任务需要 分成多个子任务及文档碎片, 由多个人或多个小组进行协同的翻译处理。在这个过程。
9、中如 何对这些高频词和关键词的翻译保持统一、 准确, 一直是协同翻译中难以解决的问题。 0005 以往对于这种需要进行统一翻译的关键词汇, 首先是由翻译助理对文档进行关键 词标注或者通过计算机自动进行关键词标注, 然后由翻译专家对这些标注的关键词给出标 准的翻译结果, 这样做虽然可以保证翻译的准确性, 但增加了翻译流程中的人工处理环节, 延缓了翻译处理流程, 同时也增加了成本。 所以, 对于大规模、 大批量的翻译任务而言, 需要 有一种更为快速、 经济的手段对关键词的统一翻译问题进行处理。 发明内容 0006 本发明旨在提供一种关键词翻译统一的方法, 解决了在翻译过程中, 人工成本高、 关键词。
10、的翻译不准确、 不一致的问题。 0007 本发明公开了一种关键词翻译统一的方法, 包括 : 0008 从待译文档中确定关键词, 找到该关键词对应的若干翻译项 ; 0009 在所述待译文档中截取包含有所述关键词的部分文本, 作为第一子文档 ; 0010 根据每个所述翻译项, 截取包含该翻译项的部分文本的原文, 分别作为第二子文 档 ; 0011 将所有所述翻译项按照语义分类, 得到若干语义相似类 ; 0012 分别对每个所述语义相似类中的所述翻译项所对应的所述第二子文档与所述第 一子文档进行文档相似度计算 ; 0013 计算得到的所述文档相似度最大的所述语义相似类作为所述关键词的候选翻译 项。 。
11、说 明 书 CN 103678287 A 3 2/4 页 4 0014 优选地, 所述将所有所述翻译项按照语义分类的过程为聚类处理, 包括 : 0015 提取所有所述翻译项中的第一翻译项, 分别计算所述第一翻译项与剩余的所述翻 译项的语义相似度, 结果大于预定阈值的所述翻译项与所述第一翻译项构成第一语义相似 类 ; 0016 提取抛除所述第一语义相似类之外的所有所述翻译项中的第二翻译项 ; 分别计算 所述第二翻译项与抛除后剩余的所述翻译项的语义相似度, 结果大于预定阈值的所述翻译 项与所述第二翻译项构成第二语义相似类 ; 0017 重复该过程, 直至每个所述翻译项聚类完成, 聚类结束。 001。
12、8 优选地, 所述从待译文档中确认关键词的过程包括 : 0019 提取并扫描所述待译文档, 按照词性对所述待译文档进行分词处理, 并剔除其中 的停用词, 得到若干各不相同的候选词 ; 0020 对所述候选词进行去噪处理, 得到若干所述关键词。 0021 优选地, 在所述剔除其中的停用词的同时, 至少保留以下之一词性的词语作为所 述候选词 : 形容词、 副词、 动词、 名词、 成语、 简称略语和习用语。 0022 优选地, 在所述找到该关键词对应的若干翻译项之前, 还包括 : 0023 确定所述待译文档的源语言和目标语言 ; 0024 在翻译参考库中提取与所述待译文档的源语言和目标语言均一致的已。
13、翻译文档 的原文和译文。 0025 优选地, 所述找到该关键词对应的若干翻译项的过程包括 : 0026 以所述关键词为检索词, 在所述提取的所述已翻译文档的所述原文中进行检索匹 配, 在所述已翻译文档中的所述译文中找到所述关键词映射的若干所述翻译项。 0027 优选地, 截取获得所述子文档, 以单句、 多句、 段落或固定字数为获取单位。 0028 本发明中的关键词翻译统一的方法, 具有以下优点 : 0029 1、 协同翻译过程中, 对于关键词的翻译实现了保持准确、 一致 ; 0030 2、 加快了翻译效率 ; 0031 3、 节约了翻译成本。 附图说明 0032 此处所说明的附图用来提供对本发。
14、明的进一步理解, 构成本申请的一部分, 本发 明的示意性实施例及其说明用于解释本发明, 并不构成对本发明的不当限定。在附图中 : 0033 图 1 示出了实施例的流程图。 具体实施方式 0034 下面将参考附图并结合实施例, 来详细说明本发明。 0035 本发明公开了一种关键词翻译统一的方法, 包括 : 0036 S11、 从待译文档中确定关键词, 所述确定关键词的方法如下 : 0037 对待译文档进行分词处理, 去除其中的停用词, 保留形容词、 副词、 成语、 简称略 语、 习用语、 动词、 和名词, 获得候选词语集合 ; 0038 对该候选词集中的候选词进行词频 (tf) 统计, 根据预设。
15、的阈值 TF, 得到该待译文 说 明 书 CN 103678287 A 4 3/4 页 5 档的关键词集 W=w1(tf1),w2(tf2),wn(tfn), 即 tfi TF 的高频词集, 即去噪处理 ; 0039 S12、 在所述待译文档中截取关键词 wi的上下文, 将关键词 wi的 tfi段上下文进行 合并处理, 作为关键词 wi的相关的第一子文档 Di; 0040 关键词 wi的上下文为关键词 wi所在位置的上下文, 上下文的获取可以以单句、 多 句、 段落、 也可以以固定字数为获取单位 ; 0041 S13、 获取到关键词 wi的所有翻译项, 获取方法如下 : 0042 根据待译文档。
16、的信息, 确定所述待译文档的源语言和目标语言 ; 0043 在翻译参考库中提取与所述待译文档的源语言和目标语言均一致的已翻译文档 的原文和译文。 0044 以 W 中的关键词 wi为检索词, 在翻译参考库中进行检索, 得到关键词 wi的所有翻 译项 ; 0045 翻译参考库是一个有着海量已译文档的翻译资源库, 包括每篇已翻译文档的源文 档及其对应的翻译文档, 在翻译参考库中进行检索可以得到所查询关键词在库中文档的对 应的所有翻译项 ; 0046 S14、 对关键词 wi的翻译项按照语义进行聚类, 得到若干语义相似类, 聚类过程如 下 : 0047 提取所有所述关键词 wi翻译项中的第一翻译项,。
17、 分别计算所述第一翻译项与剩余 的所述翻译项的语义相似度, 结果大于预定阈值的所述翻译项与所述第一翻译项构成第一 语义相似类 ; 0048 提取抛除所述第一语义相似类之外的所有所述翻译项中的第二翻译项 ; 分别计算 所述第二翻译项与抛除后剩余的所述翻译项的语义相似度, 结果大于预定阈值的所述翻译 项与所述第二翻译项构成第二语义相似类 ; 0049 重复该过程, 直至每个所述翻译项聚类完成, 聚类结束, 得到 wi的所有翻译项的 k 个语义相似类 S1,S2,Sk ; 0050 其中, 计算语义相似度的方法如下 : 0051 根据 知网 、同义词词林 、wordnet 等语义词典, 在其中计算词。
18、语的语义相似 度 ; 0052 设定翻译项 tr1和翻译项 tr2进行语义相似度计算 ; 其中 tr1包含有 n 个义项, tr2 包含有 m 个义项 ; 则规定和的语义相似度 Sim(tr1, tr2) 为这两个翻译项各个义项相似度 的最大值, 即 ; 0053 Sim(tr1, tr2)=maxi=1, 2,n;j=1,2,msim(tr1i,tr2i) ; 0054 其中, S1 和 S2 为义项, 义项相似度与义项距离为反比关系, 记为 : Sim(S1, S2) =L/ (Dis(S1, S2) +L) , 其中, L 为调节参数, L 越大相似度表现得越不灵敏, 一般可以取为词典 。
19、树结构的层数 ; 0055 其中, Dis(S1, S2) 为义项 S1 和义项 S2 之间的距离, 通过计算其在词典中的代码 距离得到。 0056 S15、 获取关键词 wi的所有翻译项在翻译参考库中对应的原文的上下文, 按语义 相似类进行合并, 即对所有在同一语义相似类中的翻译项的上下文进行合并得到文档集合 Di1,Di2,Dik ; 说 明 书 CN 103678287 A 5 4/4 页 6 0057 所述上下文的获取可以以单句、 多句、 段落、 也可以以固定字数为获取单位 ; 0058 S16、 将关键词 wi的相关子文档 Di分别与文档集合 Di1,Di2,Dik ; 中的每个文 。
20、档进行相似度计算, 计算得到的所述文档相似度最大的所述语义相似类作为所述关键词的 候选翻译项。 0059 进一步的, 对于步骤 S15 和 S16, 还可以采取将所有翻译项的对应的原文的上下文 作为第二子文档 Dall, 分别计算 Di与 Dall的文档相似度, 将同一语义相似类中的翻译项对应 的计算得到的文档相似度相加, 文档相似度最大的所述语义相似类作为所述关键词的候选 翻译项 ; 0060 文档相似度计算的方法如下 : 0061 1、 构造翻译文档集合的关键词概念树 0062 该概念树的叶子节点为所有关键词, 将关键词按共现在同一篇文档中的概率建立 关键词概念树 ; 0063 计算所有关。
21、键词在文档集中出现的概率和任两个关键词Ki和Kj互现的条件概率 p(Ki Kj) 和 p(Kj Ki) ; 0064 若 p(Ki) 大于设定阈值且 p(Kj Ki) 也大于设定阈值或 p(Kj) 大于设定阈值 且 p(Ki Ki) 也大于设定阈值, 则将关键词 Ki 和 Kj 合并 ; 0065 同理对于待合并的两个关键词集合 C1、 C2, 若满足如下两个条件 : 0066 i. 存在 Ki 属于 C1, Kj 属于 C2, 且 p(Ki) 设定阈值 1, p(Kj Ki) 设定阈值 2 0067 ii. 在合并后的集合中任给一个关键词 Ki 与集合中一半以上关键词都满足以下 条件 : p。
22、(Kj Ki) 设定阈值 2 0068 则合并之, 直到所有的关键词概念集合都无法再合并为止, 形成关键词概念树。 0069 2、 根据上述的关键词概念树, 定义一种关键词乘积的计算方法 0070 设定, 概念树的高度为 H, depth(K) 为关键词 K 在树中的深度, com(Ki, Kj) 为 离节点 Ki 和 Kj 最近的共同父节点, 则关键词 Ki 和 Kj 的的乘积 KiKj=depth(com(Ki, Kj) ) /H。 0071 3、 定义一种向量计算方法 0072 设 向 量 A=a1, a2, , an, B=b1, b2, , bn,定 义 向 量 计 算 : 0073 4、 对于两个待比较的文档 D1、 D2, 按下式进行相似度计算 : 0074 0075 文档相似度最大的语义相似类, 作为该关键词的候选翻译项。 0076 以上所述仅为本发明的优选实施例而已, 并不用于限制本发明, 对于本领域的技 术人员来说, 本发明可以有各种更改和变化。 凡在本发明的精神和原则之内, 所作的任何修 改、 等同替换、 改进等, 均应包含在本发明的保护范围之内。 说 明 书 CN 103678287 A 6 1/1 页 7 图 1 说 明 书 附 图 CN 103678287 A 7 。