书签 分享 收藏 举报 版权申诉 / 6

一种基于文档片段的翻译处理方法.pdf

  • 上传人:GAME****980
  • 文档编号:4596835
  • 上传时间:2018-10-21
  • 格式:PDF
  • 页数:6
  • 大小:1.02MB
  • 摘要
    申请专利号:

    CN201410830632.0

    申请日:

    2014.12.26

    公开号:

    CN104484323A

    公开日:

    2015.04.01

    当前法律状态:

    实审

    有效性:

    审中

    法律详情:

    实质审查的生效IPC(主分类):G06F 17/28申请日:20141226|||公开

    IPC分类号:

    G06F17/28

    主分类号:

    G06F17/28

    申请人:

    武汉传神信息技术有限公司

    发明人:

    江潮; 王杰

    地址:

    430074湖北省武汉市东湖开发区光谷软件园一期以西、南湖南路以南、光谷软件园六期2幢5层205号

    优先权:

    专利代理机构:

    北京华沛德权律师事务所11302

    代理人:

    刘杰

    PDF完整版下载: PDF下载
    内容摘要

    本发明涉及计算机语言与信息处理技术领域,具体公开了一种基于文档片段的翻译处理方法,包括:将获取的文本根据标点符号拆分为句子,并对拆分得到的句子设置相应标记标签,所述标签记录句子在整篇文本中的位置;根据主题将文档划分为包含若干句子的片段,并建立所述片段和句子的映射关系;将多个相对独立的不同行业、领域(主题)的文档片段推送至相应的译员处理,达到多人并行处理,减少翻译时限的目的,同时有利于提高翻译处理的质量。且记录了句子和片段的映射关系,有利于译文的标记组合校对。

    权利要求书

    1.  一种基于文档片段的翻译处理方法,其特征在于,包括以下步骤:
    将获取的文本根据标点符号拆分为句子,并对拆分得到的句子设置相应 标记标签,所述标签记录句子在整篇文本中的位置;
    根据主题将文档划分为包含若干句子的片段,并建立所述片段和句子的 映射关系;
    将所述片段分配给相应的译员进行翻译;
    根据句子位置标签顺序对译后的片段进行组合,得到完成的文档译稿。

    2.
      根据权利要求1所述的基于文档片段的翻译处理方法,其特征在于, 所述标记标签以XML方式将句子进行封装。

    3.
      根据权利要求1所述的基于文档片段的翻译处理方法,其特征在于, 所述根据主题将文档划分为包含若干句子的片段,包括以下步骤:
    对于行业领域主题关键字运行Gibbs抽样算法,迭代足够次;
    以整句s作为LDA模型的文本d,遍历待分割文本的所有关键词记号,运 行Gibbs抽样算法,迭代少数几次;
    求取待分割文本词汇的概率分布P(w|s);
    基于P(w|s),利用Clarity度量计算句间的相似值Sim;
    结合局部最小值的边界估计策略,通过句间相似值Sim识别片段边界。

    4.
      根据权利要求3所述的基于文档片段的翻译处理方法,其特征在于, 所述通过句间相似值Sim识别片段边界,包括以下步骤:
    假设待分割文本有n个整句,则相邻句间的相似值表为
    SimTable={Sim1,Sim2,...Simi...Simn-1},
    其中Simi=Sim(si,si+1),1≤i≤n-1在表中选择局部最小值 Simmin(s1,s2);从每一个局部最小值出发向左、向右分别寻找距离最近的较 大值Simmaxl以及Simmaxr,利用公式计算 相对深度;令c为一常数,若相对深度drel(s1,s2)>c,则s1,s2分属于不同 的片段。

    说明书

    一种基于文档片段的翻译处理方法
    技术领域
    本发明涉及计算机语言与信息处理技术领域,具体涉及到一种文档片段 处理的方法。
    背景技术
    一个文档往往包括若干不同行业、领域的信息,在自动翻译领域,由于译 员所熟悉的行业或专业领域的局限性,将一篇混合行业、领域文档交给某一个 译员处理时,一方面译员处理很吃力,难以保证翻译质量。另一方面,对于翻 译时限紧迫的任务,一个译员处理难以达到所需时限。如果能够合理的将一篇 文档分成多个相对独立的不同行业、领域(主题)的文档片段,然后每个片段 推送至相应的工作人员处理,则可达到多人并行处理,减少翻译时限的目的, 同时有利于提高翻译处理的质量。
    文本划分又称文本分割,是指在一个书面文档或语音序列中自动识别具有 独立意义的单元(片段)之间的边界。这种预处理在很多领域有着极为重要的 应用,比如在信息提取、文本解析、语言建模等领域。现有主要的文本分割技 术主要基于语句-语义分析,为文本建构诸如PLSA模型、LDA模型或小世界模 型,进行主题分割。
    发明内容
    本发明所要解决的技术问题是提供一种基于文档片段的翻译处理方法, 以实现行业领域匹配的多人并行翻译处理。
    为解决上述技术问题,本发明提供一种基于文档片段的翻译处理方法, 包括以下步骤:
    将获取的文本根据标点符号拆分为句子,并对拆分得到的句子设置相应标 记标签,所述标签记录句子在整篇文本中的位置;
    根据主题将文档划分为包含若干句子的片段,并建立所述片段和句子的映 射关系;
    将所述片段分配给相应的译员进行翻译;
    根据句子位置标签顺序对译后的片段进行组合,得到完成的文档译稿。
    标记标签以XML方式将句子进行封装,保证数据的通用和交换性。
    所述根据主题将文档划分为包含若干句子的片段,包括以下步骤:
    对于行业领域主题关键字运行Gibbs抽样算法,迭代足够次;
    以整句s作为LDA模型的文本d,遍历待分割文本的所有关键词记号,运 行Gibbs抽样算法,迭代少数几次;
    求取待分割文本词汇的概率分布P(w|s);
    基于P(w|s),利用Clarity度量计算句间的相似值Sim;
    结合局部最小值的边界估计策略,通过句间相似值Sim识别片段边界。
    所述通过句间相似值Sim识别片段边界包括:假设待分割文本有n个整句, 则相邻句间的相似值表为
    SimTable={Sim1,Sim2,...Simi...Simn-1},
    其中Simi=Sim(si,si+1),1≤i≤n-1在表中选择局部最小值 Simmin(s1,s2);从每一个局部最小值出发向左、向右分别寻找距离最近的较大 值Simmaxl以及Simmaxr,利用公式计算相对 深度;令c为一常数,若相对深度drel(s1,s2)>c,则s1,s2分属于不同的片段。
    本发明将一篇文档分成多个相对独立的不同行业、领域(主题)的文档片 段,每个片段推送至相应的工作人员处理,达到多人并行处理,减少翻译时限 的目的,同时有利于提高翻译处理的质量。且记录了句子和片段的映射关系, 有利于译文的标记组合校对。
    附图说明
    下面结合附图和具体实施方式对本发明的技术方案作进一步具体说明。
    图1为本发明具体实施方式的流程图。
    具体实施方式
    结合图1所述,本发明提供的基于文档片段的翻译处理方法,包括以下 步骤:
    步骤Ⅰ:将获取的文本根据标点符号拆分为句子,并对拆分得到的句子设 置相应标记标签,所述标签记录句子在整篇文本中的位置;标记标签以XML方 式将句子进行封装,保证数据的通用和交换性。
    步骤Ⅱ:根据主题将文档划分为包含若干句子的片段,并建立所述片段和 句子的映射关系;根据主题将文档划分为包含若干句子的片段,基于LDA模型, 包括以下步骤:
    步骤1:对于行业领域主题关键字运行Gibbs抽样算法,迭代足够次;
    步骤2:以整句s作为LDA模型下列公式(1)的文本d,遍历待分割文本 的所有关键词记号,运行Gibbs抽样算法,迭代少数几次;
    P ( z i = j | z - i , w i ) = n - i , j ( w i ) + χ n - i , j ( · ) + · n - i , j ( d i ) + α n - i , . ( d i ) + Σ j = 1 T n - i , j ( w i ) + χ n - i , j ( · ) + · n - i , j ( d i ) + α n - i , . ( d i ) + - - - ( 1 ) ]]>
    其中,假设T个主题形成D个文本以W个唯一词汇表示,χ理解为,在见 到语料库的任何词汇之前,从主题抽样获得的词汇出现频率,α理解为,在见 到任何文档文字之前,主题被抽样的频率;
    步骤3:按照以下公式(2)计算LDA模型的参数φ和ψ值;
    φ ~ w ( z = j ) = n j ( w ) + χ n j ( · ) + , ψ ~ z = j ( d ) = n j ( d ) + α n · ( d ) + - - - ( 2 ) ]]>
    步骤4:根据公式求取待分割文本词汇的概率分布P (w|s),其中,T为文本的主题数,j代表某个主题,z是潜在变量。
    步骤5:基于P(w|s),利用Clarity度量计算句间的相似值Sim;
    步骤6:结合局部最小值的边界估计策略,通过句间相似值Sim识别片段 边界。
    所述通过句间相似值Sim识别片段边界包括:假设待分割文本有n个整句, 则相邻句间的相似值表为
    SimTable={Sim1,Sim2,...Simi...Simn-1},
    其中Simi=Sim(si,si+1),1≤i≤n-1在表中选择局部最小值 Simmin(s1,s2);从每一个局部最小值出发向左、向右分别寻找距离最近的较大 值Simmaxl以及Simmaxr,利用公式计算相对 深度;令c为一常数,若相对深度drel(s1,s2)>c,则s1,s2分属于不同的片段。
    步骤Ⅲ:将所述片段分配给相应的译员进行翻译;
    步骤Ⅳ:根据句子位置标签顺序对译后的片段进行组合,得到完成的文档 译稿。由于记录了句子和片段的映射关系,有利于译文的标记组合校对。
    最后所应说明的是,以上具体实施方式仅用以说明本发明的技术方案而 非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术 人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离 本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

    关 键  词:
    一种 基于 文档 片段 翻译 处理 方法
      专利查询网所有文档均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    0条评论

    还可以输入200字符

    暂无评论,赶快抢占沙发吧。

    关于本文
    本文标题:一种基于文档片段的翻译处理方法.pdf
    链接地址:https://www.zhuanlichaxun.net/p-4596835.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
    经营许可证编号:粤ICP备2021068784号-1