书签 分享 收藏 举报 版权申诉 / 7

一种日期时间自动翻译控制方法.pdf

  • 上传人:t****
  • 文档编号:1302152
  • 上传时间:2018-04-14
  • 格式:PDF
  • 页数:7
  • 大小:403.93KB
  • 摘要
    申请专利号:

    CN201710028790.8

    申请日:

    2017.01.16

    公开号:

    CN106844355A

    公开日:

    2017.06.13

    当前法律状态:

    实审

    有效性:

    审中

    法律详情:

    著录事项变更IPC(主分类):G06F 17/28变更事项:申请人变更前:中译语通科技(北京)有限公司变更后:中译语通科技股份有限公司变更事项:地址变更前:100040 北京市石景山区中铁大厦16层变更后:100040 北京市石景山区中铁大厦16层|||实质审查的生效IPC(主分类):G06F 17/28申请日:20170116|||公开

    IPC分类号:

    G06F17/28

    主分类号:

    G06F17/28

    申请人:

    中译语通科技(北京)有限公司

    发明人:

    程国艮; 宗浩

    地址:

    100040 北京市石景山区中铁大厦16层

    优先权:

    专利代理机构:

    北京万贝专利代理事务所(特殊普通合伙) 11520

    代理人:

    马红

    PDF完整版下载: PDF下载
    内容摘要

    本发明公开了一种日期时间自动翻译控制方法,所述控制方法采用基于规则的时间、数字、日期、货币识别和翻译方法,对于任意给定一个待翻译的英文句子,自动将其中的时间、数字、日期、货币内容自动翻译过程中文,然后在利用统计机器翻译将剩余未翻译的部分进行翻译即可完成整个翻译过程。本发明可以解决传统的统计机器翻译对部分具有很强规律性的翻译内容容易翻译错误的问题,并优化了整体翻译的过程;使得英文到中文的翻译质量整体有一定的提升;结合了一个小型的规则翻译系统,在不影响整体翻译速度情况下,确保了在规则覆盖范围内的英文原文都能正确翻译出来。

    权利要求书

    1.一种日期时间自动翻译控制方法,其特征在于,所述日期时间自动翻译控制方法采
    用基于规则的时间、数字、日期、货币识别和翻译方法,对于任意给定一个待翻译的英文句
    子,自动将其中的时间、数字、日期、货币内容自动翻译过程中文,然后在利用统计机器翻译
    将剩余未翻译的部分进行翻译即可完成整个翻译过程。
    2.如权利要求1所述的日期时间自动翻译控制方法,其特征在于,所述日期时间自动翻
    译控制方法包括以下步骤:
    步骤一,预处理:对源语进行预处理,包括对源语进行标点符号前添加空格、单词词形
    变化处理,缩略语处理;
    步骤二,查词典和分词:采用最大匹配的分词方法,从左到右扫描整个句子,依据分词
    词典,找出句子中存在于分词词典中的所有最长短语;
    步骤三,日期时间类规则及其匹配:穷举实际语言中可能出现的各种形式的日期和时
    间形式,并编写出相应规则;对于日期翻译,规则匹配时,需要确保能正确识别年、月、日;
    步骤四,转换生成:对每条规则,给出翻译模式,以进行转换生成译文。
    3.如权利要求2所述的日期时间自动翻译控制方法,其特征在于,步骤三中,所述相应
    规则包括::
    (0)DAY[1]+(1)CAT[N]&&MONTH[1]+(2)CHI[,]+(3)YEAR[1]-->TREE[0,3,1];PUT[0,
    DATE,1];
    (0)CAT[N]&&MONTH[1]+(1)DAY[1]+(2)CHI[,]+(3)YEAR[1]-->TREE[0,3,1];PUT[0,
    DATE,1]。
    4.如权利要求2所述的日期时间自动翻译控制方法,其特征在于,步骤三中,日期时间
    类规则及其匹配,具体包括:定义的函数,包括如数字范围函数,年函数、月函数、日函数;日
    函数为DAY,范围为数字1-31,或者1st-31st;月函数MONTH,为January到December;年函数
    YEAR,范围为1200-2500之间的数字;
    然后根据英语日期写法,来定义规则,定义规则为:
    (0)MONTH[1]+(1)DAY[1]+(2)CHI[,]+(3)YEAR[1]
    (0)DAY[1]+(1)MONTH[1]+(2)CHI[,]+(3)YEAR[1]。
    5.一种如权利要求1所述日期时间自动翻译控制方法的日期时间自动翻译控制系统,
    其特征在于,所述日期时间自动翻译控制系统包括:
    预处理模块,用于对源语进行预处理,包括对源语进行标点符号前添加空格、单词词形
    变化处理,缩略语处理;
    查词典和分词模块,用于采用最大匹配法,从左到右扫描整个句子,依据分词词典,找
    出句子中存在于分词词典中的所有最长短语;
    日期时间类规则及其匹配模块,用于穷举实际语言中可能出现的各种形式的日期和时
    间形式,并编写出相应规则;对于日期翻译,规则匹配时,需要确保能正确识别年、月、日;
    转换生成模块,用于对每条规则,给出翻译模式,以进行转换生成译文。
    6.一种利用权利要求1~3任意一项所述日期时间自动翻译控制方法的机器翻译系统。

    说明书

    一种日期时间自动翻译控制方法

    技术领域

    本发明属于机器翻译技术领域,尤其涉及一种日期时间自动翻译控制方法。

    背景技术

    在传统的统计机器翻译中,语料库是决定翻译质量的最重要的部分,往往决定了
    一个机器翻译系统翻译能力的好坏。对于某些特殊的具有规律性的翻译内容例如时间、数
    字、日期,货币等,由于有各种各样的形式变化,数字范围也是无限的,语料库往往很难全部
    覆盖到所有情况,无法做到较高的准确性。对于现有的机器翻译系统,例如百度翻译系统翻
    译There are 7bn people in the earth.百度机器翻译无法正确的翻译出7bn为70亿。

    传统统计机器翻译中存在的一些具有规律性的文本容易翻译错误的问题。

    发明内容

    本发明的目的在于提供一种日期时间自动翻译控制方法,旨在解决传统统计机器
    翻译中存在的一些具有规律性的文本容易翻译错误的问题。

    本发明是这样实现的,一种日期时间自动翻译控制方法,所述日期时间自动翻译
    控制方法采用基于规则的时间、数字、日期、货币识别和翻译方法,对于任意给定一个待翻
    译的英文句子,自动将其中的时间、数字、日期、货币内容自动翻译过程中文,然后在利用统
    计机器翻译将剩余未翻译的部分进行翻译即可完成整个翻译过程。

    进一步,所述日期时间自动翻译控制方法包括以下步骤:

    步骤一,预处理:对源语进行标点符号前添加空格、单词词形变化处理,缩略语处
    理等,如105bn需要变换成105billion;

    步骤二,查词典和分词:采用最大匹配的分词方法,从左到右扫描整个句子,依据
    分词词典,找出句子中存在于分词词典中的所有最长短语。假设句子中存在Greenwich
    Mean Time,而分词词典中也存在词条Greenwich Mean Time\N\格林威治标准时间,则将句
    子中的该词条查找出来,并标注上时间名词属性。

    步骤三,日期时间类规则及其匹配:穷举实际语言中可能出现的各种形式的日期
    和时间形式,并编写出相应规则;对于日期翻译,规则匹配时,需要确保能正确识别年、月、
    日;

    步骤四,转换生成:对每条规则,都要给出翻译模式,以进行转换生成译文。

    进一步,所述相应规则包括::

    (0)DAY[1]+(1)CAT[N]&&MONTH[1]+(2)CHI[,]+(3)YEAR[1]-->TREE[0,3,1];PUT
    [0,DATE,1];

    (0)CAT[N]&&MONTH[1]+(1)DAY[1]+(2)CHI[,]+(3)YEAR[1]-->TREE[0,3,1];PUT
    [0,DATE,1]。

    进一步,步骤三中,需要定义很多函数,比如数字范围函数,年、月、日的函数,如日
    函数DAY,范围为数字1-31,或者1st-31st,月函数MONTH,为January到December,以及它们
    缩写词,年函数YEAR,范围一般取1200-2500之间的数字。

    然后根据英语日期写法,来定义规则,如英语有下列几种:

    January 2,2016

    2January,2016

    则定义规则:

    (0)MONTH[1]+(1)DAY[1]+(2)CHI[,]+(3)YEAR[1]

    (0)DAY[1]+(1)MONTH[1]+(2)CHI[,]+(3)YEAR[1]

    可以匹配上述两种情况。

    本发明的另一目的在于提供一种所述日期时间自动翻译控制方法的日期时间自
    动翻译控制系统,所述日期时间自动翻译控制系统包括:

    预处理模块,预处理模块,用于对源语进行预处理,包括对源语进行标点符号前添
    加空格、单词词形变化处理,缩略语处理;

    查词典和分词模块,用于采用最大匹配法,从左到右扫描整个句子,依据分词词
    典,找出句子中存在于分词词典中的所有最长短语;

    日期时间类规则及其匹配模块,用于穷举实际语言中可能出现的各种形式的日期
    和时间形式,并编写出相应规则;对于日期翻译,规则匹配时,需要确保能正确识别年、月、
    日;

    转换生成模块,用于对每条规则,给出翻译模式,以进行转换生成译文。

    本发明的另一目的在于提供一种利用所述日期时间自动翻译控制方法的机器翻
    译系统。

    本发明提供的日期时间自动翻译控制方法,为了提高此类具有很强规律性的翻译
    内容,采用基于规则的时间、数字、日期、货币识别和翻译方法,对于任意给定一个待翻译的
    英文句子,本发明自动将其中的时间、数字、日期、货币内容自动翻译过程中文,然后在利用
    传统的统计机器翻译将剩余未翻译的部分进行翻译即可完成整个翻译过程。

    本发明可以解决传统的统计机器翻译对部分具有很强规律性的翻译内容容易翻
    译错误的问题,并优化了整体翻译的过程;使得英文到中文的数字,日期等内容的翻译更加
    准确,在对比的机器评测中BLEU值提高了0.3分(满分100分),在对比的人工评测中提高了
    0.12分(满分4分);结合了一个小型的规则翻译系统,在不影响整体翻译速度情况下,确保
    了在规则覆盖范围内的英文原文都能正确翻译出来。

    本发明解决了传统统计机器翻译中存在的一些具有规律性的文本容易翻译错误
    的问题,合理的运用了规则系统识别和翻译这些内容,这些内容包含数字、日期、货币和时
    间;例如百度翻译会将Jul 3rd,I went to home.翻译成:3月,我去了家。语料库中不存在
    这样的表述方法,所以无法正确的将Jul 3rd翻译成7月3日,而使用本发明方法后,将不会
    出现这类翻译问题。

    附图说明

    图1是本发明实施例提供的日期时间自动翻译控制方法流程图。

    具体实施方式

    为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明
    进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于
    限定本发明。

    下面结合附图对本发明的应用原理作详细的描述。

    如图1所示,本发明实施例提供的日期时间自动翻译控制方法包括以下步骤:

    S101:预处理:对源语进行预处理,包括对源语进行标点符号前添加空格、单词词
    形变化处理,缩略语处理等,如105bn需要变换成105billion。

    S102:查词典和分词:采用最大匹配法,采用最大匹配的分词方法,从左到右扫描
    整个句子,依据分词词典,找出句子中存在于分词词典中的所有最长短语,如Greenwich
    Mean Time\N\格林威治标准时间。

    S103:日期时间类规则及其匹配:穷举实际语言中可能出现的各种形式的日期和
    时间形式,并编写出相应规则;对于日期翻译,规则匹配时,需要确保能正确识别年、月、日;

    S104:转换生成:对每条规则,都要给出翻译模式,以进行转换生成译文。

    进一步,S102中,假设句子中存在Greenwich Mean Time,而分词词典中也存在词
    条Greenwich Mean Time\N\格林威治标准时间,则将句子中的该词条查找出来,并标注上
    时间名词属性。

    进一步,S103中,具体包括:需要定义很多函数,比如数字范围函数,年、月、日的函
    数,如日函数DAY,范围为数字1-31,或者1st-31st,月函数MONTH,为January到December,以
    及它们缩写词,年函数YEAR,范围一般取1200-2500之间的数字。

    然后根据英语日期写法,来定义规则,如英语有下列几种:

    January 2,2016

    2January,2016

    则定义规则:

    (0)MONTH[1]+(1)DAY[1]+(2)CHI[,]+(3)YEAR[1]

    (0)DAY[1]+(1)MONTH[1]+(2)CHI[,]+(3)YEAR[1]

    可以匹配上述两种情况。

    下面结合具体实施例对本发明的应用原理作进一步的描述。

    本发明实施例提供的日期时间自动翻译控制方法包括以下步骤:

    步骤一,预处理:对源语进行预处理,包括添加空格,缩略语处理等,如105bn需要
    变换成105billion;

    步骤二,查词典和分词:采用最大匹配法,找出句子中的短语,如Greenwich Mean
    Time\N\格林威治标准时间;

    步骤三,日期时间类规则及其匹配:穷举实际语言中可能出现的各种形式的日期
    和时间形式,并编写出相应规则,如:

    (0)DAY[1]+(1)CAT[N]&&MONTH[1]+(2)CHI[,]+(3)YEAR[1]-->TREE[0,3,1];PUT
    [0,DATE,1];

    可以匹配这种格式的日期:“17Feb,2016”。

    (0)CAT[N]&&MONTH[1]+(1)DAY[1]+(2)CHI[,]+(3)YEAR[1]-->TREE[0,3,1];PUT
    [0,DATE,1];

    可以匹配这种格式的日期:“May 12,2016”。

    对于日期翻译,规则匹配时,需要确保能正确识别年、月、日,比如年份一般是
    18XX—20XX,月份有各种缩写,日一般是1-31等,其他也都是类似。

    步骤四,转换生成:对上述3中的每条规则,都要给出翻译模式,以进行转换生成译
    文,如:

    (0)CAT[U]&&M_SEM[A|B]+(1)CAT[N]&&MONTH[1]+(2)CHI[,]+(3)YEAR[1]-->%3
    年%1%RI[%0]对于大的数字的翻译,需要能转换成正确的汉语。

    以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精
    神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

    关 键  词:
    一种 日期 时间 自动 翻译 控制 方法
      专利查询网所有文档均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    0条评论

    还可以输入200字符

    暂无评论,赶快抢占沙发吧。

    关于本文
    本文标题:一种日期时间自动翻译控制方法.pdf
    链接地址:https://www.zhuanlichaxun.net/p-1302152.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
    经营许可证编号:粤ICP备2021068784号-1