一种日期时间自动翻译控制方法技术领域
本发明属于机器翻译技术领域,尤其涉及一种日期时间自动翻译控制方法。
背景技术
在传统的统计机器翻译中,语料库是决定翻译质量的最重要的部分,往往决定了
一个机器翻译系统翻译能力的好坏。对于某些特殊的具有规律性的翻译内容例如时间、数
字、日期,货币等,由于有各种各样的形式变化,数字范围也是无限的,语料库往往很难全部
覆盖到所有情况,无法做到较高的准确性。对于现有的机器翻译系统,例如百度翻译系统翻
译There are 7bn people in the earth.百度机器翻译无法正确的翻译出7bn为70亿。
传统统计机器翻译中存在的一些具有规律性的文本容易翻译错误的问题。
发明内容
本发明的目的在于提供一种日期时间自动翻译控制方法,旨在解决传统统计机器
翻译中存在的一些具有规律性的文本容易翻译错误的问题。
本发明是这样实现的,一种日期时间自动翻译控制方法,所述日期时间自动翻译
控制方法采用基于规则的时间、数字、日期、货币识别和翻译方法,对于任意给定一个待翻
译的英文句子,自动将其中的时间、数字、日期、货币内容自动翻译过程中文,然后在利用统
计机器翻译将剩余未翻译的部分进行翻译即可完成整个翻译过程。
进一步,所述日期时间自动翻译控制方法包括以下步骤:
步骤一,预处理:对源语进行标点符号前添加空格、单词词形变化处理,缩略语处
理等,如105bn需要变换成105billion;
步骤二,查词典和分词:采用最大匹配的分词方法,从左到右扫描整个句子,依据
分词词典,找出句子中存在于分词词典中的所有最长短语。假设句子中存在Greenwich
Mean Time,而分词词典中也存在词条Greenwich Mean Time\N\格林威治标准时间,则将句
子中的该词条查找出来,并标注上时间名词属性。
步骤三,日期时间类规则及其匹配:穷举实际语言中可能出现的各种形式的日期
和时间形式,并编写出相应规则;对于日期翻译,规则匹配时,需要确保能正确识别年、月、
日;
步骤四,转换生成:对每条规则,都要给出翻译模式,以进行转换生成译文。
进一步,所述相应规则包括::
(0)DAY[1]+(1)CAT[N]&&MONTH[1]+(2)CHI[,]+(3)YEAR[1]-->TREE[0,3,1];PUT
[0,DATE,1];
(0)CAT[N]&&MONTH[1]+(1)DAY[1]+(2)CHI[,]+(3)YEAR[1]-->TREE[0,3,1];PUT
[0,DATE,1]。
进一步,步骤三中,需要定义很多函数,比如数字范围函数,年、月、日的函数,如日
函数DAY,范围为数字1-31,或者1st-31st,月函数MONTH,为January到December,以及它们
缩写词,年函数YEAR,范围一般取1200-2500之间的数字。
然后根据英语日期写法,来定义规则,如英语有下列几种:
January 2,2016
2January,2016
则定义规则:
(0)MONTH[1]+(1)DAY[1]+(2)CHI[,]+(3)YEAR[1]
(0)DAY[1]+(1)MONTH[1]+(2)CHI[,]+(3)YEAR[1]
可以匹配上述两种情况。
本发明的另一目的在于提供一种所述日期时间自动翻译控制方法的日期时间自
动翻译控制系统,所述日期时间自动翻译控制系统包括:
预处理模块,预处理模块,用于对源语进行预处理,包括对源语进行标点符号前添
加空格、单词词形变化处理,缩略语处理;
查词典和分词模块,用于采用最大匹配法,从左到右扫描整个句子,依据分词词
典,找出句子中存在于分词词典中的所有最长短语;
日期时间类规则及其匹配模块,用于穷举实际语言中可能出现的各种形式的日期
和时间形式,并编写出相应规则;对于日期翻译,规则匹配时,需要确保能正确识别年、月、
日;
转换生成模块,用于对每条规则,给出翻译模式,以进行转换生成译文。
本发明的另一目的在于提供一种利用所述日期时间自动翻译控制方法的机器翻
译系统。
本发明提供的日期时间自动翻译控制方法,为了提高此类具有很强规律性的翻译
内容,采用基于规则的时间、数字、日期、货币识别和翻译方法,对于任意给定一个待翻译的
英文句子,本发明自动将其中的时间、数字、日期、货币内容自动翻译过程中文,然后在利用
传统的统计机器翻译将剩余未翻译的部分进行翻译即可完成整个翻译过程。
本发明可以解决传统的统计机器翻译对部分具有很强规律性的翻译内容容易翻
译错误的问题,并优化了整体翻译的过程;使得英文到中文的数字,日期等内容的翻译更加
准确,在对比的机器评测中BLEU值提高了0.3分(满分100分),在对比的人工评测中提高了
0.12分(满分4分);结合了一个小型的规则翻译系统,在不影响整体翻译速度情况下,确保
了在规则覆盖范围内的英文原文都能正确翻译出来。
本发明解决了传统统计机器翻译中存在的一些具有规律性的文本容易翻译错误
的问题,合理的运用了规则系统识别和翻译这些内容,这些内容包含数字、日期、货币和时
间;例如百度翻译会将Jul 3rd,I went to home.翻译成:3月,我去了家。语料库中不存在
这样的表述方法,所以无法正确的将Jul 3rd翻译成7月3日,而使用本发明方法后,将不会
出现这类翻译问题。
附图说明
图1是本发明实施例提供的日期时间自动翻译控制方法流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明
进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于
限定本发明。
下面结合附图对本发明的应用原理作详细的描述。
如图1所示,本发明实施例提供的日期时间自动翻译控制方法包括以下步骤:
S101:预处理:对源语进行预处理,包括对源语进行标点符号前添加空格、单词词
形变化处理,缩略语处理等,如105bn需要变换成105billion。
S102:查词典和分词:采用最大匹配法,采用最大匹配的分词方法,从左到右扫描
整个句子,依据分词词典,找出句子中存在于分词词典中的所有最长短语,如Greenwich
Mean Time\N\格林威治标准时间。
S103:日期时间类规则及其匹配:穷举实际语言中可能出现的各种形式的日期和
时间形式,并编写出相应规则;对于日期翻译,规则匹配时,需要确保能正确识别年、月、日;
S104:转换生成:对每条规则,都要给出翻译模式,以进行转换生成译文。
进一步,S102中,假设句子中存在Greenwich Mean Time,而分词词典中也存在词
条Greenwich Mean Time\N\格林威治标准时间,则将句子中的该词条查找出来,并标注上
时间名词属性。
进一步,S103中,具体包括:需要定义很多函数,比如数字范围函数,年、月、日的函
数,如日函数DAY,范围为数字1-31,或者1st-31st,月函数MONTH,为January到December,以
及它们缩写词,年函数YEAR,范围一般取1200-2500之间的数字。
然后根据英语日期写法,来定义规则,如英语有下列几种:
January 2,2016
2January,2016
则定义规则:
(0)MONTH[1]+(1)DAY[1]+(2)CHI[,]+(3)YEAR[1]
(0)DAY[1]+(1)MONTH[1]+(2)CHI[,]+(3)YEAR[1]
可以匹配上述两种情况。
下面结合具体实施例对本发明的应用原理作进一步的描述。
本发明实施例提供的日期时间自动翻译控制方法包括以下步骤:
步骤一,预处理:对源语进行预处理,包括添加空格,缩略语处理等,如105bn需要
变换成105billion;
步骤二,查词典和分词:采用最大匹配法,找出句子中的短语,如Greenwich Mean
Time\N\格林威治标准时间;
步骤三,日期时间类规则及其匹配:穷举实际语言中可能出现的各种形式的日期
和时间形式,并编写出相应规则,如:
(0)DAY[1]+(1)CAT[N]&&MONTH[1]+(2)CHI[,]+(3)YEAR[1]-->TREE[0,3,1];PUT
[0,DATE,1];
可以匹配这种格式的日期:“17Feb,2016”。
(0)CAT[N]&&MONTH[1]+(1)DAY[1]+(2)CHI[,]+(3)YEAR[1]-->TREE[0,3,1];PUT
[0,DATE,1];
可以匹配这种格式的日期:“May 12,2016”。
对于日期翻译,规则匹配时,需要确保能正确识别年、月、日,比如年份一般是
18XX—20XX,月份有各种缩写,日一般是1-31等,其他也都是类似。
步骤四,转换生成:对上述3中的每条规则,都要给出翻译模式,以进行转换生成译
文,如:
(0)CAT[U]&&M_SEM[A|B]+(1)CAT[N]&&MONTH[1]+(2)CHI[,]+(3)YEAR[1]-->%3
年%1%RI[%0]对于大的数字的翻译,需要能转换成正确的汉语。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精
神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。