《翻译设备、翻译方法和存储介质.pdf》由会员分享,可在线阅读,更多相关《翻译设备、翻译方法和存储介质.pdf(17页完整版)》请在专利查询网上搜索。
翻译设备、翻译方法和存储介质。该翻译设备具有:字典,用于存储单词集合及其多种语言的对应含义;输入单元,用于输入文档;识别单元,用于识别所输入文档中的文本;分析单元,用于将由所述识别单元识别的文本分割为单词;翻译单元,用于通过使用所述字典将由所述分析单元获得的各个单词翻译为翻译词;以及输出单元,用于输出包含关键词的翻译词的输出图像。 。
CN200510109709.6
2005.09.15
CN1838115A
2006.09.27
授权
有权
授权|||实质审查的生效|||公开
G06F17/28(2006.01)
G06F17/28
富士施乐株式会社;
增市博; 田宗道弘; 田川昌俊; 刘绍明; 田代洁; 伊藤笃; 石川恭辅; 佐藤直子
日本东京
2005.03.22 JP 2005-082048
北京三友知识产权代理有限公司
李辉
翻译设备、翻译方法和存储介质。该翻译设备具有:字典,用于存储单词集合及其多种语言的对应含义;输入单元,用于输入文档;识别单元,用于识别所输入文档中的文本;分析单元,用于将由所述识别单元识别的文本分割为单词;翻译单元,用于通过使用所述字典将由所述分析单元获得的各个单词翻译为翻译词;以及输出单元,用于输出包含关键词的翻译词的输出图像。
1、 一种翻译设备,其包括:字典,用于存储单词集合及其多种语言的对应含义;输入单元,用于输入文档;识别单元,用于识别所输入文档中的文本;分析单元,用于将由所述识别单元识别的文本分割为单词;翻译单元,用于通过使用所述字典将由所述分析单元获得的各个单词翻译为翻译词;以及输出单元,用于输出包含关键词的翻译词的输出图像。2、 根据权利要求1所述的翻译设备,还包括:部分确定单元,用于确定由所述输出单元输出的输出图像中的要进行翻译的文本部分,其中所述翻译单元对由所述部分确定单元确定的部分的文本进行翻译,并且所述输出单元输出由所述翻译单元生成的翻译文本。3、 根据权利要求1所述的翻译设备,其中在输出包含所述翻译词的输出图像时,所述翻译单元开始翻译所述文档的整个部分。4、 根据权利要求1所述的翻译设备,其中所述输出单元通过将所述翻译词的图像设置在文本行之间来输出所述输出图像。5、 根据权利要求1所述的翻译设备,还包括:图像形成单元,用于在记录介质上形成输出图像,其中所述部分确定单元通过在所述记录介质上检测以预定方式进行了标记的部分,来确定要进行翻译的文本部分。6、 根据权利要求1所述的翻译设备,还包括:显示器,用于显示由所述输出单元输出的输出图像,其中所述部分确定单元通过在所述显示器上识别指定的部分,来确定要进行翻译的文本部分。7、 根据权利要求1所述的翻译设备,还包括:工D分配单元,用于对所述文档分配唯一ID;存储器,用于存储由所述ID分配单元分配的唯一ID的集合、由所述分析单元获得的单词、以及所述单词的翻译词;ID识别单元,用于识别分配给所述文档的唯一ID;以及读取单元,用于从所述存储器读取与由所述ID识别单元识别的唯一ID相对应的单词集合及其翻译词。8、 一种翻译方法,包括:输入文档;识别所输入文档中的文本;将所识别的文本分割为单词;通过使用字典将各个单词翻译为翻译词,该字典存储有单词集合及其多种语言的对应含义;以及输出包含关键词的翻译词的输出图像。9、 根据权利要求8所述的翻译方法,还包括:确定包含关键词的翻译词的所述输出图像中的要进行翻译的文本部分;翻译所确定部分的文本;以及输出翻译文本。10、 根据权利要求8所述的翻译方法,还包括:在输出包含所述翻译词的输出图像之后,开始翻译所述文档的整个部分。11、 根据权利要求8所述的翻译方法,其中将所述关键词的翻译词设置在所述输出图像中的文本行之间。12、 根据权利要求8所述的翻译方法,还包括:在记录介质上形成所述输出图像;以及在所述记录介质上检测以预定的方式进行了标记的文本部分,以确定要进行翻译的部分。13、 根据权利要求8所述的翻译方法,还包括:在显示器上显示所述输出图像;以及在所述显示器上识别指定的部分,以确定要进行翻译的部分。14、 根据权利要求8所述的翻译方法,还包括:对文档分配唯一ID;在存储器中存储分配给所述文档的唯一ID的集合、从所述文档中获得的单词、以及所述单词的翻译词;从包含关键词的翻译词的输出图像中识别唯一ID;以及从所述存储器中读取与所识别的唯一ID相对应的单词集合及其翻译词,其中在所述翻译步骤中使用所述单词集合及其翻译词。15、 一种计算机可读存储介质,用于存储可以由计算机执行的指令程序,以执行下述功能,该功能包括:输入文档;识别所输入文档中的文本;将所识别的文本分割为单词;通过使用字典将各个单词翻译为翻译词,该字典存储有单词集合及其多种语言的对应含义;以及输出包含关键词的翻译词的输出图像。16、 根据权利要求15所述的计算机可读存储介质,还包括:确定包含关键词的翻译词的所述输出图像中的要进行翻译的文本部分;翻译所确定部分的文本;以及输出翻译文本。17、 根据权利要求15所述的计算机可读存储介质,还包括:在输出包含所述翻译词的输出图像之后,开始翻译所述文档的整个部分。18、 根据权利要求15所述的计算机可读存储介质,其中将所述关键词的翻译词设置在所述输出图像中的文本行之间。19、 根据权利要求15所述的计算机可读存储介质,还包括:在记录介质上形成所述输出图像;以及在所述记录介质上检测以预定的方式进行了标记的文本部分,以确定要进行翻译的部分。20、 根据权利要求15所述的计算机可读存储介质,还包括:在显示器上显示所述输出图像;以及在所述显示器上识别指定的部分,以确定要进行翻译的部分。21、 根据权利要求15所述的计算机可读存储介质,还包括:对文档分配唯一ID;在存储器中存储分配给所述文档的唯一ID的集合、从所述文档中获得的单词、以及所述单词的翻译词;从包含关键词的翻译词的输出图像中识别唯一ID;以及从所述存储器中读取与所识别的唯一ID相对应的单词集合及其翻译词,其中在所述翻译步骤中使用所述单词集合及其翻译词。
翻译设备、翻译方法和存储介质 技术领域 本发明涉及一种用于将文档从一种语言翻译成另一种语言的方法、设备和存储介质。 背景技术 长久以来,将文档从一种语言翻译成另一中语言的机器翻译一直是研究的主题。 由于整篇文档的机器翻译要花费相当长的时间,所以用户必须等待,直到机器翻译了整篇文章并且输出翻译页为止。 在某些情况下,用户不需要获得文档的完整并精确的翻译。例如,她/他可能仅需要文档的部分翻译,或者仅需要文档的指定部分的完整和精确的翻译,以获得文档的概要。 在后一情况下,如果仍然进行文档的完整和精确的翻译,则会浪费用户的时间。 发明内容 鉴于上述与现有技术相关的问题而提出本发明,并且本发明提供了一种翻译设备,其包括:字典,用于存储单词集合及其多种语言的对应含义;输入单元,用于输入文档;识别单元,用于识别所输入的文档中的文本;分析单元,用于将由该识别单元识别的文本分割为单词;翻译单元,用于通过使用字典将由分析单元获得的各个单词翻译为翻译词;以及输出单元,用于输出包含关键词的翻译词的输出图像。 附图说明 下面将根据附图详细说明本发明的实施例,附图中: 图1示出了翻译设备1的硬件结构; 图2示出了翻译设备1的功能框图; 图3(a)、3(b)、3(c)和3(d)示出了要进行翻译的文档、包括关键词的翻译的输出图像、带有标记的输出图像、以及翻译的输出图像的示例;以及 图4示出了翻译装置1的操作流程。 具体实施方式 A.结构 翻译设备1适用于将文档翻译成目标语言,并且适用于生成所翻译文档的副本。 图1示出了翻译设备1的硬件结构。翻译设备1具有控制单元4。控制单元4包括图1中未示出的CPU(中央处理单元)、ROM(只读存储器)以及RAM(随机存取存储器)。CPU执行存储在ROM中的0S(操作系统)程序,以控制翻译设备1的组件。 存储单元5是非易失性的,并且被构造为硬盘驱动器单元等。存储单元5存储有用于执行诸如输入、翻译和输出文档的操作的计算机程序。存储单元5存储有用于执行字符识别的已知OCR(光学字符识别)程序。存储单元5还存储有字典51。 字典51存储有单词集合及其多种语言的对应含义。字典51还对各个单词存储表示单词为关键词或辅助词的标志,CPU可以根据该标志确定要翻译的单词是关键词还是辅助词。注意,在下文中,将作为名词、动词或形容词的单词,或者本身可以构成语句的单词称为关键词;而在下文中,将虚词或辅助动词称为辅助词。 指令输入单元41具有键盘40和显示单元39,键盘40具有十个键区和开始按钮,显示单元39包括具有触摸板功能的LCD板。用户可以通过指令输入单元41向翻译设备1输入指令。在翻译设备1出现故障的情况下,可以在显示单元39上显示翻译设备1的状态。 适于在其上形成图像的纸张10堆叠在送纸盘9上。当通过指令输入单元41输入在纸张10上形成图像的指令时,送纸辊33开始转动,从送纸盘9逐张地送出纸张10。利用成对的辊34、35、37沿传运路径36传送纸张10。 图像输入单元12光学地输入文档,并且产生图像数据。 图像输入单元12可以设置为扫描单元。更具体地,将光从光源13照射到设置在平板玻璃2上的文档上。来自该文档的光经反射镜14、15、16反射并由光接收单元17接收。图像处理单元18将光接收单元17接收的反射光转换为电信号,以产生由黄色(Y)、洋红(M)、青色(C)和黑色(K)构成的图像数据。 图像形成单元6具有图像形成装置7Y、7M、7C、7K和转印带8。 图像形成装置7Y、7M、7C、7K分别形成黄色、洋红、青色和黑色的单一颜色的调色剂图像。由于这些图像形成装置具有相同的结构,所以仅描述图像形成装置7Y的细节。 图像形成装置7Y包括感光鼓20Y(图像支撑构件),在该感光鼓20Y上形成静电潜像,并且通过该感光鼓20Y支撑调色剂图像。图像形成装置7Y还包括感光鼓20Y周围的静电充电单元21Y、曝光单元19Y、显影单元22Y,和清洁单元24Y。 静电充电单元21Y在感光鼓20Y沿箭头A的方向旋转的同时,将感光鼓20Y的整个表面均匀充电为一致极性的特定电势。 曝光单元19Y与图像数据相对应地将一束光照射到感光鼓20Y的表面上。 曝光单元19Y可以被构造为光栅输出扫描仪。更具体地,曝光单元19Y与图像数据相对应地扫描从半导体激光器单元(未示出)发射的激光束,从而在感光鼓20Y的表面形成静电潜像。在将激光束照射到感光鼓20Y表面区域上之后,由于感光鼓20Y的感光性,使得该区域的电势电平根据激光束的强度而降低。因此,在感光鼓20Y的表面上形成与图像数据相对应的静电潜像。 显影单元22Y对形成在感光鼓20Y地表面上的静电潜像进行显影。更具体地,将调色剂(充有静电的彩色颜料)充电为与感光鼓20Y表面相同的极性。然后,从调色剂盒23Y向感光鼓20Y的表面提供调色剂,以在感光鼓20Y的表面上生成调色剂图像。因此,在感光鼓20Y的表面上形成调色剂图像,该调色剂图像是静电潜像的负像(negative image)。 转印带8设置在辊26、27、28、29上,并沿着箭头B的方向旋转地驱动。转印带8在感光鼓20Y的下面运转。当感光鼓20Y被压靠在转印带8上时,形成在感光鼓20Y上的调色剂图像被转印到转印带8上。 清洁单元24Y将残余的调色剂从感光鼓20Y上去除。 类似地,在图像形成装置7M、7C、7K中,在感光鼓20M、20C、20K上分别形成各种颜色的调色剂图像。将每一种颜色的调色剂图像重叠地连续转印到转印带8上。 在以下说明中,在没有必要区分图像形成装置7Y、7M、7C、7K的情况下,将它们统称为图像形成装置7。类似地,在没有必要区分其他颜色组成部分的情况下,符号Y、M、C、K也可以省略。 在将纸张10从送纸盘9送到传送路径36后,纸张10进入形成在转印带8和转印辊30之间的咬合部分,并被压靠在转印带8上。来自纸张10的压力和静电吸引力使得能够将调色剂图像转印到纸张10的表面上。 此后,通过成对辊31将纸张10导入熔合单元11,并且熔合单元11挤压并加热纸张10,以使得调色剂熔合在纸张10的表面上。因此,在纸张10上形成了图像,并将纸张10输出到收集盘32上。 B.功能 图2示出了翻译设备1的功能框图。CPU执行存储在存储单元5中的程序来执行翻译功能。 输入单元101通过使用图像输入单元12来输入文档,并生成该文档的图像数据。 字符识别单元102根据由输入单元101生成的图像数据来识别该文档中的文本。 词素分析单元103通过将由字符识别单元102识别的文本分割为多个词素(例如,单词)来从该文本中获得单词。 翻译词选择单元104从字典51中选择由词素分析单元103获得的各个单词的翻译词。 翻译词输出单元105生成包含由翻译词选择单元104选择的用于翻译关键词的翻译词的输出图像。更具体地,翻译词输出单元105使图像形成单元6在纸张的表面上形成该输出图像,并将该纸张输出到收集盘32。 可以自由地编排由翻译词输出单元105生成地输出图像。例如,将输出图像编排为包括要翻译的文档的页面图像的原始版面(参见图3(a)),并且将关键词的翻译词插入在原始文档的文本行之间、对应关键词的下方,如图3(b)所示。可以在纸张的右上端边缘打印该文档的文档ID。 翻译部分确定单元106根据文档的图像数据来确定文档中的文本的要翻译的一个或多个部分。 翻译单元107将文档中的由翻译部分确定单元106确定要翻译的该(多个)部分翻译成目标语言。更具体地,翻译单元107例如使用已知的语法和语义分析方法来分析文档的语法,生成语法树,并将所生成的语法树转换成目标语言。翻译单元107选择各个词素的翻译,以生成文档的翻译。 翻译输出单元108输出包含由翻译单元107生成的文档的翻译的输出图像。更具体地,翻译输出单元108使图像形成单元106在纸张地表面上形成输出图像,并将该纸张输出到收集盘32中。 ID分配单元201对文档分配唯一的ID(下文中将其称为文档ID)。可以任意形式给出文档ID,以唯一地识别文档。例如,文档ID可以包括字母数字字符。 翻译词存储单元202将分配给文档的文档ID集合、从文档获得的单词、以及这些单词的翻译词存储在存储单元5中。 ID识别单元203根据文档的图像数据来识别分配给文档的文档ID。 翻译词读取单元204从存储单元5中读取包含在具有该文档ID的文档中的单词集合以及词的对应翻译。 C.操作 图4示出了翻译设备1的操作流程。在图4中,假定翻译设备1已经打开,并且CPU正在运行计算机程序。 用户将纸件文档(以下称为文档)面朝下放置在平板玻璃2上。当在指令输入单元41处按下开始按钮时,CPU通过使用输入单元101生成该文档的图像数据(在步骤A01),并将该图像数据存储在存储单元5中。图3(a)示出了要翻译的文档的示例。 CPU还通过使用ID分配单元201向文档分配唯一的ID。在本实施例中,分配了唯一的ID“x49f”。 在步骤A02,CPU通过使用字符识别单元102识别包含在该文档中的文本的多个部分。 在步骤A03,CPU通过使用词素分析单元103将该文本分割为词素,从在步骤A02中识别的文本的多个部分中获得单词。 在步骤A04,CPU通过使用翻译词选择单元104从字典51中选择在步骤A03中获得的各个单词的翻译词。 CPU将文档的唯一ID集合、包括在从文档获得的文本中的单词、以及这些单词的翻译词存储在存储单元5中。 在步骤A05,CPU通过使用翻译词输出单元105打印包含关键词的翻译词的输出图像的纸张。图3(b)示出了该输出图像的示例。如图3(b)所示,在纸张的右上端的边缘打印文档ID“x49f”。 用户通过参照包含翻译词的输出图像的打印页来确定要翻译的文档中的文本的(多个)翻译部分。用户使用突出笔(highlight pen)等在打印出的页面上对确定要翻译的文本的(多个)部分进行标记。在本示例中,用户确定必须翻译“A whale belongs to Mammalia”部分,并且使用突出笔对该部分进行标记(图3(c)中由矩形包围的部分)。另选地,可以对(多个)翻译词进行标记以限定该(多个)部分。 用户将打印出的纸张面朝下放置在平板玻璃2上。当将翻译该文档的指令输入到指令输入单元41中时,CPU通过使用图像输入单元12生成标记页面的图像数据。 在步骤A06,CPU通过使用翻译部分确定单元106确定打印出的页面的图像数据中是否存在使用特殊颜色标记的一个或多个部分(下文中称为标记部分)。 如果没有标记部分(步骤A06中:否),则CPU将其操作转到步骤A09,并根据图像数据生成完整的翻译,否则,CPU将其操作前进到步骤A07。 在步骤A07,CPU通过使用ID识别单元203从文档的图像数据中识别分配给文档的文档ID。CPU从存储单元5中读取与该文档ID相对应的单词集合以及这些单词的翻译词。CPU通过使用翻译单元107来使用这些翻译词翻译该部分。 在步骤A08,CPU确定是否已翻译了所有部分。如果已翻译了所有部分(在步骤A08中:是),则CPU将其操作前进到步骤A10,否则CPU将其操作返回到步骤A07。 在步骤A10,CPU通过使用翻译输出单元108输出翻译的输出图像。图3(d)示出了本示例中所述的输出翻译。 因此,用户可以从包含文档的关键词的翻译词的输出图像中获得文档的概要。然后可以翻译文档中的(多个)特定部分。由此可以在最短的时间内获得符合所需深度和细节的文档翻译。 D.变型例 (1)CPU可以在步骤A05中打印出包含关键词的翻译词的输出图像的纸张后立即开始生成文档的完整翻译。因此,CPU可以在用户确定文档中要翻译的一个或多个部分的同时,对文档进行翻译。因此,当没有指定一个或多个部分时,可以将文档的完整翻译的等待时间减少为最少时间。 (2)可以在显示在显示单元(例如,LCD显示单元)上的画面上指定要翻译的一个或多个部分。CPU显示包含文档中的关键词的翻译词的输出图像。用户可以通过使用定点设备(例如,鼠标)指示文档的要翻译的部分的起点和终点来指定该部分。因此,可以在较短的时间内指定要翻译的部分,而不必打印出输出图像的纸张。 (3)可以在包含要翻译的词的输出图像中以各种形式编排翻译词。在一个示例中,在输出图像中仅编排关键词的翻译词,而不包括文档的图像。在另一示例中,在纸张的上部编排要翻译的文档的输出图像,而在纸张的下部集中编排包含在该页面中的关键词的翻译词。 (4)可以在纸张上以各种可确定的形式指定要翻译的一个或多个部分。例如,可以对这些部分添加下划线。 (5)图像输入单元12可以是通过网络与翻译设备1相连的独立扫描设备。图像形成单元6可以是通过网络与翻译设备1相连的独立打印设备。 如上所述,本发明提供了一种翻译设备,其包括:字典,用于存储单词集合及其多种语言的对应含义;输入单元,用于输入文档;识别单元,用于识别所输入文档中的文本;分析单元,用于将由识别单元识别的文本分割为单词;翻译单元,用于通过使用字典将由分析单元获得的各个单词翻译为翻译词;以及输出单元,用于输出包含关键词的翻译词的输出图像。 本发明提供了一种方法,包括:对文档分配唯一ID;将分配给文档的唯一ID的集合、从文档中获得的单词、以及这些单词的翻译词存储在存储器中;从包含关键词的翻译词的输出图像中识别唯一ID;以及从该存储器中读取与所识别的唯一ID相对应的单词集合及其翻译词,其中,在翻译步骤中使用该单词集合及其翻译词。 本发明提供了一种计算机可读存储介质,用于存储可以由计算机执行的指令程序,以执行下述的功能,该功能包括:对文档分配唯一ID;将分配给文档的唯一ID的集合、从文档中获得的单词、以及这些单词的翻译词存储在存储器中;从包含关键词的翻译词的输出图像中识别唯一ID;以及从该存储器中读取与所识别的唯一ID相对应的单词集合及其翻译词,其中,在翻译步骤中使用该单词集合及其翻译词。 因此,可以根据要翻译文档生成图像数据;生成关键词的翻译词、该文档的指定部分的翻译。 因此,可以在最短的时间内获得符合所需深度和细节的文档翻译。 以上出于示例和说明的目的给出了本发明的实施例和变型例的说明。其并不旨在对本发明进行穷尽或将本发明限制为所公开的具体形式。显然,本领域的技术人员可以想到很多修改和变化。为了最好地说明本发明的原理及其实际应用而选择并描述了这些实施例,由此使得本领域的其他技术人员可以理解本发明的适于所期望的具体应用的各种实施例以及各种变型例。其旨在通过以下权利要求及其等价物来限定本发明的范围。 在此通过引用并入2005年3月22日提交的日本专利申请No.2005-82048的全部公开内容,包括说明书、权利要求、附图以及摘要。
下载文档到电脑,查找使用更方便
30 金币 0人已下载
还可以输入200字符
暂无评论,赶快抢占沙发吧。
copyright@ 2017-2018 zhuanlichaxun.net网站版权所有经营许可证编号:粤ICP备2021068784号-1