书签 分享 收藏 举报 版权申诉 / 52

语言处理装置和方法.pdf

  • 上传人:111****112
  • 文档编号:659381
  • 上传时间:2018-03-02
  • 格式:PDF
  • 页数:52
  • 大小:1.57MB
  • 摘要
    申请专利号:

    CN96103571.4

    申请日:

    1996.01.30

    公开号:

    CN1135060A

    公开日:

    1996.11.06

    当前法律状态:

    终止

    有效性:

    无权

    法律详情:

    专利权的终止(未缴年费专利权终止)授权公告日:2003.7.2|||授权|||公开|||

    IPC分类号:

    G06F17/20; G06F3/023

    主分类号:

    G06F17/20; G06F3/023

    申请人:

    三菱电机株式会社;

    发明人:

    丸山冬树; 佐井阳

    地址:

    日本东京都

    优先权:

    1995.01.30 JP 12742/95

    专利代理机构:

    中国专利代理(香港)有限公司

    代理人:

    董江雄;张志醒

    PDF完整版下载: PDF下载
    内容摘要

    一种汉字输入装置和方法将拼音字母串转换成汉字字符,将键盘输入的拼音字母串通过汉字分音节装置分成汉字音节。输入的拼音字母串可以包括表示拼音字母串的一个未知部分的符号或数字,字母串可以包括声调数据。拼音字母串也能以起始字母的形式输入,每个起始字母对应一个汉字字符。通过利用一系列可能的拼音字母串,词边界设定装置确定输入的拼音字母串的词边界、并存储在词典中。通过汉字转换装置将输入的拼音字母串转换成汉字。

    权利要求书

    1: 一种用于输入字母串和将字母串转换成汉字字符串的汉字输入 装置,包括: (a)输入装置,用于输入字母串,具有一个未知部分的字母串 和输入表示未知字母串的符号以代替字母串的未知部分; (b)汉字分音节装置,用于将由输入装置输入的字母串分成汉 语音节段; (c)字母串产生装置,用于判断每个汉语音节段是否由一个标 准字母串组成,以便当每个汉语音节段由一个标准字母串组成时,输 出标准字母串,并且当采用表示未知字母串的符号以代替输入的字母 串的未知部分时,产生和输出可能的字母串; (d)词典装置,用于既存储汉字字符串又存储字母信息; (e)汉字转换装置,用于通过查寻词典装置,将标准字母串转 换成可能的汉字字符串,并将可能的字母串转换成可能的汉字字符串; 以及 (f)输出装置,用于输出经汉字转换装置转换的可能的汉字字 符串。
    2: 一种用于输入具有一个或多个字母的字母串和将字母串转换成 汉字字符串的汉字输入装置,包括: (a)输入装置,用于输入字母串,具有一个未知字母的字母串 和输入表示未知字母的符号以代替字母串的未知字母; (b)汉字分音节装置,用于将由输入装置输入的字母串分成汉 语音节段; (c)字母串产生装置,用于判断每个汉语音节段是否由一个标 准字母串组成,以便当每个汉语音节段由一个标准字母串组成时,输 出标准字母串,并且当采用表示未知字母的符号以代替输入的字母串 的未知字母时,产生和输出可能的字母串; (d)词典装置,用于既存储汉字字符串又存储字母信息; (e)汉字转换装置,用于通过查寻词典装置,将标准字母串转 换成可能的汉字字符串,并将可能的字母串转换成可能的汉字字符串; 以及 (f)输出装置,用于输出经汉字转换装置转换的可能的汉字字 符串。
    3: 一种用于输入字母串和将字母串转换成汉字字符串的汉字输入 装置,包括: (a)输入装置,用于输入字母串,该字母串包括字母串的起始 字母和附加到字母串的起始字母上的表示声调数据的符号; (b)汉字分音节装置,用于将由输入装置输入的字母串分成汉 语音节段; (c)词典装置,用于既存储汉字字符串又存储字母信息; (d)汉字转换装置,用于通过采用声调数据将字母串转换成可 能的汉字字符串,并将字母串的起始字母和声调数据转换成可能的汉 字字符串,以便减少可能的相应的汉字字符的数量;以及 (e)输出装置,用于输出经汉字转换装置转换的可能的汉字字 符串。
    4: 一种汉字处理方法,用于输入字母串和将字母串转换成汉字字 符串,该方法包括以下步骤: (a)输入字母串,具有一个未知部分的字母串和输入表示未知 字母串的符号以代替字母串的未知部分; (b)将字母串分成汉语音节段; (c)判断每个汉语音节段是否由一个标准字母串组成,以便当 每个汉语音节段由一个标准字母串组成时,输出标准字母串,并且当 采用表示未知字母串的符号以代替输入的字母串的未知部分时,产生 和输出可能的字母串; (d)用于通过查寻既包含汉字字符串又包含字母信息的词典装 置,将标准字母串转换成可能的汉字字符串,并将可能的字母串转换 成可能的汉字字符串;以及 (e)输出可能的汉字字符串。
    5: 一种汉字处理方法,用于输入字母串和将字母串转换成汉字 字符串,该方法包括以下步骤: (a)输入字母串,具有包括一个未知字母的一个或多个字母的 字母串,和输入表示未知字母的符号以代替字母串的未知字母; (b)将字母串分成汉语音节段; (c)判断每个汉语音节段是否由一个标准字母串组成,以便当 每个汉语音节段由一个标准字母串组成时,输出标准字母串,并且当 采用表示未知字母的符号以代替字母串的未知字母时,产生和输出可 能的字母串; (d)用于通过查寻既包含汉字字符串又包含字母信息的词典装 置,将标准字母串转换成可能的汉字字符串,并将可能的字母串转换 成可能的汉字字符串;以及 (e)输出可能的汉字字符串。
    6: 一种汉字处理方法,用于输入字母串和将字母串转换成汉字字 符串,该方法包括以下步骤: (a)输入字母串,该字母串包括字母串的起始字母和附加到字 母串的起始字母上的表示声调数据的符号; (b)将字母串分成汉语音节段; (c)通过采用起始字母和声调数据将字母串转换成可能的汉字 字符串,以便减少可能的汉字字符串的数量; (d)输出可能的汉字字符串。
    7: 一种语言处理装置,用于处理由至少第一字符形式和第二字符 形式代表的一种语言,包括: (a)输入装置,用于输入具有一个未知部分、由第一字符形式 代表的字符串,该字符串包括代替该未知部分的符号; (b)字符串产生装置,用于判断在由输入装置输入的字符串中 是否采用了表示一个未知部分的符号,以便通过第一字符形式的语法 可能的字符串代替该符号,建立可能的字符串; (c)词典装置,用于存储第一字符形式的字符串和第二字符形 式的相应的字符串; (d)转换装置,用于通过查寻词典装置,将通过字符串产生装 置得到的由第一字符形式代表的可能的字符串转换成由第二字符形式 代表的相应的可能的字符串;以及 (e)输出经转换装置转换的由第二字符形式代表的相应的可能 的字符串的装置。
    8: 根据权利要求7的语言处理装置,进一步包括分音节装置,用 于把由输入装置输入并由第一字符形式代表的字符串分成对应于由第 二字符形式代表的字符串的音节。
    9: 根据权利要求7或8的语言处理装置,其中由第一字符形式代表 的字符串包括一个已知的字符串和一个表示未知的字符串以代替字符 串的未知部分的符号。
    10: 根据权利要求9的语言处理装置,其中表示未知字符串的符号 对应于单个字符。
    11: 根据权利要求9的语言处理装置,其中表示未知字符串的符号 对应于多个字符。
    12: 根据权利要求10或11的语言处理装置,其中语言处理装置的 语言是汉语,第一字符形式是拼音字母书写,其中词典装置存储拼音 字母串和对应于拼音字母串的汉字字符串,并且通过查寻词典装置, 转换装置将可能的拼音字母串转换成相应的汉字字符串。
    13: 根据权利要求12的语言处理装置,其中字符串产生装置包括 用于存储语法可行的拼音字母串的组合的表,并且通过查寻该表,字 符串产生装置产生语法可行的拼音字母串。
    14: 根据权利要求8的语言处理装置,其中语言处理装置的语言是 汉语,其中输入装置输入拼音字母串的起始字母和附加到拼音字母串 上的表示声调数据的符号,其中词典装置存储对应于拼音字母串的起 始字母的汉字字符串和声调数据,并且其中转换装置将拼音字母串的 起始字母和声调数据转换成可能的汉字字符串。
    15: 根据权利要求10或11的语言处理装置,其中语言处理装置的 语言是日语,并且其中第一字符形式是日语平假名。
    16: 一种语言处理方法,用于处理由至少第一字符形式和第二字 符形式代表的一种语言,该方法包括以下步骤: (a)输入由第一字符形式代表的字符串,字符串具有包括至少 一个字符的已知部分和包括表示一个未知字符串的符号的未知部分; (b)判断在由输入步骤输入的字符串中是否采用了表示一个未 知字符串的符号,并且当采用该符号时,产生由第一字符形式代表的 语法可行的字符串; (c)通过查寻包含由第一字符形式代表的字符串和由第二字符 形式代表的相应的字符串的词典装置,将通过产生语法可行的字符串 的步骤产生的由第一字符形式代表的语法可行的字符串转换成由第二 字符形式代表的相应的字符串;以及 (d)输出经转换步骤转换的由第二字符形式代表的相应的字符 串。
    17: 根据权利要求16的语言处理方法,进一步包括将输入的字符 串分成由第一字符形式代表的字符串,表示对应于由第二字符形式代 表的字符串的音节。
    18: 根据权利要求16或17的语言处理方法,其中输入步骤中表示 未知字符串的符号对应于单个字符。
    19: 根据权利要求16或17的语言处理方法,其中输入步骤中表示 未知字符串的符号对应于多个字符。
    20: 根据权利要求16、17、18或19的语言处理方法,其中输入步 骤将拼音字母书写作为第一字符形式,并且其中转换步骤将拼音字母 串转换成对应于拼音字母串的汉字字符串。

    说明书


    语言处理装置和方法

        本发明涉及语言处理装置和方法。本发明主要涉及汉字输入装置和计算机及字处理器的汉字处理方法。该汉字输入装置和汉字处理方法使得具有有限的汉语拼音系统和正确的拼音字母串知识的操作者能够容易、有效地进行输入。

        在汉字处理器中已经采用了拼音输入系统,而将字符图形码和GB码作为辅助输入。

        拼音是用字母系统代表汉字字符的读音。在拼音输入系统中,通过键盘写拼音字母将汉字字符的读音输入系统,并转换成所要求的汉字字符串。

        将拼音字母串转换成对应的汉字字符串并不总是得到所要求的汉字字符串,可能存在对应相同拼音字母串的多个汉字字符串。在这种情况下,系统将显示对应于拼音字母串的多个可能的汉字字符串,而系统的操作者将选择所要求的字符串。

        用以下的例子来说明用于汉字输入装置的常规的拼音输入系统:

        图28A表示常规地输入实例15。在这一实例中,至少有三个不同汉字字符对应于写入系统的一个拼音字母串,操作者需要从显示的三个汉字字符中选择所要求的一个汉字字符。

        当对应于一个拼音字母串存在多个汉字字符时,将代表汉字声调的声调数据附加到拼音字母串上并输入系统。这样可以减少相应的汉字字符的数量,在一定程度上便于系统的操作。有五种声调数据,每一种提供有数字信息,并根据不同的声调由数字例如0至4表示。

        图28B也表示常规的输入实例16。如实例16所示,当相应的汉语词由两个以上的汉字字符组成并有一个同音异义词时,采用表示拼音字母串中的声调的声调数据的拼音输入系统是很有效的。声调数据不必附加到整个拼音字母串上。声调数据可以附加到拼音字母串的一部分上,如实例16所示。

        图28C也表示采用与上述系统类似的拼音输入系统的常规的输入实例17。然而,该系统只利用对应于所要求的汉字字符的拼音字母串的起始字母。因此可以减少输入操作的数量。当所要求的词由两个以上的汉字字符组成时,这种系统特别有效。在输入实例17中,输入所要求的词的拼音字母串的两个起始字母。从系统的词典中选择对应于两个起始字母的词。

        在日本专利申请No.HEI4-167159中公开了另一种常规的字处理系统。公开的系统也将整个拼音字母串转换成汉字字符串。然而,当由一个只有有限的拼音知识的操作者输入不完全或不准确的拼音字母串时,该公开的系统不能将拼音字母串转换成正确的汉字字符串。

        在现有技术中,还有一种用于对其拼写不肯定的英语词的英语词典检索工具,称为“The American Heritage Dictionary”。当这一工具的用户不能肯定以“invent”开头的一个所要求的词的拼写时,他就输入例如“invent”。如图29所示,“The American HeritageDictionary”搜寻以“invent”开头的词,并将它们显示在显示单元上。如果需要,用户就选择任何显示的词,并查词典了解其词义。

        图30是检索在“m”和“t”之间包括一个任意字母的词的例子,该词由上述检索工具显示。当用户输入“m?t”时,显示图30所示的几个可能的词。也可以得到在“m”和“t”之间包括一个任意字母串的词。当用户输入“m*t”时,显示对应于上述字母串的500个以上的可能的词。如上所述,常规的英语词检索工具显示大量的可能的字母串,用户从中识别一个他最初希望选择的词。

        然而,虽然上述检索系统可以用于由单一字符形式代表的如英语或法语那样的语言,但是仍有其缺点,它不能用于由多种字符形式代表的如日语或汉语那样的语言。因为在由多种字符形式代表的语言中,一种字符形式必须转换成另一种字符形式。

        此处所用的术语“字符形式”定义为在“语言书写系统中采用的一组字母或字符”。

        以后kanji即汉字字符的使用被认为是一种字符形式,而如代表汉字读音的日语平假名或片假名的字符的使用被认为是另一种字符形式。日语Romaji(罗马体)或分别代表汉字字符或汉字词的读音的汉语拼音也被认为是一种字符形式。

        除非操作者知道将要输入系统的一个字的正确的拼音拼写,否则上述常规的汉字输入装置和汉字处理系统基本上不工作。当输入不存在的或不正确的拼音字母串时,它不能被转换成正确的汉字字符串。

        在例如处理由一个单一字符形式代表的英语的常规的字处理系统中,即使操作者对所要求的词的正确拼写不肯定,也能够很容易地检索该词。而对例如由多个字符形式代表的汉语或日语这样的语言来说,除非字处理系统的操作者知道将要输入的字符形式的正确拼写,否则是不能得到正确的输出字符形式的。

        本发明旨在解决上述问题。因此,本发明的一个目的是提供一种汉字输入装置和一种汉字处理方法,它使得具有有限的拼音系统知识例如具有有限的汉字结束部分的知识的操作者能够容易和有效地进行输入。此处所用的术语“结束部分”是指“汉语音节的带有或不带有最后辅音的主元音或起始辅音或辅音组合之后的半元音”。

        本发明的另一个目的是提供能够与现有的拼音输入系统兼容的汉字输入装置和汉字处理方法,对现有的拼音输入系统和本发明的拼音输入系统而言都能容易和有效地进行输入。

        本发明的再一个目的是提供一种语言处理装置和一种语言处理方法,当需要将输入语言的字的一种字符形式转换成另一种形式时,能够容易和有效地进行输入。

        为了达到上述目的,根据本发明的一个方面,一种用于输入字母串和将字母串转换成汉字字符串的汉字输入装置可以包括:

        (a)输入装置,用于输入字母串,具有一个未知部分的字母串和输入表示未知字母串的符号以代替字母串的未知部分;

        (b)汉字分音节装置,用于将由输入装置输入的字母串分成汉语音节段;

        (c)字母串产生装置,用于判断每个汉语音节段是否由一个标准字母串组成,以便当每个汉语音节段由一个标准字母串组成时,输出标准字母串,并且当采用表示未知字母串的符号以代替输入的字母串的未知部分时,产生和输出可能的字母串;

        (d)词典装置,用于既存储汉字字符串又存储字母信息;

        (e)汉字转换装置,用于通过查寻词典装置,将标准字母串转换成可能的汉字字符串,并将可能的字母串转换成可能的汉字字符串;以及

        (f)输出装置,用于输出经汉字转换装置转换的可能的汉字字符串。

        根据本发明的另一方面,一种用于输入具有一个或多个字母的字母串和将字母串转换成汉字字符串的汉字输入装置可以包括:

        (a)输入装置,用于输入字母串,具有一个未知字母的字母串和输入表示未知字母的符号以代替字母串的未知字母;

        (b)汉字分音节装置,用于将由输入装置输入的字母串分成汉语音节段;

        (c)字母串产生装置,用于判断每个汉语音节段是否由一个标准字母串组成,以便当每个汉语音节段由一个标准字母串组成时,输出标准字母串,并且当采用表示未知字母的符号以代替输入的字母串的未知字母时,产生和输出可能的字母串;

        (d)词典装置,用于既存储汉字字符串又存储字母信息;

        (e)汉字转换装置,用于通过查寻词典装置,将标准字母串转换成可能的汉字字符串,并将可能的字母串转换成可能的汉字字符串;以及

        (f)输出装置,用于输出经汉字转换装置转换的可能的汉字字符串。

        根据本发明的第三方面,一种用于输入字母串和将字母串转换成汉字字符串的汉字输入装置可以包括:

        (a)输入装置,用于输入字母串,该字母串包括字母串的起始字母和附加到字母串的起始字母上的表示声调数据的符号;

        (b)汉字分音节装置,用于将由输入装置输入的字母串分成汉语音节段;

        (c)词典装置,用于既存储汉字字符串又存储字母信息;

        (d)汉字转换装置,用于通过采用声调数据将字母串转换成可能的汉字字符串,并将字母串的起始字母和声调数据转换成可能的汉字字符串,以便减少可能的相应的汉字字符的数量;以及

        (e)输出装置,用于输出经汉字转换装置转换的可能的汉字字符串。

        根据本发明的第四方面,一种汉字处理方法,用于输入字母串和将字母串转换成汉字字符串,该方法可以包括以下步骤:

        (a)输入字母串,具有一个未知部分的字母串和输入表示未知字母串的符号以代替字母串的未知部分;

        (b)将字母串分成汉语音节段;

        (c)判断每个汉语音节段是否由一个标准字母串组成,以便当每个汉语音节段由一个标准字母串组成时,输出标准字母串,并且当采用表示未知字母串的符号以代替输入的字母串的未知部分时,产生和输出可能的字母串;

        (d)用于通过查寻既包含汉字字符串又包含字母信息的词典装置,将标准字母串转换成可能的汉字字符串,并将可能的字母串转换成可能的汉字字符串;以及

        (e)输出可能的汉字字符串。

        根据本发明的第五方面,一种汉字处理方法,用于输入字母串和将字母串转换成汉字字符串,该方法可以包括以下步骤:

        (a)输入字母串,具有包括一个未知字母的一个或多个字母的字母串,和输入表示未知字母的符号以代替字母串的未知字母;

        (b)将字母串分成汉语音节段;

        (c)判断每个汉语音节段是否由一个标准字母串组成,以便当每个汉语音节段由一个标准字母串组成时,输出标准字母串,并且当采用表示未知字母的符号以代替字母串的未知字母时,产生和输出可能的字母串;

        (d)用于通过查寻既包含汉字字符串又包含字母信息的词典装置,将标准字母串转换成可能的汉字字符串,并将可能的字母串转换成可能的汉字字符串;以及

        (e)输出可能的汉字字符串。

        根据本发明的第六方面,一种汉字处理方法,用于输入字母串和将字母串转换成汉字字符串,该方法可以包括以下步骤:

        (a)输入字母串,该字母串包括字母串的起始字母和附加到字母串的起始字母上的表示声调数据的符号;

        (b)将字母串分成汉语音节段;

        (c)通过采用起始字母和声调数据将字母串转换成汉字字符串,以便减少可能的汉字字符串的数量;

        (d)输出可能的汉字字符串。

        根据本发明的第七方面,一种语言处理装置,用于处理由至少第一字符形式和第二字符形式代表的一种语言,可以包括:

        (a)输入装置,用于输入具有一个未知部分、由第一字符形式代表的字符串,该字符串包括代替该未知部分的符号;

        (b)字符串产生装置,用于判断在由输入装置输入的字符串中是否采用了表示一个未知部分的符号,以便通过第一字符形式的语法可能的字符串代替该符号,建立可能的字符串;

        (c)词典装置,用于存储第一字符形式的字符串和第二字符形式的相应的字符串;

        (d)转换装置,用于通过查寻词典装置,将通过字符串产生装置得到的由第一字符形式代表的可能的字符串转换成由第二字符形式代表的相应的可能的字符串;以及

        (e)输出经转换装置转换的由第二字符形式代表的相应的可能的字符串的装置。

        下面将参照附图更详细地描述本发明,附图中:

        图1是表示根据本发明的实施例1的汉字输入装置的透视图;

        图2是表示根据本发明的实施例1的汉字输入装置的框图;

        图3表示拼音汉字词典的一个例子;

        图4表示采用符号“*”输入的例子;

        图5表示采用符号“?”输入的例子;

        图6表示采用带声调数据的起始字母输入的例子;

        图7是表示根据本发明的实施例1的汉字输入装置的操作的流程图;

        图8是表示根据本发明的实施例1的汉字输入装置的操作的详细流程图;

        图9是表示标准拼音字母串的表;

        图10是表示标准拼音字母串的表;

        图11是表示标准拼音字母串的表;

        图12表示输入拼音字母串被分成音节段的例子;

        图13表示由拼音字母串产生单元产生的对应于“do*”的可能的拼音字母串的一列表;

        图14表示由拼音字母串产生单元产生的对应于“ji*”的可能的拼音字母串的一列表;

        图15表示通过词边界设定单元设定词边界的方法;

        图16表示拼音字母串的组合;

        图17表示由汉字转换单元产生的对应于“do*”的可能的汉字的一列表;

        图18表示由拼音字母串产生单元产生的对应于“ch?ng”的可能的拼音字母串的一列表;

        图19表示由汉字转换单元产生的对应于“ch?ng”的可能的汉字的一列表;

        图20表示分开保留作为搜索关键字的起始字母信息和声调数据的例子;

        图21表示保留作为搜索关键字的起始字母和声调数据的词典的例子;

        图22表示在拼音字母串中采用“*”、“?”和“起始字母和声调数据”的输入的例子;

        图23表示在平假名字符串中采用“?”的输入的例子;

        图24表示对应于“が?”的显示的可能的平假名字符串的例子;

        图25表示日语平假名一汉字词典的例子;

        图26表示在罗马体串中采用“*”的输入的例子;

        图27表示罗马体一汉字词典的例子;

        图28A表示常规的输入拼音字母串的例子;

        图28B表示常规的输入拼音字母串的例子;

        图28C表示常规的输入拼音字母串的例子;

        图29表示通过常规的称为“The American Heritage Dictionary”的检索工具显示的以“invent”开头的词的列表;以及

        图30表示通过“The American Heritage Dictionary”显示的在“m”和“t”之间包括一个任意字母的词的列表。

        实施例1

        本实施例提供了可由具有有限的拼音字母形式知识的操作者操作的汉字输入装置和汉字处理方法。

        图1是表示根据本发明的实施例1的汉字输入装置的透视图。在图1中,参考号100是处理单元,101是键盘,102是显示单元,103是盘单元,104是打印机,105是鼠标器,以及106是鼠标器板。

        图2是表示根据本发明的实施例1的汉字输入装置的框图。

        在图2中,参考号1表示输入单元。输入单元1包括键盘101,该键盘至少提供字母键、数字键、转换键和定义键。

        参考号2表示包括字符串转换器3和词典4的控制器。当通过输入单元1输入将要转换的字符串或控制命令时,根据控制程序进行下面将描述的数据处理。

        图3表示词典4的一个实例。图3中的词典4是表示拼音字母串与汉字对应的拼音一汉字词典的一部分。

        字符串转换器3包括汉字分音节单元5、拼音字母串产生单元9、词边界设定单元6和汉字转换单元7。

        汉字分音节单元5根据汉语音节的原则,将输入的字母串分成音节段。音节段进一步分成起始辅音或辅音组合(以下称为起始辅音),和结束部分即起始辅音加结束部分。

        拼音字母串产生单元9分析再分的音节段的内容,并产生可能的标准拼音字母串。

        词边界设定单元6根据已经被分成音节段的拼音字母串,设定词的边界。

        汉字转换单元7将可能的拼音字母串转换成相应的可能的汉字字符串。

        显示系统8显示经转换的汉字字符串,并包括显示单元102。

        现在将参照图1描述这一实施例的操作。键盘101用作输入单元1。由处理单元100实现对控制器2的处理。由处理单元100的中央处理单元实现对字符串转换器3的处理,字符串转换器3包括汉字分音节单元5、拼音字母串产生单元9、词边界设定单元6和汉字转换单元7。词典4存储在处理单元100的主存储器或高速缓冲存储器中。词典4的一部分可以存储在盘单元103中。显示系统8包括显示单元102。

        图4表示一个输入的例子,其中图1所示系统的操作者不能确定他要输入的拼音字母串中的两个以上的连续字母的拼写。在本实施例中,采用符号“*”代表两个以上的连续的不确定字母。也可以采用除“*”以外的其它符号。

        在图4的输入例子1(1)中,操作者想得到汉字“东京”。相应的正确拼音字母串是“dongjing”,如(2)中所示。当操作者不能记住正确的拼音字母串时,他输入“do*ji*”,用“*”代替不确定部分,如(3)所示。

        图4的输入例2表示操作者如(6)所示输入“b*j*”的情况,虽然他要输入如(4)所示的汉字“北京”,但他不能确定相应的拼音字母串的拼写。

        如下面将要说明的,一个汉语音节包括起始辅音和结束部分的组合。当不知道结束部分的一部分或全部时,将用上述“*”。

        图5表示一个输入的例子,其中汉字输入的操作者不能确定他要输入的拼音字母串中的一个字母的拼写。在本实施例中,采用符号“?”代表一个不确定的字母。也可以采用除“?”以外的其它符号。在图5的输入例子3(1)中,操作者想得到汉字“长城”。对应于(1)的正确拼音字母串是“changcheng”,如(2)中所示。当操作者不能记住正确的拼音字母串时,他输入“ch?ngch?ng”,用“?”代替拼音字母串中每个不知道的字母。

        图6是汉字输入的操作者输入起始字母和声调数据的例子。数字表示对应于要输入的汉字字符的拼音字母串的初始字母之后的声调数据,如0至4(或1至5)。也可以用五种其它的符号表示声调数据。在操作者只知道拼音字母串的起始字母而对拼音字母串的其余部分的拼写不能肯定的情况下,或者在他想避免输入整个拼音字母串的情况下,声调数据是很有效的。在图6的输入例子4(1)中,操作者想得到汉字“日本”。相应的正确拼音字母串是“riben”,如(2)冲所示,其中“ri.”和“ben”分别对应于两个汉字字符中的每一个。在这种情况下,当操作者只知道拼音字母串的起始字母而对拼音字母串的其余部分的拼写不能肯定时,或者在他想避免输入整个拼音字母串时,他采用起始字母和声调数据输入“r4b3”。

        在图6的输入实例5中,当操作者要输入汉字“航空公司”(拼音字母串是“hangkonggongst”)时,他输入“h2klglsl”,如(6)中所示。

        图7和图8是表示公开的实施例的操作的流程图。

        首先参照图4中的输入实例1描述操作过程,其中存在两个以上的不确定字母串。

        在步骤21,由处理单元100的控制器2读入从键盘101输入的拼音字母串。这里假定输入的拼音字母串是“do*ji*”。

        在步骤22,汉字分音节单元5将输入的拼音字母串分成汉字音节段。

        图9至11是标准拼音字母串的列表,表示形成汉字音节过程中的起始辅音和结束部分之间的关系。如图9至11所示,汉字音节由起始辅音和后面的结束部分组合而成。存在21个起始辅音和37个结束部分,但是如图9至11所示,一些起始辅音和结束部分不构成音节。可以采用预定的符号“*”来代替结束部分的不确定部分,然而必须总是输入起始辅音。因此,将输入拼音字母串分成音节段,以便每个音节段以拼音字母串中的起始辅音开始。

        图12表示将“do*ji*”分成音节段的例子。“do*ji*”被分成音节段“do*”和“ji*”,以下分别将它们称为音节段1和音节段2。一般是利用汉语的特点将拼音字母串分成音节段的。

        在步骤23,拼音字母串产生单元9接收每个被分的音节段,并判断被分的音节段是否是标准拼音字母串。如果是的话,回答为“是”,并且操作进行到步骤25。如果除了拼音字母串还包括其它符号如“*”或“?”,那么回答是“否”,并且操作进行到步骤24。

        由于音节段1“do*”除了拼音字母串还包括其它符号“*”,所以回答是“否”,操作进行到步骤24。将参照图8说明拼音字母串产生单元9在步骤24的进一步的详细操作流程。

        在图8的步骤51,判断“*”是否被包括在音节段中。如果不是的话,回答是“否”,并且操作进行到步骤53。以下将说明步骤53之后的步骤中的操作。

        由于音节段1“do*”包括“*”,所以回答为“是”,并且操作进行到步骤52。其词边界的方法:

        (1)设定全部三个音节段为一个词

        (2)设定三个音节段中的相邻的两个音节段为一个词

        (3)设定每个音节段为一个词

        在本实施例中,在步骤26和步骤27,采用将最长的音节段组合设定为一个词边界的词边界设定方法。然后执行步骤26至28的操作,并产生可能的汉字的列表。在步骤29,当判断最适合的汉字不包括在列表中时,操作再次返回步骤26。在步骤26,再检查先前的词边界设定,将短于先前音节的一个音节的音节组合设定为一个词,并再次搜寻可能的词。

        当一个词例如包括如图15所示的三个音节段时,先将三个音节段的组合设定为一个词,对此搜寻适合的汉字。当未找到适合的词时,再将两个音节段的组合设定为一个词,并再次搜寻可能的词。在这种情况下,当还未找到适合的词时,将每个音节段设定为一个词。当每个音节段设定为一个词,并且无输入错误时,可以成功地找到适合的汉字。

        在“do*ji*”的情况下,在步骤26先将两个音节段设定为一个词。拼音字母串的组合示于图16。音节段1和音节段2的组合数为14(2×7)。

        在步骤27,通过查寻词典4,汉字转换单元7针对可能的拼音字母串的组合产生可能的汉字的列表。针对如图16所示的14种拼音字母串组合的每一种组合,查寻词典4,并检查是否存在相应的汉字。当存在相应的汉字时,将它们包括在可能的汉字列表中。图17表示产生的一个汉字列表。括号中表示的拼音字母串只是作为参考,并没有实际显示。

        在步骤28,汉字转换单元7选择适合的汉字,并将其显示在显示

        在步骤52,拼音字母串产生单元9用语法可行的拼音字母串代替音节段中的“*”,并产生可能的拼音字母串列表。拼音字母串产生单元9保留如图9至11中的标准拼音字母串的列表中所示的起始辅音对应结束部分的表。拼音字母串产生单元9根据输入字母串的已知部分,即起始辅音“d”和以“o”开始的结束部分的组合,检索该表,并且搜寻语法可行的拼音字母串。由起始辅音和结束部分的组合形成的音节的数目最多是21×37。然而,如图9至11所示,存在起始辅音和结束部分的组合不构成音节的情况。因此,可能的拼音字母串的数目没有21×37那么多。

        图13表示由拼音字母串产生单元9产生的可能的拼音字母串。对应于“do*”的可能的拼音字母串是“dong”和“dou”。完成步骤52的操作后,操作进行到图7中的步骤25。

        在步骤25,判断该音节段是否是拼音字母串中最后的一个音节段,如果回答为“是”,则操作进行到步骤26。如果音节段不是最后的音节段,则在这种情况下回答为“否”,操作返回步骤23。

        在步骤23,拼音字母串产生单元9接收随后的音节段,并判断是否仅包括拼音字母串。由于音节段2“ji*”不是仅包括拼音字母串,所以进行如前所述的相同处理,得到图14所示的可能的拼音字母串。

        对输入拼音字母串的每个音节段都重复步骤23至25的操作,完成以后,操作进行到步骤26。在对音节段1和2的操作都完成以后即在“do*ji*”的情况下,操作进行到步骤26。

        步骤26以后的操作不是本发明的基本点,本发明的操作优点是用预定的符号代替不确定的字符,所以对步骤26和该步骤以后的操作只作粗略的描述。

        在步骤26,词边界设定单元6设定词边界。现在将参照图15说明词边界。在一个词由三个音节段组成的情况下,提供了以下三种设定单元102上。在这种情况下,为了选择最适合的词,将优先考虑或与先前已经查寻的词有关词,或使用频繁的词。另外,可能的汉字的整个列表或一部分列表显示在显示单元102上,在步骤29,用户可以从中选择最适合的词。

        在步骤29,用户判断在显示单元102上显示的可能的汉字是否是想要的词。在显示单元102上显示每个可能的汉语词的同时,用户继续进行判断,直到他识别和选择显示的最适合的词,或直到在屏幕上没有出现列表的更适合的汉语词为止。当未找到最适合的词时,操作返回步骤26。

        在本例中,由于“东京”是想要的汉字,所以用户从显示器中将它选出,操作进行到步骤30。

        在步骤30,词边界设定单元6判断正在处理的词边界中是否包括最后的音节段。当回答是“否”时,操作返回步骤26,在接下来的步骤中对音节段的其余部分再次进行处理,以便找到适合的汉字。在步骤30,当回答为“是”时,操作结束。在本例中,由于包括了最后的音节段,所以操作结束。

        下面将参照图5的输入实例3说明在例如用符号“?”表示拼音字母串中不确定字母的情况下的处理过程。对与采用符号“*”类似的处理过程的描述将予以省略。

        在步骤21,输入“ch?ngch?ng”,并在步骤22被分成音节段“ch?ng”和“ch?ng”。在步骤23,检查除了拼音字母串之外是否还包括符号。在本例中包括“?”,于是操作进行到步骤24。

        现在参照图8详细描述步骤24的处理过程。

        在步骤51,拼音字母串产生单元9判断在音节段是否包括“*”。回答是“否”,于是操作进行到步骤53。在步骤53,拼音字母串产生单元9判断是否包括“?”。如果回答是“否”,则在步骤55进行错误处理。

        由于“?”包括在“cb?ng”中,所以回答为“是”,操作进行到步骤54。

        在步骤54,拼音字母串产生单元9检索已经在上面说明过的表,用一个语法可行的拼音字母书写代替“?”,并产生可能的拼音字母串的列表。

        图18表示由拼音字母串产生单元9产生的可能的拼音字母串列表。列出了对应于“ch?ng”的拼音字母串“chang”、“chong”、“cheng”。

        当完成步骤54的处理过程以后,操作进行到图7的步骤25。第二音节段“ch?ng”与第一音节段相同。因此,可能的拼音字母串列表如图18所示。

        步骤26至30的处理与上述的相同。

        图19表示当设定两个音节段为一个词时显示的汉语词列表。

        现在描述输入带有声调数据的一个起始字母的操作过程。

        下面将参照图6中的输入实例4描述输入带有声调数据的一个起始字母的操作过程。

        在步骤21,通过输入单元1的键盘101将拼音字母串输入到控制器2。在本例中,输入的拼音字母串是“r4b3”。

        在步骤22,汉字分音节单元5将输入的拼音字母串分成汉字音节段。在分成音节段的过程中,汉字分音节单元5识别附加了声调数据的一个起始字母,并根据本发明的系统(其中一个起始字母和声调数据被设定为一个音节段),将拼音字母串分成“r4”和“b3”。

        在步骤23,拼音字母串产生单元9接收从头开始的被分成的音节段。并判断其是否仅包括拼音字母串。“r4”包括一个起始字母和声调数据,它被判断为拼音字母串。因此,回答为“是”,操作进行到步骤25。

        在步骤25,判断音节段是否是结束部分。在这种情况下回答是“否”,操作返回步骤23。

        在步骤23,拼音字母串产生单元9接收随后的音节段“b3”,并判断其是否仅包括拼音字母串。由于“b3”是拼音字母串,所以操作进行到步骤25。

        在步骤25,当判断所有的音节段都已经检查过了的时候,操作进行到步骤26。

        在步骤26,词边界设定单元6设定词边界。在“r4b3”的例子中,先将两个音节段设定为一个词。

        在步骤27,查寻图20中所示的词典4,并产生可能的汉语词。图21所示的表的形式也可以用作词典4。图20和图21中的“拼音字母串”项目只作参考,并不实际包括在词典中。图20所示的词典的优点在于,由于分开保留了起始字母信息和声调数据作为搜索的关键字,所以即使在没有声调数据的情况下仅仅输入了对应于每个汉字字符的拼音字母串的起始字母,也能够单独利用起始字母信息。然而,当以起始字母加声调数据的形式输入字母串时,需要将输入的字母串处理成单独包括起始字母的字母串。图21所示的词典保留一个起始字母和声调数据作为搜索关键字,在不被处理的情况下,输入的字母串可以被用于词典搜索。根据词典4,对应于“r4b3”的汉字是“日本”,它包括在汉语词的列表中。

        在步骤28,汉字转换单元7从汉语词列表中选择一个适合的汉语词,并将它显示在显示单元102上。在这种情况下,显示“日本”。

        当输入带有声调数据的一个起始字母时,可以用声调数据减少显示的可能的汉语词的数目,并且可以得到转换的结果“日本”。

        如上所述,当用户具有有限的汉语拼音系统的知识,并且不能肯定将要输入的拼音字母串的正确的拼写时,可以用如“*”和“?”那样的符号代替拼音字母串的不确定部分。也可以采用起始字母和声调数据输入拼音字母串的缩写形式。因此可以提供对用户而言操作性良好的汉字输入装置。

        在本发明的系统中,输入的拼音字母串被分成音节段,每个音节段对应于一个汉字字符,并进行上述处理。因此,对将包括两个以上的不确定字母的字转换成汉字字符串而言,可以单独或同时采用利用“*”、“?”和“一个起始字母与声调数据”的三种输入系统。

        图22表示单独和同时采用三种输入系统的例子。

        图22的输入实例6表示将要转换成两个汉字字符的拼音字母串,该拼音字母串带有符号“*”,表示用一个未知的字母串代替对应于两个汉字字符中的一个汉字字符的不确定的拼音字母串。

        输入实例7表示带有符号“?”的将被转换成两个汉字字符的拼音字母串,表示用一个未知字母代替对应于两个汉字字符中的一个汉字字符的不确定的拼音字母书写。

        输入实例8表示将要转换成三个汉字字符的拼音字母串,该拼音字母串带有表示未知的字母串的符号“*”和表示一个未知字母的符号“?”,对应于三个汉字字符中的两个汉字字符,将它们一起用来代替拼音字母串的不确定部分。

        输入实例9表示将要转换成四个汉字字符的拼音字母串,该拼音字母串带有分别对应于四个输入汉字字符的第一和第二汉字字符的拼音字母串的两个起始字母,并且第一起始字母附加了声调数据。

        如前所述,本发明可以提供一种汉字输入装置和一种汉字处理方法,使得具有有限的汉语拼音系统知识的操作者(例如该操作者关于汉字音节的结束部分的知识是不够的)能够容易和有效地进行输入。

        此外,本发明可以提供与现有的拼音输入系统兼容的汉字输入装置和汉字处理方法,对现有的拼音输入系统和本发明的拼音输入系统而言都能容易和有效地进行输入。

        实施例2

        本发明的第二实施例涉及日文字处理装置。日文句子可以由包括平假名、片假名和汉字的三种字符形式的组合表示。输入拼音字母串的汉语系统类似于输入日语中的平假名字符串、片假名字符串或罗马字母串的系统。在这一实施例中,假定只转换名词,并且以下的描述针对将平假名转换成汉字,或将一个罗马体或多个罗马体转换成汉字的例子。

        图23表示日语平假名转换成汉字的输入实例。在图23中,(1)表示日语字输入操作者想要得到的日语汉字“海外”。(2)表示对应于(1)的平假名字符串。当操作者不能准确地记住平假名字符串时,输入“かいが?”,用“?”代替不确定的字符,如(3)所示。

        在本发明的这一实施例中,提供了日语字输入装置,该装置以与根据本发明的第一实施例的汉字输入装置相类似的方式,将平假名字符串转换成相应的汉字字符串。图24表示当将“?”转换成相应的平假名字符串时显示的可能的平假名字符串列表。在列举的可能的平假名字符串中,根据日语语法,可能显示包括从″す″至″ん″,″が″,″ぎ″,″ぼ″,″ゅ″,″ゆ″,″ょ″,″っ″等的74个字符。词典存储平假名及其相应的汉字。图25表示日语平假名—汉字词典的一个例子。

        图26表示罗马体转换成汉字的一个输入实例。对应于汉字字符“海外”的罗马体串是“kaigai”,如图26的(2)所示。当操作者不能准确地记住罗马体串时,输入“kaig*”,用“*”代替不确定的字母串,如(3)所示。当列举可能的罗马体串时,可能的罗马字母串将包括从26个罗马体中选出的字母。图27表示罗马体一汉字词典的一个例子。

        如上所述,当平假名字符串或罗马体串不确定时,可以用如“*”或“?”那样的符号来代替不确定的平假名字符串。

        在例如由多个字符形式表示的汉语或日语的语言中,当将要输入的由第一字符形式代表的字符串不确定时,可以用符号代替不确定的字符串,并且可以得到由第二字符形式代表的可能的字符串。根据本发明,可以提供由用户方便地操作的语言处理装置。在本实施例中,可以用例如“*”或“?”那样的符号来代替不确定的字符串。然而,也可以用其它符号。

        虽然上面已经描述了本发明的几个具体的实施例,但是对本领域的一般技术人员来说可以很容易地进行各种改变、修改和改进。这些改变、修改和改进将被视为本公开的一部分,并被视为处于本发明的精神和范围之内。因此,以上描述只是举例性的,而不是限制性的。本发明只受以下权利要求书的限制。

    关 键  词:
    语言 处理 装置 方法
      专利查询网所有文档均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    0条评论

    还可以输入200字符

    暂无评论,赶快抢占沙发吧。

    关于本文
    本文标题:语言处理装置和方法.pdf
    链接地址:https://www.zhuanlichaxun.net/p-659381.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
    经营许可证编号:粤ICP备2021068784号-1