两笔优化拼音输入法及其键盘 本发明属于电脑汉字输入法及其键盘。
汉字输入在电脑应用中是一种必不可少的技术。目前汉字输入技术种类繁多各有特点。使用比较广泛的有“五笔输入法”和,“拼音输入法”。前者以输入速度快、重码率较低而著称,而后者以简单、易学而被广泛应用。前者的输入需要背很多的字根,还要学会专业的拆字知识和专业的键入指法,才能达到其输入法的设计要求。它虽然有很多的优点但输入方法却不易掌握。使用者不普遍。而后者虽然输入方法易掌握,却有键入次数多速度慢的缺点,输入效率低。然而,由于汉语拼音输入法比较接进人们日常的使用和书写习惯,且无需培训就能使用,以及输入方法极易掌握的特点,所以现在它仍是大多数人输入汉字的首选。其使用者非常普遍。尤其是在电脑非常普及的今天更是如此。因为绝大多数人无时间或者说不愿化一定的时间专门来学习一种文字输入法。人们更喜欢那些自然而然的输入法。这也是汉语拼音输入法的使用者,要远远多于其他输入法的使用者的原因。如果我们能使汉语拼音输入法达到一定的输入速度且不用选字,就能满足汉字输入的使用要求。或者说我们就为大绝多数的电脑使用者,解决了汉字输入的难题。使汉字输入的技术更具科学性、先进性、简单性、实用性、普遍性。经进一步开发使汉字输入成为一种智能文字工具—不仅能输入文字,还能帮我们在写文章时使用词汇和成语及典故、诗词和名言。
事实上造成拼音法输入汉字慢地原因不是拼音方法的本身,而是这一过程中的输入方示、显示方式、及选字方式等具体手段。经本人的研究发现,造成拼音输入汉字慢的原因有三个:一是用拼音输入汉字时的键码较长。椐初步统计其平均键码为四个除个。别字外,如a(阿).e(俄)键码为一个以外,其它的少则三四个,多则五六个,如创字的拼音为“chuang”,其击键数为六个。如加上选字翻页所用的击键次数就更长。
二是显示的汉字排例不合理导致选字慢:现有的拼音输入法选择一个汉字往往要辩认和选字两个环节,才能准确的输入一个汉字。由于汉字的同音字多,按现有的拼音输入法所采用的显示汉字的方式,让使用者无法在同音字中迅速辩认选择目标汉字。这是由于同音字的显示排例不合理所致。同样的原因有些汉字往往要翻页多次才能找到。这些也是造成其输入慢的重要原因。
三是用现有的拼音法输入汉字同音字多不能自动选字。第三点也是最重要的一点,现有的拼音输入法是以单个汉字为键入单,位进行编码和取码的。造成了拼音输入法中无法解决汉语同音字的筛选问题。我们知道,在汉语言中词是能独立运用的最小语言单位。汉语中虽然同音字(或单音节的词)很多,但由两个以上的音节组成的词或成语、格言、谚语、歇后语、惯用语的同音词句就少的多。经我们研究得处以下结论:“如果把词或成语、格言、谚语、歇后语、惯用语等视为一个整体,那么其组成的词音节越多,则同音词(句)的重码率就越低。因此把一个和两个以上音节组成的“词”按读音进行编码,做为语言文字输入单位,用于电脑文字的输入输出和储存,是解决拼音式汉字输入同音字处理的一种有效方法。”如果用拼音的形式输入汉字不需选字,或者说绝大部分不需选字,那么就能为人们提供一种简单易学实用的汉字输入方法,使汉字的输入工作变为一种美妙的事情。
本发明的目的,就是提供一种两笔优化拼音汉字输入法及其键盘,使汉字输入的技术更具科学性、先进性、简单性、实用性、普及性。在以拼音的方式输入汉字时,使输入和选字将变得非常容易。也能让拼音输入法变得无需选字就能正确输入绝大部份的汉字。此外还可使原本单一的文字输入功能,变为具有字典性、词典性等语言文字工具的多种辅助功能。使汉字的输入更方便更迅速。也使汉字书写软件变得更有效。最终让拼音输入法从全方位得到提高。更好的解决汉字的电脑输入的问题。
本发明是这实现的:用汉语拼音规定的声母或韵母(声母或韵母的标注还能用汉语注音表示)分层定义键盘,被定义的按键每个键定义一到两个音素(音素即声母或韵母)。用拼音的方式输入汉字,每个输入的汉字其输入用两笔(键)完成。并且建立字库和词库,把词作为电脑的汉字输入输出和储存的一种形式。词库中的词以单音节词或多音节的词及词组组成,词按汉字读音进行编码。输入时,采用“分段式滚动对比判别法”对同音字、词进行自动的选字处理。同时采用优化汉字的显示和翻页形式来优化选择自动选字后可能出现的同音字、词。进一步的说明如下:
首先说键盘的定义及拼音的输入办法,本发明将汉语拼音(或注音)表示的全部声母和韵母分二层定义在标准键盘的26个字母键及三个标点符号键上。输入时,奇次击打字母键时做用于第一层键的定义,偶次击打已定义的韵母键时做用于第二层键的定义。非定义的键层和按键,原有的定义和功能不变。在特定情况下,偶次击键时仍可做用于定义在第一层键的韵母a、o、e、i、u五键。在本发明的输入模式下,第一层键用“B、P、M、F、D、T、N、L、G、K、H、J、Q、X、Y、V、W、R、Z、C、S”21个字母键分别定义用汉语拼音(或注音)形式表示的21个声母“bㄅ(玻)、pㄆ(坡)、mㄇ(摸)、fㄈ(佛)、dㄉ(得)、tㄊ(特)、nㄋ(讷)、lㄌ(勒)、gㄍ(哥)、kㄎ(科)、hㄏ(喝)、jㄐ(基)、qㄑ(欺)、xㄒ(希)、zhㄓ(知)、、chㄔ(蚩)、shㄕ(诗)rㄖ(日)、zㄗ(资)、cㄘ(雌)、sㄙ(思)”。用字母键“A、O、E、I、U”分别定义“aㄚ(啊)、oㄛ(哦)、eㄜ(鹅)、Iㄧ(衣)、uㄨ(乌)”5个韵母。第二层键用“Q、W、E、R、T、Y、U、I、O、P、A、S、D、F、G、H、J、K、L、Z、X、C、V、B、N、M”26个字母键分别定义anㄢ(安)、ia(ㄧㄚ)(呀)、ün(ㄩㄣ)(晕)、ian(ㄧㄢ)(烟)、en ㄣ(恩)、iang(ㄧㄤ)(央)、iong(ㄩㄥ)(雍)、uai(ㄨㄞ)(歪)、uang(ㄨㄤ)(汪、)engㄥ(亨的韵母)、üan(ㄩㄢ)(冤)、ie(ㄧㄝ)(耶)、ong(乂ㄥ)(轰的韵母)、aiㄞ(哀)、iao(ㄧㄠ)(腰)、iu(iou)(ㄧㄡ)(忧)、ao幺(熬)、in(ㄧㄣ)(因)、ui(uei)(ㄨㄟ)(威)、ing(ㄧㄥ)(英)、angㄤ(昂、)eiㄟ(诶)、 üㄩ(迂)、ouㄡ(欧)、un(uen)(ㄨㄣ)(温)、uo(ㄨㄛ)(窝)。此外,在豆号键的第二层上定义uan(ㄨㄢ)(弯),在句号键的第二层上定义ua(ㄨㄚ)(蛙),在分号键的第二层上定义üe(ㄩㄝ)(约)。这三个符号键的第一层定义不变仍为豆号、句号和分号键。韵母ueng(翁)不与其他声母组成拼读音节,所以不单设该键。weng(翁)字读音的取码由“U键”和“P键”共同完成。“P键”下定义的韵母“eng”这一音节只有一个汉字“ ”其取码由“H键”和“P键”共同完成。详见图1。键盘上没有相应可代用声母和韵标识的按键,可用胶条印上拼音或注音形式的声母和韵母贴在按键键帽的水平面或侧立面上。新制造的键盘可将声母和韵母的拼音标识或注音表识印在相应的安键上,并预备一套注音或拼音的声母和韵标识供使用者选用。在输入汉字时,奇次击打字母键,定义在第一层的声母或韵母为活动状态,并以所击打键定义键的声母和韵母取值。奇数次击打字母键完成后,定义在第一层的声母处于休眠状态,并激活定义在键盘第二层上的韵母。其中,定义在第一层的部分韵母也为活动状态。当偶次击打按键时,不仅能以偶次所击打按键定义的韵母取值,而且能与第一层按键所定义的声母,按汉语拼音的规律组成某一汉字读音的编码。进而取码该音节下的全部汉字以备选用。双击同一按键,则取值该键第二层的韵母音节的汉字编码。偶次击键时特定情况:被击打的定义在第一层的声母,能和与之有拼读关系的也定义在第一层的韵母(图5)发生拼读关系并取码该音节下的汉字和词。例如,在击打“m、d、t、n、l、g、k、h、zh、ch、sh、r、z、c、s”它们不击活键第二层定义的韵母ün(ㄩㄣ)(晕)的编码,其编码键仍定义为第一层的韵母“e”(鹅)。就是说按键第一层“e”(鹅)与该键第二层的ün(ㄩㄣ)(晕)为“相斥型韵母”。所以e(鹅)与ün(ㄩㄣ)(晕)同时定义在键不会使定义键发生的拼读冲突。在与声母的拼读规律中,类似这样“相斥型韵母”的情况还有:A键上定义的a与üan(冤)、O键上定义的o与uang(汪)、U键上定义的u与iong(雍)、I键上定义的i与uai(歪)。详见图5的《按键分层定义后声母与韵母拼读关系表》。图中√表示声母与韵母有拼读关系,×表示声母与韵母没有拼读关系。在击打第一层的声母时与该声母有拼读关系的韵母(有‘√’的韵母)处于活动状态。对于读音a(啊)、o(哦)、e(鹅)yi(衣)、wu(乌)、zhi(知)、chi(蚩)、shi(诗)八个音节的取码,则分别用字母键“A、O、E、I、U、Y、W、V”与回车键结合取码确认。此外,与拼音的书写形式不同,键入i行的韵母编码时,i行的韵母前没有声母时不必都用“y”表示键入的拼音。而可直接用定义在按键上的原形韵母编码表示其读音。如“yao(要)”字就是双击定义在键下的韵母“iao”;键入u行的韵母编码时,u行的韵母前没有声母时也可以不用“w”表示键入的音节。而直接用定义在按键上的原形韵母编码表示其音节。如“wei(伟)”字就是通过双击键而作用于其键下的韵母“uei”。在定义键盘时,定义在同一按键的声母与韵母不能发生拼读关系,以便通过双击该键取码其下的韵母音节所包含的汉字。(以便取其所代表的汉字群)不单独发音“ong”的除外。详见图6《双击键取码表》。三个符号键的第二层上定义的韵母uan、ua、üe,取码该读音下的汉字时,前两个其编码要由键作为第一层键引导协助完成。如挖字先击U键再击键。后一个üe由键作为第一层键协助完成。如“yue(月)”字的取码为先击键再击键。字母“U”代替书写形式中的W,“I”代替书写形式中的“Y”。如“yu(鱼)”的编码为先击键再击键。这样当我们每击打两次按键就能完成某一音节的汉字取码。也就是说无论某一音节的汉字其拼音在书写上是多么复杂,当做为两笔优化拼音汉字输入时,只须击键两次即可完成初步输入。同时完成其初步取码。按照上述的方法用注音代替拼音,还能将汉语拼音以注音的形式定义在键盘上,做为两笔优化拼音汉字输入法的注音形式而使用。只是在键盘上用注音形式代替拼音形式标注键盘,其他的方法与两笔优化拼音汉字输入法相同。进一步扩大使用者群体。详见图2。采取这样的方法后,拼音输入的键码长缩短了一倍,从原来的每个汉字的拼音输入的平均四键的码长缩小到两键的码长。经过本发明的这种设计,键入的速度会有大幅度的提高,也就解决了因拼音输入码长而导至输入速度慢的问题。
再说词库的建立,在汉语中词是“能独立运用的最小语言单位”。虽然同音字(或说同音的单音词)很多,但由两个以上音节组成的词、或词组以及固定词组、成语、典故、名言短句同音的就少的多。经我们研究得出以下结论:“如果把词或词组视为一个整体,那么组成词或词组的音节(字)越多,其词的重码率就越低。因此用两个以上音节组成的“词”做为编码单位,用于电脑方面的汉字输入输出和储存,是解决拼音式汉字输入同音字处理的一种有效方法。”为此我们需要在原有的字库上再建立词库以满足输入的需要。词库的编码与字库类似,字库是将全部的汉字按读音(即音节以下同)逐个赋与了不同的编码,每个汉字都有一个固定值。而词库则是要将词及词组逐个按读音赋与不同的编码,使每个词或词组也都有一个固定值。词库还要按词式分类设立,(词式是指用不同字数构成的词或词组。比如“成功”一词由两字组成,其词式为两字式)即建立两字式词库、三字式词库、四字式词库、及四字以上式词库。并且建立成语词库、格言词库、谚语词库、歇后语词库、惯用语词库、地名词库、人名词库等。这样,当使用者键入某一词或词组时就能根据其编码在词库中取码相应的词或词组。词库要为开放式,有自定义接口。以便让词库能在使用中不断定义和生成新的词或词组。让词库中的词汇能根据不同的使用者,和不同的使用要求,不断的更新、淘汰、和丰富。使词库能在使用中不断的调整,使之更科学、更合理趋于个性化、智能化以满足使用的要求。再有,把词库中的词按语法分类,并做上标记。利用汉语言的语法和逻辑关系,从初步取码中进一步筛选字词。比如数词后面的量词是固定的:一个人,一张桌子,一篇文张,一匹马,一棵树,一条龙,中的量词必须分别是“个”、“张”、“篇”、“匹”、“棵”、“条”、而决不会是其他的同音词。经过上述的处理,同音字词的重码率会大幅度减低。
第三,选字的办法,对选字问题的解决本发明提供了以下几个方案:一:单窗显示式、二:复窗显示式、三:分割式对比判别自动选字法
(一)、单窗显示式选字:当初步输入完成后,其键入的拼音所取到的的全部汉字,按键盘上按键的排列形式显示在屏幕上。并用26个字母和0到9十个数字键标注所显示的汉字,此时的字母键和数字键就成为了“标注键”。在用26个字母键和10个数字键标注汉字的情况下,如所显示的同音字不足36个时,空余的标注键可显示与该字有关的词组。也可只显示有字的键位。例如,键入“ch”与“ang”两个键元后屏幕上显示“窗、床、闯、创、疮、幢、怆”七个汉字,其选字的标注键分别为“D、F、G、H、J、K、L”。此时只显示。如果所显示的同音字超过36个时,计算机发出声响提示或闪动屏幕提示翻页。参见图3的《单屏显示意图》
(二)、复窗显示式选字:复窗式显示的形式与单窗基本相同,只是将一窗显示汉字的形式变为按汉字读音的四个声调整,分四个显示窗口放在显示屏的四个角上显示,以供使用者选字。参见图4的《多窗屏显示意图》。(三)、采用分割式“分段式滚动对比判别法”自动选字法:
在词库建好后,就能采用“分段式滚动对比判别法”进行自动选字。即输入时,系统将输入的汉字按一定的字数和顺序分割为段。在这一段内把文字按可能出现的词式依次顺序分割,与词库或字库中的词或字进行对比判断以保证输入的正确。(这里我们把依次分割的段称之为‘句式’或‘处理段’)。以达到电脑自动选字的目的。在同一篇文章中,前一段的余字能和紧挨其后的一段句式合并组成为一段,以便连续取码分析判断。就是说无论输入的文章有多少字,分段时都把当前的输入内容按预先设定的长度(长度大字数多,长度短字数少。)作为一个处理段。每段所余的个别字合并到随后的句式内继续处理。句式长短要与词库相匹配,可自定义,也可由软件预先定义。并且,把词库中的词按语法分类,做上标记。利用汉语言的语法和逻辑关系,从初步取码中的初选词中进一步筛选字词。经电脑自动对比、判断和确定实现电脑自动选字。我们知道汉语是由句子构成,而句子又是由不同词式的词组成。比如,“日益猖狂的电脑病毒使得反病毒市场几乎一夜膨涨。”这句话共有个22字,就词组来说可划为8个①日益猖狂②的③电脑病毒④使得⑤反病毒⑥市场⑦几乎⑧一夜膨涨。句子中有一个字的词也有两个字的词还有三个和四个字的词。假设此段的句式=4+1+4+2+3+2+2+4(句式为词式在句子中的排列状态。)由于在一段确切的文字中,词式和句式是相互依存的,从文法上说句式是固定的,从文字上说词式是固定的。所以句式和词式必然是固定的唯一的。假如我们把输入的汉字按一定的字数分割为段,就必然有一定的句式包含一定的词式。还以上例句为例,如国以五个字为一段,顺序滚动分割,其第一段的句式就有多种可能:“①1+1+1+2,②1+2+2,③1+1+3,④1+4,⑤4+1,⑥2+3……。由于库中没有“益猖”“狂的”词,所以第②不选,也没有“益猖狂的”④也不选。按这六种句式所组成的词式分别为①=日+益+猖+狂的②=日+益猖+狂的③=日+益+猖狂的④=日+益猖狂的⑤=日益猖狂+的⑥=日益+猖狂的。这里只有第五种词式的词组与库中设定条件相同,所以⑤是唯一的答案。而且以“的”字在前组成的词是没有的,“的”字也就不必和紧挨其后的一段句式合并组成为一段进行处理了。对于还可能出现的重码字或词,在进行声音或屏幕提示的同时,还可采取待处理的方法。即把输入中出现的重码中符合语法逻辑条件的、使用频率最高的(字)词作为暂定值,放在指定位置且做上标记。待输入结束或到某一段时,将所有的同音字词自动列表供使用者选择。
第四,选字时显示屏的翻页方式及汉字的显式方式:(一)、显示屏的翻页本发明给出了两种方式:(1)自动翻页,即汉字的显示可跟据使用者事先设定的显示时间自动翻页。(2)声控翻页,即汉字的显示可跟据使用者事先设定的声音指令用声音引导翻页。(二)、汉字的显式方式:为了有区别的显示汉字,本发明给出了几种汉字的显示方式。(1)间隔式显示:即显示不同汉字时要使所显示的汉字有一定间隔。(2)深浅差别式显示:即显示不同汉字时采取明暗的亮度来显示汉字。(3)颜色差别式显示:即显示不同汉字时采取不同的颜色来显示汉字。无论是显示屏的翻页方式还是显式方式,都给使用者留有自定义接口,以便让使用者按自己喜欢的方式翻页和显示汉字。此外显示的汉字字体可根据用户需要定义大小。
这样在经过键盘优化、输入优化、及选字的优化后,使用者可以有多种输入方法的选择。并且能优化拼音方式的输入法,减少甚至完全不需选字的操作。达到使用拼音的方式进行汉字输入的技术更具科学性、先进性、简单性、实用性、普遍性的目的。而且,经过优化改造的拼音输入法,不仅使码长缩短了一半,而且还有效的改进了选字的不便,使汉字的输入变得简单易行有效。尤其是以词为单为的输入方式,为彻底改变汉字输入困难提供了一种方法和途径。有着巨大的社会价值和商业价值。此外我们可以在已经建立的词库、成语库、格言库、谚语库、歇后语库、惯用语库,新生词库的基础上,建立词典查询系统。词典可以通过偏旁部首查找字词的读音,还能通过首字的读音查找成语、格言、谚语、歇后语、惯用语。词典只给出某字的拼音的键位和该字的读音、声调及用法,及解释等。也可指出该字的参考书页数如:“更”字《新华字典》155页,词海×××页。查找到的字经确认后可选入指定位置。
下面结合附图进一步说明:
图l是拼音方式的键盘按键定义图。
图2是注音方式的键盘按键定义图。
图3单窗显示意图。
图4多窗显示意图。图中的四个图框只示意显窗的位置,其详图与图3相同。
图5《按键分层定义后声母与韵母拼读关系表》。
图6《双击键取码表》。
参照图一说明本发明键入法:我们以“新的汉语拼音输入法一定会成为一种优秀的汉语书写软件。”这话为例,来说明本发明的键入编码方法:“新”字的击键法为先击键再击键。“的”字为先击键再击键。“汉”字为先击键再击键。“语”字为先击键再击键。“拼”字为先击键再击键。“音”字为双击键。“输”字为先击键再击,键。“入”字为先击键再击键。“法”字为先击键再击键。“一”字为先击键再击键。“定”字为先击键再击键。“会”字为先击键再击键。“成”字为先击键再击键。“为”字为双击键;也可先击键再击键。“种”字为先击键再击键。“优”字为为双击键;也可先击键再击键。“秀”字为先击键再击键。“写”字先击键再击键。“软”字先击键再击键。“件”字先击键再击键。