三音码计算机汉字输入方法及其键盘 本发明涉及一种计算机汉字输入方法,特别是一种以音为主,音形结合的汉字编码输入方法。
目前,我国使用的计算机汉字输入方法有如下几类:①数字码,如区位码、电报码等,这些编码虽然重码率低,但难学难记,难以推广;②音码,如拼音码、首尾码等,虽易学但重码率高,输入速度低;③形码,如五笔字型,表形码等,重码率低,但学习时间长,难度大,且容易忘记,只适合于专业打字使用;④音形码,如自然码,声韵部形等,它们比形码有所改近,但仍有许多缺陷。
清华大学出版社出版的《自然码实用教程》一书(作者周山荚),详细介绍了自然码的内容。与本发明一样,自然码采用的是音形结合码,使用标准键盘,其键盘定义包括声母、韵母和部件。其中声母用键盘上相应的字母键作代码;韵母为压缩韵母,每个韵母用一个字母键代替;部件需进行两次折分,各部件主要用其部件发音的声母作为代码,但有例外。自然码一般字采用4位编码,其编码规则是:
第1码:取汉字发音的声母
第2码:取汉字发音的韵母压缩码(如:ua用w代替,uai用y代替)
第3码:取汉字的偏旁代码(如:"刂"用d代替,"亻"用r代替,“扌"用f代替,"月"用o代替,"卩"用p代替等)
第4码:取汉字中除掉偏旁后剩余部分中的第一个部件的代码。
例如:花字的声母为h,韵母ua的压缩码为w,花的偏旁"艹"的代码为c,除掉偏旁"艹"后的每一个部件"亻"的代码为r。
故“花”的编码为hwcr。
自然码有如下缺点:
(1)输入汉字时,要对汉字进行两次分拆,这就增大了学习和使用自然码难度。众所周知,最接近人们思考,反映最直接的是语音,而不是笔画,更不是“部件”。对汉字分拆的次数越多,人们输入汉字时的反映环节就越多,思维受干扰地程度就越大,输入效率越低。如果说对于那些组成汉字各部件之间都是相离关系的汉字(例如“例”)比较好拆的话,而对于那些独体和杂合字,分拆起来就不那么容易了。如“甫”,“凹”,“棘”,“奉”等。
(2)偏旁部首与其代码的对应不规范,且部件超出了新华字典的范围,不易被掌握,容易忘记。
例如:"刂"对应d,"亻"对应r是可以被人接受的,但"扌"对应f,"月"对应o,"+"对应t就令人难以理解了。
(3)使用的码元过多。自然码在进行汉字输入时,除使用26个英文字母外,还用到了“,”,“;”,“/”和“.”,即违反了汉字编码的原则(即码元要尽量少),又增加了操作的复杂度和记忆量。
(4)由于在输入汉字时,要对汉字进行二次分折,故自然码对于大多数繁体字是不适用的。
例如:這國
(5)符号及偏旁用特殊代码,并需翻页和数字键选择输入,不仅繁锁,且速度慢。
(6)自然码为了弥补对汉字进行二次拆分的缺陷,增加了“音随意”法选择功能,但它采用的是三位编码,故重码率很高。难以提高输入效率。
本发明的目的就是针对上述现有技术的缺陷,提供一种计算机汉字输入方法,该方法易学易用,输入速度快,简繁兼容,字、词、标点符、制表符以及其它符号统一编码,重码率低,输入效率高。
本发明所涉及的计算机汉字输入方法,采用普遍的标准键盘,由键盘定义和编码规则两部分构成。其键盘定义包括:字音码,由字音声母码和字音韵母码构成:
a、字音声母码:为与汉语拼音的声母对应的字母键,其中双声母zh、ch、sh分别用字母键V、I、U作为其代码;
b、字音韵母码:为韵母压缩码,每个韵母对应于键盘上的一个字母键;其特征是:
①键盘定义还包括:
c、偏旁名称音码(简称偏旁码):
(i)偏旁完全来源于《现代汉语词典》,对本身就是汉字的偏旁,使用单码,用该汉字发音的声母对应的字母键作为其代码;
(ii)对不能单独构成汉字的偏旁,采用双码,用这些偏旁的习惯叫法的声母组合对应的字母键作为其代码;
(iii)对于单笔划偏旁,使用单码,用这些笔划发音的声母对应的字母键作为其代码。
d、偏旁方位名称音码(简称方位码)
偏旁方位分为6种:在左、在中、在右、在上、在下、在外,其中在左、在中是空码,其余分别用一字母键作为其代码。
②编码规则为:
a、对于一般汉字为:
字音码+偏旁名称音码+偏旁方位名称音码
其中:一般汉字若属韵母自成音节,其字音声母码为该韵母的首字母;韵母为er时,字音码为er;
b、对于各部分彼此交叉,连为一体,且不为偏旁的独体字和虽非独体,但找不到一个能够贯穿整个汉字的上、下或左、右的部分作为该字偏旁的杂合汉字,为:
字音码+交杂识别码
c、对于本身是偏旁的汉字,为:
字音码+偏旁识别码
d、对于不能单独构成汉字的偏旁,为:
偏旁码+偏旁识别码这里所说的“交杂识别码”可以是“O”键或其它键,所说的“偏旁识别码”可以是“PP”键或其它键。
上述各类字,在拆取其偏旁时,遵从“表意要优先,有散不拆连,交杂绝不拆”的原则时,可降低重码率,提高输入效率。
本发明词组的编码规则为:
a、对于双字词,只取两个字的字音码;
b、对于三字词,取前两个字的字音声母码和第三个字的字音码;
c、对于四个及四个以上的词,则取第一、二、三和最后一个字的字音声母码。
本发明符号的编码规则为:除制表符外,大多数符号用其习惯叫法的各个字的字音码或字音声母码组合。例如:“!”感叹号,其编码为GTH,“、”顿号,其编码为DNH等。制表符则用一个制表符功能转换键加上一个或二个定义的字母键来编码。
用本发明的编码规则,只要配上繁体字库,用同样的编码可实现繁体字的输入。
本发明是以现代汉语为基础,由字音码、偏旁音码和偏旁方位名称音码构成,故称之为三音码汉字输入法,它充分体现了汉字的音、形、义这三大要素,具有如下优点:
(1)编码规范,简单易学,记忆量低,适用面广。三音码以音为主,音形结合,以音代形,符合汉字编码潮流。语音和偏旁完全符合现代汉语的规定和中小学语文教学的课程要求,只要会汉语拼音和识别编旁,经过半小时的学习就能掌握,经过一周的练习就能达到熟练程度。因此,三音码适用于包括中小学生在内的广大人员。
(2)汉字分拆极其简单。三音码唯一的拆字就是偏旁,且拆分时遵循“表意要优先,有散不拆连,交杂绝不拆”的原则,对于交叉和杂合结构等那些偏旁不易确定的汉字干脆不分拆,克服了此前一些汉字输入法对汉字进行多次分拆的缺点,也免除了以往人们的拆字之苦。有利于提高汉字的输入速度。
(3)实现繁简兼容。由于三音码是以汉语语音为主的,且偏旁完全采用现代汉语的偏旁部首,只要配上繁体字库也适用于只识繁体字的人通过该方法输入汉字。
(4)对于多音字采用多组编码。由于汉字存在一字多音现象,为了完全符合三音码的编码规范,适应广大计算机用户的要求,三音码对那些多音字提供了多组编码。
(5)实现字词统一编码。在三音码中单字编码和词组编码具有不同的分布规律,因此可以实现字词统一编码,无需任何键盘转换,甚至包括标点符、制表符以及其他符号。
(6)重码率低,输入效率高。在三音码编码方案中,由于两字符偏旁音码和偏旁方位名称音码的出现,使得重码率大大低于其他音码和音形码方案。而且字与词之间有不同的分布规律,极少有重码,大大提高了输入效率。
(7)、对非汉字的偏旁部首也能输入。增加了如同五笔字型中有的模糊查询功能,在拿不准的码位上键入即可。
下面结合附图和实施例进一步说明本发明。
图1,本发明所定义的声、韵母及制表符键盘分布图。
图中:第一排的大写字母为键名,同时代表相应的声母,其中双声母zh、ch、sh分别用V、I、U代表;图中第二、三排的小写字母是汉字拼音中的所有韵母,韵母的代码既为其所在键位的键名,例如:韵母uang、iang的代码是Q键,韵母ong、iong的代码为W键,韵母o的代码为E键等等;图中第四排所示为制表符,制表符代码既为其所在键位的键名。例如:制表符的代码为Q键,制表符的代码为U,制表符"↑"的代码为I等,其中字母键O上第四排的"制表"二字表示O键是制表符功能转换键。
本发明所说的偏旁,完全来源于《现代汉语词典》,且不多于也不少于其中的偏旁,符合目前中小学校开设的语文课程。偏旁应能够贯穿汉字的上下或左右。本发明偏旁在键盘中定义的代码称偏旁名称音码,简称偏旁码,其定义规则为:
①对本身就是一个汉字的偏旁,使用单码,其代码为该汉字发音的声母所对应的键,例如:
八、比、鼻、白、卜、贝的代码均为B键,
戈、瓜、革、艮、鬼、广、谷、骨、工、弓的代码均为G键,
黑、火的代码为H键等等。
但为了降低重码率和保留习惯叫法,也有个别使用双码的,如:
门(门框),代码为MK 户(户子头),代码为HT
月(肉月旁),代码为RY 米(米麦),代码为MM
麦(米麦),代码为MM 尸(尸头),代码为UT
马(牛马),代码为NM 目(耳目),代码为EM等等。
②对于不能单独成为汉字的偏旁,采用双码,采用人们对这些偏旁的习惯叫法的声母组合对应的键作为其代码,例如:
宀(宝盖),代码为BG 勹(包框),代码为BK
廾(草底),代码为CD 卩(单耳),代码为DE等等。但为了减少击键次数,个别也使用单码,例如:
艹,代码为C, 氵,代码为S等等,
③对于单笔划偏旁,采用单码,用这些偏旁名称的声母作为其代码,例如:
一(横),代码为H |(竖),代码为U
ノ(撇),代码为P 丶(点),代码为D
乙(折),代码为V
④采、髟、攴、屮用A作为其代码。按上述规律所定义的偏旁代码如表1所示:
表1
由于绝大多数同音汉字是音同义不同,既使有同义或近义字,其形旁在汉字中的位置也大多不同。因此,同音字只要区别了形旁的位置,也就区别了汉字,故本发明还定义了偏旁方位名称音码,简称方位码。偏旁方位既偏旁在整个汉字中所处的位置,分在左、在中、在右、在上、在下、在外。由于在GB2312-80国标汉字库的6763个汉字中,左右形结构的字约占60%,其中以左形右声最为普遍,所以将方位“在左”的方位码定义为空码,既能区别于其它方位的偏旁,又可减少击键次数。偏旁“在中”的字不多,方位“在中”也定义为空码。其余的方位可用一个字母键来做其代码,为了方便记忆,我们按顺序分别将其称为(在右)边、(在上)头、(在下)底、(在外)框,并且用这些名称发音的声母做为其方位代码,分别为B、T、D、K。例如:
堆,偏旁为“土”,其方位码为,空码。
鸥,偏旁为“鸟”,其方位码为B。
岗,偏旁为“山”,其方位码为T。
想,偏旁为“心”,其方位码为D。
历,偏旁为“厂”,其方位码为K。
斑,偏旁为“文”,其方位码为空码。
本发明的编码规则为:
①对于一般汉字,其编码由字音码,偏旁名称音码和偏旁方位名称音码组成。字音码由字音声母码和字音韵母码组成。故要输入一般汉字,按下列顺序编码:
第一码:该汉字发音的声母码
第二码:该汉字发音的韵母码
第三码:该汉字的偏旁码
第四码:该汉字偏旁的方位码
例如: 聋—LWED 洋—YTS 南—NJUT
盆—PNMD 毡—VJMK 鸡—JINB若一般汉字为韵母自成音节的,则其发音的声母码为该韵母的首字母,这样的韵母及其汉字的声母码如表2所示。
表2
韵母码a o e ai ao ou an en ang声母码A O E A A O A E A例字:啊—AAK 恶—EEXD 傲—AXDR 安—AJBG韵母为er的汉字,其字音码为er。
例如:儿—ERPP
②对于一般汉字,若所取偏旁的偏旁码为双码,由于此时字音码+偏旁码已够四码,故不需再加偏旁方位码,即:
第一码:该汉字发音的声音码
第二码:该汉字发音的韵母码
第三、四码:该汉字的偏旁码
例如:们—MNDR 然—RJHD 慕—MUXD 词—CIYP
③对于一般汉字,若所取偏旁为“一”、“|”、“ノ”、丶”“乙”、“屮”、“髟”、“采”、“支”、“艹”、“氵”、“气”时,其编码中也为字音码+偏旁码,而不需加偏旁方位码,这样既可减少击键次数,且不增加重码率。
例如:花—HLC 氨—AJQ等等
④对于各部分彼此交叉,连为一体,且不为偏旁的独体字和虽非独体,但找不到一个能够贯穿整个汉字的上、下或左、右的部分作为其偏旁的杂合汉字,其编码为字音码后加一个交杂识别码,这里用“O”。
例如:独体字:丰—FGO 本—BNO 串—IPO 中—VWO
杂合字:畅—ITO 兢—JYO 疑—YIO 非—FFO
⑤对于本身是偏旁的汉字,其编码为字音码后加偏旁识别码,这里用“PP”
例如:木—MUPP 山—UJPP
⑥对于不能单独构成汉字的偏旁,其编码为偏旁码后加偏旁识别码,这里用“PP”
例如:亻—DRPP 辶—ZVPP
⑦对于多音字采用多组编码:
例如:重—IWP,VWP 行—XYUR,HTUR
⑧对于一些高频字,本发明设有一、二级简码。
图1中第一排中的汉字即为一级简码汉字,其所在的键位即为其编码。他们是:
他每年和小按片一起出欧而发了,这可是我个人在此所不及的。
二级简码字较多,在此就不列举了。
为了增加输入速度,提高输入效率。本发明也采用词组输入。词组的编码规则为:
①双字词编码:只取每个字的字音码。
例如:组织—ZUVI 经济—JYJI
②三字词编码:取前两个字字音的声母和第三个字的字音码。
例如:计算机—JSJI单方面—DFMS
③四字以上词编码:取第一,二,三和最后一个字的字音的声母。
例如:经济管理—JJGL 经济效益—JJXY
中华人民共和国—VHRG 三音码汉字输入技术—SYMU
本发明的符号也和词组采用一样编码规则,不需任何转换,由符号习惯叫法的字音码或字音声母码组成。例如:
!(感叹号)—GTH 、(顿号)—DNG —(破折号)—PVH
《(左书名号)—ZUMH》(右书名号)—YUMH≠(不等号)—BDH细线制表符的编码为制表符功能转换键O加上图1第四行所定义的代码,它们是(见表3)
表3
粗线制表符的编码,则将上述制表符代码击两次即可。表4是本发明所有符号及其编码表。
表4
对于绝大多数繁体字,本发明可同样编码:
例如:
這—VEZV 國—6OKK
以上介绍的是本发明的键盘定义及编码规则,按照这些规则,已可以完成本发明所述的汉字输入。但是,要想达到最佳的输入效率,减少重码,在选择偏旁时,还必须遵守以下原则:
①一般原则:表意要优先,有散有拆连,交杂绝不拆。
例如:想—心 聋—耳 盆—皿 功—力 波—氵
鸡—鸟
其中的“心”,“耳”,“力”,“氵”,“皿”,“鸟”是表意的形旁,应优先考虑选作偏旁。
又如:亍—一 元—一
其中的“一”与“亍”和“元”中的其他部分是相离关系(即散)故不能拆出“二”作为偏旁。
又如:串,本,中各部分彼此交叉,连为一体,故不需拆偏旁,输入时在字音码后加上“O”就可以了。
再如:兢、表、疑等字,虽非独体,但属找不到能贯穿整个汉字的上下或左右的部分作为其偏旁的杂合字,也不需要拆,编码方法同独体字。
②对于上下或左右结构的字,当声旁和形旁都不明显时,要遵守先上后下,先左后右的顺序选取偏旁,注意偏旁要能贯穿整个汉字的左右或上下。
例如:南—十 凭—几 弃—亠
③对于内外结构的字,应选择外面部分做为偏旁。
例如:困—口 过—辶 毯—毛 庆—广 凡—几
④对于独体和杂合字,不指出偏旁,用“O”代替偏旁码即可。
例如:本、中、由、进、兢、胬
⑤对于形如“栽”,“裁”,“哉”、“载”,“截”,“暮”,“幕”等字,应选取底部为偏旁。
⑥对于带有“冖”且不在最上边的字,应在下面部分中选取偏旁。
例如:觉—见 党—儿 莺—鸟
⑦应尽量避免选用“又”做为偏旁。因为很多繁体字在简化时,都用它代替笔划繁多的声旁,它没有表意特征。
例如:观—见 劝—力 鸡—鸟
⑧对于“辫”,“斑”,“班”,“器”,“嚣”等对称性汉字,选取中间部分做为偏旁,且不需方位码。
本发明中方位码的确定方法较简单,只要是正确判断所选偏旁在汉字中的位置即可。不过,当遇到以下情况之一时,不使用方位码:
①所选偏旁在汉字左边或中间时
②所选偏旁的偏旁码为两个字符时
③所选偏旁为“一”,“|”,“ノ”,“、,“乙”,“屮”“髟”,“采”,“攴”,“艹”,“氵”,“气”时
④汉字属于独体或杂合字时
⑤汉字本身即为偏旁时
按照以上原则可使本发明的,动态重码率低于8.5%。
以下是按照本发明进行编码的例字和例词:
①例字:
花—HLC 南—NJUT 明—MYR 庆—QYGK 戒—JKGB
颈—JYYB 鸡—JING 氨—AJQ 五—WUH 敲—QZA
莺—YYND 幕—MUJD 载—ZRID 器—QIQ 自—ZIPP
②例词:
文化—WNHL 技术—JIUU 三音码—SYMA
事务所—UWSO 清华大学—QHDX 中国人民解放军—VGRJ
实现三音码汉字输入方法,可使用本方案提供的三音码编码字典文件SY.UMD和UCDOS5.0汉字操作系统提供的汉字输入法装入模块LIMD.COM,其中汉字录入量为标准常用字6763个,词组和搭配为20350条。也可根据三音码编码方案,编制适于其他汉字操作系统的输入模块。采用前一种方式的使用步骤是:
(一)安装
(1)首先安装UCDOS5.0汉字操作系统。(如此前已安装,则可省此步)
(2)将三音码提供的软盘插入A(或B)驱动器并执行:
A>INSTALL
即可。
INSTALL.BAT的内容是:
@echo off
md c:\ucdos\drv
copy sy.imd c:\ucdos\drv
copy sy.bat c:\
copy sy.bat c:\ucdos
copy limd.com c:\ucdos
(二)使用三音码操作步骤
(1)起动UCDOS5.0
(2)装入三音码
执行
C>SY[/<功能键号>]
功能键号:0-9分别对应功能键Alt-F10,Alt-F1-Alt-F9,装入后用所选的功能键切换至三音码汉字输入状态,如省略功能键号则用Alt-F9切换至三音码汉字输入状态。
SY.BAT的内容是:
@echo off
\ucdos\limd sy 1%
(3)进入三音码输入状态
根据装入时的功能键号,按Alt-F0-ATT-F9即可进入三音码汉字输入状态。
以上汉字输入模块具有汉字模糊查询功能,用‘键(键盘左上角字符)可对汉字及其编码进行模糊查询。
例如:键入D‘ZV可把所有声母为D,偏旁为“辶”的汉字显示在提示行,用户可用-和=进行翻页,寻找所查汉字。该功能使用户对不知如何发音的字也能输入。
由此可见,本发明具有如下效果:
①采用四码编码、编码规范、简单易学、记忆量低、适用面广;
②一项拆分,极其简单;
③简繁兼容;
④对于多音字采用多组编码;
⑤字词统一编码;
⑥重码率低,输入效率高;
⑦对非汉字的偏旁部首也能输入;
⑧具有模糊查询功能。