中华形码汉字输入系统 本发明属于汉字编码方法,一种以汉字偏旁部首为主,以五种基本笔划及其25种笔划组合及少量构件字根为辅的纯形码输入方法。
汉字输入从输入汉字的设备上可分为键盘输入法和汉字智能识别法。汉字智能识别法分手写输入、语音输入和光电扫描输入。手写输入和语音输入虽然输入方式简单,但输入速度慢,识别准确性差;光电扫描输入只能输入现存文件,需要购买昂贵的扫描仪,因此有很大局限性,无法大面积推广应用。而键盘输入快捷、准确,便于普遍应用,因而键盘输入必将是最主要的汉字输入方式。键盘输入法又分为四类:数码、音码、形码和音形结合码。数码码长长、重码多,不适用于计算机快速输入。音码只适合于拼音基础好的用户,音码的普及受到一定影响,且重码太多,输入速度慢,不会读的字不能输入。形码简单直观,可实现盲打、输入快,可输入不认识的字。但缺点是汉字不易规范拆分、字根多,记忆量大,难学难精,学会后不用又容易忘,令不少用户伤透脑筋。音形结合码需要的拼音知识少,但仍需拆字、记字根,汉字输入既要考虑汉字的形,又要分辨汉字的音,长时间录入对大脑的负担重,因此也不易普及。总之,尽管目前输入法有好几百种,但易学的不好用,好用的不易学。形码由于输入速度快、重码少、大脑负担轻而成为键盘输入的主流,但目前最流行的形码输入法仍然存在难记难学,重码略高的问题。
本发明提供了一种字根量少、字根布局规律性极强,无末笔识别码,易学易记难忘,重码特少,可以高速盲打高速输入的纯形码汉字输入系统。
本发明将所有汉字的笔划归纳为五种基本笔划:一、丨、丿、丶、乙(横、竖、撇、点、折)。其中“一”含“提”;“丨”含“竖钩”;“丶”含“捺”;“乙”含除了“竖钩”外的所有单笔折笔。5种单笔划两两组合成25种双笔划,具体如下: 一 丨 丿 丶 乙 一 一一 一丨 一丿 一丶 一乙 丨 丨一 丨丨 丨丿 丨丶 丨乙 丿 丿一 丿丨 丿丿 丿丶 丿乙 丶 丶一 丶丨 丶丿 丶丶 丶乙 乙 乙一 乙丨 乙丿 乙丶 乙乙
一、编码键
本输入系统设置了30个编码键,包括26个字母键和最靠近字母键位置的4个符号键“;,./”,作为编码输入的按键。
二、编码键区位划分
30个编码键共分成六个区:五个双笔划区,即横区、竖区、撇区、点区、折区,一个单笔划区。单笔划区定义在英文键盘地左下角,以右手母键位置为横区,左手母键为竖区,撇、点、折3个区分别按顺时针定义到英文键盘剩余位置上。横区中每个键的笔划都是以横笔开头,竖区中每个键的笔划都是以竖笔开头,其余依此类推。双笔划区的第二笔划的位置及单笔划区笔划的位置称为“键位”,简称“位”。每个区有5个键位,即“横位”、“竖位”、“撇位”、“点位”和“折位”。在英文键盘中以数字键“5”和“6”为界分为左手按键区和右手按键区,从中间向两别分别为横位、竖位、撇位、点位、折位。30个编码键与双笔划键和单笔划键的具体对应关系如下:折位点区撇位竖位横位横位竖位撇位点位折位1234567890撇区Q丿乙W丿丶E丿丿R丿丨T丿一Y丶一U丶丨I丶丿O丶丶P丶乙 点区竖区A丨乙S丨丶D丨丿F丨丨G丨一H一一J一丨K一丿L一丶;一乙 横区单笔划区Z乙X丶C丿V丨B一N乙一M乙丨,乙丿.乙丶/乙乙 折区
三、键区位与手指的对应关系
右手负责横区、点区和折区,左手负责竖区、撇区和单笔划区,手指与键位的对应是:食指按“横、竖”键、中指按“撇”键、无名指按“点”键、小指按“折”键。右手食指对应于“一一”、“一丨”、“丶一”、“丶丨”、“乙一”和“乙丨”共六键,左手中指对应于“丨丨”、“ 丿丨”和“丨”键,其余以此类推。这样,手指与键位的关系就一一对应了。
四、字根
字根是指由笔划形成的相对独立结构。按类别,字根分为偏旁部首字根和构件字根。偏旁部首字根,顾名思义是指由一般汉语字典定义的偏旁部首;构件字根是指构成汉字的常见结构。本发明精选了45个偏旁部首字根和6个构件字根。字根一般按其书写顺序的首笔次笔组成的双笔划的“区”、“位”与键盘位置对应,但将最常见部首字根钅(金)、木、水(氵)、土(士)、艹分别与单笔划一、丨、丿、丶、乙对应,日、月(目)、亻(人)、口、扌分别与双笔划丨丨、丨丿、丨丶、一丶(“L”象半个“口”,可联想记忆)和丶丨对应。这15个布局特殊的偏旁部首以“金木水土草”、“日月人口手”的口诀记忆。“金木水土草”联想太阳系五大行星“金木水火土”、“日月人口手”联想“从大到小”的排列顺序(日(太阳)比月(月亮)大、人比口手大)。另定义30个常用偏旁部首“王、酉(覀)、大(石)、车、止、虫(田、_、_)、禾(气、_)、白(臼、隹)、舟、鱼、文(方、立、疒)、火(米)、穴(宀)、礻(衤)”和6个构件字根“_爫、”,按其书写顺序的首笔次笔组成的双笔划的“区”、“位”定义在对应键上。这样,所有字根在六个区上的具体布局就自然而然地确定和记住了,根本不用死记硬背,这是本发明简单易学使用方便的主要原因。英文键盘与笔划、字根的对应关系如下所示:
五、汉字结构
汉字按其自然字形结构可简单分为:
1、一结构字:即独体字,无明显分界线的字;2、二结构字:上下结构、左右结构、包围结构、半包围结构;3、三结构字:上中下结构、左中右结构;4、四结构字:上中中下、左中中右结构。
六、编码规则
1、顺序取码、字根优先
按书写顺序取码,有字根优先取字根,无字根取笔划。
如“中”字,按书写顺序拆分为“口”和“丨”,不拆分为“丨”和“口”(其中“口”为字根,优先选取)。
2、能大不小,能连不交
能大不小,指的是在各种可能的拆分中,保证按书写顺序每次都拆出尽可能大的字根,如“百”拆分为“一”和“白”,不拆为“一丿”和“日”;能连不交:指一个结构能按相连的拆分就不按相交的拆分。如“天”按相连拆为“一”和“大”,不拆为“一一”和“人”。
3、三笔划取一
二结构字输入时,如遇第一结构为三笔划,则只键入一键(头二笔或字根),第三笔划忽略不输。这相当于所有三笔划开头的部首都以其头两笔划或字根固定在键盘上,如Q键代表:犭、夕、夂、饣…。
4、交连体取二
交连体,即笔划相交相连的独立结构,如“矗”字中的“直”、“摄”字中的“耳”、“琥”字中的“虍”、“傥”字中的等,为了提高编码效率,规定不处于汉字末尾的交连体只取二键,余下笔划或字根忽略不计。
5、末键补偿
二结构字,如果第一结构只取到一键,则第二结构取三键。即补输入该字第二结构的第三字根或笔划。
6、u键补齐
如果一个字偏码不足四键,就用u键补齐。
七、汉字的取码及输入
本输入法将汉字分为键面字和键外字。键面字指由键面字根形成的字,分为键名字和成字字根。键外字是指由字根(含偏旁部首字根和构件字根)和笔划构成的字。键外字又分为一结构字、二结构字、三结构字和四结构字。
1、键名字
键名字所在键重复四键,如键名字“文”编码为yyyy。
2、成字字根
所在键+u,一键上有几个成字字根,按照字根排列顺序,可加一至三个“u”。如“立”编码为“yu”、方为“yuu”,其余类推。
3、一结构字
按书写顺序,连续取第一、第二、第三字根或笔划。
4、二结构字
取第一结构第一、二字根或笔划,第二结构第一二字根或笔划。
5、三结构字
输入第一第二结构首字根或笔划和第三结构的首次字根或笔划。
6、四结构字
输入第一二三四结构首字根或笔划。
八、词组输入
二字词:各取每字前两键;
三字词:先取每字的第一键,再取第三字的第二键;
四字词:取每字第一键;
多字词:取前三字第一键和末字第一键。
九、简码输入
在处理国标简体GB2312字集时,可形成一级简码、二级简码、三级简码、u简码和g简码等五级简码体系,具体为:
1、根据汉字使用频率高低,本编码安排一级简码26个(;,./键安排为标点符号“;”、“,”、“。”和“、”的一级简码),842个二级简码,4752个三级简码(注:虫(aaaa)等8个键名字也计为三级简码)。
2、u简码
第四码以u结尾的编码,计为u简码,共有506个。
3、g简码
除一二三级简码和u简码字外,将四码字中使用频度最高的字第四码改为G,构成G简码,共有550个。
总之,在国标字库中,共有一级简码26个,二级简码842个,三级简码4752个,一二三级简码共5620个,另有u简码506个,G简码550个,五级简码共6676个,需全码输入字87个,重码字10个(为“凡”与“勺、夂”、“邡”与“邙、邝”、“疯”与“飒”、“亠”与“冫”、“兕”与“蚬”、“帆”与“趵”、“春”与“珀”和“旭”与“旮”),静态三级简码率83.0%,动态三级简码率97.5%,静态五级简码率98.7%,动态五级简码率99.8%,静态重码率0.15%,动态重码率万分之0.8。
在国标一级字库(一级字3755字)中,有一级简码26个,二级简码790个,三级简码2611个,一二三级简码共3427个,另有u简码183个,G简码134个,共有五级简码3744个,静态三级简码率91.1%,动态三级简码率97.8%,静态五级简码率99.7%,动态五级简码率99.8%,重码字仅一个,即“凡”与“勺”同码,静态重码率万分之2.7,动态重码率万分之0.6,一级字库字重码率极小趋近于0,动态文本中99.8%的字可用简码输入。
在国标简体GB2312字集中,一级字库使用频率占99%,一二级字库使用频率占99.9%。由于本输入系统一级字库字11字,二级字库仅77个,共87字需用全码输入,用全码输入的概率仅0.2%,重码字10个,其中一级字1个,二级字9个,选择重码字的概率为万分之0.8,因此本输入系统可使用全简码输入形式,重码率极低。即使万一碰上重码字,字频高排在第一位的重码字不需选择,只管直接输入下一个字词,设置空格键选二功能,可用空格键选择第二个重码字,或设置左右shift键分别选二选三功能,第二和第三重码字可方便地选择。由于本输入系统编码效率很高,有二或三个重码字词的机会是极少的,因此可用空格键或左右shift键选择重码字,基本上不用数字键选择重码字。
本输入法系统编码的一级简码26个,约占总字频的15%,二级简码842个,约占总字频的48%,三级简码4752个,约占总字频的35%,一二三级简码共5620个,约占总字频的98%,每100个字仅有2个字需用四码输入。
由于重码极少,可轻松地实现高速盲打。
十、字库词库选择
本输入系统设置了一个字库选择按钮,可实现国标一级、国标二级、国标扩展字库、台湾BIG5汉字库及其它字库之间的切换调用,以提高汉字的输入效率。
本输入系统设置了一个词库选择按钮,单独编码的不同专业词库和或词汇量大小不同的词库可以方便切换和调用,以提高词汇输入效率。
十一、实施实例
中…口、丨…横点、竖…lvuu(一结构字,全码补uu)
华…亻、丿乙、一丨…竖点、撇折、横竖…sqju(全码补uu)
形…一一、丿丨、丿丿、丿…横横、撇竖、撇撇、撇——hrec
码…石、乙乙、一…横撇、折折、横…k/bu(全码补uu)
汉…氵、乙丶…撇、折点…c.uu(全码补uu)
字…宀、折竖、横…ombu(全码补uu)
输…车、人、一、月…横折、竖点、横、竖撇…;sbd
入…丿丶…撇点…wuuu(全码补uuu)
系…丿、乙乙、丨丿、丶…撇、折折、竖撇、点…c/dx
统…乙乙、丶一、乙丶、丿乙…折折、点横、折点、撇折…/y.q(二结构字,第一结构只取到一键,第二结构补第三键)
月…月、月、月、月…dddd(键名字)
目…月…du(成字字根)
意…立、日、丶乙、丶丶…yfpo(三结构字)
蔓…艹、日、_、乙丶…zfa.(四结构字)
傥…亻、丨丶、丿丶、口…sswl(交连体取二)
中华…口、丨、亻、丿乙…lvsq(二字词,各取每字前两键)
纯形码…乙乙、一一、石、乙乙…/hk/(三字词,先取每字的第一键,再取第三字的第二键)
汉字输入系统…氵、宀、车、乙乙…co;/(取前三字第一键和末字第一键)
说明书附图说明:
附图1是双笔划组合图
附图2是英文键盘与笔划的区位的对应关系图
附图3是英文键盘与字根、笔划对应关系图