本发明属于处理中文编码计算机输入系统。 当今汉字编码计算机键盘输入方法有音码、形码、音形码等,而使用最广泛的是形码。形码影响较大的是两类:一类是“字根码元”,另一类是“笔形码元”。用字根作码元的,如:王永民“五笔字型”、陈代序等“大众编码法”、陈爱文“表形码”、张国防“五十字元编码法”及郑易里码等,他们之间的区别主要是“字根归类的不同及编码取号顺序的不同。“字根”归类:“五笔字型”130种,“表形码”382种,“五十字元”80种,多少不等。“字根码元”事实上是从汉字部首检字法演化而来。字根细分可达500种以上,段玉裁《说文解字》分540部。归并则可多可少。但归并的类不管怎么少,如50码元,甚至25码元等,实际上用户记忆的字根量并没有减少,只是字根类减少而已。每一字根类可选出一个字根代表。字根代表越少,字根代表所代表的实际字根越多。用户需记忆的实际字根并没有减少。如“五十字元”的字根“二”,它要代表二等;“表形编码法”的字根“二”代表等。“五笔字型”字根的“大”,键盘上只表示代表“犬”,事实上还代表“夫、夬、央、”等。如果我们统计常用6763字的字根实际上有400种差别,那么“五十字元”以五十种字根代表400种,平均每种代表8种;“表形编码法”以382种代表400种,平均每种代表一种多一点;“五笔字型”以130种代表400种,平均每种代表3.08种。至于归类如何科学易记,那是各家特点,但无论如何用户记忆的量是很大的。况且简化字的字根与繁体字的字根有不少差别,目前五永民“五笔字型”、陈代序等“大众码”、张国防“五十字元”等只适应国标GB2312-80中一、二级6763字,超过这些字数的繁体字输入,他们就要另设计一套字根码元。可见这类码元不仅记忆多而且基础不稳定,易变化。用这类方法处理汉字编码,其取号多数是按书写笔顺;其次是取角,四角、三角、五角不等;还有按时针顺序取号的。而这些取号方法都有其无法克服的缺点。笔顺,自古以来有些笔画的写法就不统一,怎样写都可以,不稳定,如“有”字“先横后撇”或“先撇后横”都有人写;“戈”字收尾,“先撇后点”、“先点后撇”都有人写。在字中切分字根也难。例如:“量”字,日、一、旦、田、土、里都可以作字根,于是它可以有四种切分法:①旦、里;②日、一、里;③日、一、田、土;④旦、田、土。用户会任意击键输入,像这样,就需要编一个规范码,三个容错码,合为“一字四码”。码多占内存就多。“五笔字型”国标一、二级6763个字编码达10000个以上(我们发明的“图符编码”只用7000多个码,少1/3强。)。取角编码也不稳定,因为许多字地四个角上并不一定有字根或笔形,如:“十、中、申、由、甲、大、夫、羊、伞等”,这些字都要用变通的方法处理,不同的编码设计者可以设计不同的变通方法,用户就莫衷一是。不变通,则重码字必多。上述字根码元最明显的缺点是用户记忆条件多,学习时间长,掌握应用不容易,输入简化字和繁体字要各设一套码元,不利于古代文献使用,不利于国际汉字文献交往,大大地限制了中文计算机的应用,不适应今后我国社会发展的大面积普及和调整输入要求。
“笔形码元”,如李金铠《笔形编码法》、蔡勇飞《高低笔号编码计算机输入法》等,采用汉字的基本笔画编码载击键输入,记忆条件少,掌握应用容易,尤其是《高低笔号编码计算机输入法》取号位置固定,准确率很高。专职或非专职人员均可用,普及非常适合,识字不多的人都容易应用。笔形码元量少,主要是利用键盘上的数字键,方便单手操作。不足之处是用键位少,最多十个键位,重码字略多,6763字输入,单字输入击到5键自动显示,若有重码,还需要选择击键输入,速度不够快,不适应专职快速录入人员使用。
本发明的目的是提供一种图符编码计算机输入法(简称“图符法”)。
本发明有两个主要特点,第一、“图符码元”的创造。“图符码元”意思是将码元变为最简单的线性图形和符号。它是以汉字最基本的笔形为基础发展而成的。这种图符码元既不同于单纯的笔形,又不同于字根,而其功能则既可取代所有的笔形,又可取代所有的字根,对简化字、繁体字一视同仁,一法两用。一切汉字(包括日本、朝鲜、越南的汉字)都一样容易使用。第二、取号的位置和顺序。位置是汉字的高处、低处或高处、次高处、低处的图符。顺序是从左到右,从上到下(本发明按书写顺取图符编码输入效果也好)。图符作为计算机输入汉字的基本取号编码码元,将所列图符定义在普通计算机键盘上。
本发明分全形码和音形码两类:
一、全形码:
全形码中可以分为26键码、27键码、32键码、16键码、10键码、8键码、5键码等。这是根据市场用户不同需要和产品设计键数的多少而决定的,其基本方法是一致的,只是用键数或选图符数多寡不同。
图符码元共39种,与普通计算机键盘26个字母键对应关系是:
这些“图符码元”是由汉字基本笔形:等构成的。所有的汉字是由上述几个基本笔形组成。组成的方式是五种:
独用 例如:一丨丶
分列 例如:二三川八洲
接触 例如:上下人石水
交叉 例如:十丰艹州又ㄨ
综合 例如:江高现冷投
本发明就根据这五种方式的特点,分析研究所有的汉字结构及汉字各部件结构,分析研究普通计算机键盘键位击键的频度、指法的灵活性、图符布局的科学性、相近图符集中、如何便于初学者记忆等之后,才创制出上述39种图符并定义于各键位。这种“图符码元”很容易记位,又便于使用。
(一)各图符码元的内容及说明
1.“丨”。竖,本发明化为8种图符码元
键 图符 表示内容 说明 例字
位 码元
I 丨单独竖或接触无交叉笔形的竖 丨上下恼
U直穿过一横的竖 王古
Y艹丰一横穿过两或两以上的平行 艹丰
竖,或者一竖穿过两或两以上
的平行横
R木木 只表示“木”或“”形 呆村禁
E韦竖被折笔穿过 巾韦书巿
C中串 竖穿过方框 忠患
X短竖左右两点与一横或双角 当光尝尚
接触
小小 一竖与左撇右捺或左撇右点 束刺棘
接触
2. “一”。横,本发明化为2种图符码元
键 图符 表示内容 说明 例字
位 码元
G 一 一单独横、横提(除“氵” 二理红鲤
“冫”中的提外,所有的提) 下上
和与无交叉笔形接触的横
V 干土 与交叉笔形接触的横 王覃里土
3.“、”。点,归纳为9种图符码元
键 图符 表示内容 说明 例字
位 码元
K 丶 丶单独的点和捺,可与别笔接触 主大
N八 表示“冫、八”形 冷巛兑颂分
亠表示“亠、”形 京羊
M讠辶 表示“讠、辶”形 话过
灬 灬 只表示“灬”形 杰点
B 氵 氵 只表示“氵”形 汪活
火 火火 表示“火”和“火”形 熔火炎
D 心 心 只表示“心”形 意忠
Z 广 广 只表示“广”形 庙床
4.“丿”。本发明化为8种图符码元
键 图符 表示内容 说明 例字
位 码元
H 丿 单独撇和与横接触的撇 彡彳午乞
E 千 千夂 与交叉笔形接触的撇 禾看各
C 人 人人 撇的右边有捺或点,不与别 合金欠贝
笔交叉
F亻表示“亻”形,或者撇与三围 仁身白自
或四围接触
R力 撇与折笔交叉 发拨力勇
T撇与横笔交叉 大夫奉
乂乂乂 两斜笔交叉 交爻乂
A勹 撇与无交叉的折笔接触 句欠
5.“”。折,本发明化为7种图符码元
键 图符 表示内容 说明 例字
位 码元
J亅 折向左而无交叉的笔形 已买了利门
L乚折向右而无交叉的笔形 医己红私
O扌折向左而有交叉的笔形 君打手隶
P 七 七电 折向右而有交叉的笔形切柒毛黾
钅 钅 表示左偏旁是“钅”形 钢
M 水 小水表示“小”和“水、”形 尖示陈冰泰
Z匕表示“”、“匕”、 良辰此皆
“”形
6.“”。围,本发明归为5种图符码元
键 图符 表示内容 说明 例字
位 码元
S 口 口囗 表示方框内无笔形的四围员
W日目罒 表示方框内有笔形而无交 目圆四
叉现象(包括有的横画伸出
框外)
Q田申曲表示三围或四围框内有交 刚网用周凤
甲由 叉笔形或笔形伸出围外 固团里丹西
A月 表示三围内有笔形而无交 同凡肚
叉现象(包括有笔形横伸出
围外)
D冖冂表示秃宝盖或三围中无笔形 冥冂贝现
(二)汉字结构的分析和编码击键
本发明是将所有的汉字分为上下结构字和左右结构字(包括左右两部分“□□”、左中右三部分“□□□”)两大类,取号略有区别:
1、上下结构字
(1)字中有高、次高、低三部分图符者,依从左到右,从上到下规律击键输入。最多取前四个图符编码击键。例如:(注意:例字中
的图符码元分析的,有的不直接用图符,而用图符“表示内容”中的符号,更便于读者直观审视。后同。)
等十禁木木一小 莫艹日覆亻乂
HHUO RRGM YWTK VQFT
(2)字中只有高、低两部分图符,取高处、低处图符。例如:
丁一亅 才丿 夫子
GJ OH TK JO
(3)高和低无法切分开的图符,只从高处取一个图符,连击三键。例如:
巴几巾丰
AAA DDD EEE YYY
(4)外包围字取图符:外围部分的高处图符作为整个字的高处图符,外围里面的高处图符作为次高图符,里面低处作为整个字低处图符。高、次高、低三部分图符都有,三部分都取图符;外围里面只有一个图符可取的,该字就只取两个图符。例如:
四围:
四围: 囗-国土 回 日口
QVV WS
三围: 冂-同一口 冈乂
AGS QT
-周十口 月一一
QUS AGG
几-凤 冈又 凰
QO QFV
匚-医 一丿丶 巨 一一
GHTK GJG
二围: 广-庄 广十土 康 广
ZUV ZOM
疒-病 亠干丨症 疒一一
NVIO KGG
户-扈 户口
KSL
厂-厉 一一勹亅 厦 一一乂
GGAJ GGT
勹-勿 丿丿 匐 一
AHH AGQ
2、左右结构字:
(1)左部分是下列36个偏旁:氵、冫、忄、扌、阝、口、日、田、亻、弓、礻、十、禾、钅、巾、山、纟、土、青、虫、方、身、片、角、矢、舟、女、食、矛、幺、爿、月、木、风、、讠的字,左部分只取高处一个图符,右部分按高、次高、低的实际图符取码。例如:
氵-河 氵一亅 弓-强口中一 青-静乛
BGJ JSCG YAJO
(2)左部分不是前面“(1)”中规定的36个偏旁而是其它偏旁或笔组的字,左部分取两个图符,整字按左高、右高、左低、右低四个位置的图符编码击键输入。例如:
米-粒亠小一 鱼-鲤 土 豸-豹丿丿亅
XNXG AQGV HHJJ
(3)左右结构字中的右部分如果是包围结构,其右部分取图符的方法同(二)1、(4)“外包围字取图符。例如:
(4)下列几类字,左部分末笔延伸至右部分的下面,而取码方法我们作左右结构字处理。左部分取左高、左低(包括延伸到右边之下的笔画)各一图符,右部分取右高右低(不计算左低延伸到右边的笔画)各取一个图符。例如:
辶-这 丶亠乂 廴-延乂
KNT JHTL
走-起 十人是-题 日一人人
UJCL WGCC
爪-爬丿毛-毯 丿火大
HJHL HBPB
尢-尬 人丿
TCLH
(5)左、中、右三部分的字,各部分高处取一个图符,然后在中间部分低处再取一个图符。例如:
衡一 湖 氵十月口 做 亻十口
HAGT BUAS FUHS
3、下列广、疒、厂、尸、产的低处“丿”不再取图符。例如:
矿 一广口 病 亠干丨 橛 木一
GZS NVRI RGNA
泥 氵一匕 铲 钅亠
BDGZ PNN
4、附号:
单字输入击键次数与键位使用的多少有必然的关系,不可凭主观臆断。同样的字数(如国标一、二级6763字)使用键位多,击键次数可以减少,使用键位少,击键次数相应增加,不然,重码率就必然增高。前面我们主要说明的是39种图符码元与26个键位对应的码,单字输入最多击四键。即击满四键计算机自动显示输入。本发明还有39个图符对应32个键位,单字输入最多击三键;28种图符对应16个字母键位或25种图符码元对应10外键位,10种图符码元对应5个键位等,单字输入最多击5键或更多一点儿。为减少或完全避免重码字,本发明设一“附号”备用。单字取图符击键后不到规定的最多击键次数时,可加击一附号键,以减少或消除重码现象,例如:39种图符对应26键位的方法,规定单字输入最多击四键自动显示,不到四键者即可加击一附号键。现在此方法已实现完全无重码字。加附号键仍不满四键者,加击空格键结束。
本法“附号”是加取汉字的部分横画计算数。横画:指单独的横和一端或两端有折、有接触的笔形,如“司”为四横、“王”为三横、“几”为两横、“旦”为四横等。对应计算机键盘键位是:一横A、二横B、三横C、四横D、五横E、六横及六横以上是F,无横画的字是O。计算容易,熟练者一眼能判断,不用慢慢数。计字中横画的位置固定:
上下结构和左右结构字一律取整字中靠右边的横画,无左右之分者取整字上下横画。例如:
梦-两横作B; 磊-六横作F; 草-五横作E;
香-四横作D; 覃-六横以上作F; 牌-四横作D;
珍-无横作O; 读-三横作C; 明-三横作C。
但注意:有左、中、右、三部分的字,需取中间部分的横画数。
例如:
树-一横作A; 衡-五横作E; 衍-无横作O。
二、音形码
音形码分音前形后和形前音后两种:
(一)音前形后
音,只选取该字汉语拼音的首字母加作该字的第一键。第二、三或二、三、四键是形,取图符击键方法与全形码选取方法相同。下面以26键码为例,将全形码取号与音形码取号相比较便知:
例字 全形码取号 音形码取号
祝 丶口丿乚 Z丶口丿
KSHL ZKSH
您 亻心 N亻
FAJD NFAJ
永 丶Y丶
KJM YKJM
远 丶一丿 Y丶一
KGKH YKGK
幸 十土十 X十土
UVNU XUVU
福 丶一口田 F丶一口
KGSQ FKGS
(二)形前音后
形,取图符击键方法与全形码选取方法相同,取一、二键功一、二、三键,末键是音;音,只选取该字汉语拼音的首字母。用全形码取号与形音码取号比较也即知。例如:
例字 全形码取号 形音码取号
祝 丶口丿乚 丶口丿Z
KSHL KSHZ
您 亻心 亻X
FAJD FAJX
永 丶丶Y
KJM KJMY
远 丶一丿 丶一Y
KGKH KGKY
幸 十土十 十土X
UVNU UVNX
福 丶一口田 丶一口F
KGSQ KGSF
(三)词语输入
1.双字词输入,共四键:第一键是第一字的汉语拼音首字母,第二键是第一字的第一个图符,第三键是第二字的汉语拼音首字母,第四键是第二字的第一个图符。
2.三字词输入,共四键:第一键是第一字的第一个图符,第二、三、四键是顺序取第一、二、三字汉语拼音首字母。
3.四字词语输入,共四键:第一键是第一字的第一个图符,第二、三、四键是顺序取第二、三、四字汉语拼音首字母。
4.五字及五字以上词语输入:顺序取前四字汉语拼音首字母。
三、键盘与图符码元
键盘的概念分为两类:一类是指目前计算机通用的普通键盘,另一类是特殊设计的电脑、电器、仪表、通讯器材上用的键盘。本发明两类键盘都可以使用。根据不同用户的要求,体积的大小,设键位数的多少,编码的简繁,设计不同码元定义在相应的键位上。本发明图符码元与键位对应的另外10种方式如下:
(一)39种码元定义在27键上(26个字母键和一个符号键上)。
对应关系见键位表(2):
(二)39种码元定义在32键上(26个字母键和6个符号键)。对应关系见键位表(3):
(三)28种图符码元定义在16个字母键上,对应关系见键位表(4):
(四)25种码元定义在10个数字键上,依方形排列,对应关系见键位表(5):
键位表(5)
(五)25种码元定义在10个数字键上,一横排,对应关系见键位表(6):
(六)18种码元定义在8字母键上,一横排,对应关系见键位表(7):
(七)18种码元定义在8个数字键上,方形排列,对应关系见键位表(8):
(八)10种码元定义在5个数字键上,方形排列,对应关系见键位表(9):
键位表(9)
(九)10种码元定义在5个数字键上,一横排列,对应关系见键位表(10):
四、字调语(语:包括词组、句子)输入:这里主要说明26键输入情况。
1键输入 108个最高频字
2键输入 400个次高频字和5~20字以上最高频词语
3键输入 单字与5~20字次高频词语
4键输入 单字与2~4字词语
凡击键不满4键的字、词、语加空格键结束显示输入,满4键者自动显示输入。
本系统收单字数量:
第一类:国标一、二级字6763字
第二类:国标一、二、三、四级字14000馀字
第三类:台湾、香港等繁体字库13000馀字
第四类:全汉字。
本系统收词语量:
第一类:5000条
第二类:7000条
第三类:10000条
第四类:20000条
本发明字、词、语输入:单字输入与词语输入不需切换,不足四键加空格键输入,满四键自动显示输入。单字与词语的编码是一套码,不是两套码,不用单独记忆词语的输入方法。两者的区别只是编码取号的位置不同,都是击满四键自动显示输入。单字编码如前面所述。词语编码情况如下:
两字词:各按单字取图符法,每字取前面两个图符击两键,合为四键。例如:
信息 亻丶心 市场 亠十乛
FKFD NEUJ
经济氵亠 生活土氵千
LJBN YGBE
三字词 按单字取图符法,第一字取第一图符,第二字取一、二两个图符,第三字取第一个图符(即“一二一”形式),合为四键输入。例如:
计算机 丶木 电器化 七口口亻
KHHR PSSF
科学家 千丶丶丶 国务院千
EKKK
四字词语 按单字取图符法顺序取第一、二、三、四字的图符,合为四键输入。例如:
声东击西 十七干 实事求是 丶日
UFYY KOOW
岂有此理 丨丨干 混水摸鱼 氵
TIV BJPA
五字及五字以上词语 按单字取图符法,顺序取前三字及字的第一个图符,合为四键输入。例如:
电子计算机讠
OJMH
理论联系实际讠一丿
VMGH
社会主义初级阶段 丶人丶丶
KCKK
有中国特色社会主义 中毌
TCQY
本发明设自定义词语:200~1000条,并具备造字功能。
本发明的优点:
一、简单、直观、记忆少、易学。只要记39个图符就可以输入所有的汉字,比“五笔字型”、“表形码”、“大众码”、“五十字元”等记众多的字根,其承受力减少数倍。现行“五十字元”的字根只适合用于6763字,要用于五、六万元需另设一套字根,本发明不需要另设一套。
二、简化字和繁体字都是用这39个图符,国内和港台澳及海外华侨使用都方便。由于记忆图符少,日本及其他外国人学习都较容易,更有利于国际间相互交往。本发明准确率高,现在打简化字用机器自动翻译成繁体字,打繁体字用机器翻译成简化字,这在中文电脑发展上是进了一大步。但是由于许多简化字与繁体字不是一对一的,机器不能识别,翻译错误甚多。用图符编码法输入则是最佳选择。
三、无重码,速度快。本发明中用39种码元对应26个字母键的方法,已经实现全部无重码字。击两键和三键不仅输入次高频单字,而且输入大量(1000~2000条)高频词语。占内存50K以下总收词量达10000条左右,比现行“五笔字型”收词量(5000)条大一倍。所以字词语混合输入速度比“五笔字型”等快得多。
四、灵活性大。本发明根据市场用户的需要,图符可以适当调整、增加或删减,用于不同键数的键盘,最适合创建“中国信息高速公路”。