计算机声纹输入法 本发明简称声纹法(下同),主要用于计算机的文字输入,尤其是汉字输入。
就本人所知,目前的计算机汉字输入技术方案众多,但真正实用、有代表性的大至只有几种,如“区位码输入法”、“拼音输入法”、“五笔字型输入法”,其中“五笔字型法”目前最流行,为众多专业人士所采用(见王永民所著《五笔字型》标准教材系列)。
本发明的目的是提供一种用声音输入汉字的方法(也可输入其他文字、符号),使非专业人士也能简单、方便、快捷地将汉字输入计算机中。
汉语常用字的发音总共只在一千三百个左右(见《现代汉语词典》78年版,下面有关词典内容的依据同此),每个字音可有多个同音字(至少一个)。如果计算机能“听懂”这一千三百个音,知道每个音所对应的拼音及其同音字,那么,当我们将要输入的字读给计算机,计算机就会将字音的拼音及全部同音字显示在显示器上,供我们选择。
但是,如何让计算机听懂字音呢?
人类指纹的特征性与重现性众人皆知,现代科学指出,人的声音也具有指纹的这些特性,所以也称作声纹。也就是说,当一个人重复读一个字时,每个字音信号反映在示波器上的图形,相互间会非常相似。本发明正是利用声纹的这种特性,采取对号入座的方式,让计算机“听懂”入的声音。
首先需要一个声音处理装置——“标准声纹制作器”(这是本人的命名)。它能将由麦克风送来的字音信号,逐个字音(单音节)进行标准化处理,制成标准声纹信息码(数码式),送给计算机。
每个人在第一次使用声纹法之前,必须先进行“预存标准声纹码输入”。由计算机按词典的顺序,将从a→zuo的一千三百个左右的拼音逐一显在显示器上,并用最常用的同音字作提示。使用者跟随屏幕逐一清楚地读出每一个字音。声音经麦克风→标准声纹制作器→计算机,每一个字音变成一组标准声纹信息码存入存储器中。例如,屏幕显出“ā阿”,待使用者读完“阿”音,计算机在收到“阿”音的标准声纹信息码后,再将a的下一个音“á啊”显示在屏幕上,这样一个一个下去,直至“zuò做”为止。这样,计算机就记住了使用者所读的从ā→zuò的一千三百个(左右)地字音。
经过“预存标准声纹码输入”步骤后,使用者就可用声音输入汉字了。做法是:将要输入的字(比如“中”字)读出,字音经麦克风→标准声纹制作器,化成标准声纹信息码,计算机将这组信息码与预存的一千三百组进行对比,从中找出最相似者(由于相同的机会小,所以将最相似者确认为相同),然后将此音的拼音及同音字显示在屏幕上(“中”字音的显示
0 1 2 3 4 5 6 7是:zhōng中<忠、衷、钟、终、盅、螽、忪>),供使用者选择(按“0”或“确认键”,中字即被选出,其余字及拼音消失)。
可以看到,每个人只需进行一次“预存标准声纹码输入”后,就能重复不断地在同一部计算机上使用声纹法输入汉字,而此计算机对其他人的声音不予理会。实际应用时,每个人只要将自己的“标准声纹信息码”存在软盘中,就能带着软盘到任何一部有声纹法功能的计算机上使用声纹法。
将一千三百个音存入计算机,如果每秒一个,需时22分钟;若2秒一个,也不过需要43分钟。这种一劳永逸的付出,应该说声“值!”。
同一个人读同一个字,字音的声纹互相会很相似,但音量的大小、字音的长短却会有差别,“标准声纹制作器”的工作之一就是要消除这种差别。比如,用放大缩小的办法,将音信号的峰值统一;以峰值为中心,取0.4或0.6秒(须在实验中定)时间段为标准段,以避免音信号长短不一。
由于受环境噪声等因素干扰,同人同字音的声纹也很难100%重复。所以在实际中,并不要求声纹码的重复为100%,而只要求“相似”。至于相似的程度,应看实际效果而定,以“尽量大的检出概率和尽量小的出错率”为原则,从中找到平衡点。
目前“将汉字输入计算机”成了中国人使用计算机的最大障碍。虽然已推出的方案众多,却都未能摆脱“汉字的复杂性”这一缺点,更谈不上发挥汉语的优点。就拿“区位码法”、“拼音法”、“五笔法”为例:“区位码法”的缺点在于难以记住众多的编码;“拼音法”则要求使用者读音标准,熟悉拼音,这对于用惯方言,读不准普通话的人来说,也是难以使用;“五笔法”目前流行最广,但要使用它必须经过专门的学习训练;熟记一百多个字根及各种拆字组字规则,这对于非专业人士,尤其是记忆力不佳的人,困难很大。
其实,汉语的优点在于“由字组词,字加词组成句,总共1300个左右的常用字音就组成了千千万万的日常用语”。本发明正是发挥了汉语的这种优点,同时避开了汉字“字型复杂”这一缺点。在整个用声纹法输入汉字的过程中,人只需用口读字,用手按键盘选字,完全不需动脑去思考,用心去记忆,一切繁复的工作都由计算机去完成了。
还应指出,声纹法并不要求使用者一定用普通话,任何方言都能使用,甚至习惯性的错误读音也无妨(因为计算机按重复性规则选字)。
总的来说,只要懂得汉语(中文)的人,就能使用声纹法。
至于其他语言,如英语、日语等,也一样能用声纹法进行输入,其原理是一样的,只是具体的操作会和汉语有差别。比如英语,如果按字母输入,情况非常简单,但输入的速度可能不如手敲键盘快,如果按词输入,情况会非常复杂,因为英语的词汇数以万计。所以英语使用声纹法无优势(但对手有残疾的人优势明显),而其他与汉语结构相似的语言使用声纹法时,其优势与汉语相同。
要实现本发明,必须编制一套相应的计算机软件——声纹输入法软件(这是本人的命名),并研制出配套的专用设备——“标准声纹制作器”。可考虑做一种“声纹卡”(这是本人的命名),卡中含“标准声纹制作器”和“声纹输入法软件”,并有足够存储单元供软件运行。卡的一个接口接麦克风,另一个接口接计算机。这样,现在一般的计算机都能利用声纹卡输入汉字,无需增加存储单元。
声纹输入法软件除制成中文版外,还可制成其他语言的版本(输入其他文字用),或两种以上语言合用的版本。在程序编辑、运行时,也可用声纹法去输入数字、各种符号、命令等,这样既方便汉语软件的使用,又能加速各种软件的汉化。比如符号“(、)、>、<、=”,可分别用“左、右、大、小、等”字音代表,又如命令“IF”(假如)可用“假”字音代表,这些代表字音在中文编辑时代表汉字音,在程序编辑、软件运行时代表符号命令,只要小心处理就不会造成混乱。至于26个英文字母,用键盘输入已很方便,当然也能使用声纹法输入,但对“E、G”这样容易与汉语字音混淆的字母,需小心处理。
现举例说明声纹输入法软件的部分操作情况。例如要输入“中华人民共和国”,使用者首先对准麦克风读出“中”字音,计算机显示器就显出
0 1 2 0 1“zhōng中(忠、终…)”,再读“华”音,显示变成“zhōng中(忠、
↑2 0 1 2终…)húa 划(滑、华)”,在健盘上按“2”,显示为“中华”,再读
↑
0 1 2 3“人”,显示“中华rén 人(仁、壬、任)”,再读“民”,显示为“中
↑
0 1 2 3 0 1 2华rén人(仁、壬、任)mín民(珉、岷…)”,再读“共”,显示为
↑
0 1 2 3 0 1 2 0 1 2 3“中华rén人(仁、壬、任)mín民(珉、岷…)gòng贡(共、供、质
↑)”,按“1”键,显示改为“中华人民共”。再读“和”,显示为“中
↑
0 1 2华人民共hé河(何、合…)”,将光标“↑”右移至“()”下,显示
↑
0 1 2 3 4 5 6 7 8 9为“中华人民共hé河(何、合、核、荷、盒、和、禾、颌、郃…)”,按
↑“6”键,显示为“中华人民共和”,读“国”,显示为“中华人民共和
↑
0 1 2guó国(馘、腘…)”,按“确认”键,显示为“中华人民共和国”。
↑ ↑说明:符号“…”在“()”中,表示仍有同音字未显出。一般当光标不在“()”下时,“()”内的同音字只显2个(也可考虑3或4个),其余用“…”表示,但若“()”内的同音字不多过5个,则全部显出(如上面的“人”和“贡”字)。要选择“()”内未显出的字时,可将光标“↑”移至“()”内第一个字下面,“()”内即显出9个同音字(少于9个时全部显出,9个后面仍有的,用“…”表示,如上“河”字),若同音字很多,只要将“↑”往右移一位,“()”内即显出下一组9个同音字(前一组消失),由于最多的同音字是82个,减去“()”外一个,刚好81个,所以当“↑”移到“9”号位时,最多82个同音字的第82个字也已显出。“()”内字上面的数字“1、2…”表示位置,供选择用。按“1~9”键,光标所在音的“()”内相应位置的字就被确认,按“0”或“确认”键,“()”外拼音右面的字(0位置)就被确认。需确认的字在“0”位时,可不确认而直接读下一个字,后面的字被确的同时,前面未确认的字也会被确认(计算机自动选“0”位置字确认,如上面的“中华”,“华”字被确认时,“中”字自动被确认)。当“↑”停在空位或已确认的字下面时,按“0~9”键会输入“0~9”的数字(因为已无可确认之字)。用声纹法输入汉字时,键盘输入仍有效,即可同时用键盘输入数字、符号、英文字母。
经初步统计,同音字在6个以内的音占总数(1300)的60.5%,所以60%的字只按一键即可选出。同音字在10个以内的音占77.3%,同音字在19个以内的音占94.1%,所以需按键3次以上才能确认的字不足6%。