1、10申请公布号CN104217197A43申请公布日20141217CN104217197A21申请号201410424962X22申请日20140827G06K9/00200601G06F17/30200601G06F3/0487201301G09B5/0420060171申请人华南理工大学地址511400广东省广州市南沙区环市大道南路25号华工大广州产研院72发明人许望徐向民邢晓芬74专利代理机构广州粤高专利商标代理有限公司44102代理人何淑珍54发明名称一种基于视觉手势的点读方法和装置57摘要本发明提供一种基于视觉手势的点读方法和装置,方法包括用户通过手指在书本上需点读区域画圈;摄像头
2、捕捉手指画圈动作,图像处理模块根据轮廓分析算法获取指尖位置且得出轨迹上下左右四个方向边缘端点,根据上下左右四个端点拟合成矩形,从而对矩形区域内容进行文字或图形等内容识别;而后进行语音合成技术并将语音信息反馈给用户实现点读功能。所述装置可戴在用户头上,包括一个摄像头,安装在装置两边的骨传导耳机。该装置结合了先进的可穿戴理念,使用户在学习的时候摆脱了手持电子设备的束缚,可基于现实的普通书本获得智能点读的学习指导。51INTCL权利要求书1页说明书4页附图3页19中华人民共和国国家知识产权局12发明专利申请权利要求书1页说明书4页附图3页10申请公布号CN104217197ACN104217197A
3、1/1页21一种基于视觉手势的点读方法,其特征在于,包括如下步骤1)采用摄像头捕捉手指画圈动作,所述画圈动作是指用户使用手指对需点读区域进行画圈;2)图像处理模块根据手指轨迹形成矩形区域;3)图像处理模块通过识别上述矩形区域中文字或图形;4)语音处理模块根据识别的结果或者对识别结果进行网络搜索的结果进行语音合成,并通过播放设备进行播放。2根据权利要求1所述的一种基于视觉手势的点读方法,其特征在于,步骤4)还包括用户通过语音命令对指定词汇或者内容进行网络检索。3根据权利要求1所述的一种基于视觉手势的点读方法,其特征在于,所述语音处理模块还识别用户对发出命令的固定语句。4根据权利要求1所述的一种基
4、于视觉手势的点读方法,其特征在于,步骤2)中,图像处理模块首先通过肤色分割算法分析摄像头图像,检测摄像头中是否出现人手,若无,则继续使用肤色分割算法分析摄像头图像,若有,摄像头捕捉手指画圈动作,图像处理模块利用轮廓分析算法获取指尖位置,且获取轨迹上下左右四个方向边缘端点,然后,根据端点产生轨迹拟合形成矩形区域。5一种实现权利要求14任一项所述基于视觉手势的点读方法的装置,其特征在于包括主体外壳、摄像头、骨传声模块及位于主体外壳中的图像处理模块、语音处理模块、WI网络模块和嵌入式微处理器模块;摄像头安装在主体外壳上或者嵌入在主体外壳中,骨传声模块位于主体外壳的两端且能贴于耳朵上方颧骨上;所述摄像
5、头的摄像范围能覆盖用户前方需点读的范围,用于获取手指画圈图像和待识别内容图像;所述图像处理模块通过摄像头获取的图像识别摄像范围内用户手指移动轨迹并拟合成矩形,并对拟合后的矩形区域内的内容进行智能识别;所述语音处理模块根据图像处理模块识别的结果或者网络搜索结果进行语音合成,同时还能识别用户对发出命令的固定语句;骨传声模块根据语音处理模块的输出结果以骨传导方式对用户进行学习指导和语音提示;WI网络模块用于接入局域网或因特网后,语音处理模块通过识别用户语音命令对指定词汇或者内容进行网络检索;语音处理模块对语音指令识别后,将指定内容发送至局域网或互联网数据库服务器,进行扩展内容检索;嵌入式微处理器模块
6、内嵌嵌入式微处理器,负责调控前述各模块的通信与工作时序。6根据权利要求5所述的装置,其特征在于所述骨传声模块采用骨传导耳机实现。7根据权利要求5所述的装置,其特征在于所述主体外壳外形为能戴于额头前方及后脑勺部位的头箍状,摄像头位于头箍中间。权利要求书CN104217197A1/4页3一种基于视觉手势的点读方法和装置技术领域0001本发明涉及一种头戴式的电子学习装置,具体涉及一种可配合普通印刷物识别与播放指定区域文字或图像等内容相对应的基于视觉手势的点读方法和装置。背景技术0002点读机作为一种新型助学工具,在帮助人们学习语言等方面具有重要的作用。目前市面上的点读机主要有以下两种一种是由一个和笔
7、记本电脑相似的壳体的内部敷设纵横交错的导电网膜,外配一只可以感应或发送无线信号的点读笔。使用时将书本平铺在上述壳体上,并设置好对应的页码,点读笔点击课本上有文字的位置时,点读笔发出的无线信号被上述壳体内部的导电网板所接收,并以此确定对应书本内容的经纬位置,从而根据预先存储在点读机里的对应语音数据读取出来,以实现“点读”功能。0003另一种是不需要上述壳体,直接利用在书本上加印的二维码,使用时只需要将一支基于光学识别(OID)的点读笔对所需点读内容进行“扫描”,则点读笔通过笔头上装配的高速摄像头识别书本上的二维码从而读出对应内容的声音文件,实现“点读”功能。0004以上两种点读方案都有缺点。00
8、05一是都必须采用特定的书本,经过录入信息或者是专门经过印刷处理的书本,这无疑增加了制作成本以及限制了学习者的学习范围。0006二是点读内容都是固定的,且不能通过网络进行知识扩展,若学习者对于某一内容想要深入了解时,不能马上得到帮助,降低了学习效率。0007三是学习者在使用过程中都必须手持点读笔,而若需要在书本上做笔记时,需要交替拿笔,显得略为麻烦;随着科学技术的发展,人们对于智能设备的使用越来越频繁,依赖也越来越大,而目前越来越多的可穿戴设备重要作用就是要使人们的双手摆脱手持电子设备的束缚,以追求更加智能、便捷的体验。0008综上,结合可穿戴设备的点读学习方式是未来点读学习设备的重要发展方向
9、。发明内容0009本发明的目的在于克服现有技术存在的上述不足,提供一种基于视觉手势的点读方法和装置,该装置为可穿戴式设备,可以使用户在学习时摆脱手持电子设备的束缚,可获得面向普通印刷资料的智能点读学习指导。0010本发明的目的通过如下技术方案实现。0011一种基于视觉手势的点读方法,其包括如下步骤1)采用摄像头捕捉手指画圈动作,所述画圈动作是指用户使用手指对需点读区域进行画圈;2)图像处理模块根据手指轨迹形成矩形区域;说明书CN104217197A2/4页43)图像处理模块通过识别上述矩形区域中文字或图形;4)语音处理模块根据识别的结果或者对识别结果进行网络搜索的结果进行语音合成,并通过播放设
10、备进行播放。0012进一步改进的,步骤4)还包括用户通过语音命令对指定词汇或者内容进行网络检索。0013进一步改进的,所述语音处理模块还识别用户对发出命令的固定语句。0014进一步改进的,步骤2)中,图像处理模块首先通过肤色分割算法分析摄像头图像,检测摄像头中是否出现人手,若无,则继续使用肤色分割算法分析摄像头图像,若有,摄像头捕捉手指画圈动作,图像处理模块利用轮廓分析算法获取指尖位置,且获取轨迹上下左右四个方向边缘端点,然后,根据端点产生轨迹拟合形成矩形区域。0015一种实现所述基于视觉手势的点读方法的装置,其包括主体外壳、摄像头、骨传声模块及位于主体外壳中的图像处理模块、语音处理模块、WI
11、网络模块和嵌入式微处理器模块;摄像头安装在主体外壳上或者嵌入在主体外壳中,骨传声模块位于主体外壳的两端且能贴于耳朵上方颧骨上;所述摄像头的摄像范围能覆盖用户前方需点读的范围,用于获取手指画圈图像和待识别内容图像;所述图像处理模块通过摄像头获取的图像识别摄像范围内用户手指移动轨迹并拟合成矩形,并对拟合后的矩形区域内的内容进行智能识别;所述语音处理模块根据图像处理模块识别的结果或者网络搜索结果进行语音合成,同时还能识别用户对发出命令的固定语句;骨传声模块根据语音处理模块的输出结果以骨传导方式对用户进行学习指导和语音提示;WI网络模块用于接入局域网或因特网后,语音处理模块通过识别用户语音命令对指定词
12、汇或者内容进行网络检索;语音处理模块对语音指令识别后,将指定内容发送至局域网或互联网数据库服务器,进行扩展内容检索;嵌入式微处理器模块内嵌嵌入式微处理器,负责调控前述各模块的通信与工作时序。0016进一步改进的,所述骨传声模块采用骨传导耳机实现。0017进一步改进所述主体外壳外形为能戴于额头前方及后脑勺部位的头箍状,摄像头位于头箍中间。所述主体外壳为头箍样式,戴于额头前方及后脑勺部位,材质为环保复合树脂。0018所述摄像头为150度广角摄像头,在正常的学习姿势中摄像范围能覆盖用户前方桌面。0019与现有技术相比,本发明具有如下优点和技术效果1)不必采用特定课本。本发明是一种可配合普通印刷物识别
13、与播放指定区域文字或图像等内容相对应的声音数据的头戴式点读装置,降低了课本制作的成本以及扩大了学习者的学习范围;2)点读内容可调节。通过视觉手势技术以及互联网技术,就可以将识别的内容进行联网查询并且反馈;3)该设备是只需戴在头上,使用户在学习时摆脱了手持电子设备的束缚,提高了学习效率。说明书CN104217197A3/4页5附图说明0020图1为实例中基于视觉手势的点读装置的外部结构示意图;图2为实例中基于视觉手势的点读装置的模块构成示意图;图3为实例中基于视觉手势的点读方法的流程图;图4为实例中基于视觉手势的点读方法中图像处理流程图;图5A和图5B为实例中基于视觉手势的点读方法中基于手指轨迹
14、调节识别内容范围的过程示意图。具体实施方式0021下面将结合附图和具体实施方式对本发明作进一步详细说明。0022如图1所示,该头戴式装置外形如一头箍,外部结构包括主体外壳即头箍外壳01、广角摄像头02、两个骨传导耳机03。头箍外壳01材质为环保复合树脂,健康无毒,可贴皮肤使用。广角摄像头具体为150度广角摄像头,佩戴头箍时摄像头视角能覆盖桌面书本。骨传导耳机03在头箍的左右两侧各一,佩戴头箍时,骨传导耳机恰好贴于耳朵上方颧骨上。0023本实例基于视觉手势的点读装置,如图2所示,包括以下主要模块1)嵌入式微处理模块,该模块内嵌嵌入式微处理器,负责综合调控本设备的各模块通信与工作时序等。00242
15、)图像处理模块,该模块识别摄像头摄像范围内用户手指移动轨迹并拟合成矩形,并对拟合后的矩形区域内的内容进行智能识别。00253)语音处理模块,该模块可以根据上述智能识别的结果或者网络搜索结果进行TTS语音合成,和识别用户对该设备发出命令的固定语句。00264)WI网络模块,该模块接入局域网或因特网后,用户可通过语音命令对指定词汇或者内容进行网络检索。语音处理模块对语音指令识别后,将指定内容发送至局域网或互联网数据库服务器,进行扩展内容检索。00275)骨传声模块,该模块可以根据语音处理模块结果通过骨传导方式对用户进行学习指导和语音提示。0028本实例基于视觉手势的点读方法,如图3所示,包括如下步
16、骤1)用户通过语音命令启动头箍。该语音命令为系统本身预设命令,举例可以为“STARTPLEASE”。00292)用户通过手指在点读区域画圈。此步骤中,用户所用手指一般为手指,其余四指握住即可,且在需点读区域画圈时需为匀速画圈,速度不宜过快。00303)摄像头捕捉手指画圈动作,若用户操作不规范,例如画圈速度过快导致摄像头无法正确识别手指,则系统通过骨传导耳机对用户进行语音提示,举例为“ERROR,PLEASERESTART”。00314)图像处理模块根据手指轨迹形成矩形区域。此步骤的具体处理过程如图4、图5所示。0032检测开始时,图像处理模块首先通过肤色分割算法分析摄像头图像,检测摄像头中是否
17、出现人手。若无,则继续使用肤色分割算法分析摄像头图像。若有,摄像头捕捉手指说明书CN104217197A4/4页6画圈动作,图像处理模块利用轮廓分析算法获取指尖位置,且获取轨迹上下左右四个方向边缘端点,如图5A所示。然后,根据端点产生轨迹拟合矩形,如图5B所示。00335)摄像头采集上述矩形区域内的文字或图像信息,图像处理模块通过智能识别技术(例如OCR文字识别技术、基于神经网络的图像识别技术等)识别摄像头采集到的信息,并将识别内容转化为文字发送至微控制器。00346)语音处理模块进行TTS技术进行语音合成,且通过骨传导耳机将语音信息反馈给用户。00357)用户通过语音命令对上述识别结果进一步
18、咨询。此步骤中的语音命令为预设的一些固定的命令,举例为“IWANTTOLEARNMOREABOUTIT”。00368)设备联网查询相关内容,并通过骨传导耳机进行反馈。系统通过WI网络模块接入网络进行查询相关内容,并且对不需要的内容进行过滤,最后将需反馈的内容通过骨传导技术反馈给用户。0037可见,本发明的装置是一种可穿戴装置,可戴在用户头上,装置上的摄像头可在用户需要点读时,识别用户的手指轨迹并拟合成一矩形,再对矩形区域内内容进行智能识别,将识别的文字内容进行TTS语音合成之后通过骨传声技术反馈给用户。并且,若用户需要进一步了解识别内容相关信息,可通过语音命令启动设备进行联网查询相关内容,最后用骨传声技术反馈给用户。该装置结合了先进的可穿戴理念,使用户在学习的时候摆脱了手持电子设备的束缚,可获得面向普通印刷资料的智能点读学习指导。说明书CN104217197A1/3页7图1图2说明书附图CN104217197A2/3页8图3说明书附图CN104217197A3/3页9图4图5A图5B说明书附图CN104217197A