充实视频的屏幕文字触发字 发明背景1.发明领域
本发明涉及媒体技术领域。具体而言涉及视频和相关的屏幕文字。2.相关申请的交叉引用
本发明利用屏幕文字将视频信号跟辅助信息关联起来,并且提取和增加文字信息,就象本受让人于1999年7月9日提交的09/351086号共同未决申请所涉及的一样,在这里将它引入作为参考。3.相关技术
近些年来,媒体源的数量越来越大,来自每个源的信息的量也在不断增大,使得信息超出了负荷能力。大多数消费者既没有时间也不愿意将时间花在大量信息上来寻找跟他们的需求相关的信息。因此人们发展了所谓的“推销技术”。Pointcast或者Backweb这样的网络应用程序,或者是更新的网络浏览器,会询问用户对哪些种类的信息和网站感兴趣。然后网络服务器将用户感兴趣的信息“推销”给用户,而不是等待用户请求获得它们。这样做是周期性的,不会引起人注意。
与此同时,随着媒体技术的进步,视频、音频和其它媒体之间的界线已经模糊。媒体技术的进步使得将因特网信息和其它信息材料跟传统的电视节目一起发送给消费者的视频显示器成为可能。因为因特网已经成为电子商务的工具,消费者要查看相同或者相关主题的视频、音频和文字信息这些媒体的组合。消费者已经熟悉了超级链接概念,以及“钻进去”提取它们正在环球网(WWW)上查看的主题地额外信息这样的概念。
目前,这些额外信息的提取可以利用闭路字幕文字、音频和自动情节分段以及识别来实现。Mitre公司提供的广播新闻编辑器(BNE)通过自动地将新闻广播划分成一个一个的情节段,并且在跟这些段有关的闭路字幕文字的第一行提供每个情节段的概要,使得这种提取成为可能。除此以外,还为每个情节段找出闭路字幕文字或者音频信息的关键字。
同样是Mitre公司的广播新闻浏览器(BNN)按照跟消费者选出来的搜索字相匹配的每个情节段的关键字的出现次数对节目段进行排序。因此,消费者很可能感兴趣的情节段已经被找出来。但是,将BNN和BNE结合起来使用要求消费者脑子里有一个明确的搜索主题,而在典型的频道搜索情形中常常不是这样。
为用户提供电视节目辅助信息的专利有Brodsky的第5809471号美国专利“利用动态提取的词汇提取交互式电视或者电话信号中没有的额外信息”和Legall等等的第6005565号美国专利“电子节目指南、互联网和其它信息资源的综合搜索”。在‘471号专利中,从电视节目或者闭路字幕文字提取关键字,产生一个动态变化的辞典。用户在从电视广播中看到的词语或者听到的词的基础之上请求获得信息。将用户的请求跟辞典进行比较,发现相同词的时候,就搜索要显示的辅助信息。
按照’565号专利,用户选择要搜索的主题或者来源。根据用户输入的信息,搜索工具搜索电子节目指南和环球网这样的其它信息资源并显示搜索结果。‘471号专利和‘565号专利都要求用户提供感兴趣的关键字。跟节目(也就是股市报告)的主题形成对比,这两个专利都没有将提取的辅助信息跟节目的全局内容(也就是新闻节目)关联起来。发明简述
因此,提供一种方法和一种系统,利用屏幕文字自动地提供辅助多媒体信息增强消费者的电视观看体验,是非常有意义的。所谓的屏幕文字(transcripttext)至少包括以下内容之一:视频文字、语音识别软件产生的文字、节目屏幕文字、电子节目指南信息和包括所有或者部分节目信息的闭路字幕文字。视频文字是将图像作为背景,前景上显示的叠加或者重叠文字。例如,定位名常常作为视频文字出现。视频文字也可以是嵌入文字的形式,例如可以从视频图像中识别和提取街道名称。
提供不仅仅是单个消费者已知的兴趣或者简档专用,同时也是正在观看的节目内容专用的辅助信息也是非常有意义的。例如,新闻段会跟有线网新闻(CNN)网页的连接有关,而广告则会跟另外的产品信息有关。这种方法和系统将利用学习模型在电视内容和其它媒体内容之间连续地产生新的关联,同时确定应该显示多少和哪种类型的这种辅助信息。通过这种方式,辅助信息会跟电视节目无缝隙地结合起来,而不会影响观众,也不会要求观众进行任何操作。
为了以上需求,本发明提供一种系统,(也就是一种方法、一种装置和计算机能够执行的过程步骤),用于提取跟视频段有关的辅助信息,显示在消费者的视频显示器上。该系统包括一个识别引擎,用于确定伴随视频段的闭路字幕文字或者跟其它屏幕文字有关的文字中是否包括用于提取辅助信息的扩展关键字。如果找到一个关键字,就根据储存起来的规则显示辅助信息,从大量信息中按照用户简档和这一段的上下文选择出来的信息。也可以扩展这些屏幕文字关键字,然后跟用户简档进行比较。在分类数据的基础之上自动地确定这一段的上下文。这些数据包括节目分类、目标跟踪方法、屏幕文字信息和/或电子节目指南信息的自然语言处理。
信息显示在一个窗口中,或者不引人注目地叠加在主视频段上。也可以将信息发射给例如手持装置或者电子邮件账号,储存在次级存储器中,或者在本地存储器中缓存。在情节分类中,这个系统自动地识别每一段的开头和结尾,因而能够更新对应于节目段上下文的规则子集。
另一方面,本发明将辅助信息跟正在观看的视频段关联起来的这一组规则是动态的,建立在一个学习模型的基础之上。这组规则从一组源更新,包括第三方的源,并且按照用户的选择和行为模式使用户能够获得这些信息。在一个实施方案中,这个规则是从具有无线连接的个人数字助理(PDA)发射过来的。
给出这个简述的目的是使读者能够迅速地了解本发明的实质。为了更加完整地了解本发明,可以参考下面对优选实施方案的详细介绍和附图。附图简述
图1描述采用本发明的一个系统。
图2说明这个系统中包括的处理器的单元。
图3a和3b是用于说明本发明工作过程的流程图。
图4是一个表,它说明本发明中给定视频段的辅助信息触发字(triggers)。
图4a说明如何扩展关键字和触发字。
图5说明本发明学习模型的一个实施方案。
图6说明为了提取辅助信息如何更新和维护关联规则数据库。
图7说明如何显示辅助信息。
图8说明本发明中采用机顶盒的一个实施方案。
图9说明本发明中采用电视显示器的另外一个实施方案。优选实施方案
图1画出了采用本发明的系统的一个代表性实施方案。在这个实施方案中,多媒体处理器系统6包括处理器12、存储器10、输入/输出电路8以及本领域中的技术人员都知道的其它电路和元件。将一个模拟视频信号或者数字流输入接收机2。这个流采用MPEG或者其它专有广播格式。
根据MPEG标准,视频数据是用离散余弦变换编码的,分割成长度可变的编码数据包进行发射。MPEG标准的一个标准,MPEG-2,在1996年7月的国际标准组织-运动图像专家组文件ISO/IECJTCI/SC29/WG11“运动图像和音频信号的编码”中进行了描述。MPEG仅仅是可以用于这一系统的一个格式实例。
在视频信号162中传送的屏幕文字由屏幕文字提取器4从模拟视频信号线21或者MPEG流用户数据字段中提取。屏幕文字提取器4还将视频节目分段。特定帧的屏幕文字可以储存在存储器10中。也可以将它作为实时数据流进行分析。
存储器10中还储存电子节目指南信息(EPG)。根据用户请求或者在预编程时间下载这些信息,给出几天或者几周电视广播节目信息。它由本地模拟TV广播商在场消隐期间或者通过“家犬”上的MPEG-2专用表发射。也可以通过电话线或者通过无线装置发射。EPG数据包括节目类型和子类、收看率和简短节目介绍这样的信息。EPG数据被用于确定节目的类型,比如它是一个新闻节目、一个付费节目摘录、一个肥皂剧或者一个旅行纪录影片。
储存在次级存储器18,能够在存储器10中获得的还有关键字或者“触发字”形式的个人简档信息,说明用户的兴趣所在。典型的触发字可以是“Clint Eastwood”、“环境”、“总统选举”或者“曲棍球”。在本发明的一个方面中将这些触发字扩展成包括同义词和相关词。
如同本领域中大家都知道的一样,通过用户输入、自动建立或者通过这两种方法结合起来,建立起用户兴趣的一个个人简档。例如,TiVoTM个人TV业务允许用户利用TiVoTM遥控器上的“向上”或者“向下”按钮说明用户喜欢哪些节目。TiVoTM随后利用这一信息选择用户喜欢观看的其它相关节目。
当一个触发字符合屏幕文字中包括的关键字的时候,提取辅助数据,例如通过通信装置17从因特网14或者专用源13。另一个辅助数据源是例如另外一个频道。然后在显示器16上将这些数据作为环球网网页或者它的一部分显示出来,或者以一种不引人注目的方式叠加在主视频上。也可以将一个简单的统一资源定位符(URL)或者信息消息返回给观看者。
将这些触发字跟环球网(WWW)网页这样的辅助数据关联起来的规则同样储存在次级存储器18中,能够从存储器10中获得。这些规则是通过一个默认简档建立起来的,这个默认简档是根据用户的行为,或者通过提醒用户输入兴趣信息然后产生规则集的一个询问程序加以更新的。还通过通信装置17从个人数字助理(PDA)或者蜂窝电话这样的移动装置15接收这些规则。根据正在观看的节目段的上下文,这些规则将辅助信息跟触发字关联起来。例如,如果这个节目是ClintEastwood新电影的广告,那么上下文就是广告,提取到的辅助数据是他正在观看的电影的描述。如果这个节目段是描述Clint Eastwood的车祸,上下文就是新闻,提取的辅助数据就是传记网页,或者跟www.cnn.com的链接,以获得关于他为什么在新闻中这个问题的更多信息。
如上所述,关联规则还跟EPG字段的组合有关。例如,如果“ClintEastwood”出现在EPG数据的演员字段,而且上下文是广告,并且闭路字幕数据是“下面的广告以后我们将很快回到Clint Eastwood和满手钞票”,那么,这个关联规则就提取跟正在上映的电影有关的辅助数据。另一方面,如果“Clint Eastwood”没有出现在EPG数据的演员字段中,它的上下文是广告,而且闭路字幕数据是“将在星期五播出Clint Eastwood主演的高原流浪者”,那么,关联规则就提取这个电影播出时间这样的辅助数据。这些差别可以通过例如将分数跟闭路字幕数据中提取的文字进行比较来确定。如果相同,正在做广告的节目就是正在观看的节目。也可以利用自然语言处理来识别“返回”这样的关键词语,它们也会说明正在做广告的节目就是正在观看的节目。
此外,如果EPG数据的演员字段中没有出现“Clint Eastwood”,上下文是广告,并且闭路字幕数据说“会在最近播出Clint Eastwood的新电影”,那么这个关联规则就通过链接到Clint Eastwood主页来提取辅助数据,找出电影的更多信息。
关联规则还确定要提取的媒体的类型。例如,如果“科索沃”是触发字,并且节目是由国家地理杂志赞助的,那么这个关联规则就提取这个区域的一个地图。如果节目段上下文是新闻,“战争”这个词在EPG数据中,那么这个关联规则就提取这个区域的最新政治历史信息。
在另外一些实施方案中,这个系统包括一个有处理和存储器的视频显示器,或者用于处理和储存信息的单独一个机顶盒。这些实施方案可以包括通信装置或者到通信装置的接口。视频信号和因特网信息的接收是通过无线、卫星、电缆或者其它媒体进行的。这个系统可以改变成通过通信装置17在无线电发射机上或者通过无线装置发射辅助信息作为输出信号,其中的信号嵌入载波160中。辅助信息可以发射给一个电子邮件清单,和/或下载给蜂窝电话这样的移动装置15的话音邮件装置,和/或发射给Palm Pilot这样的手持式掌上装置。
图2是处理器单元的一个示意图。简档产生器50产生用户已知兴趣的一个简档并储存起来,其中包括触发字信息或者兴趣的关键词。这是通过例如用户输入、让用户对一系列问题做出回答、在用户修改过的用户特性的基础之上产生一个默认简档或者通过监视用户活动找出兴趣点来完成的。规则产生器52产生这些关联规则,它们在逻辑上将每个触发字跟各种上下文组合起来,确定应该将哪些辅助信息显示给用户。识别引擎54将每个触发字跟屏幕文字比较,确定文字信息中触发字是否作为一个关键词存在。找到有一个跟一个触发字相同时候,提取部分56就提取辅助信息,格式化部分58对数据进行格式化,以供显示。上下文监视器60监视上下文,看它是否因为显示新节目段而改变。当上下文发生改变的时候,上下文监视器60就访问次级存储器18来提取关联规则的一个新子集。
数据更新器62用于更新辅助信息,以结合例如新网站或者反映各种搜索引擎的搜索结果。重复计数器64计算请求获得某一信息的频率,点击流监视器66测量用户请求获得辅助数据的频率。这些智能代理跟提取修改器68协同工作,修改信息类型和呈现给用户的信息的量。
图3a和3b是说明本发明的方法的流程图。首先,在步骤S201中,将输入的视频信号输入给接收机。这个视频信号是模拟的或者数字形式的。在步骤S202中跟处理器不同或者结合在处理器中的屏幕文字提取器提取屏幕文字,确定每个视频信号段的开头和结尾。接下来在步骤S203中,处理器从屏幕文字提取关键字。关键字的提取方法在本领域中是众所周知的,在Brodsky的第5809471号美国专利“利用动态地提取的词库提取交互式电视或者电话信号中找不到的信息”中描述了这样一种提取方法。如图4a所示,通过将它们跟图3a中的步骤S204所说明的同义词或者相关关键词关联起来从屏幕文字154中提取这些关键字152,得到更加有意义、更加完整的结果。将一个辞典或者Wordnet这样的一个数据库用于这一目的,Wordnet是一个在线辞典,它的设计受到了现行语言理论的鼓励。语音信号的各个部分被组织成同义词集,每个都代表一个辞典概念。
还可以通过确定屏幕文字的主题来扩展关键字。例如,如果同时存在“通货膨胀”、“阿兰·格林斯潘”和“失业率”这样的关键字,就可以知道屏幕文字中存在触发字“经济”。同样,如果屏幕文字中有关键字“美国总统”,就存在触发字“总统克林顿”。
当辞典和百科全书这样的参考工具中有辅助数据的时候,就可以采用特殊规则,如图4114132所示。在一种模式中,根据观看者的理解程度将触发字变换成不同的关键字。例如,如果观看者是一个孩子或者一个讲外语的观看者,触发字“失业”就被转换成关键词“没有工作”,但是不会转换成关键字“多余”。在另一种模式中,按照上面描述的方式扩展关键词。
父母控制是在节目段里节目这一层次以下或者上下文这一层次以下进行的。因此,在例如合适的卡通片播放过程中播放不适合于孩子的广告的时候,父母不必担心。在播放广告的时候只给孩子播放一个特殊画面。这个特殊画面可以采取玩具广告的形式,而不是常见的封闭屏。还要扩展封闭触发字,以增强封闭的效果。例如,如果父母不希望孩子看到跟战争有关的视频片断,就将触发字“战争”转换成“武装冲突”和“轰炸”这样的关键字和词。触发字扩展的一个实例在图4a 102 156中给出。
回到图3a,在步骤S205中,读取包括触发字的个人简档。在步骤S206中,处理器将利用屏幕文字获得的关键字跟用户简档中包括的触发字进行比较。如果没有任何相同之处,处理器就继续提取其它屏幕文字。
如果有匹配之处,在图3b的步骤S207中,就识别正在播出的视频节目的上下文。这是用几种方式进行的,利用闭路字幕数据、EPG数据、对象跟踪方法或者颜色、运动、纹理或者形状这样的低级特征提取方法。同时利用自然语言技术从屏幕文字中提取节目段的上下文。例如微软公司已经开发了一种软件,它通过分析文字来进行学习,它包括在线辞典和百科全书,并且通过这一分析自动地获取知识。这一知识被随后用于限制对“飞行中的飞机可能是危险的”这个句子中的词“飞机”的解释,并由此断定这个句子是跟航空有关,而不是跟木材加工有关。
软件还利用论文分析确定闭路字幕文字的结构和它的上下文,在论文这一层次上进行工作。例如,新闻节目被确定为新闻节目,因为它一般都是报告最重要的事实,在它的开头说明“人物、事件、时间、地点、如何发生”。因此,以“早上7点钟Clint Eastwood在卡梅尔加利福尼亚的大街上发生了一场枪战,被目击者用家用摄像机拍摄下来”开始的节目被认为是一个新闻题材。还可以从上面描述的类型和子类型字段或者字段的组合在EPG数据中获得上下文。
下面在步骤S208中读取关联规则。关联规则根据关键字和上下文确定应当从储存的数据库中提取哪些辅助数据。在步骤S209中,读取定制显示模块。这些模块使得用户能够限制用户想观看的信息的类型,因而限制信息量。例如,用户可能只希望看到WWW页的统一资源定位符(URL),只希望看到页面、页面摘要或者完整页较大的标题。用户可以选择他希望看到的辅助资源并且使这些资源的优先级较高。
在步骤S210中,从存储器中储存的数据库里提取辅助数据。数据库包括感兴趣的项目,或者指向感兴趣的项目的指针,附属于触发字。例如,数据库包括以下内容中的任意内容:名人和公众人物的名字,国家、首都和总统这样的地理信息,产品和商标名称,分类话题。
从建立起来的一组源维护和更新这个数据库。这些源包括例如Bloomberg网站、百科全书、辞典和一组网站或者搜索引擎。来自EPG的信息和闭路字幕数据也结合在这个数据库中。
一组更新和提纯规则,如图5和6所示,也储存在一个数据库或者一个观众的简档里,对其进行维护,以管理数据库或者简档的大小以及它的当前键值。例如,在选举结束以后,将删除选举结果以及到投票和候选人信息的链接这样的“陈旧”条目。
回到图3b,在步骤S211中,对辅助信息进行格式化以便显示。将信息显示在一个窗口中,或者不引人注目地叠加在主要视频段上。也可以将信息格式化成用于传输给例如Palm公司生产的Palm PilotTM这样的手持装置或者传输给电子邮件账号。
图4说明几个触发字102的关联规则100。在这个表中,第一列表示触发字102,第2~4列表示图示触发字的可能上下文104、106、108、110。从第一个触发字102“Clint Eastwood”的关联规则102开始,当用户简档中出现这个触发字102的时候,提取出三个不同辅助信息项116、118、120中的一个进行显示,具体提取哪一个取决于上下文出现在正在观看的视频段中的哪个Clint Eastwood。虽然这个表格实例中每个框框都只画出了一个链接,但是实际上存在多个链接。如果Clint Eastwood出现在一个广告中,这个系统就会链接到www.imdb.com的WWW网页,并且按照定制的显示模型显示这个网页。如果Clint Eastwood出现在一个谈话节目中,他出现的这个谈话节目段将被储存起来用于提取118和/或将一个通知信号实时地发送给观众。也可以发送一个离线通知信号,供以后观看,告诉观看者这一段已经被储存起来。
以自动方式或者手动方式提取通知信号。还将通知信号跟一个主题关联起来,因而在下次播出Clint Eastwood电影的时候能够显示出来。如果Clint Eastwood出现在一个新闻节目中,这个系统就会链接到www.cnn.com的WWW网页。通知信号具有优先权,使用户能够选择希望得到通知的情形。例如,用户只希望看到跟恶劣天气警报有关的通知。
触发字102马其顿的第二个关联规则122针对的是4种不同的上下文。如果触发字“马其顿”出现在广告中,系统就连接到www.travel.com 130的WWW网页。如果马其顿是一个谈话节目的主题,这个系统就连接到康普顿百科全书132中“马其顿”的一个入口。如果马其顿是一个新闻节目的主题,就将用户调谐到正在播出134这个节目的电台上。如果马其顿是国家地理杂志赞助的一个节目的主题,这个系统就链接到www.yahoo.com/maps 136,显示马其顿的地图。
关联规则3~5124126128应该按照上述实例中相同的方式进行解释。如同表格中所示,当“Meryl Streep”这样的特定触发字102出现在屏幕文字中,系统只为特定的上下文提供辅助信息。对于“MerylStreep”,只将辅助信息提供给谈话节目和新闻上下文。如果需要,将这样一个规则扩展到应用于著名演员或者所有演员的一个清单。
图4a说明如何扩展触发字和关键字来提取辅助信息。对于例如图中所示的屏幕文字150,从屏幕文字150中提取关键字152“莱姆关节炎”。随后将这个关键字152扩展到对应另外的关键字“扁虱”、“扁虱叮咬”、“牛皮癣”和“鹿虻叮咬”。如果这些扩展关键字中有任何字出现在屏幕文字中,跟Lyme Disease有关的辅助信息就会被提取出来。
图4a还说明如何扩展触发字。触发字102“莱姆关节炎”被扩展156到包括相关的词语“扁虱叮咬”、“西莱茵河病毒”和“杀蚊喷剂”。因此,如果屏幕文字150包括任何扩展触发字,就储存这一段。
图5说明用一个学习模型来连续地更新定制的显示模块和关联规则。重复计数器20记录用户对同一个辅助数据的请求次数,例如用户通过点击一个URL来发出这样的请求。还有,图2所示的处理器的提取部分56可以为每一段提取一个以上的辅助信息,用户可以选择用户希望看到的信息。如果用户请求某一辅助数据的次数少于一个预定次数,提取修改器24就更新储存的关联规则26,从规则中删除辅助数据,或者将规则改成包括一个新的源。点击流监视器22监视用户请求所有辅助数据的频度。如果用户选择辅助数据的次数少于预定次数,提取修改器24就修改这个用户的客户显示模块28,给用户显示更少的信息。
图6说明如何更新和维护动态关联规则数据库。这个数据库包括一些感兴趣的项,或者指向感兴趣的项的指针,当屏幕文字中的关键字和用户简档中的触发字相同的时候,它们提供辅助信息。随着时间的变迁不断地更新数据库,以反映当前的事件,跟不断变化的用户简档相匹配。
已有的数据源集合36,说明构成关联规则数据库26的数据来源。包括来自各种公开源、专有信息的外部数据38和来自因特网14的数据的数据源集合36由数据更新器40更新,结合进例如新的网站,或者反映各种搜索引擎的搜索结果。保存好一组刷新规则32,使数据库的大小保持在预先确定的范围内。根据已经制定的一组优先级,需要的时候删除信息。还保存一组提纯规则34,说明什么时候如何删除“陈旧”信息。给某些种类的信息记录下日期,比预定月数和/或年数旧的信息都被删除。
图7说明以不起眼的方式在主视频段中显示辅助信息70的一个实施方案。辅助信息出现在图像的底部。
图8说明机顶盒75包括一个接收机2的一个实施方案,这个接收机2接收视频节目和屏幕文字。屏幕文字提取器和分段器4从视频信号中提取屏幕文字150,并且将它跟广告或者新动画这样的视频节目段关联起来。处理器系统6包括本领域中大家都知道的处理单元—一个输入/输出部分8、一个存储器10和一个处理器12。处理器系统通过通信装置17从各种源提取视频节目的辅助信息。作为实例画出了这些源中的三个,因特网14、专有(非公众)数据库13和PDA这样的移动装置15。通信装置17可以通过无线装置、有线调制解调器、数字用户线或者网络跟没有画出的其它装置连接。次级存储器18用于储存辅助信息和规则,用于提取信息。机顶盒可以跟PC显示器或者电视机这样的显示器连接。
图9说明另外一个实施方案,其中的电视80包括一个接收机2、一个屏幕文字提取器和一个分段器4、一个处理器系统6、次级存储器18、通信装置17和一个显示器16。处理器系统6包括本领域中大家都知道的处理单元——一个输入/输出部分8、一个存储器10和一个处理器12。电视机80通过连接因特网14、专有源13和移动装置15的通信装置17跟辅助信息的源连接。
已经参考特定的说明性实施方案描述了本发明。显然本发明并不限于这里描述的实施方案,本领域中的技术人员可以对它们进行修改、改变和改进,而不会偏离后面的权利要求给出的实质和范围。