基于副本信息句法的节目分类装置和方法 【发明领域】
本发明针对节目分类,更具体而言,针对根据副本信息中出现的句法对节目的分类。
背景技术
电视节目分类是已知的并用在多个分析电视广播信号的装置和方法中。传统上节目分类是由包含在电视广播信号中的电子节目指南(EPG)数据确定的。但是,当EPG数据不可用或未包含在电视广播信号中时,节目分类就不易识别。
发明概述
因此本发明的一个目的是提供一种根据副本信息对节目类型进行分类的装置和方法。
本发明的另一个目的是提供一种根据副本信息的句法对节目进行分类的装置和方法。
本发明还有一个目的是提供一种克服已知节目分类方法固有缺点的节目分类装置和方法。
根据本发明的一种形式,基于副本信息句法的节目分类方法包括接收与节目关联地副本信息,其中副本信息包括很多句子,确定副本信息的多个句子中至少一句的特征,将该多个句子中至少一句的特征同一个与多个节目类型关联的句子特征列表做比较,并根据该比较步骤,选择最接近于该多个句子中至少一句特征的节目分类。
联系相应附图,本发明以上的和其它的目的、特点和优点将从以下对其详细的描述中变得非常明白。
附图简述
图1是根据本发明基于副本信息句法的节目分类装置的方框图;及
图2是根据本发明基于副本信息句法的节目分类方法的流程图。
优选实施例详述
现在参考图1,将描述本发明装置的一种优选实施例。装置100包括用于接收优选地包括副本信息的音频/数据/视频信号的视频输入端口102。耦合到该视频输入端口102的是从音频/数据/视频输入信号中提取副本信息的副本信息提取器104。如果音频/数据/视频输入信号中不包括副本信息(例如,字幕文本),则副本信息可以使用已知的语音到文本生成技术来产生(或从第三方提供者那里获得)。一旦输入信号的副本信息部分被提取出来,它就被提供给线索提取器106用于分析。
线索提取器106耦合到包含多个线索集的知识库108,每个线索集都同一种特定的节目分类类型相关。线索提取器监视该副本信息中存在于知识库的句法线索的出现。线索通常涉及句子的类型(疑问句、感叹句、祈使句、陈述句),及其它句子特征(第一人称、第二人称或第三人称)。然后比较器110比较由线索提取器识别出的线索同包含在知识库中的信号,来发现哪种节目类型具有由线索提取器识别出的句子特征。一旦预定义的副本信息分析时限结束,就由选择器112做出比较来发现哪种节目类型最能匹配从副本信息中提取的线索。识别出线索最多的节目类型被选择器选作节目分类,且其结果就是输出。
基于副本信息的节目分类方法在图2中示出。术语“副本信息”表示文本,例如字幕文本,它拥有视频(电视)节目传输(音频/数据/视频)信号且符合视频节目的语音和非语音事件,或其它象EPG数据的文本信息。副本信息可以从视频文本或屏幕文本(例如,通过探测视频的副标题)中获得并将光学字符识别(OCR)应用到提取出的文本,如于1999年11月17日提交的标题为“视频流分类信号隔离方法和系统”的USSN09/441,943和于1999年11月17日提交的标题为“应用到神经网络的带形状特征的信号分类”的USSN 09/441,949中所讨论的,其所有公开内容在此引入作为参考。如果音频/数据/视频信号不包括文本部分(即,它不包括副本信息),则副本信息可以使用已知的技术来产生,如在本领域已知的语音到文本转换技术。副本信息也可以从第三方提供者那里获得,如通过因特网的TV指南。
本发明是基于与节目关联的副本信息可以使用已知的搜索技术来分析和搜索的知识,如关键词搜索和统计文本索引和检索。通常,该方法包括分析副本信息的句子来确定每个句子的类型和主语,从根本上讲就是句子的语法结构。根据这个信息和已知的具体类型节目有特定类型句子且每句中特定主语、宾语及特定语言形式(这样的信息存储在知识库中)的倾向,做出关于节目分类(类型)的确定。
该方法包括确定与节目相关的广播信号是否包括副本信息(步骤10)。如果广播信号不包括副本信息(在步骤10中是NO),则副本信息可以使用以上提到的已知技术来产生,或者可以从第三方提供者那里获得(步骤12)。
一旦获得了副本信息,该副本信息就被利用已知的自然语言处理方法处理,如关键词搜索和统计文本索引和检索,从而对副本信息的句子进行归类(如下面更加详细描述的)。为了对节目的类型分类,不是一个具体节目的每个句子都需要分析,指出这一点是很重要的。已经发现在对节目类型的分类中分析30秒的副本信息(或者大约5-10个句子)足以提供一个相对高的准确度。还应当指出对文本信息的分析不需要在节目的开头就开始,而是可以在节目的任何部分开始。
在该优选实施例中,副本信息被监视以便确定句子的类型(疑问句、感叹句、祈使句、陈述句)(步骤14)和每个句子的主语(第一人称、第二人称或第三人称)(步骤16)。句子的类型和主语是使用自然语言处理中众所周知的方法/模块来确定的,如上下文无关和上下文相关文法。
将关于句子类型和主语的信息同存储在数据库(知识库)中的信息进行比较(步骤18)。数据库包括一个节目类型列表(例如,谈话节目、新闻节目、连续剧等)和与每种节目相关的已知句子特征。与大多数被分析句子特征最接近匹配的节目类型被选作节目的分类。一个存储在数据库中的分类句子与之比较的一些节目典型句子特征的实例包括:
连续剧:第一/第二人称主语,疑问句,感叹句,副本文本中附加的脚注如门铃、笑声、欢呼声和掌声;
新闻节目:第三人称主语,多个句子以“该”开始。语言的形式典型地是非直接/报告性的。没有太多口语化的表达方式。
采访:大部分句子以“你”开始。句子通常是“基于对话的”。
还可以预见不仅句子的类型和主语可以被确定,副本信息中附加的脚注也可以被分析来给节目分类,这些脚注典型地识别非语言的声音。这些附加的非语言注释包括例如门铃、敲击声、大笑声、格格笑声、欢呼声和掌声。
尽管以上只提到了连续剧、新闻节目和采访类节目,应当预见如果语法线索存在于数据库中,任何形式的节目都可以被识别,如体育、戏剧、演讲等。
已经参考相应附图对本发明具体的优选实施例进行了描述,应当理解本发明并不限于那些明确的实施例,而且在不背离由附加权利要求所定义的本发明范围或主旨的前提下可以由本领域的普通技术人员在其中做各种变化和修改。例如,尽管本发明在其与电视广播信号一起使用的环境下进行了描述,应当预见该系统可以与音频处理器(即,无线电)、能访问因特网以便扫描基于因特网的信号的计算机或任何存储的内容一起使用来创建可以根据本发明被搜索和处理的文本信息。