说明书用于针对网络中至少一个视频服务提供方的用户自动概括视频内容的过程
技术领域
本发明涉及用于针对网络中至少一个视频服务提供方的用户自动概括视频内容的过程、涉及应用以及涉及包括用于实现所述过程的部件的架构。
背景技术
视频内容的视频概要可以是以包括所述视频内容的部分的视频序列的形式,即,所述视频内容的更短版本。视频概要也可以是以包括视频内容的被选择的图像的超媒体文档的形式,用户与所述图像交互以访问所述视频内容的内部部分。
在自动视频概要的领域中已经完成大量工作,特别是由学术实验室(例如法国的研究中心INRIA和EURECOM)完成的、或者是由美国的大学(例如美国麻省理工学院(MIT)和卡内基〃梅隆(Carnegie Mellon))完成的、或者甚至是由公司(例如微软、惠普、IBMn或摩托罗拉)完成的。
确实,视频概要呈现用于若干应用的许多兴趣,因为它特别是允许实现归档过程和其它更复杂的特征,例如视频电话会议、视频邮件或视频新闻。
例如,微软的研究实验室已经发表关于在视频概要上的领先工作的一些论文,例如文章“使用增强的标志检测的足球视频概要”(M.EL Deeb,B.Abou Zaid,H.Zawbaa,M.Zahaar,and M.El-Saban,2009,“Soccer Video Summarization Using Enhanced Logo Detection”),其可在地址http://research.microsoft.com/apps/pubs/default.aspx?id=101167中得到。这篇文章涉及用于概括足球比赛视频的方法,其中算法检测用于描绘有趣 事件的回放镜头。一般地,微软的工作是基于低层视频分析器和规则引擎,并且使用不仅是固定的、不允许用户编辑个性化的视频概要而且还是针对特定语义领域(例如足球)的专用算法。
三菱社会的研究实验室已经提出关于用于个人视频录像机(PVR)的视频概要的研究,如可以在http://www.merl.com/projects/VideoSummarization处得到的文章中所解释的,并且特别是如在技术报告“用于视频概要、浏览和取回的统一框架”(Y.Rui,Z.Xiong,R.Radhakrishnan,A.Divakaran,T.S.Huang,Beckman Institute for Advanced Science and Technology,University of Illinois and Mitsubishi Electric Research Labs,“A Unified Framework for Video Summarization,Browsing and Retrieval”)中所解释的。这些研究是基于自动音频视觉分析和视频略读方法,但不允许提取视频内容的主键序列。
文档“视频概要:最先进的概念性框架和调查”(A.G.Money和H.Agius,《视觉通信和图像表示》期刊,第19卷,第2期,第121-143页,2008)(A.G.Money and H.Agius,“Video summarisation:A conceptual Framework and Survey of the State of the Art”,Journal of Visual Communication and Image Representation,Volume 19,Issue 2,Pages121-143,2008)和“在视频概要和略读中的进展”(R.M.Jiang、A.H.Sadka、D.Crookes,在“在多媒体信号处理和通信中的最新进展”中,柏林/海德堡:斯普林格,2009)(R.M.Jiang,A.H.Sadka,D.Crookes,“Advances in Video Summarization and Skimming”,in“Recent Advances in Multimedia Signal Processing and Communications”,Berlin/Heidelberg:Springer,2009)分别提供对视频概要的不同已知技术的概论和关于视频概要的静态和动态方法的解释。
总而言之,用于视频概要的已知方法可以分为三大类:基于音频流分析的方法、基于视频流分析的方法和基于所述分析两者的混合方法。这样的方法经典地基于通过专用算法从音频和/或视频分析提取的元数据。
至于缺点,这样的方法必须处理在音频和视频分析与它们的分析算法限制之间的语义差距(“semantic gap”)。因此,由于可听语音链接到视频主题,基于音频的方法有时并不足够。此外,特别是当视频上下文具有触发高语义差距的高级语义时,基于视频的方法经历识别所述上下文的困难。此外,混合方法遇到呈现最后概要的困难,并且非常依赖于视频主题。
特别地,视频概要是基于视频分析和分段。在以下文档中特别进一步详细描述这样的方法:“基于运动对象检测和轨迹提取的监视视频概要”(Z.Ji,Y.Su,R.Qian,J.Ma,“Surveillance Video Summarisation Based on Moving Object Detection and Trajectory Extraction”,2nd International Conference on Signal Processing Systems,2010)、“改进的次优视频概要算法”(L.Coelho,L.A.Da Silva Cruz,L.Ferreira,P.A.“AnImproved Sub-Optimal Video Summarization Algorithm”,52ndInternational Symposium ELMAR-2010)、“在压缩视频上的快速视频概要”(J.Almeida,R.S.Torres,N.J.Leite,“Rapid Video Summarisation on Compressed Video”,IEEE International Symposium on Multimedia,2010)、“用户特定的视频概要”(X.Wang,J.Chen,C.Zhu,“User-Specific Video Summarisation”,International Conference on Multimedia and Signal Processing,2011)、“具有多情态替代的基于关键字的视频概要学习平台”(W-H.Chang,J-C.Yang,Y-C Wu,“A Keyword Based Video Summarisation Learning Platform with Multimodal Surrogates”,11thIEEE International Conference on Advanced Learning Technologies,2011),以及“通过在线场景分类的基于视觉显著性的空中视频概要”(J.Wang,Y.Wang,Z.Zhang,“Visual Saliency Based Aerial Video Summarization by Online Scene Classification”,6th International Conference on Image and Graphics,2011)。
然而,由于需要大容量处理、视频/音频分析器和语义/本体描述和解释的限制,这些方案并不适合概括显著数量的视频内容。此外,这些方案 不与例如那些目前正在互联网用户中流行的异构的和多种视频服务提供方交互,它们不是基于用户反馈,并且它们不能提出动态视频概要。此外,由于它们使用视频分析、分段和/或特定元数据本体/语义,所以它们的响应时间非常显著,并且在不同的被使用的语义描述之间没有明显的转换。
发明内容
本发明旨在通过提出用于自动概括视频内容的过程来改进现有技术,所述过程对于概括来自网络的异构视频服务提供方的大容量的视频数据特别有效,以便向所述视频服务提供方的用户提供动态更新的和丰富的视频概要,同时限制使用经典的概要方法会遇到的缺点。
为此目的,并且根据第一方面,本发明涉及用于针对网络中的至少一个视频服务提供方的用户自动概括视频内容的过程,所述过程提供:
-监视关于至少两个视频混搭(“mashup”)的信息,所述至少两个视频混搭由所述视频服务提供方的用户生成,所述混搭包含所述视频内容的至少一个镜头;
-分析所述信息从而识别所述视频内容的最流行的镜头;
-编辑视频概要,所述视频概要包括所述被识别的镜头的至少一个。
根据第二方面,本发明涉及用于自动概括来自网络中的视频服务提供方的视频内容的应用,所述应用包括:
-至少一个用于监视关于至少两个视频混搭的信息的模块,所述至少两个视频混搭由所述视频服务提供方的用户生成,所述混搭包含所述视频内容的至少一个镜头,所述模块包括用于分析所述信息从而识别所述视频内容的最流行的镜头的部件;
-至少一个用于编辑视频概要的模块,所述视频概要包括所述被识别的镜头的至少一个。
根据第三方面,本发明涉及一种用于包括至少一个视频服务提供方的网络和手工视频创作(“composing”)应用的架构,所述手工视频创作应用允许所述网络用户从所述服务提供方的至少一个视频内容生成视频混 搭,所述架构进一步包括用于针对用户自动概括视频内容的应用,所述应用包括:
-至少一个用于监视关于至少两个视频混搭的信息的模块,所述混搭包含所述视频内容的至少一个镜头,所述模块包括用于分析所述信息从而识别所述视频内容的最流行的镜头的部件;
-至少一个用于编辑视频概要的模块,所述视频概要包括所述被识别的镜头的至少一个。
附图说明
本发明的其它方面和优点将在参考附图所做的以下描述中显而易见,在附图中:
-图1示意性示出用于包括至少一个视频服务提供方的网络和手工视频创作应用(例如包括用于实现根据本发明的方法的部件的应用)的架构;
-图2示意性示出根据本发明的过程的步骤中的一些;
-图3示意性示出具有明显的模块的、仅具有手工视频创作应用和概括应用的图1的架构。
具体实施方式
关于这些附图,将在下文描述用于自动概括在网络中的至少一个视频服务提供方1的用户的视频内容的过程、包括用于实现所述过程的部件的应用2和用于包括至少一个视频服务提供方1的网络、手工视频创作应用3以及所述概括应用2的架构。
如在图1中所示,视频服务提供方1可以是例如Youtube、Tivizio、Kaltura或Flickr的视频分享服务提供方。它们还可以是例如Facebook、Google或MySpace的社交网络服务提供方。目前,用户产生上百个视频、音频和图像内容,特别是通过智能手机或照片相机,并且在这样的服务提供方1上发布。
手工视频创作应用2可以是基于云的web 2.0应用并且允许网络用户从架构的视频服务提供方1的至少一个视频内容B生成视频混搭A,即视频段或剪辑和音频段的组合(“composition”)。为此,手工视频创作应用3包括至少一个用于与视频服务提供方1交互的专用应用程序编程接口(API),以便获得视频内容B,这样的应用的用户希望使用视频内容B来生成视频混搭A。特别地,采用基于web的手工视频创作应用3,架构的用户特别是可以与这样的应用的其他用户协作来生成视频混搭A。
一般来说,希望生成视频内容B的视频概要或若干视频内容B的视频混搭A的用户必须查看、评论和/或分割这样的(多个)视频内容来选择最相关的镜头。然而,镜头的选择从一个用户到另一个用户可以差异很大,从而使得可以从唯一的视频内容B生成多种视频概要和混搭A。
因此,针对向在网络中的至少一个视频服务提供方1的用户提供视频内容B的有效概要,过程提供用于监视关于至少两个视频混搭A的信息,该至少两个视频混搭A由这样的视频服务提供方1的用户生成并且包含这样的视频内容的至少一个镜头。
为此,架构包括用于自动概括来自网络中的视频服务提供方1的视频内容B的应用2,所述应用包括至少一个用于监视关于至少两个视频混搭A的这样的信息的模块,所述至少两个视频混搭A包含所述视频内容的至少一个镜头。
特别地,过程可以提供从视频混搭A的描述符来监视关于所述视频混搭的信息,所述描述符存储在数据库中。视频文件(即未经加工的视频内容或视频混搭)的描述符是具有特定格式的文件,例如.xml文件,并且包含关于所述视频文件的技术信息,例如原始视频内容的URL(统一资源定位符)地址、所述视频文件的开始和结束、每秒帧(FPS)速率,或所述文件的持续时间。
为此,手工视频创作应用3包括这样的数据库4,其中所述应用的用户存储他们生成的视频混搭A的描述符,从而使得希望访问所述视频混搭 或者希望访问原始视频内容B的用户将仅提取描述符,并且因此将不需要从相应的视频服务提供方1下载所述视频混搭或内容。
关于图3,应用2包括用于与手工视频创作应用3交互从而从所述创作应用的数据库4提取相关视频混搭A的描述符的部件,从而使得用于监视概括应用2的至少一个模块从所述描述符监视关于所述混搭的信息。
因此,过程提供分析被监视的信息从而识别视频内容B的最流行的镜头。为此,用于监视概括应用2的至少一个模块包括用于分析被监视的信息从而识别最流行的镜头的部件。
特别地,被监视的信息包括视频内容B的出现在视频混搭A中的镜头,从而使得在视频混搭A中出现最多的镜头可以被识别为最流行的镜头。
为此,概括应用2包括用于监视视频混搭A的组合的模块5,该视频混搭A包括视频内容B的至少一个镜头,特别是在所述视频混搭中出现的所述视频内容的镜头,所述模块包括用于分析所述组合的部件以便提取关于视频内容B的镜头的统计数据,并且因此从所述数据将在视频混搭A中出现最多的所述视频内容的镜头识别为最流行的镜头。特别地,统计数据由手工视频创作应用3的特定部件计算并且被存储在所述创作应用的数据库4中,用于监视组合的模块5与所述数据库交互从而提取涉及在被监视的混搭A中发生的镜头的统计数据。
统计数据特别地包括针对视频内容B的每个镜头的发生率分数(“scores of occurrences”),所述分数在例如政治、体育或商业的不同上下文中计算。它们可以是以数字、在时期上的频率、百分比或趋势的形式,并且它们还可以被链接到查看、分享、编辑、评论或元数据的数量。总而言之,关于镜头、混搭A和/或视频内容B的所有种类的动作和/或交互可以由手工视频创作应用3记录并且被用作统计数据。
过程可以提供根据预定义规则来识别视频内容的最流行的镜头。为此,概括应用2包括预定义规则的至少一个模块6,模块5包括与所述预定义规则的模块交互的部件。关于图3,概括应用2包括用于存储预定义规则 的专用数据库7,预定义规则的模块6一当与模块5交互就与所述数据库交互从而提取有关的预定义规则。
预定义规则包括用于识别最流行的镜头的规则。例如,仅在具有最高使用频率的镜头呈现小于五分钟的总持续时间的情况下,可以提供规则以用于将所述镜头选择为流行的镜头。此外,可以提供推论规则以用于修剪总持续时间多于五分钟的流行的镜头。
特别地,针对更好的概要个性化,过程可以提供由用户预定义的规则。为此,关于图3,概括应用2包括用于允许用户预定义规则的模块8,所述模块包括用于提供在所述概括应用的用户接口上的专用子接口从而允许用户做出所述预定义的部件。
根据非代表性变形,可以在预定义规则的模块6中实现用于用户预定义的模块8的特征和/或用于存储预定义规则的数据库7的特征。
过程提供编辑视频概要,所述视频概要包括视频内容B的被识别的镜头的至少一个镜头。为此,概括应用2包括至少一个模块9,该模块9用于与用于监视和分析的至少一个模块协作来编辑所述视频概要。
特别地,用于编辑的模块9包括与用于监视和分析视频混搭A的组合的模块5交互的部件,以便通过链接视频内容B的被识别的最流行镜头来编辑视频概要。
过程还可以提供根据预定义规则来编辑视频概要。为此,预定义规则的模块6可以包括用于编辑视频概要的专用规则,用于编辑的模块9包括与预定义规则的所述模块交互的部件。
例如,预定义规则可以包括指示必须在视频概要的镜头之间添加标题和/或过渡的规则。它们还可以包括用于将视频概要的持续时间限制到视频内容的总持续时间的至多10%的规则,或者如果可能的话,还可以包括添加副标题的规则。
关于图2,被编辑的视频概要S1、S2将呈现不同组合,以及特别是根据被应用的预定义规则的不同持续时间。基于被表示的混搭A的组合的分析,用于所述分析的模块5已经将镜头C识别为与视频内容B最相关,从 而使得它会在所述混搭的四个混搭中出现。因此,根据预定义编辑规则,用于编辑的模块9将编辑仅包括最相关的镜头C的短视频概要S1,或者编辑还包括视频内容B的其它较为不流行的镜头D、E、F的长视频概要S2,所述镜头至少在混搭A中的一个中出现。
关于视频混搭A的信息还可以包括在生成所述混搭的期间由用户输入的文本数据,所述文本数据被进一步分析从而编辑用于视频概要的文本描述。为此,概括应用2包括用于监视和分析视频混搭A的文本数据的模块10,用于编辑的模块9包括用于根据所述分析来编辑用于视频概要的文本描述的部件。
关于视频混搭A的信息还可以包括元数据和/或注释,所述元数据和/或注释被进一步分析从而编辑用于视频概要的视频过渡。特别地,视频混搭A的元数据和/或注释可以涉及所述视频混搭的生成的上下文,即所述视频混搭的主要话题或目标听众。为此,概括应用2包括用于监视和分析视频混搭A的元数据和/或注释的模块11,用于编辑的模块9包括用于根据所述分析来编辑用于视频概要的恰当的视频过渡的部件。
在有关的视频混搭A中的至少一个混搭是由至少两个用户生成时,过程还可以提供保存在所述混搭生成的期间所述用户之间发生的会话,所述会话被进一步监视为关于所述混搭的信息并且被分析从而编辑视频概要。特别地,可以以任何类型的格式(例如视频格式、音频格式和/或文本格式)呈现会话。
为此,概括应用2包括用于保存所述会话的模块12,所述模块包括用于监视和分析所述会话作为关于所涉及的视频混搭A的信息的部件,从而使得用于编辑的模块9根据所述分析来编辑视频概要。
特别地,过程可以提供连续并且动态地更新视频概要,从而使得用户将受益于最新的并且不断丰富的视频概要。因此,信息还可以包括先前的视频混搭的更新和/或已经生成所述混搭的用户的简档(“profile”)的更新,和/或甚至包括关于新生成的视频混搭的信息,该新生成的视频混搭包 括视频内容B的至少一个镜头。确实,所述更新可以特别地具有对于视频内容B的镜头流行度的影响。
为此,概括应用2包括至少一个用于监视和分析上文提及的所述信息的至少一种的模块。关于图3,概括应用包括分别用于监视和分析先前的视频混搭的更新和已经生成所述混搭的用户简档的更新的两个模块13、14。特别地,这些模块13、14中的每一个包括用于保存在被编辑的视频概要和相应的视频混搭和用户简档之间的链接的部件,从而使得用于编辑的至少一个模块根据所述数据的监视和分析来编辑(即更新)视频概要。
关于新生成的视频混搭,用于监视和分析的所有前述模块5、10、11、12适于考虑它们,从而使得用于编辑的至少一个模块编辑(即更新)视频概要。
关于图3,概括应用2包括用于编辑新的视频概要的模块9和用于根据上文提及的更新信息的分析来编辑(即更新)先前编辑的视频概要的专用模块15,以便考虑新的统计数据、文本数据、元数据和/或注释。根据非代表性变形,可以在用于编辑的唯一的模块中实现用于编辑的这些模块9、15两者的特征。
针对更好地个性化视频概要,过程可以提供允许用户给出关于被编辑的视频概要的反馈,所述反馈被进一步监视为信息并且被分析用于编辑所述视频概要。此外,用户的介入还可以允许避免视频概括的已知方法的缺点,例如可以在经典的视频内容B的音频和视频文件的分析之间特别观察到的语义差距。
为此,概括应用2包括用于允许用户给出所述反馈的模块16,所述模块包括用于监视和分析所述反馈的部件,从而使得用于更新的模块15再次根据所述分析来编辑视频概要。
关于图1和图3,概括应用2包括用于保存被编辑的视频概要的描述符的数据库17,从而使得所述描述符对于希望看见所述概要的用户可用,而无需从视频服务提供方1下载对应的原始视频内容B。为此,概括应用2包括通过用户接口提供用户友好的视频门户搜索的部件,该视频门户搜 索向网络用户提供全球接入点以在由异构视频服务提供方1提供的巨大库存中准确搜索视频内容B,并且因此不需要下载所述内容。
特别地,如在图1和图3中所示,架构包括至少一个应用或服务18,该应用或服务18包括用于利用存储在数据库17中的视频概要描述符以便基于例如电子学习服务、文化活动或体育赛事的视频概要来提供专用服务的部件。
要将最新的视频概要提供给用户,概括应用2还可以包括删除视频概要的部件,与该视频概要对应的视频内容B已经从架构的视频服务提供方1删除。为此,概括应用2包括用于在视频概括描述符的每一个中连续检查原始视频内容B的URL地址的有效性的专用部件,从而使得如果所述地址不再有效,则视频概要描述符将被删除。
在用户从视频内容B生成视频混搭A时,过程提供特别地基于统计分数和数据的所述内容的隐式概要。因此,过程提供不需要使用经典的视频和/或音频分析器的视频概要,并且因此允许避免使用这样的分析器一般会观察到的缺点。此外,通过使用视频描述符而不是原始视频内容B,过程允许将到巨大数量的视频文件的访问聚集到唯一和准确的接入点。
说明书和附图仅示出本发明的原理。因此将理解的是,虽然在本文中没有明确描述或示出,但是本领域技术人员将能够设计体现本发明原理并且包括在其精神和范围内的多种布置。此外,在本文中列举的所有示例主要明确旨在仅用于教学目的,以帮助读者理解本发明的原理和由发明人贡献的改进现有技术的概念,并且应被解释为不限于所述特别列举的示例和条件。此外,在本文中列举的本发明的原理、方面和实施例以及其特定示例的所有陈述旨在包括其等同物。