《信息处理设备、信息处理方法和程序.pdf》由会员分享,可在线阅读,更多相关《信息处理设备、信息处理方法和程序.pdf(85页完整版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 102857810 A (43)申请公布日 2013.01.02 CN 102857810 A *CN102857810A* (21)申请号 201210162919.1 (22)申请日 2012.05.23 2011-120395 2011.05.30 JP H04N 21/431(2011.01) G06K 9/00(2006.01) (71)申请人 索尼公司 地址 日本东京都 (72)发明人 村田诚 仓田雅友 佐藤浩司 涩谷直树 (74)专利代理机构 北京集佳知识产权代理有限 公司 11227 代理人 康建峰 郎晓虹 (54) 发明名称 信息处理设备、 信息处理。
2、方法和程序 (57) 摘要 本发明提供了信息处理设备、 信息处理方法 和程序。一种信息处理设备包括 : 元数据获取单 元, 用于获取用于指示每一个目标对象出现在视 频中的出现区间的区间元数据 ; 区间信息显示单 元, 用于使用所述区间元数据来显示区间信息, 所 述区间信息可视地表达在构成所述视频的所有区 间中每一个目标对象出现的区间 ; 以及再现控制 单元, 在用户从被显示为关于特定目标对象的多 个区间信息的区间中选择了一个区间的情况下, 用于使得再现所选择的区间的视频帧。 (30)优先权数据 (51)Int.Cl. 权利要求书 3 页 说明书 26 页 附图 55 页 (19)中华人民共和国。
3、国家知识产权局 (12)发明专利申请 权利要求书 3 页 说明书 26 页 附图 55 页 1/3 页 2 1. 一种信息处理设备, 包括 : 元数据获取单元, 用于获取用于指示每一个目标对象出现在视频中的出现区间的区间 元数据 ; 区间信息显示单元, 用于使用所述区间元数据来显示区间信息, 所述区间信息可视地 表达在构成所述视频的所有区间中每一个目标对象出现的区间 ; 以及 再现控制单元, 在用户从被显示作为关于特定目标对象的多个区间信息的各区间中选 择了一个区间的情况下, 该再现控制单元用于使得再现所选择的区间的视频帧。 2. 根据权利要求 1 所述的信息处理设备, 其中, 所述区间信息显。
4、示单元与所述区间信息一起显示与所述区间信息对应的目标对 象的图像, 并且 其中, 在用户选择了与关于特定目标对象的区间信息一起显示的目标对象的图像的情 况下, 所述再现控制单元再现被显示为所述区间信息的所有区间的视频帧。 3. 根据权利要求 1 所述的信息处理设备, 进一步包括 : 图像显示单元, 用于通过利用所述区间元数据来识别正在被再现的视频帧中包括的每 一个目标对象, 并且将每一个识别的目标对象的图像显示在一行, 其中, 在用户选择了特定目标对象的图像的情况下, 所述再现控制单元使得再现其中 出现了与所选择的图像对应的目标对象的区间的视频帧。 4. 根据权利要求 1 所述的信息处理设备,。
5、 其中, 所述元数据获取单元获取区域元数据, 所述区域元数据包含针对每个视频帧的 关于在构成视频的每个视频帧中包括的每一个目标对象的位置的信息或关于包括所述每 一个目标对象的区域的信息, 并且 其中, 所述信息处理设备进一步包括 : 区域识别单元, 用于利用所述区域元数据来识别在正在再现的视频帧内在用户指定的 位置处存在的目标对象, 以及 相关信息显示单元, 在通过所述区域识别单元识别出存在目标对象的情况下, 该相关 信息显示单元用于显示与所述目标对象相关的相关信息。 5. 根据权利要求 1 所述的信息处理设备, 其中, 所述元数据获取单元获取区域元数据, 所述区域元数据包含针对每个视频帧的 。
6、关于在构成视频的每个视频帧中包括的每一个目标对象的位置的信息或关于包括所述每 一个目标对象的区域的信息, 其中, 所述信息处理设备进一步包括区域识别单元, 用于利用所述区域元数据来识别 在正在再现的视频帧内在用户指定的位置处存在的目标对象, 并且 其中, 在通过所述区域识别单元识别出存在目标对象的情况下, 所述再现控制单元利 用所述区间元数据来再现其中出现了所述目标对象的区间的视频帧。 6. 根据权利要求 1 所述的信息处理设备, 其中, 所述元数据获取单元获取区域元数据, 所述区域元数据包含针对每个视频帧的 关于在构成视频的每个视频帧中包括的每一个目标对象的位置的信息或关于包括所述每 一个目。
7、标对象的区域的信息, 其中, 所述信息处理设备进一步包括相关信息显示单元, 用于利用所述区间元数据来 权 利 要 求 书 CN 102857810 A 2 2/3 页 3 识别在正在再现的视频帧中包括的每一个目标对象, 并且显示与每一个识别的目标对象相 关的相关信息, 并且 其中, 所述相关信息显示单元利用所述区域元数据从所述视频帧中包括的每一个目标 对象的位置或从包括所述每一个目标对象的区域来显示气球, 并且在所述气球中显示与所 述每一个目标对象相关的相关信息。 7. 根据权利要求 1 所述的信息处理设备, 其中, 所述区间信息显示单元显示列表, 在该 列表中, 出现目标对象的区间与在每个区。
8、间中出现的每一目标对象相关联。 8. 根据权利要求 1 所述的信息处理设备, 其中, 所述区间信息显示单元将所述视频的 每一个区间显示在条上, 并且以加重的方式在所述条上显示其中出现用户选择的目标对象 的区间。 9. 根据权利要求 1 所述的信息处理设备, 其中, 所述区间信息显示单元相对于其中出现用户选择的目标对象的至少一个区间在 一行中显示用于表示区间的图像, 并且 其中, 在用户选择了用于表示区间的一个图像的情况下, 所述再现控制单元使得再现 与所述图像对应的区间的视频帧。 10. 根据权利要求 1 所述的信息处理设备, 进一步包括 : 信息发送单元, 用于利用所述区间元数据来识别在正在。
9、被再现的视频帧中包括的每一 个目标对象, 并且向终端装置发送关于每一个识别的目标对象的信息, 其中, 所述终端装置安装有图像捕获装置和显示装置, 并且通过所述图像捕获装置来 捕获正在被再现的所述视频帧, 通过所述显示装置来显示所述视频帧, 并且基于从所述信 息处理设备接收的关于每一个目标对象的信息, 在所述视频帧上以重叠的方式显示关于所 述每一个目标对象的相关信息。 11. 根据权利要求 10 所述的信息处理设备, 其中, 在所述视频帧的显示区域被包括在所述图像捕获装置的拍摄范围中的情况下, 所述终端装置在所述显示装置上显示所述视频帧和所述相关信息, 并且 其中, 在所述视频帧的所述显示区域不。
10、被包括在所述图像捕获装置的所述拍摄范围中 的情况下, 所述终端装置仅在所述显示装置上显示所述相关信息。 12. 一种信息处理方法, 包括 : 获取用于指示每一个目标对象出现在视频中的出现区间的区间元数据 ; 利用所述区间元数据来显示区间信息, 所述区间信息可视地表达在构成所述视频的所 有区间中出现每一个目标对象的区间 ; 以及 在用户从被显示作为关于特定目标对象的多个区间信息的各区间中选择了一个区间 的情况下, 使得再现所选择的区间的视频帧。 13. 一种程序, 用于使得计算机实现下述功能 : 区间信息显示功能, 用于利用用于指示每一个目标对象出现在视频中的出现区间的区 间元数据来显示区间信息。
11、, 所述区间信息可视地表达在构成所述视频的每一个区间中出现 每一个目标对象的区间, 其中, 在用户从被显示作为关于特定目标对象的多个区间信息的各区间中选择了一个 区间的情况下, 再现所选择的区间的视频帧。 权 利 要 求 书 CN 102857810 A 3 3/3 页 4 14. 一种信息处理设备, 包括 : 元数据获取单元, 用于获取用于指示每一个目标对象出现在视频中的出现区间的区间 元数据 ; 信息显示单元, 用于利用所述区间元数据来显示在正被再现的视频帧中包括的每一个 目标对象的图像或相关信息 ; 以及 再现控制单元, 在用户选择了目标对象的图像或相关信息的情况下, 该再现选择单元 用。
12、于通过利用所述区间元数据来识别与所选择的图像或相关信息对应的目标对象的出现 区间, 并且使得再现所述出现区间中包括的视频帧。 15. 一种信息处理设备, 包括 : 元数据获取单元, 用于获取区间元数据和区域元数据, 所述区间元数据用于指示每一 个目标对象出现在视频中的出现区间, 所述区域元数据针对每个视频帧写入关于在构成所 述视频的每个视频帧中包括的每一个目标对象的位置的信息或关于包括所述每一个目标 对象的区域的信息 ; 区域识别单元, 用于利用所述区域元数据来识别在正在被再现的视频帧内在用户指定 的位置处存在的目标对象 ; 以及 再现控制单元, 在通过所述区域识别单元识别出存在目标对象的情况。
13、下, 该再现控制 单元用于通过利用所述区间元数据来识别存在已被识别的所述目标对象的出现区间, 并且 使得再现所述出现区间中包括的视频帧。 权 利 要 求 书 CN 102857810 A 4 1/26 页 5 信息处理设备、 信息处理方法和程序 技术领域 0001 本技术涉及信息处理设备、 信息处理方法和程序。 背景技术 0002 当观看视频图像和 TV 画面等时, 人们可能希望获得关于图像中出现的人、 物体或 地点等 (以下称为目标对象) 的详细信息。当前, 许多用户使用个人计算机 (以下称为 PC) 、 移动电话或便携信息终端等 (以下称为信息电器) 来搜索信息。然而, 如果不知道能够表示。
14、 图像中出现的目标对象的关键词, 则用户难以获得关于目标对象的信息。 而且, 在观看视频 图像的同时启动信息电器或在信息电器中输入搜索关键词的操作是麻烦的。 0003 例如, 如果实现了使得能够在屏幕上显示视频图像中出现的目标对象并且使得能 够在屏幕上显示关于用户选择的目标对象的信息的用户界面, 则可预期用户的方便性会大 大提升。可以通过使用诸如触摸板或遥控器等输入装置来实现对目标对象的选择操作。然 而, 为了指定在屏幕上的选择位置处存在的目标对象, 需要用于指示每一个视频帧中的每 一个目标对象的位置的元数据。另外, 例如, JP 2005-44330A 中公开了用于自动检测视频 图像中出现的。
15、目标对象的位置的方法。 发明内容 0004 当使用 JP 2005-44330A 中描述的技术时, 可以自动地检测每一个视频帧中出现 的目标对象的位置。 因此, 通过使用已自动检测到的目标对象的位置作为元数据, 可以识别 用户已在屏幕上选择的位置处所存在的目标对象。 然而, 当前, 准确度不足以自动检测出每 一个目标对象。因此, 需要进行对元数据的人为标注的操作。然而, 构成视频图像的视频帧 的数量极大, 并且对元数据进行人为标注的操作也很麻烦。 因此, 本发明人已经开发了一种 用于便于对元数据进行人为标注的操作的机制。然而, 至今, 难以获得高度精确的元数据, 因此, 使用高度精确的元数据来。
16、执行内容再现控制的应用的实现是困难的。 0005 因此, 已经鉴于上面的情况而作出了本技术, 并且本技术旨在提供信息处理设备、 信息处理方法和程序, 这些设备、 方法和程序是新颖的和改善的, 并且能够提供利用高度精 确的元数据来执行内容再现控制的应用。 0006 根据本技术的一个实施例, 提供了一种信息处理设备, 该设备包括 : 元数据获取单 元, 用于获取用于指示每一个目标对象出现在视频中的出现区间的区间元数据 ; 区间信息 显示单元, 用于使用所述区间元数据来显示区间信息, 所述区间信息可视地表达在构成所 述视频的所有区间中每一个目标对象出现的区间 ; 以及再现控制单元, 在用户从被显示为。
17、 关于特定目标对象的多个区间信息的区间中选择了一个区间的情况下, 用于使得再现所选 择的区间的视频帧。 0007 根据本技术的另一个实施例, 提供了一种信息处理方法, 该方法包括 : 获取用于指 示每一个目标对象在视频中出现的出现区间的区间元数据 ; 使用所述区间元数据来显示区 间信息, 所述区间信息可视地表达在构成所述视频的所有区间中每一个目标对象出现的区 说 明 书 CN 102857810 A 5 2/26 页 6 间 ; 以及在用户从被显示为关于特定目标对象的多个区间信息的区间中选择了一个区间的 情况下, 使得再现所选择的区间的视频帧。 0008 根据本技术的另一个实施例, 提供了一种。
18、程序, 用于使得计算机实现区间信息显 示功能, 该功能使用用于指示每一个目标对象在视频中出现的出现区间的区间元数据来显 示区间信息, 所述区间信息可视地表达在构成所述视频的每一个区间中每一个目标对象出 现的区间。 在用户从被显示为关于特定目标对象的多个区间信息的区间中选择了一个区间 的情况下, 再现所选择的区间的视频帧。 0009 根据本技术的另一个实施例, 提供了一种信息处理设备, 该设备包括 : 元数据获取 单元, 用于获取用于指示每一个目标对象在视频中出现的出现区间的区间元数据 ; 信息显 示单元, 用于使用所述区间元数据来显示在被再现的视频帧中包括的每一个目标对象的图 像或相关信息 ;。
19、 以及再现控制单元, 用于在用户选择目标对象的图像或相关信息的情况下, 通过使用所述区间元数据来识别与所选择的图像或相关信息对应的目标对象的出现区间, 并且使得再现在所述出现区间中包括的视频帧。 0010 根据本技术的另一个实施例, 提供了一种信息处理设备, 该设备包括 : 元数据获取 单元, 用于获取区间元数据和区域元数据, 所述区间元数据用于指示每一个目标对象在视 频中出现的出现区间, 所述区域元数据针对每个视频帧写入关于在构成所述视频的每一个 视频帧中包括的每一个目标对象的位置或关于包括所述每一个目标对象的区域的信息 ; 区 域识别单元, 用于使用所述区域元数据来识别正在被再现的视频帧内。
20、用户指定的位置处存 在的目标对象 ; 以及再现控制单元, 在通过所述区域识别单元识别了目标对象的存在的情 况下, 用于通过使用所述区间元数据来识别其存在已经被识别的目标对象的出现区间, 并 且使得再现在所述出现区间中包括的视频帧。 0011 根据本技术的另一个实施例, 提供了一种用于存储程序的计算机可读记录介质。 0012 如上所述, 根据本技术, 可以提供利用高度精确的元数据来执行内容再现控制的 应用。 附图说明 0013 图 1 是用于描述相关信息的显示方法的示意图 ; 0014 图 2 是用于描述相关信息的显示方法的示意图 ; 0015 图 3 是用于描述相关信息的显示方法的示意图 ; 。
21、0016 图 4 是用于描述出现区间的显示方法的示意图 ; 0017 图 5 是用于描述超链接视频浏览的概念的示意图 ; 0018 图 6 是用于描述视频时间线元数据的概述的示意图 ; 0019 图 7 是用于描述用于提供视频时间线元数据的机制的示意图 ; 0020 图 8 是用于描述用于提供视频时间线元数据的机制的示意图 ; 0021 图 9 是用于描述从提供视频时间线元数据至使用该数据的处理的简略流程的示 意图 ; 0022 图 10 是用于描述元数据提供终端的示例配置的示意图 ; 0023 图 11 是用于描述关于提供视频时间线元数据的处理中的预处理的流程的示意 图 ; 说 明 书 CN。
22、 102857810 A 6 3/26 页 7 0024 图 12 是用于描述预处理的细节的示意图 ; 0025 图 13 是用于描述预处理的细节的示意图 ; 0026 图 14 是用于描述预处理的细节的示意图 ; 0027 图 15 是用于描述预处理的细节的示意图 ; 0028 图 16 是用于描述预处理的细节的示意图 ; 0029 图 17 是用于描述预处理的细节的示意图 ; 0030 图 18 是用于描述关于提供视频时间线元数据的处理中的元数据的标注处理的流 程的示意图 ; 0031 图 19 是用于描述关于标注的处理的细节的示意图 ; 0032 图 20 是用于描述关于标注的处理的细节。
23、的示意图 ; 0033 图 21 是用于描述关于标注的处理的细节的示意图 ; 0034 图 22 是用于描述关于标注的处理的细节的示意图 ; 0035 图 23 是用于描述关于标注的处理的细节的示意图 ; 0036 图 24 是用于描述关于标注的处理的细节的示意图 ; 0037 图 25 是用于描述关于标注的处理的细节的示意图 ; 0038 图 26 是用于描述关于标注的处理的细节的示意图 ; 0039 图 27 是用于描述关于标注的处理的细节的示意图 ; 0040 图 28 是用于描述关于标注的处理的细节的示意图 ; 0041 图 29 是用于描述关于标注的处理的细节的示意图 ; 0042 。
24、图 30 是用于描述关于标注的处理的细节的示意图 ; 0043 图 31 是用于描述关于标注的处理的细节的示意图 ; 0044 图 32 是用于描述关于标注的处理的细节的示意图 ; 0045 图 33 是用于描述关于标注的处理的细节的示意图 ; 0046 图 34 是用于描述关于标注的处理的细节的示意图 ; 0047 图 35 是用于描述关于标注的处理的细节的示意图 ; 0048 图 36 是用于描述视频时间线提供处理中的后处理的简略流程的示意图 ; 0049 图 37 是用于描述元数据管理系统的示例配置的示意图 ; 0050 图 38 是用于描述在关于视频时间线元数据的提供的流程中的后处理的。
25、流程的示 意图 ; 0051 图 39 是用于描述后处理的细节的示意图 ; 0052 图 40 是用于描述后处理的细节的示意图 ; 0053 图 41 是用于描述后处理的细节的示意图 ; 0054 图 42 是用于描述由元数据管理系统提供的另一个功能的示意图 ; 0055 图 43 是用于描述由元数据管理系统提供的另一个功能的示意图 ; 0056 图 44 是用于描述由元数据管理系统提供的另一个功能的示意图 ; 0057 图 45 是用于描述元数据用户终端的示例配置的示意图 ; 0058 图 46 是用于描述视频时间线元数据的配置的示意图 ; 0059 图 47 是用于描述使用视频时间线元数据。
26、的出现区间 (appearance section) 的显 示方法和出现区间的再现方法的示意图 ; 说 明 书 CN 102857810 A 7 4/26 页 8 0060 图 48 是用于描述使用视频时间线元数据的出现区间的显示方法和出现区间的再 现方法的示意图 ; 0061 图 49 是用于描述使用视频时间线元数据的出现区间的显示方法和出现区间的再 现方法的示意图 ; 0062 图 50 是用于描述使用视频时间线元数据的出现区间的显示方法和出现区间的再 现方法的示意图 ; 0063 图 51 是用于描述相关信息的显示方法的示意图 ; 0064 图 52 是用于描述相关信息的显示方法的示意图。
27、 ; 0065 图 53 是用于描述视频时间线元数据的数据结构的示意图 ; 0066 图 54 是用于描述视频时间线元数据的数据结构的示意图 ; 0067 图 55 是用于描述视频时间线元数据的数据结构的示意图 ; 0068 图 56 是用于描述视频时间线元数据的数据结构的示意图 ; 0069 图 57 是用于描述视频时间线元数据的数据结构的示意图 ; 0070 图 58 是用于描述视频时间线元数据的数据结构的示意图 ; 0071 图 59 是用于描述视频时间线元数据的数据结构的示意图 ; 以及 0072 图 60 是用于示出能够实现元数据提供终端、 元数据管理系统和元数据用户终端 的信息处理。
28、设备的一个示例硬件配置的示意图。 具体实施方式 0073 以下参考附图详细描述本公开的优选实施例。 注意, 在本说明书和附图中, 使用相 同的附图标号来表示具有基本上相同的功能和配置的结构元件, 并且省略对这些结构元件 的重复描述。 0074 说明流程 0075 在此简述下文说明的流程。 0076 首先, 将参考图 1 至 4 来描述通过根据本实施例的技术来实现的用户界面的具体 示例。然后, 将参考图 6 和 7 来描述根据本实施例的视频时间线元数据。然后, 将参考图 8 和 9 来描述根据本实施例的执行关于视频时间线元数据的提供、 管理和使用的处理的系统 的配置和该处理的流程。 0077 接。
29、下来, 将参考图 10 至 35 来描述根据本实施例的元数据提供终端 10 的配置和操 作。在此详细描述用于便于视频时间线元数据的标注处理的机制。然后, 将参考图 36 至 44 来描述根据本实施例的元数据管理系统 20 的配置和操作。将在此详细描述用于整合由多 个用户设置的多个视频时间线元数据的处理的细节和用于促进视频时间线元数据的设置 操作的机制。 0078 接下来, 将参考图 45 至 52 来描述元数据用户终端 30 的配置和操作。在此将详细 描述使用视频时间线元数据的用户界面的配置。然后, 将参考图 53 至 59 来描述根据本实 施例的视频时间线元数据的数据结构。然后, 将参考图 。
30、60 来描述根据本实施例的能够实现 元数据提供终端 10、 元数据管理系统 20 和元数据用户终端 30 的功能的信息处理设备的一 个示例硬件配置。 0079 最后, 将总结实施例的技术构思, 并将简述由该技术构思获得的效果。 说 明 书 CN 102857810 A 8 5/26 页 9 0080 (说明项目) 0081 1 : 引言 0082 2 : 实施例 0083 2-1 : 系统的整体配置和操作 0084 2-2 : 元数据提供终端 10 的配置 0085 2-3 : 元数据提供终端 10 的操作 0086 2-3-1 : 预处理 0087 2-3-2 : 标注处理 0088 2-4。
31、 : 元数据管理系统 20 的配置 0089 2-5 : 元数据管理系统 20 的操作 0090 2-5-1 : 整合处理 0091 2-5-2 : 其他功能 0092 2-6 : 元数据用户终端 30 的配置和操作 0093 2-7 : 视频时间线元数据的数据结构 0094 3 : 硬件配置 0095 4 : 总结 0096 0097 首先, 将描述根据本实施例的通过使用视频时间线元数据实现的用户界面和应 用。还将描述根据本实施例的视频时间线元数据。 0098 当观看诸如视频图像或 TV 画面等视频时, 视频中出现的人或物体等会吸引人们 的关注。或者, 人们可能不仅关注人或物体, 而且还关注。
32、在视频中出现的地点、 视频的创建 者或视频故事如何展现, 并且可能要获得与这样的事项相关的详细信息。 例如, 用户在观看 TV 剧的同时可能想要知道 TV 剧中出现的人所主演的其他视频。另一用户在观看电影的同 时可能会关注电影中出现的男演员所穿的衣服。 0099 过去, 当试图如上所述地获得信息时, 许多用户操作独立提供的信息电器, 并且从 网络中获取信息, 或者将屏幕切换到数据广播显示模式并且获取信息。然而, 麻烦的是, 需 要停止观看视频以进行启动信息电器和在搜索引擎中输入适当的搜索关键字等操作。而 且, 在许多情况下, 在数据广播中, 得不到期望的信息。 而且, 没有适合于实时地获取根据。
33、正 在被观看的场景的相关信息的方法。鉴于这些情况, 促使本发明人来实现能够实时地观看 与在正在被观看的场景中出现的人或对象等相关的信息。 0100 例如, 如图 1 中所示, 期望使得能够实时地显示在视频的场景中出现的人的相关 信息。此外, 如图 2 中所示, 期望使得能够实时地显示在视频的场景中出现的人的相关信 息、 人正在穿着的衣物的相关信息或与场景的拍摄位置相关的相关信息。而且, 如图 3 中所 示, 期望不仅实现在视频再现时显示相关信息, 而且实现当用户选择某一角色时显示所选 择的角色的相关信息的用户界面。为了实现这样的相关信息的显示, 必须预先准备在每一 视频帧中出现的人或物体等 (。
34、以下称为目标对象) 的信息 (以下称为视频时间线元数据) 。 0101 例如, 如果针对每个视频帧来准备用于指示特定目标对象是否出现在视频帧中的 信息 (以下称为区间元数据) 和目标对象的相关信息 (以下称为对象元数据) , 则可以在每一 视频帧再现时实时地显示目标对象的相关信息。而且, 如图 1 中所示, 如果准备了用于指示 说 明 书 CN 102857810 A 9 6/26 页 10 目标对象在每一视频帧内出现的位置或范围 (以下称为区域元数据) 的信息, 则可以与目标 对象的位置或范围相关联地显示相关信息。 而且, 如果使用区域元数据, 则可以将在屏幕中 显示的目标对象的位置或范围与。
35、由用户指定的位置相匹配, 并且, 如图 3 中所示, 可以实现 根据用户对位置的指定来显示相关信息的用户界面。 0102 而且, 当使用区间元数据时, 可以识别其中特定目标对象出现的区间, 并且因此, 可以向用户呈现其中特定目标对象出现的区间, 或者, 如图 4 中所示, 使得能够仅再现其中 特定目标对象出现的区间。在图 4 的示例中, 示出了向用户呈现人物出现的场景与场景中 出现的人物相关联的信息 (出现区间的时间信息) 的示例。 0103 而且, 当使用关于多个视频的多个区间元数据时, 可以实现如图 5 中所示的超链 接视频浏览。 在此, 超链接视频浏览表示 : 在视频中出现的目标对象作为。
36、关键信息的情况下 在视频之间进行切换的同时观看视频的操作方法。例如, 在图 5 的示例中, 当选择了在视频 #1 中的场景中出现的某个人时, 开始再现其中出现了该人的视频 #2, 并且当选择了在视频 #2 中的场景中出现的某个对象时, 开始再现出现了该对象的视频 #4。以这种方式, 通过在 观看视频的同时选择得到他 / 她的关注的目标对象, 使得用户能够在目标对象出现的视频 之间自由切换的同时观看视频。 0104 在此, 参见图6, 将补充对视频时间线元数据的结构的说明。 根据区域元数据、 区间 元数据和对象元数据来构造视频时间线元数据。 区域元数据是用于指示在每一视频帧中出 现的目标对象的位。
37、置和范围 (以下称为区域) 的元数据。例如, 在图 6 中, 通过阴影圆圈来示 出人的面部区域。在该情况下, 通过圆圈的中心坐标来表达面部区域的位置。此外, 通过圆 圈的半径来表达面部区域的范围。另外, 区域的形状可以是矩形。在区域的形状是矩形的 情况下, 通过例如矩形的左上角 (当然, 也可接受左下角、 右上角或右下角) 的坐标来表达区 域的位置。还通过矩形的高度和宽度表达区域的范围。 0105 另一方面, 区间元数据是用于指示目标对象出现的区间的元数据。例如, 在人物 A 出现在第十视频帧至第 80 视频帧中的情况下, 关于人物 A 的区间元数据指示与第 10 至第 80视频帧对应的区间。。
38、 区间元数据是针对每一视频以及出现在该视频中的每一目标对象来 准备的。当参考区间元数据时, 可得知特定目标对象是否出现在视频中。另外, 当使用区间 元数据时, 可以得知每一个视频中出现了特定目标对象的区间的长度。 而且, 当使用区间元 数据时, 因为可以识别在同一视频中出现的目标对象的组合, 所以例如可以检测联合主演 者的关系或者可以计算联合主演的时间。 0106 另外, 假定由与视频提供者不同的元数据提供者执行如图 7 中所示的视频时间线 元数据的提供。而且, 假定通过使用视频分析技术或通过人为输入来创建视频时间线元数 据。 例如, 当使用面部识别技术或面部跟踪技术等时, 可以自动地检测在每。
39、一个视频帧中出 现的人。可以通过使用检测结果来创建视频时间线元数据。然而, 当使用这样的自动检测 技术时, 易于出现诸如错误检测、 错误识别或检测失败等错误。 0107 因此, 必须对已经出现错误的区间人为地执行视频时间线元数据的校正或增加, 或者, 必须从开始就人为地创建视频时间线元数据。 当然, 当人为地创建视频时间线元数据 时, 可以实现较高准确度。然而, 构成视频的视频帧的数量极大。因此, 难以人为地使用视 频时间线元数据来标注每一个视频帧。 因此, 本发明人已开发了一种用户界面, 该用户界面 能够简化视频时间线元数据的人为标注操作, 并且大大地降低用户的工作负荷。 此外, 本发 说 。
40、明 书 CN 102857810 A 10 7/26 页 11 明人已经设计了能够由一起工作的多个用户来创建视频时间线元数据的机制。 0108 通过应用这些技术, 可以提供高度精确的视频时间线元数据。 而且, 实现了使用视 频时间线元数据的各个应用。例如, 使得能够实现如图 1 至 3 中所示的相关信息的实时显 示。而且, 使得能够实现如图 4 中所示的出现区间的显示或出现了特定角色的场景的选择 性再现。而且, 使得能够个实现如图 5 中所示的超链接视频浏览。 0109 下文将详细描述根据本实施例的视频时间线元数据的标注方法、 用于视频时间线 元数据的标注的用户界面的配置和使用视频时间线元数据。
41、的应用。 0110 0111 下面将描述根据本实施例的技术的实施例。 0112 2-1 : 系统的操作的整体配置 0113 首先, 将参考图 8 和 9 来描述能够执行根据本实施例的一系列处理的系统的配置 和操作。图 8 和 9 是用于描述本实施例的能够执行根据图 8 和 9 的一系列处理的系统的配 置和操作的示意图。 0114 (配置) 0115 如图 8 中所示, 根据本实施例的系统主要包括元数据提供终端 10、 元数据管理系 统 20 和元数据用户终端 30。 0116 元数据提供终端 10 提供了用于视频时间线元数据的标注操作的用户界面, 并且 执行与视频时间线元数据的标注相关的处理。。
42、而且, 元数据提供终端 10 向元数据管理系统 20提供用于标注的视频时间线元数据。 另外, 还可以配置其中从元数据提供终端10向元数 据用户终端 30 直接地提供视频时间线元数据的系统。此外, 在图 8 中, 仅提供了一个元数 据提供终端 10, 但是还可以在系统中提供多个元数据提供终端 10。在下文的说明书中, 假 定存在多个元数据提供者并且在系统中存在多个元数据提供终端 10。 0117 元数据管理系统 20 累积由元数据提供终端 10 提供的视频时间线元数据。此外, 在提供与同一视频相关的多个视频时间线元数据的情况下, 元数据管理系统 20 整合这些 视频时间线元数据。而且, 元数据管。
43、理系统 20 还可以包括用于通过使用社会网络服务 (Social Network Service, 以下称为 SNS) 来使得能够在多个用户之间共享视频时间线元 数据的功能。而且, 元数据管理系统 20 还可以包括奖励元数据提供者的功能。而且, 元数 据管理系统20还可以包括用于向元数据提供终端10发送有助于视频时间线元数据的标注 操作的信息的功能。 0118 元数据用户终端 30 从元数据管理系统 20 获取视频时间线元数据, 并且使用所获 取的视频时间线元数据来提供各种功能。例如, 元数据用户终端 30 使用视频时间线元数据 来提供显示相关信息的功能、 场景搜索 / 再现功能 (显示出现区。
44、间的功能和选择性地再现 出现区间的功能等) 和超链接视频浏览功能等。即, 元数据用户终端 30 提供用于使用视频 时间线元数据的应用的执行环境。 0119 (操作) 0120 根据本实施例的系统执行在图 9 中所示的一系列处理。首先, 图像显示设备 100 或元数据管理系统 20 执行预处理 (S10) 。步骤 S10 的预处理主要用于通过使用诸如目标识 别技术或目标检测 / 目标跟踪技术等视频分析技术来自动地检测在视频中出现的目标对 象的处理。作为目标检测 / 对象跟踪技术, 可以使用例如 JP 2005-44330A 中描述的技术。 说 明 书 CN 102857810 A 11 8/26。
45、 页 12 而且, 作为目标识别技术, 可以使用例如 JP 2007-65766A 中描述的技术。 0121 如下所述, 通过预先执行预处理, 可以减小要新标注的目标对象的数量和视频帧 的数量, 并且可以降低标注操作的负担。然而, 可以省略该预处理。在省略预处理的情况 下, 将使用视频时间线元数据来人为地标注所有的视频帧。 而且, 预处理可由元数据提供终 端 10 或元数据管理系统 20 来执行。下面的描述中将假定由元数据提供终端 10 来执行预 处理。 0122 在执行预处理后, 元数据提供终端 10 执行与视频时间线元数据的标注相关的处 理 (S20) 。例如, 元数据提供终端 10 再现。
46、作为标注的目标的视频, 并且接收用户的输入。此 时, 元数据提供终端 10 提供有助于用户的标注操作的用户界面。然后, 元数据提供终端 10 根据用户的输入来创建视频时间线元数据, 并且向元数据管理系统 20 提供视频时间线元 数据。 0123 接下来, 元数据管理系统 20 对由元数据提供终端 10 提供的视频时间线元数据执 行后处理 (S30) 。这个后处理一般是用于整合利用同一视频作为目标来设置的多个视频时 间线元数据的处理。然后, 元数据用户终端 30 从元数据管理系统 20 获取视频时间线元数 据, 并且通过使用所获取的视频时间线元数据来向用户提供诸如相关信息的显示等各种功 能 (S。
47、40) 。 0124 已经描述了能够执行根据本实施例的一系列处理的系统的配置和操作。下面, 将 参考图9中所示的处理的流程来详细描述元数据提供终端10、 元数据管理系统20和元数据 用户终端 30 的详细功能配置和在每一个步骤中的处理。 0125 2-2 : 元数据提供终端 10 的配置 0126 首先, 将参考图 10 来描述元数据提供终端 10 的功能配置。图 10 是用于描述元数 据提供终端 10 的功能配置的示意图。 0127 如图 10 中所示, 元数据提供终端 10 主要由存储单元 101、 解码器 102、 区域提取单 元103、 区域处理单元104、 目标识别单元105、 元数。
48、据提供单元106、 再现控制单元107、 显示 单元 108、 输入单元 109、 移动距离计算单元 110 和相似度分数计算单元 111。 0128 另外, 区域提取单元103、 区域处理单元104和目标识别单元105构成视频分析块。 在省略图 9 中所示的步骤 S10 的预处理的情况下, 可以省略视频分析块。还可以在元数据 管理系统 20 或用于视频分析的其他装置中设置视频分析块, 以省略元数据提供终端 10 的 视频分析块。然而, 下文的说明书中, 假定在元数据提供终端 10 中设置有视频分析块。 0129 在存储单元 101 中存储视频。在存储单元 101 中存储的视频被解码器 102。
49、 解码, 并且被输入到区域提取单元 103、 再现控制单元 107 和相似度分数计算单元 111。区域提取 单元 103 使用目标检测 / 对象跟踪技术等, 并且提取在输入视频的每一视频帧中出现的目 标对象的位置和范围 (以下称为目标区域) 。关于由区域提取单元 103 提取的目标区域的信 息被输入到区域处理单元 104。 0130 区域处理单元 104 基于关于已经输入的目标区域的信息来处理目标区域。例如, 区域处理单元 104 去除出现时间短的目标区域或尺寸小的目标区域, 或者组合在同一视频 帧中出现的相同类型的目标区域。关于已经被区域处理单元 104 处理的目标区域的信息被 输入到目标识别单元 105。目标识别单元 105 基于在已经输入。