一种具有多种检索方式的多媒体系统及处理方法.pdf

上传人：小**

文档编号：4034182

上传时间：2018-08-12

格式：PDF

页数：9

大小：911.41KB

《一种具有多种检索方式的多媒体系统及处理方法.pdf》由会员分享，可在线阅读，更多相关《一种具有多种检索方式的多媒体系统及处理方法.pdf（9页完整版）》请在专利查询网上搜索。

1、(10)申请公布号 (43)申请公布日 (21)申请号 201410738807.5(22)申请日 2014.12.05G06F 17/30(2006.01)(71)申请人国家电网公司地址 100031 北京市西城区西长安街86号申请人国网技术学院(72)发明人秦衡谢清玉崔凤磊张耀坤李荣凯(74)专利代理机构北京青松知识产权代理事务所(特殊普通合伙) 11384代理人郑青松(54) 发明名称一种具有多种检索方式的多媒体系统及处理方法(57) 摘要本发明涉及一种多媒体系统，包括拍摄终端、服务器和查询终端；其特征在于：查询终端包括第三摄像单元、第三输入单元、查询单元、第三传输单元；其中，所述。

2、查询终端用于供用户通过多种方法检索所述多媒体。本发明还涉及一种使用所述多媒体系统的多媒体方法。(51)Int.Cl.(19)中华人民共和国国家知识产权局(12)发明专利申请权利要求书2页说明书5页附图1页(10)申请公布号 CN 104462354 A(43)申请公布日 2015.03.25CN 104462354 A1/2页21.一种多媒体系统，包括拍摄终端、服务器和查询终端；其特征在于：查询终端包括第三摄像单元、第三输入单元、查询单元、第三传输单元；其中，所述查询终端用于供用户通过多种方法检索所述多媒体。2.一种使用根据权利要求1所述的多媒体系统的多媒体处理方法，其特征在于包括以下步骤。

3、：步骤S100，用户使用拍摄终端拍摄多媒体，所述多媒体包括视频和音频；当在某一位置和/或变焦拍摄时，由计时单元记录下拍摄的开始时间和结束时间；随后，计时单元将事件、开始时间和结束时间一并保存到第一存储单元的记录表中，其中所述事件包括位置、变焦；步骤S200，将多媒体中的音频转换为文字，转换后，在拍摄终端上显示给用户，供用户确认；如果用户认为转换的文字内容有错误或需要调整，则使用拍摄终端的第一输入单元进行修改；步骤S220，拍摄终端通过第一传输单元将拍摄的多媒体、第一存储单元中的记录表、以及经过用户确认的文字上传到服务器的第二传输单元，服务器将拍摄的多媒体保存到数据库中，并记录多媒体ID，所述多。

4、媒体ID是上传的多媒体的唯一标识；步骤S240，服务器根据记录表中的事件、开始时间和结束时间，使用解析单元从多媒体的视频中提取关键帧，并确定关键帧的录制时长，所述关键帧为拍摄终端在同一事件下拍摄的视频帧的代表；步骤S260，得到视频中每个事件对应的关键帧和事件的持续时间，其中根据每个事件的开始时间和结束时间获取持续时间；步骤S300，服务器从上传的文字中提取文字索引；对于每一个多媒体，服务器形成多媒体索引表，并存储在第二存储单元中；所述多媒体索引表包括：多媒体ID、文字索引、关键帧集合以及事件持续时间集合；步骤S400，用户使用查询终端查找所述多媒体；步骤S420，若查询终端中输入的是纯文字，。

5、则仅在文字索引中进行检索，并将检索结果呈现给用户，同时向用户提供没有文字说明的多媒体数目；步骤S440，若查询终端中输入的仅是M幅照片，则查询终端形成照片集X：XX1,X2,Xi,XM则比较照片集X中的每幅照片和关键帧集合中的每个关键帧是否匹配，然后根据照片和关键帧的匹配程度，检索出相应的视频，并将按照相似度排序的检索结果呈现给用户；相似度Sim的计算公式如下：其中，M为照片集X中的照片数量；e为视频中的事件数量，即关键帧数量；Ti为第i个事件的持续时间；Tij的取值有两个，当照片和关键帧不匹配时，Tij0；当照片和关键帧匹配时，Tij为匹配的第i个事件的持续时间；权利要求书CN 10。

6、4462354 A2/2页3步骤S460，若查询终端输入的既包括文字又包括照片，则先在文字索引中进行检索，如果检索结果少于特定阈值，则直接将结果呈现给用户；反之，如果检索结果大于或等于特定阈值，则在文字检索到的结果中使用步骤S440中的方法进行再次检索，并将检索结果呈现给用户。权利要求书CN 104462354 A1/5页4一种具有多种检索方式的多媒体系统及处理方法技术领域0001 本发明涉及多媒体领域，特别涉及能够进行检索的多媒体领域。背景技术0002 随着网络和多媒体技术的广泛应用，网络培训已成为员工培训的必然发展趋势。然而，网络培训面临着“来源单一、脱离实践、滞后现场”的问题，尤。

7、其是缺少以现场案例为内容的生产技能类培训，这势必会影响以生产技能操作为主的员工培训效果。因此，积极引入现场案例教学，探索智能终端和移动网络的应用，将成为网络培训和资源建设的新方向。发明内容0003 本发明涉及一种多媒体系统，包括拍摄终端、服务器和查询终端；其特征在于：查询终端包括第三摄像单元、第三输入单元、查询单元、第三传输单元；其中，所述查询终端用于供用户通过多种方法检索所述多媒体。0004 本发明还涉及一种使用所述多媒体系统的多媒体处理方法，其特征在于包括以下步骤：0005 步骤S100，用户使用拍摄终端拍摄多媒体，所述多媒体包括视频和音频；当在某一位置和/或变焦拍摄时，由计时单元记录下拍。

8、摄的开始时间和结束时间；随后，计时单元将事件、开始时间和结束时间一并保存到第一存储单元的记录表中，其中所述事件包括位置、变焦；0006 步骤S200，将多媒体中的音频转换为文字，转换后，在拍摄终端上显示给用户，供用户确认；如果用户认为转换的文字内容有错误或需要调整，则使用拍摄终端的第一输入单元进行修改；0007 步骤S220，拍摄终端通过第一传输单元将拍摄的多媒体、第一存储单元中的记录表、以及经过用户确认的文字上传到服务器的第二传输单元，服务器将拍摄的多媒体保存到数据库中，并记录多媒体ID，所述多媒体ID是上传的多媒体的唯一标识；0008 步骤S240，服务器根据记录表中的事件、开始时间和结束。

9、时间，使用解析单元从多媒体的视频中提取关键帧，并确定关键帧的录制时长，所述关键帧为拍摄终端在同一事件下拍摄的视频帧的代表；0009 步骤S260，得到视频中每个事件对应的关键帧和事件的持续时间，其中根据每个事件的开始时间和结束时间获取持续时间；0010 步骤S300，服务器从上传的文字中提取文字索引；对于每一个多媒体，服务器形成多媒体索引表，并存储在第二存储单元中；所述多媒体索引表包括：多媒体ID、文字索引、关键帧集合以及事件持续时间集合；0011 步骤S400，用户使用查询终端查找所述多媒体；0012 步骤S420，若查询终端中输入的是纯文字，则仅在文字索引中进行检索，并将检索结果呈现给用户。

10、，同时向用户提供没有文字说明的多媒体数目；说明书CN 104462354 A2/5页50013 步骤S440，若查询终端中输入的仅是M幅照片，则查询终端形成照片集X：0014 XX1,X2,X i,XM0015 则比较照片集X中的每幅照片和关键帧集合中的每个关键帧是否匹配，然后根据照片和关键帧的匹配程度，检索出相应的视频，并将按照相似度排序的检索结果呈现给用户；0016 相似度Sim的计算公式如下：0017 0018 其中，M为照片集X中的照片数量；e为视频中的事件数量，即关键帧数量；Ti为第i个事件的持续时间；Tij的取值有两个，当照片和关键帧不匹配时，Tij0；当照片和关键帧匹配时，T。

11、ij为匹配的第i个事件的持续时间；0019 步骤S460，若查询终端输入的既包括文字又包括照片，则先在文字索引中进行检索，如果检索结果少于特定阈值，则直接将结果呈现给用户；反之，如果检索结果大于或等于特定阈值，则在文字检索到的结果中使用步骤S440中的方法进行再次检索，并将检索结果呈现给用户。0020 本发明的多媒体系统及多媒体处理方法特别适用于以生产现场为背景的基于移动智能终端的现场案例培训，获得了以生产实践为基础、培训内容来源多样化的有益效果。并且，本发明的多媒体系统及多媒体处理方法能够使用户采用多种方法查找所述多媒体，为用户查询提供了准确性和便利性。附图说明0021 图1是多媒体系统的框。

12、图；0022 图2是拍摄终端位置变化的示意图。具体实施方式0023 为使本发明的目的、技术方案和优点更加清楚，将结合附图对本发明作进一步地详细描述。这种描述是通过示例而非限制的方式介绍了与本发明的原理相一致的具体实施方式，这些实施方式的描述是足够详细的，以使得本领域技术人员能够实践本发明，在不脱离本发明的范围和精神的情况下可以使用其他实施方式并且可以改变和/或替换各要素的结构。因此，不应当从限制性意义上来理解以下的详细描述。0024 如图1所示，本发明的多媒体系统包括拍摄终端100、服务器200和查询终端300。0025 拍摄终端100包括第一摄像单元110、录音单元120、记录单元130、第。

13、一输入单元140、第一传输单元150、第一存储单元160、显示单元170等。优选的，拍摄终端100还包括计时单元180(例如计时器)、焦距检测单元190。服务器200包括第二传输单元210、解析单元220、数据库230、第二存储单元240等。查询终端300包括第三摄像单元310、第三输入单元320、查询单元330、第三传输单元340等。说明书CN 104462354 A3/5页60026 多媒体系统的处理流程如下所示：0027 在步骤S100，用户使用拍摄终端拍摄多媒体，所述多媒体包括视频和音频；在某一位置拍摄时，由计时单元记录下在某一位置拍摄的开始时间和结束时间；当移动拍摄位置或变换焦距。

14、时，由计时单元记录下移动拍摄位置或变换焦距后拍摄的开始时间和结束时间；随后，计时单元将事件(包括位置/变焦)、开始时间和结束时间一并保存到第一存储单元的记录表中。0028 下面参考图2详细说明拍摄终端由位置A移动到位置B再移动到位置C的过程，以及计时单元的计时过程。0029 首先，在位置A，当用户打开拍摄终端的第一摄像单元开始拍摄时，将自动触发计时单元开始计时，此时由计时单元记录下位置A的开始时间(例如0秒)。可选的，也可由用户操作拍摄终端的特定物理按键或触摸屏上显示的特定按键以触发计时单元开始计时。一段时间后，当在位置A拍摄完成时，由用户操作上述特定按键结束在位置A的计时，并由计时单元记录下。

15、结束时间(例如180秒)。随后，计时单元将记录的位置A、开始时间和结束时间保存到第一存储单元的记录表中。0030 之后，将拍摄终端移动到位置B继续进行拍摄，由用户操作上述特定按键开始在位置B的计时，并由计时单元记录下位置B的开始时间(例如181秒)。又一段时间后，当在位置B拍摄完成时，由用户操作上述特定按键结束位置B的计时，并由计时单元记录下结束时间(例如270秒)。随后，计时单元将记录的位置B、开始时间和结束时间保存到第一存储单元的记录表中。0031 之后，再将拍摄终端移动到位置C继续进行拍摄，由用户操作上述特定按键开始在位置C的计时，并由计时单元记录下位置C的开始时间(例如271秒)。又拍。

16、摄一段时间后，当在位置C拍摄完成时，由用户关闭拍摄终端的第一摄像单元停止拍摄，此时将自动触发计时单元结束位置C的计时，并由计时单元记录下结束时间(例如300秒)。可选的，也可由用户操作上述特定按键结束计时。随后，计时单元将记录的位置C、开始时间和结束时间也保存到第一存储单元的记录表中。0032 另外，当用户暂停拍摄终端的第一摄像单元拍摄时，将自动触发计时单元结束计时；以及，当拍摄终端的第一摄像单元恢复拍摄时，也将自动触发计时单元继续开始计时。0033 上述计时单元的自动触发，无需用户额外操作拍摄终端的按键，从而提高了效率。0034 第一存储单元中的记录表包括事件、开始时间和结束时间，格式优选示。

17、例如下：0035 表1：记录表0036 事件开始时间Tb结束时间Te位置A 0秒180秒位置B 181秒270秒位置C 271秒300秒0037 在另一优选实施例中，在拍摄过程中当用户操作拍摄终端变化焦距时，同样可以记录下变化焦距发生的开始时间和结束时间。在该优选实施例中，假设在位置B使用近焦说明书CN 104462354 A4/5页7拍摄完成时，由用户操作拍摄终端的特定物理按键或触摸屏上显示的特定按键以触发计时单元结束位置B的计时，并由计时单元记录下结束时间(例如200秒)。而后，用户变化焦距改为使用远焦进行拍摄，由用户操作上述特定按键开始在位置B/变焦的计时，并由计时单元记录下位置B/。

18、变焦的开始时间(例如201秒)，拍摄一段时间，当远焦拍摄完成后，由用户操作上述特定按键结束计时，并由计时单元记录下位置B/变焦的结束时间(例如270秒)。该优选实施例中的记录单元记录如下：0038 表2：记录表0039 事件开始时间Tb结束时间Te位置A 0秒180秒位置B 181秒200秒位置B/变焦201秒270秒位置C 271秒300秒0040 在另一优选实施例中，拍摄终端还包括与计时单元连接的焦距检测单元。当焦距检测单元检测到焦距变化时，将自动触发计时单元结束计时；并在焦距变化完成后，自动触发技术单元继续开始计时。0041 在步骤S200，将多媒体中的音频转换为文字，音频是拍摄终端拍摄。

19、多媒体时获取的音频。例如采用中国专利申请201210102950.6中公开的将音频转换为文字的方法。转换后，在拍摄终端上显示给用户，供用户确认。如果用户认为转换后的文字内容有错误或需要调整，可以使用拍摄终端的第一输入单元进行修改。用户也可以通过第一输入单元输入额外的说明性文字。0042 在步骤S220，拍摄终端通过第一传输单元将拍摄的多媒体、第一存储单元中的记录表、以及经过用户确认的文字上传到服务器的第二传输单元，服务器将拍摄的多媒体保存到数据库中，并记录多媒体ID。多媒体ID是上传的多媒体的唯一标识，例如采用上传的多媒体名称和上传时间的组合等。0043 在步骤S240，服务器根据记录表中的事。

20、件、开始时间和结束时间，使用解析单元从多媒体的视频中提取关键帧，所述关键帧定义为拍摄终端在同一事件下拍摄的视频帧的代表。例如：对于每一个事件，按照预先设定的采样标准，从视频中选取每个事件具有代表性的关键帧K。0044 在步骤S260，根据视频中每个事件的开始时间和结束时间，获取每个事件的持续时间T。0045 在步骤S300，服务器从上传的文字中提取文字索引。对于每一个多媒体，服务器形成多媒体索引表，并存储在第二存储单元中。多媒体索引表中包括：多媒体ID、文字索引、关键帧集合K以及事件持续时间集合T。其中文字索引可以是空值NULL，其代表拍摄终端拍摄的多媒体中没有音频，而且用户也没有对多媒体进行。

21、文字说明。0046 在步骤S400，用户使用查询终端查找多媒体。用户可以通过查询终端的第三输入说明书CN 104462354 A5/5页8单元，输入多种查询方式。第一种查询方式为输入照片，照片可以是一幅，也可以是多幅，照片可以来源于第三摄像单元拍摄的照片；第二种查询方式为在第一种的基础上，输入文字和照片；第三种查询方式为纯文字输入。0047 在步骤S420，若查询终端中输入的是纯文字，则仅在文字索引中进行检索，并将检索结果呈现给用户，同时向用户提供没有文字说明的多媒体数目。0048 在步骤S440，若查询终端中输入的仅是M幅照片，则查询终端形成照片集X。0049 XX1,X2,X i,XM。

22、0050 则比较照片集X中的每幅照片和关键帧集合K中的每个关键帧是否匹配，比较的具体方式可以采用例如中国专利申请200710176039.9中公开的图像匹配方法或其他现有技术中的图像匹配方法。然后根据照片和关键帧的匹配程度，检索出相应的视频，并将按照相似度排序的检索结果呈现给用户。相似度Sim的计算公式如下：0051 0052 其中，M为照片集X中的照片数量；e为视频中的事件数量，即关键帧数量；Ti为第i个事件的持续时间。Tij的取值有两个，当照片和关键帧不匹配时，Tij0；当照片和关键帧匹配时，Tij为匹配的第i个事件的持续时间。0053 在步骤S460，若查询终端输入的既包括文字又包括照片。

23、，则先在文字索引中进行检索，如果检索结果少于特定阈值，则直接将结果呈现给用户；反之，如果检索结果大于或等于特定阈值，则在文字检索到的结果中使用步骤S440中的方法进行再次检索，并将检索的结果呈现给用户，以提高检索效率。0054 本发明的多媒体系统及多媒体处理方法特别适用于以生产现场为背景的基于移动智能终端的现场案例培训，获得了以生产实践为基础、培训内容来源多样化的有益效果。并且，本发明的多媒体系统及多媒体处理方法能够使用户采用多种方法查找所述多媒体，为用户查询提供了准确性和便利性。0055 本发明公开的方法包括用于实现本发明目的的一个或多个步骤，方法步骤可彼此相互交换而没有离开本发明的范围。换言之，除非实施例的正常操作需要特定顺序的步骤，可修改具体步骤的顺序，而不会离开本发明精神的范围。尽管本发明主要描述了具体实施例和应用，但本领域技术人员应理解本发明并不局限于此。根据本发明公开的方法和系统，对于本领域技术人员明显的各种修改、变化以及改变均不背离本发明的精神和范围。说明书CN 104462354 A1/1页9图1图2说明书附图CN 104462354 A。

摘要
申请专利号：	CN201410738807.5	申请日：	2014.12.05
公开号：	CN104462354A	公开日：	2015.03.25
当前法律状态：	授权	有效性：	有权
法律详情：	授权\|\|\|实质审查的生效IPC(主分类):G06F17/30申请日:20141205\|\|\|公开
IPC分类号：	G06F17/30	主分类号：	G06F17/30
申请人：	国家电网公司; 国网技术学院
发明人：	秦衡; 谢清玉; 崔凤磊; 张耀坤; 李荣凯
地址：	100031北京市西城区西长安街86号
优先权：
专利代理机构：	北京青松知识产权代理事务所(特殊普通合伙)11384	代理人：	郑青松
PDF完整版下载：	PDF下载

内容摘要

本发明涉及一种多媒体系统，包括拍摄终端、服务器和查询终端；其特征在于：查询终端包括第三摄像单元、第三输入单元、查询单元、第三传输单元；其中，所述查询终端用于供用户通过多种方法检索所述多媒体。本发明还涉及一种使用所述多媒体系统的多媒体方法。

权利要求书

权利要求书
1. 一种多媒体系统，包括拍摄终端、服务器和查询终端；其特征在于：查询终端包括第三摄像单元、第三输入单元、查询单元、第三传输单元；其中，所述查询终端用于供用户通过多种方法检索所述多媒体。

2. 一种使用根据权利要求1所述的多媒体系统的多媒体处理方法，其特征在于包括以下步骤：
步骤S100，用户使用拍摄终端拍摄多媒体，所述多媒体包括视频和音频；当在某一位置和/或变焦拍摄时，由计时单元记录下拍摄的开始时间和结束时间；随后，计时单元将事件、开始时间和结束时间一并保存到第一存储单元的记录表中，其中所述事件包括位置、变焦；
步骤S200，将多媒体中的音频转换为文字，转换后，在拍摄终端上显示给用户，供用户确认；如果用户认为转换的文字内容有错误或需要调整，则使用拍摄终端的第一输入单元进行修改；
步骤S220，拍摄终端通过第一传输单元将拍摄的多媒体、第一存储单元中的记录表、以及经过用户确认的文字上传到服务器的第二传输单元，服务器将拍摄的多媒体保存到数据库中，并记录多媒体ID，所述多媒体ID是上传的多媒体的唯一标识；
步骤S240，服务器根据记录表中的事件、开始时间和结束时间，使用解析单元从多媒体的视频中提取关键帧，并确定关键帧的录制时长，所述关键帧为拍摄终端在同一事件下拍摄的视频帧的代表；
步骤S260，得到视频中每个事件对应的关键帧和事件的持续时间，其中根据每个事件的开始时间和结束时间获取持续时间；
步骤S300，服务器从上传的文字中提取文字索引；对于每一个多媒体，服务器形成多媒体索引表，并存储在第二存储单元中；所述多媒体索引表包括：多媒体ID、文字索引、关键帧集合以及事件持续时间集合；
步骤S400，用户使用查询终端查找所述多媒体；
步骤S420，若查询终端中输入的是纯文字，则仅在文字索引中进行检索，并将检索结果呈现给用户，同时向用户提供没有文字说明的多媒体数目；
步骤S440，若查询终端中输入的仅是M幅照片，则查询终端形成照片集X：
X＝{X1,X2,…Xi,…XM}
则比较照片集X中的每幅照片和关键帧集合中的每个关键帧是否匹配，然后根据照片和关键帧的匹配程度，检索出相应的视频，并将按照相似度排序的检索结果呈现给用户；
相似度Sim的计算公式如下：
Sim=Σj=1MΣi=1eTijM*Σi=1eTi2]]>
其中，M为照片集X中的照片数量；e为视频中的事件数量，即关键帧数量；Ti为第i个事件的持续时间；Tij的取值有两个，当照片和关键帧不匹配时，Tij＝0；当照片和关键帧匹配时，Tij为匹配的第i个事件的持续时间；
步骤S460，若查询终端输入的既包括文字又包括照片，则先在文字索引中进行检索，如果检索结果少于特定阈值，则直接将结果呈现给用户；反之，如果检索结果大于或等于特定阈值，则在文字检索到的结果中使用步骤S440中的方法进行再次检索，并将检索结果呈现给用户。

说明书

说明书一种具有多种检索方式的多媒体系统及处理方法
技术领域
本发明涉及多媒体领域，特别涉及能够进行检索的多媒体领域。
背景技术
随着网络和多媒体技术的广泛应用，网络培训已成为员工培训的必然发展趋势。然而，网络培训面临着“来源单一、脱离实践、滞后现场”的问题，尤其是缺少以现场案例为内容的生产技能类培训，这势必会影响以生产技能操作为主的员工培训效果。因此，积极引入现场案例教学，探索智能终端和移动网络的应用，将成为网络培训和资源建设的新方向。
发明内容
本发明涉及一种多媒体系统，包括拍摄终端、服务器和查询终端；其特征在于：查询终端包括第三摄像单元、第三输入单元、查询单元、第三传输单元；其中，所述查询终端用于供用户通过多种方法检索所述多媒体。
本发明还涉及一种使用所述多媒体系统的多媒体处理方法，其特征在于包括以下步骤：
步骤S100，用户使用拍摄终端拍摄多媒体，所述多媒体包括视频和音频；当在某一位置和/或变焦拍摄时，由计时单元记录下拍摄的开始时间和结束时间；随后，计时单元将事件、开始时间和结束时间一并保存到第一存储单元的记录表中，其中所述事件包括位置、变焦；
步骤S200，将多媒体中的音频转换为文字，转换后，在拍摄终端上显示给用户，供用户确认；如果用户认为转换的文字内容有错误或需要调整，则使用拍摄终端的第一输入单元进行修改；
步骤S220，拍摄终端通过第一传输单元将拍摄的多媒体、第一存储单元中的记录表、以及经过用户确认的文字上传到服务器的第二传输单元，服务器将拍摄的多媒体保存到数据库中，并记录多媒体ID，所述多媒体ID是上传的多媒体的唯一标识；
步骤S240，服务器根据记录表中的事件、开始时间和结束时间，使用解析单元从多媒体的视频中提取关键帧，并确定关键帧的录制时长，所述关键帧为拍摄终端在同一事件下拍摄的视频帧的代表；
步骤S260，得到视频中每个事件对应的关键帧和事件的持续时间，其中根据每个事件的开始时间和结束时间获取持续时间；
步骤S300，服务器从上传的文字中提取文字索引；对于每一个多媒体，服务器形成多媒体索引表，并存储在第二存储单元中；所述多媒体索引表包括：多媒体ID、文字索引、关键帧集合以及事件持续时间集合；
步骤S400，用户使用查询终端查找所述多媒体；
步骤S420，若查询终端中输入的是纯文字，则仅在文字索引中进行检索，并将检索结果呈现给用户，同时向用户提供没有文字说明的多媒体数目；
步骤S440，若查询终端中输入的仅是M幅照片，则查询终端形成照片集X：
X＝{X1,X2,…X i,…XM}
则比较照片集X中的每幅照片和关键帧集合中的每个关键帧是否匹配，然后根据照片和关键帧的匹配程度，检索出相应的视频，并将按照相似度排序的检索结果呈现给用户；
相似度Sim的计算公式如下：
Sim=Σj=1MΣi=1eTijM*Σi=1eTi2]]>
其中，M为照片集X中的照片数量；e为视频中的事件数量，即关键帧数量；Ti为第i个事件的持续时间；Tij的取值有两个，当照片和关键帧不匹配时，Tij＝0；当照片和关键帧匹配时，Tij为匹配的第i个事件的持续时间；
步骤S460，若查询终端输入的既包括文字又包括照片，则先在文字索引中进行检索，如果检索结果少于特定阈值，则直接将结果呈现给用户；反之，如果检索结果大于或等于特定阈值，则在文字检索到的结果中使用步骤S440中的方法进行再次检索，并将检索结果呈现给用户。
本发明的多媒体系统及多媒体处理方法特别适用于以生产现场为背景的基于移动智能终端的现场案例培训，获得了以生产实践为基础、培训内容来源多样化的有益效果。并且，本发明的多媒体系统及多媒体处理方法能够使用户采用多种方法查找所述多媒体，为用户查询提供了准确性和便利性。
附图说明
图1是多媒体系统的框图；
图2是拍摄终端位置变化的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚，将结合附图对本发明作进一步地详细描述。这种描述是通过示例而非限制的方式介绍了与本发明的原理相一致的具体实施方式，这些实施方式的描述是足够详细的，以使得本领域技术人员能够实践本发明，在不脱离本发明的范围和精神的情况下可以使用其他实施方式并且可以改变和/或替换各要素的结构。因此，不应当从限制性意义上来理解以下的详细描述。
如图1所示，本发明的多媒体系统包括拍摄终端100、服务器200和查询终端300。
拍摄终端100包括第一摄像单元110、录音单元120、记录单元130、第一输入单元140、第一传输单元150、第一存储单元160、显示单元170等。优选的，拍摄终端100还包括计时单元180(例如计时器)、焦距检测单元190。服务器200包括第二传输单元210、解析单元220、数据库230、第二存储单元240等。查询终端300包括第三摄像单元310、第三输入单元320、查询单元330、第三传输单元340等。
多媒体系统的处理流程如下所示：
在步骤S100，用户使用拍摄终端拍摄多媒体，所述多媒体包括视频和音频；在某一位置拍摄时，由计时单元记录下在某一位置拍摄的开始时间和结束时间；当移动拍摄位置或变换焦距时，由计时单元记录下移动拍摄位置或变换焦距后拍摄的开始时间和结束时间；随后，计时单元将事件(包括位置/变焦)、开始时间和结束时间一并保存到第一存储单元的记录表中。
下面参考图2详细说明拍摄终端由位置A移动到位置B再移动到位置C的过程，以及计时单元的计时过程。
首先，在位置A，当用户打开拍摄终端的第一摄像单元开始拍摄时，将自动触发计时单元开始计时，此时由计时单元记录下位置A的开始时间(例如0秒)。可选的，也可由用户操作拍摄终端的特定物理按键或触摸屏上显示的特定按键以触发计时单元开始计时。一段时间后，当在位置A拍摄完成时，由用户操作上述特定按键结束在位置A的计时，并由计时单元记录下结束时间(例如180秒)。随后，计时单元将记录的位置A、开始时间和结束时间保存到第一存储单元的记录表中。
之后，将拍摄终端移动到位置B继续进行拍摄，由用户操作上述特定按键开始在位置B的计时，并由计时单元记录下位置B的开始时间(例如181秒)。又一段时间后，当在位置B拍摄完成时，由用户操作上述特定按键结束位置B的计时，并由计时单元记录下结束时间(例如270秒)。随后，计时单元将记录的位置B、开始时间和结束时间保存到第一存储单元的记录表中。
之后，再将拍摄终端移动到位置C继续进行拍摄，由用户操作上述特定按键开始在位置C的计时，并由计时单元记录下位置C的开始时间(例如271秒)。又拍摄一段时间后，当在位置C拍摄完成时，由用户关闭拍摄终端的第一摄像单元停止拍摄，此时将自动触发计时单元结束位置C的计时，并由计时单元记录下结束时间(例如300秒)。可选的，也可由用户操作上述特定按键结束计时。随后，计时单元将记录的位置C、开始时间和结束时间也保存到第一存储单元的记录表中。
另外，当用户暂停拍摄终端的第一摄像单元拍摄时，将自动触发计时单元结束计时；以及，当拍摄终端的第一摄像单元恢复拍摄时，也将自动触发计时单元继续开始计时。
上述计时单元的自动触发，无需用户额外操作拍摄终端的按键，从而提高了效率。
第一存储单元中的记录表包括事件、开始时间和结束时间，格式优选示例如下：
表1：记录表
事件开始时间Tb结束时间Te位置A0秒180秒位置B181秒270秒位置C271秒300秒
在另一优选实施例中，在拍摄过程中当用户操作拍摄终端变化焦距时，同样可以记录下变化焦距发生的开始时间和结束时间。在该优选实施例中，假设在位置B使用近焦拍摄完成时，由用户操作拍摄终端的特定物理按键或触摸屏上显示的特定按键以触发计时单元结束位置B的计时，并由计时单元记录下结束时间(例如200秒)。而后，用户变化焦距改为使用远焦进行拍摄，由用户操作上述特定按键开始在位置B/变焦的计时，并由计时单元记录下位置B/变焦的开始时间(例如201秒)，拍摄一段时间，当远焦拍摄完成后，由用户操作上述特定按键结束计时，并由计时单元记录下位置B/变焦的结束时间(例如270秒)。该优选实施例中的记录单元记录如下：
表2：记录表
事件开始时间Tb结束时间Te位置A0秒180秒位置B181秒200秒位置B/变焦201秒270秒位置C271秒300秒
在另一优选实施例中，拍摄终端还包括与计时单元连接的焦距检测单元。当焦距检测单元检测到焦距变化时，将自动触发计时单元结束计时；并在焦距变化完成后，自动触发技术单元继续开始计时。
在步骤S200，将多媒体中的音频转换为文字，音频是拍摄终端拍摄多媒体时获取的音频。例如采用中国专利申请201210102950.6中公开的将音频转换为文字的方法。转换后，在拍摄终端上显示给用户，供用户确认。如果用户认为转换后的文字内容有错误或需要调整，可以使用拍摄终端的第一输入单元进行修改。用户也可以通过第一输入单元输入额外的说明性文字。
在步骤S220，拍摄终端通过第一传输单元将拍摄的多媒体、第一存储单元中的记录表、以及经过用户确认的文字上传到服务器的第二传输单元，服务器将拍摄的多媒体保存到数据库中，并记录多媒体ID。多媒体ID是上传的多媒体的唯一标识，例如采用上传的多媒体名称和上传时间的组合等。
在步骤S240，服务器根据记录表中的事件、开始时间和结束时间，使用解析单元从多媒体的视频中提取关键帧，所述关键帧定义为拍摄终端在同一事件下拍摄的视频帧的代表。例如：对于每一个事件，按照预先设定的采样标准，从视频中选取每个事件具有代表性的关键帧K。
在步骤S260，根据视频中每个事件的开始时间和结束时间，获取每个事件的持续时间T。
在步骤S300，服务器从上传的文字中提取文字索引。对于每一个多媒体，服务器形成多媒体索引表，并存储在第二存储单元中。多媒体索引表中包括：多媒体ID、文字索引、关键帧集合K以及事件持续时间集合T。其中文字索引可以是空值NULL，其代表拍摄终端拍摄的多媒体中没有音频，而且用户也没有对多媒体进行文字说明。
在步骤S400，用户使用查询终端查找多媒体。用户可以通过查询终端的第三输入单元，输入多种查询方式。第一种查询方式为输入照片，照片可以是一幅，也可以是多幅，照片可以来源于第三摄像单元拍摄的照片；第二种查询方式为在第一种的基础上，输入文字和照片；第三种查询方式为纯文字输入。
在步骤S420，若查询终端中输入的是纯文字，则仅在文字索引中进行检索，并将检索结果呈现给用户，同时向用户提供没有文字说明的多媒体数目。
在步骤S440，若查询终端中输入的仅是M幅照片，则查询终端形成照片集X。
X＝{X1,X2,…X i,…XM}
则比较照片集X中的每幅照片和关键帧集合K中的每个关键帧是否匹配，比较的具体方式可以采用例如中国专利申请200710176039.9中公开的图像匹配方法或其他现有技术中的图像匹配方法。然后根据照片和关键帧的匹配程度，检索出相应的视频，并将按照相似度排序的检索结果呈现给用户。相似度Sim的计算公式如下：
Sim=Σj=1MΣi=1eTijM*Σi=1eTi2]]>
其中，M为照片集X中的照片数量；e为视频中的事件数量，即关键帧数量；Ti为第i个事件的持续时间。Tij的取值有两个，当照片和关键帧不匹配时，Tij＝0；当照片和关键帧匹配时，Tij为匹配的第i个事件的持续时间。
在步骤S460，若查询终端输入的既包括文字又包括照片，则先在文字索引中进行检索，如果检索结果少于特定阈值，则直接将结果呈现给用户；反之，如果检索结果大于或等于特定阈值，则在文字检索到的结果中使用步骤S440中的方法进行再次检索，并将检索的结果呈现给用户，以提高检索效率。
本发明的多媒体系统及多媒体处理方法特别适用于以生产现场为背景的基于移动智能终端的现场案例培训，获得了以生产实践为基础、培训内容来源多样化的有益效果。并且，本发明的多媒体系统及多媒体处理方法能够使用户采用多种方法查找所述多媒体，为用户查询提供了准确性和便利性。
本发明公开的方法包括用于实现本发明目的的一个或多个步骤，方法步骤可彼此相互交换而没有离开本发明的范围。换言之，除非实施例的正常操作需要特定顺序的步骤，可修改具体步骤的顺序，而不会离开本发明精神的范围。尽管本发明主要描述了具体实施例和应用，但本领域技术人员应理解本发明并不局限于此。根据本发明公开的方法和系统，对于本领域技术人员明显的各种修改、变化以及改变均不背离本发明的精神和范围。