视频片段定位方法、装置、计算机设备及存储介质.pdf
《视频片段定位方法、装置、计算机设备及存储介质.pdf》由会员分享,可在线阅读,更多相关《视频片段定位方法、装置、计算机设备及存储介质.pdf(25页完成版)》请在专利查询网上搜索。
1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 201910523085.4 (22)申请日 2019.06.17 (71)申请人 腾讯科技 (深圳) 有限公司 地址 518057 广东省深圳市南山区高新区 科技中一路腾讯大厦35层 (72)发明人 陈振方马林罗文寒刘威 (74)专利代理机构 北京三高永信知识产权代理 有限责任公司 11138 代理人 张所明 (51)Int.Cl. H04N 21/845(2011.01) H04N 21/44(2011.01) (54)发明名称 视频片段定位方法、 装置、 计算机设备及存 储。
2、介质 (57)摘要 本发明公开了一种视频片段定位方法、 装 置、 计算机设备及存储介质, 属于视频处理技术 领域。 本发明通过视频识别模型获取目标视频的 多个视频帧特征和目标文本的文本特征, 确定一 个可以与目标文本匹配的候选片段, 并基于候选 片段中的视频帧与目标文本的匹配程度, 对候选 片段进行精细划分, 得到多个子片段, 将与目标 文本匹配程度最高的子片段作为目标视频片段。 这种通过多次特征匹配, 对获取的候选片段进行 再次划分, 从而确定目标视频片段的方式, 使视 频识别模型无需学习目标视频片段的边界特征, 在模型训练时也就无需对样本视频进行精确标 注, 缩短了视频识别模型的训练周期,。
3、 避免出现 因样本视频标注不准确而造成的模型输出结果 准确率低的问题。 权利要求书2页 说明书17页 附图5页 CN 110121118 A 2019.08.13 CN 110121118 A 1.一种视频片段定位方法, 其特征在于, 所述方法包括: 基于目标视频中多个视频帧和目标文本, 从所述目标视频中确定候选片段, 所述候选 片段与所述目标文本之间的匹配度符合第一匹配条件; 基于所述候选片段中多个视频帧与所述目标文本, 从所述候选片段中确定至少一个子 片段, 所述至少一个子片段所包含的视频帧与所述目标文本之间的匹配度符合第二匹配条 件; 将所述至少一个子片段中与所述目标文本之间匹配度符合目。
4、标条件的子片段确定为 目标视频片段。 2.根据权利要求1所述的方法, 其特征在于, 所述基于所述候选片段中多个视频帧与所 述目标文本, 从所述候选片段中确定至少一个子片段, 包括: 分别获取所述候选片段中多个视频帧的视频帧特征与所述文本特征之间的匹配度; 从所述多个视频帧中, 获取多个目标视频帧, 一个目标视频帧的视频帧特征与所述文 本特征之间的匹配度符合第二匹配条件; 基于所述多个目标视频帧中的至少一组连续视频帧, 确定所述至少一个子片段。 3.根据权利要求2所述的方法, 其特征在于, 所述基于所述多个目标视频帧中的至少一 组连续视频帧, 确定所述至少一个子片段包括: 对于每组连续视频帧, 。
5、以所述每组连续视频帧中的第一个视频帧作为起始视频帧, 以 最后一个视频帧作为结束帧, 得到所述每组连续视频帧对应的子片段。 4.根据权利要求2所述的方法, 其特征在于, 所述分别获取所述候选片段中多个视频帧 的视频帧特征与所述文本特征之间的匹配度包括: 对所述候选片段中多个视频帧的视频帧特征与所述文本特征分别进行映射至向量空 间, 对映射结果进行关键信息提取, 得到多个中间视频帧特征以及中间文本特征; 基于所述多个中间视频帧特征和所述中间文本特征, 确定多个视频帧的视频帧特征与 所述文本特征之间的匹配度。 5.根据权利要求1所述的方法, 其特征在于, 所述基于所述候选片段中多个视频帧与所 述目。
6、标文本, 从所述候选片段中确定至少一个子片段之前, 所述方法还包括: 基于所述候选片段在所述目标视频中的起始时刻和截止时刻, 对所述候选片段进行边 界扩展。 6.根据权利要求1所述的方法, 其特征在于, 所述基于目标视频中多个视频帧和目标文 本, 从所述目标视频中确定候选片段, 包括: 基于所述目标视频的多个视频片段中视频帧的视频帧特征, 获取多个第一视频特征, 一个第一视频特征用于表示一个视频片段的特征; 获取所述目标文本的文本特征; 分别获取所述多个第一视频特征与所述文本特征之间的匹配度, 将与所述文本特征之 间的匹配度符合第一匹配条件的第一视频特征对应的视频片段作为所述候选片段。 7.根。
7、据权利要求6所述的方法, 其特征在于, 所述多个视频片段中相邻两个视频片段之 间具有重叠部分。 8.根据权利要求6所述的方法, 其特征在于, 所述基于所述目标视频的多个视频片段中 视频帧的视频帧特征, 获取多个第一视频特征, 包括: 权利要求书 1/2 页 2 CN 110121118 A 2 分别对所述多个视频片段中视频帧的视频帧特征进行映射, 对各个视频片段中映射后 的视频帧特征进行最大池化处理, 得到所述多个第一视频特征。 9.根据权利要求6所述的方法, 其特征在于, 所述获取所述目标文本的文本特征, 包括: 将所述目标文本输入长短时记忆网络; 获取所述长短时记忆网络生成的多个目标隐层状。
8、态作为所述目标文本的文本特征。 10.一种视频片段定位装置, 其特征在于, 所述装置包括: 候选片段确定模块, 用于基于目标视频中多个视频帧和目标文本, 从所述目标视频中 确定候选片段, 所述候选片段与所述目标文本之间的匹配度符合第一匹配条件; 子片段确定模块, 用于基于所述候选片段中多个视频帧与所述目标文本, 从所述候选 片段中确定至少一个子片段, 所述至少一个子片段所包含的视频帧与所述目标文本之间的 匹配度符合第二匹配条件; 目标视频片段确定模块, 用于将所述至少一个子片段中与所述目标文本之间匹配度符 合目标条件的子片段确定为目标视频片段。 11.根据权利要求10所述的装置, 其特征在于,。
9、 所述子片段确定模块用于: 分别获取所述候选片段中多个视频帧的视频帧特征与所述文本特征之间的匹配度; 从所述多个视频帧中, 获取多个目标视频帧, 一个目标视频帧的视频帧特征与所述文 本特征之间的匹配度符合第二匹配条件; 基于所述多个目标视频帧中的至少一组连续视频帧, 确定所述至少一个子片段。 12.根据权利要求11所述的装置, 其特征在于, 所述子片段确定模块用于: 对于每组连续视频帧, 以所述每组连续视频帧中的第一个视频帧作为起始视频帧, 以 最后一个视频帧作为结束帧, 得到所述每组连续视频帧对应的子片段。 13.根据权利要求11所述的装置, 其特征在于, 所述子片段确定模块用于: 对所述候。
10、选片段中多个视频帧的视频帧特征与所述文本特征分别进行映射至向量空 间, 对映射结果进行关键信息提取, 得到多个中间视频帧特征以及中间文本特征; 基于所述多个中间视频帧特征和所述中间文本特征, 确定多个视频帧的视频帧特征与 所述文本特征之间的匹配度。 14.一种计算机设备, 其特征在于, 所述计算机设备包括一个或多个处理器和一个或多 个存储器, 所述一个或多个存储器中存储有至少一条程序代码, 所述指令由所述一个或多 个处理器加载并执行以实现如权利要求1至权利要求9任一项所述的视频片段定位方法所 执行的操作。 15.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质中存储有至少一 条程。
11、序代码, 所述指令由处理器加载并执行以实现如权利要求1至权利要求9任一项所述的 视频片段定位方法所执行的操作。 权利要求书 2/2 页 3 CN 110121118 A 3 视频片段定位方法、 装置、 计算机设备及存储介质 技术领域 0001 本发明涉及视频处理技术领域, 特别涉及一种视频片段定位方法、 装置、 计算机设 备及存储介质。 背景技术 0002 随着视频应用的普及, 越来越多的视频出现在网络中, 当用户想观看视频中的一 个视频片段时, 可以基于一段能够描述该视频片段的文本信息对视频进行检索, 从而找到 想要观看的视频片段。 0003 目前, 在基于一段文本信息进行视频片段定位时, 。
12、需要将该文本信息和视频输入 视频识别模型, 该视频识别模型基于学习到的视频片段的边界特征, 输出能与该文本信息 匹配的视频片段。 这种视频识别模型在实际应用之前要通过大量样本视频进行训练, 在这 些样本视频中, 需要人工标注出视频片段的边界位置以及该视频片段对应的文本信息, 从 而使该视频识别模型在训练过程中能够学习到视频片段的边界特征, 但是, 人工数据标注 的方式操作繁琐, 耗时较长, 且标注精度较低, 会导致视频识别模型的训练周期较长, 训练 结果难以达到预期标准, 在应用过程中会影响视频片段定位的准确性。 发明内容 0004 本发明实施例提供了一种视频片段定位方法、 装置、 计算机设备。
13、及存储介质, 可以 解决相关技术中视频识别模型训练周期长且输出结果准确率低的问题。 该技术方案如下: 0005 一方面, 提供了一种视频片段定位方法, 该方法包括: 0006 基于目标视频中多个视频帧和目标文本, 从该目标视频中确定候选片段, 该候选 片段与该目标文本之间的匹配度符合第一匹配条件; 0007 基于该候选片段中多个视频帧与该目标文本, 从该候选片段中确定至少一个子片 段, 该至少一个子片段所包含的视频帧与该目标文本之间的匹配度符合第二匹配条件; 0008 将该至少一个子片段中与该目标文本之间匹配度符合目标条件的子片段确定为 目标视频片段。 0009 一方面, 提供了一种视频片段定。
14、位装置, 所述装置包括: 0010 候选片段确定模块, 用于基于目标视频中多个视频帧和目标文本, 从该目标视频 中确定候选片段, 该候选片段与该目标文本之间的匹配度符合第一匹配条件; 0011 子片段确定模块, 用于基于该候选片段中多个视频帧与该目标文本, 从该候选片 段中确定至少一个子片段, 该至少一个子片段所包含的视频帧与该目标文本之间的匹配度 符合第二匹配条件; 0012 目标视频片段确定模块, 用于将该至少一个子片段中与该目标文本之间匹配度符 合目标条件的子片段确定为目标视频片段。 0013 在一种可能实现方式中, 该子片段确定模块用于: 0014 分别获取该候选片段中多个视频帧的视频。
15、帧特征与该文本特征之间的匹配度; 说明书 1/17 页 4 CN 110121118 A 4 0015 从该多个视频帧中, 获取多个目标视频帧, 一个目标视频帧的视频帧特征与该文 本特征之间的匹配度符合第二匹配条件; 0016 基于该多个目标视频帧中的至少一组连续视频帧, 确定该至少一个子片段。 0017 在一种可能实现方式中, 该子片段确定模块用于: 0018 对于每组连续视频帧, 以该每组连续视频帧中的第一个视频帧作为起始视频帧, 以最后一个视频帧作为结束帧, 得到该每组连续视频帧对应的子片段。 0019 在一种可能实现方式中, 该子片段确定模块用于: 0020 对该候选片段中多个视频帧的。
16、视频帧特征与该文本特征分别进行映射至向量空 间, 对映射结果进行关键信息提取, 得到多个中间视频帧特征以及中间文本特征; 0021 基于该多个中间视频帧特征和该中间文本特征, 确定多个视频帧的视频帧特征与 该文本特征之间的匹配度。 0022 在一种可能实现方式中, 该装置还包括: 0023 边界扩展模块, 用于基于该候选片段在该目标视频中的起始时刻和截止时刻, 对 该候选片段进行边界扩展。 0024 在一种可能实现方式中, 该候选片段确定模块用于: 0025 基于该目标视频的多个视频片段中视频帧的视频帧特征, 获取多个第一视频特 征, 一个第一视频特征用于表示一个视频片段的特征; 0026 获。
17、取该目标文本的文本特征; 0027 分别获取该多个第一视频特征与该文本特征之间的匹配度, 将与该文本特征之间 的匹配度符合第一匹配条件的第一视频特征对应的视频片段作为该候选片段。 0028 在一种可能实现方式中, 该多个视频片段中相邻两个视频片段之间具有重叠部 分。 0029 在一种可能实现方式中, 该候选片段确定模块用于: 0030 分别对该多个视频片段中视频帧的视频帧特征进行映射, 对各个视频片段中映射 后的视频帧特征进行最大池化处理, 得到该多个第一视频特征。 0031 在一种可能实现方式中, 该候选片段确定模块用于: 0032 将该目标文本输入长短时记忆网络; 0033 获取该长短时记。
18、忆网络生成的多个目标隐层状态作为该目标文本的文本特征。 0034 一方面, 提供了一种计算机设备, 该计算机设备包括一个或多个处理器和一个或 多个存储器, 该一个或多个存储器中存储有至少一条程序代码, 该指令由该一个或多个处 理器加载并执行以实现该视频片段定位方法所执行的操作。 0035 一方面, 提供了一种计算机可读存储介质, 该计算机可读存储介质中存储有至少 一条程序代码, 该指令由处理器加载并执行以实现该视频片段定位方法所执行的操作。 0036 本发明实施例提供的技术方案, 通过视频识别模型获取目标视频中各个视频帧的 视频帧特征和目标文本的文本特征, 确定一个可以与该目标文本匹配的候选片。
19、段, 并基于 该候选片段中包含的视频帧与目标文本的匹配程度, 对该视频片段进行精细划分, 得到多 个子片段, 确定一个与目标文本匹配程度最高的子片段作为目标视频片段。 这种通过多次 特征匹配, 对选取的候选片段进行再次划分, 从而准确获取到目标视频片段的方式, 使视频 识别模型无需对目标视频片段的边界特征进行学习, 也就无需对样本视频进行精确标注, 说明书 2/17 页 5 CN 110121118 A 5 缩短了视频识别模型的训练周期, 避免出现因样本视频标注不准确而造成的模型输出结果 准确率低的问题。 附图说明 0037 为了更清楚地说明本发明实施例中的技术方案, 下面将对实施例描述中所需。
20、要使 用的附图作简单地介绍, 显而易见地, 下面描述中的附图仅仅是本发明的一些实施例, 对于 本领域普通技术人员来讲, 在不付出创造性劳动的前提下, 还可以根据这些附图获得其他 的附图。 0038 图1是本发明实施例提供的一种视频识别系统的结构框图; 0039 图2是本发明实施例提供的一种视频片段定位方法的流程图; 0040 图3是本发明实施例提供的一种双向长短时记忆网络的结构示意图; 0041 图4是本发明实施例提供的一种视频片段定位方法的框架图; 0042 图5是本发明实施例提供的一种视频片段定位装置结构示意图; 0043 图6是本发明实施例提供的一种终端的结构示意图; 0044 图7是本。
21、发明实施例提供的一种服务器的结构示意图。 具体实施方式 0045 为使本发明的目的、 技术方案和优点更加清楚, 下面将结合附图对本发明实施方 式作进一步地详细描述。 0046 图1是本发明实施例提供的一种视频识别系统的结构框图。 该视频识别系统100包 括: 终端110和视频识别平台140。 0047 终端110通过无线网络或有线网络与视频识别平台110相连。 终端110可以是智能 手机、 游戏主机、 台式计算机、 平板电脑、 电子书阅读器、 MP3播放器、 MP4播放器和膝上型便 携计算机中的至少一种。 终端110安装和运行有支持视频识别的应用程序。 该应用程序可以 是视频检索类应用程序等。。
22、 示例性的, 终端110是用户使用的终端, 终端110中运行的应用程 序内登录有用户账号。 0048 终端110通过无线网络或有线网络与视频识别平台140相连。 0049 视频识别平台140包括一台服务器、 多台服务器、 云计算平台和虚拟化中心中的至 少一种。 视频识别平台140用于为支持视频识别的应用程序提供后台服务。 可选地, 视频识 别平台140承担主要识别工作, 终端110承担次要识别工作; 或者, 视频识别平台140承担次 要识别工作, 终端110承担主要识别工作; 或者, 视频识别平台140或终端110分别可以单独 承担识别工作。 0050 可选地, 视频识别平台140包括: 接入。
23、服务器、 视频识别服务器和数据库。 接入服务 器用于为终端110提供接入服务。 视频识别服务器用于提供视频识别有关的后台服务。 视频 识别服务器可以是一台或多台。 当视频识别服务器是多台时, 存在至少两台视频识别服务 器用于提供不同的服务, 和/或, 存在至少两台视频识别服务器用于提供相同的服务, 比如 以负载均衡方式提供同一种服务, 本发明实施例对此不加以限定。 视频识别服务器中可以 设置有视频识别模型。 0051 终端110可以泛指多个终端中的一个, 本实施例仅以终端110来举例说明。 说明书 3/17 页 6 CN 110121118 A 6 0052 本领域技术人员可以知晓, 上述终端。
24、的数量可以更多或更少。 比如上述终端可以 仅为一个, 或者上述终端为几十个或几百个, 或者更多数量, 此时上述视频识别系统还包括 其他终端。 本申请实施例对终端的数量和设备类型不加以限定。 0053 本发明主要是一种基于弱监督学习的通过自然语言在视频中进行片段定位的方 法。 本发明可用于通过自然语言来对数据库中的视频进行片段定位。 具体而言, 给定一个句 子和一个长视频, 本发明的技术方案可以在长视频中截取出一个片段, 该片段与给定的句 子之间存在匹配的语义关系; 在训练的过程当中, 本发明的技术方案不需要精确的片段标 注信息。 本发明的技术方案提出了一个从粗略到精确的模型来处理这个问题。 首。
25、先, 使用神 经网络和词向量模型分别对视频中的单帧图像及自然语言进行特征提取; 在粗略阶段, 使 用滑动窗口的方法产生一系列固定的候选区域, 将这些候选区域的特征和句子特征进行匹 配, 从中选择最匹配的候选区域; 在精确阶段, 将粗略匹配结果中的每一帧的特征和句子进 行匹配, 从而得到每一帧特征和句子之间的匹配关系, 最后通过聚类的方法得到最后精确 的匹配结果。 具体地, 通过下述图2所示的实施例来对上述技术方案进行详细介绍: 0054 图2是本发明实施例提供的一种视频片段定位方法的流程图, 该方法可以应用于 上述终端或者服务器, 而终端和服务器均可以视为一种计算机设备, 因此, 本发明实施例。
26、基 于计算机设备作为执行主体来进行介绍, 参见图2, 该实施例具体可以包括以下步骤: 0055 201、 计算机设备获取基于目标视频的多个视频片段中视频帧的视频帧特征, 获取 多个第一视频特征, 一个第一视频特征用于表示一个视频片段的特征。 0056 其中, 该目标视频可以为存储在计算机设备中的视频, 也可以为该计算机设备从 服务器中获取的视频, 还可以为具备视频采集功能的计算机设备实时采集的视频, 本发明 实施例对具体采用哪种视频不做限定。 0057 在本发明实施例中, 该计算机设备可以通过视频识别模型对该目标视频进行特征 提取, 该视频识别模型可以为基于深度神经网络构建的模型, 例如, 该。
27、深度神经网络可以为 RNN(Recurrent Neural Network, 循环神经网络)、 CNN(Convolutional Neural Networks, 卷积神经网络)等。 该计算机设备基于视频识别模型获取该目标视频中多个视频片段的第 一视频特征, 具体可以包括以下步骤: 0058 步骤一、 该计算机设备通过该视频识别模型对该目标视频中各个视频帧进行特征 提取, 获取多个视频帧特征。 0059 在一种可能实现方式中, 该视频识别模型可以包括一个特征编码器, 该特征编码 器由至少一个卷积神经网络和至少一个双向长短时记忆网络构成, 该计算机设备可以通过 该至少一个卷积神经网络对该目标。
28、视频中的各个视频帧进行初步特征提取, 获取多个视频 帧的卷积特征, 再通过该至少一个长短时记忆网络对该多个视频帧的卷积特征进行进一步 特征提取, 获取多个视频帧的视频帧特征。 0060 具体地, 以一个卷积神经网络为例对上述初步特征提取的过程进行说明, 该计算 机设备对该目标视频中的各个视频帧进行预处理, 将该每个视频帧转换为由一组像素值组 成的数字矩阵, 将该各个视频帧对应的数字矩阵输入卷积神经网络, 该卷积神经网络可以 包括至少一个卷积层, 该卷积层可以分别与每一个视频帧对应的数字矩阵进行卷积运算, 一个卷积运算结果可以用于表示一个视频帧的特征图, 该计算机设备获取该卷积神经网络 中最后一。
29、个卷积层输出的多个特征图作为该各个视频帧的卷积特征。 以一个卷积层为例对 说明书 4/17 页 7 CN 110121118 A 7 上述卷积运算过程进行说明, 一个卷积层可以包括一个或多个卷积核, 每个卷积核对应一 个扫描窗口, 该扫描窗口的大小与该卷积核的大小相同, 在卷积核进行卷积运算的过程中, 该扫描窗口可以按照目标步长在特征图上滑动, 依次扫描该特征图的各个区域, 其中, 该目 标步长可以由开发人员进行设置。 以一个卷积核为例, 在卷积运算的过程中, 当该卷积核的 扫描窗口滑动至特征图的任一区域时, 该计算机设备读取该区域中各个特征点对应的数 值, 将该卷积核与该各个特征点对应的数值。
30、进行点乘运算, 再对各个乘积进行累加, 将累加 结果作为一个特征点。 之后, 该卷积核的扫描窗口按照目标步长滑动至特征图的下一区域, 再次进行卷积运算, 输出一个特征点, 直至该特征图的全部区域扫描完毕, 将输出的全部特 征点组成一个特征图, 作为下一个卷积层的输入。 0061 该计算机设备通过上述初步特征提取过程获取到该目标视频的卷积特征C, 可以 表示为下述公式(1): 0062 0063 其中, ct表示该目标视频中第t个视频帧的卷积特征, T表示该目标视频中包含视 频帧的数目, 其中, T为大于0的整数, t为大于0且小于等于T的整数。 0064 需要说明的是, 上述卷积神经网络中卷积。
31、层的数目以及每个卷积层中卷积核的数 目均可以由开发人员设置。 0065 为便于后续该视频识别模型对各个视频帧进行进一步特征提取, 该计算机设备将 获取的各个视频帧的卷积特征映射至向量空间, 将第t个视频帧的卷积特征ct分别转换为 目标维度的特征向量xt, 其中, 该目标维度可以由开发人员进行设置。 在一种可能实现方式 中, 该计算机设备可以通过一个全连接层将卷积特征ct映射为特征向量xt。 0066 该计算机设备将该全连接层输出的特征向量xt输入双向长短时记忆网络, 对该目 标视频中各个视频帧进行进一步特征提取, 获取该各个视频帧的视频帧特征。 其中, 该双向 长短时记忆网络可以包括输入单元、。
32、 输出单元和隐层单元, 该输入单元可以获取特征向量 xt, 将其输入隐层单元, 该隐层单元可以对该特征向量xt和上一个隐层单元的隐层状态ht-1 进行加权运算, 生成该特征向量xt对应的隐层状态ht, 该输出单元可以对该隐层状态ht进行 加权运算并输出。 该双向长短时记忆网络可以同时进行前向运算和后向运算, 对于输入的 特征向量xt, 在前向运算中, 一个隐层单元可以基于前一个隐层单元的隐层状态ht-1, 生成 隐层状态ht, 在后向运算中, 一个隐层单元可以基于后一个隐层单元的隐层状态ht+1, 生成 隐层状态ht。 该计算机设备获取该双向长短时记忆网络前向运算过程中输出的最后一个隐 层状态。
33、和后向运算过程中输出的最后一个隐层状态将隐层状态和隐层状态 进行拼接, 将拼接后的隐层状态作为一个视频帧的视频帧特征上述视频帧特征的获取 过程可以表述为下述公式(2)、 (3)和(4): 0067 0068 0069 说明书 5/17 页 8 CN 110121118 A 8 0070其中, xt表示输入向量,表示该双向长短时记忆网络的前向运算过程, 表示前向运算中获取的隐层状态,表示该双向长短时记忆网络的后向运算过 程, 表示后向运算中获取的隐层状态,表示前一个隐层单元的隐层状态,后一 个隐层单元的隐层状态, 其中, t为大于0的整数。 0071 参见图3, 图3是本发明实施例提供的一种双向。
34、长短时记忆网络的结构示意图, 该 双向长短时记忆网络可以包括输入单元301、 隐层单元302以及输出单元303。 0072 该计算机设备获取到该目标视频对应的一组视频帧特征Hv可以表述为下述公式 (5): 0073 0074其中,表示该目标视频中第t个视频帧的视频帧特征, T表示该目标视频中包含 视频帧的数目。 0075 步骤二、 该计算机设备通过该视频识别模型基于多尺度的滑动窗口获取该目标视 频中的多个视频片段, 该多个视频片段中相邻两个视频片段之间具有重叠部分。 0076 在本发明实施例中, 该计算机设备可以通过多个滑动窗口对该目标视频的各个区 域进行扫描, 将一个滑动窗口的覆盖区域中的多。
35、个视频帧获取为一个视频片段, 在一个视 频片段获取完成后, 该滑动窗口可以按照滑动步长进行滑动, 继续扫描该目标视频中的下 一个区域。 其中, 滑动窗口的数目、 大小和滑动步长均可以由开发人员设置。 0077 该计算机设备将获取的第k个视频片段标记为pk, 视频片段pk可以表示为下述公式 (6): 0078 0079其中, 表示第k个视频片段的起始时刻, 表示该第k个视频片段的结束时刻, 该起始时刻和结束时刻的取值均大于等于0, 且该起始时刻的取值小于该结束时刻 的取值。 0080 上述具有重叠部分的视频片段可以保证片段之间的自然过渡, 当然, 计算机设备 还可以通过上述步骤二获取到不具有重叠。
36、部分的多个视频片段, 本发明实施例对此不做限 定。 0081 步骤三、 该计算机设备可以分别对该多个视频片段中视频帧的视频帧特征进行映 射, 对各个视频片段中映射后的视频帧特征进行最大池化处理, 得到该多个第一视频特征。 0082 在本发明实施例中, 该计算机设备可以通过一个全连接层对多个视频片段中视频 帧的视频帧特征进行映射, 将第t个视频帧的视频帧特征转换为特征向量该计算机 设备对该视频片段对应的一组特征向量沿时间维度进行最大池化处理, 将各个视 频片段对应的一组向量转换为特定维度的向量将该特定维度的向量作为该 视频片段的第一视频特征。 上述对该视频片段对应的一组向量进行最大池化处理的方法。
37、, 说明书 6/17 页 9 CN 110121118 A 9 可以使不同时间长度的视频片段对应于相同维度的向量, 便于该计算机设备进行后续运算 过程。 0083 202、 该计算机设备获取该目标文本的文本特征。 0084 其中, 该目标文本可以为用于描述一个视频片段的一段文本, 例如, 用户在进行视 频片段检索时输入的一段文本。 0085 在本发明实施例中, 该计算机可以基于长短时记忆网络对该目标文本进行特征提 取, 具体可以包括以下步骤: 0086 步骤一、 该计算机设备可以将该目标文本输入长短时记忆网络。 0087 该计算机设备获取到目标文本后, 需要将该目标文本转换为一组特征向量, 以。
38、便 于后续对该目标文本进行特征提取, 在一种可能实现方式中, 该计算机设备可以通过词向 量将该目标文本中的各个单词进行初始化, 将每个单词对应于一个特征向量wn, 该目标文 本可以表示为一组特征向量N为该目标文本中包含的单词数目, n为该目标文本 中各个单词的序号, N为大于0的整数, n为大于0小于等于N的整数。 其中, 该词向量可以由计 算机设备生成, 该词向量的维度可以由开发人员设置。 0088该计算机设备将该目标文本对应的一组特征向量输入该双向长短时记 忆网络进行特征提取。 0089 步骤二、 该计算机设备获取该长短时记忆网络生成的多个目标隐层状态作为该目 标文本的文本特征。 0090。
39、 在本发明实施例中, 该长短时记忆网络可以为双向长短时记忆网络, 以便在文本 特征提取时, 可以充分考虑前后文信息, 提高文本特征提取的准确性。 0091 该计算机设备基于该双向长短时记忆网络获取文本特征的具体方法与步骤201中 基于双向长短时网络获取视频帧特征的方法同理, 在此不做赘述。 该计算机设备将获取到 的文本特征标记为hs, 该文本特征hs的获取方式可以表述为下述公式(7)、 (8)和(9): 0092 0093 0094 0095其中, wn表示单词的特征向量,表示该双向长短时记忆网络的前向运算 过程,表示前向运算中获取的隐层状态,表示该双向长短时记忆网络的后向 运算过程,表示后向。
40、运算中获取的隐层状态,表示前一个隐层单元的隐层状态, 表示后一个隐层单元的隐层状态。 其中, n为大于0的整数。 0096 该计算机设备通过编码器完成对该目标视频与该目标文本的编码过程, 生成该目 标视频的多个视频帧特征与目标文本的文本特征。 0097 在本发明实施例中, 采用先获取视频片段的特征, 再获取文本特征的执行顺序进 行描述, 但是在一些实施例中, 还可以先获取文本特征, 再获取视频片段的特征, 或者两个 说明书 7/17 页 10 CN 110121118 A 10 步骤同时进行, 本发明实施例对此不做具体限定。 0098 203、 该计算机设备分别获取该多个第一视频特征与该文本特。
41、征之间的匹配度, 将 与该文本特征之间的匹配度符合第一匹配条件的第一视频特征对应的视频片段作为该候 选片段。 0099 该计算机设备基于该多个第一视频特征与该文本特征获取候选片段, 具体可以包 括以下步骤: 0100 步骤一、 该计算机设备基于该多个第一视频特征与该文本特征, 确定该多个第一 视频特征与该文本特征之间的匹配度。 0101 为提高匹配结果的准确性, 该计算机设备在将该多个第一视频特征与该文本特征 进行匹配之前, 可以对该多个第一视频特征与该文本特征中进行关键信息提取。 在本发明 实施例中, 该计算机设备可以通过门控操作进行关键信息提取, 该门控操作可以通过 sigmoid函数实现。
42、, 该计算机设备可以通过该sigmoid函数中的多个参数来过滤该多个第一 视频特征和该文本特征中的无关信息, 将该sigmoid函数的运算结果分别与该多个第一视 频特征和该文本特征进行点乘运算, 得到第一视频特征和文本特征上述对该多个第 一视频特征与该文本特征中进行关键信息提取的过程可以表述为下述公式(10)、 (11)、 (12)和(13): 0102 0103 0104 0105 0106 其中, 表示sigmoid(S型生长曲线)函数, Wv、 Ws、 bv和bs分别表示一个参数值, Wv、 Ws、 bv和bs均可以通过模型的训练过程获得,“|” 表示对两个序列进行拼接。“” 表示点乘运。
43、 算, gv和gs表示该计算机设备对该视频特征和文本特征进行加权运算后得到的矩阵。 0107该计算机设备可以基于匹配函数 来确定各个视频片段与该目标文本之间的匹配 度, 该匹配函数可以有多种实现方式, 在本发明实施例中, 该匹配函数可以通过以下方 式确定该各个视频片段与该目标文本之间的匹配度, 首先, 该匹配函数对视频片段pk对应 的特征以及该目标文本对应的特征中对应位置的元素相加, 得到第一运算结果, 将视 频片段pk对应的特征以及该目标文本对应的特征中对应位置的元素相乘, 得到第二运 算结果, 将视频片段pk对应的特征以及该目标文本对应的特征进行拼接, 得到第三运 算结果, 然后, 将该第。
44、一运算结果、 该第二运算结果和该第三运算结果进行拼, 得到第四运 算结果, 最后, 通过一个全连接层将该第四运算结果映射为一个数值, 该数值用于指示该视 频片段pk与该目标文本之间的匹配度。 0108 步骤二、 该计算机设备将将与该文本特征之间的匹配度符合第一匹配条件的第一 视频特征对应的视频片段作为该候选片段。 0109 该计算机设备获取该目标视频中各个视频片段与该目标文本之间的多个匹配度, 说明书 8/17 页 11 CN 110121118 A 11 将该多个匹配度按照数值大小进行排序, 将与该目标文本之间的匹配度数值最大的视频片 段作为候选片段, 该计算机设备可以将该候选片段标记为pc。
45、。 0110 该计算机设备通过该目标视频中各个视频帧的视频帧特征与文本特征之间的粗 略交互, 完成粗略定位过程, 从该目标视频中获取一个候选片段。 0111 需要说明的是上述步骤201到步骤203是基于目标视频中多个视频帧和目标文本, 从该目标视频中确定候选片段, 该候选片段与该目标文本之间的匹配度符合第一匹配条件 的过程。 0112 204、 该计算机设备基于该候选片段中多个视频帧与该目标文本, 从该候选片段中 确定至少一个子片段, 该至少一个子片段所包含的视频帧与该目标文本之间的匹配度符合 第二匹配条件。 0113 为提高视频片段定位结果的准确定, 该计算机设备在从该候选片段中获取至少一 。
46、个子片段之前, 该计算机设备可以对该候选片段进行边界扩展, 以获取一个包含更多视频 帧候选片段。 在一种可能实现方式中, 该计算机设备可以基于该候选片段在该目标视频中 的起始时刻和截止时刻, 对该候选片段进行边界扩展。 具体地, 该计算机设备可以通过边界 扩展函数来对该候选片段进行边界扩展, 该边界扩展函数可以基于候选片段的时长以及候 选片段时起止时刻对该候选片段的边界进行调整, 该边界扩展函数可以表述为下述公式 (14): 0114 0115 其中, l表示候选片段pc的长度; lv表示候选片段的时长; 表示一个用于控制边 界扩展程度的数值, 该数值可以由开发人员进行设置, 也可以通过该视频。
47、识别模型的训练 过程获得。 0116 该计算机设备可以将边界扩展后的候选片段标记为pc, 该候选片段pc的起始时 刻为截止时刻为 0117 该计算机设备从该边界扩展后的候选片段pc中确定至少一个子片段, 具体可以 包括以下步骤: 0118 步骤一、 该计算机设备分别获取该候选片段中多个视频帧的视频帧特征与该文本 特征之间的匹配度。 0119 该计算机设备将该候选片段中多个视频帧的视频帧特征与该文本特征分别进行 映射至向量空间, 对映射结果进行关键信息提取, 得到多个中间视频帧特征以及中间文本 特征。 0120 在一种可能实现方式中, 该计算机设备可以通过一个全连接层将该候选片段中t 时刻视频帧。
48、的视频帧特征映射为向量将该文本特征hs映射为向量该计算机设备 可以通过门控操作对该全连接层的映射结果进行关键信息提取, 得到各个视频帧的中间视 频帧特征以及目标文本的中间文本特征该门控操作与步骤203中应用的门控操作同 理, 在此不做赘述。 0121 该计算机设备基于该多个中间视频帧特征和该中间文本特征, 确定多个视频帧的 说明书 9/17 页 12 CN 110121118 A 12 视频帧特征与该文本特征之间的匹配度。 在本发明实施例中, 该计算机设备可以基于匹配 函数来确定各个视频片段与该目标文本之间的匹配度, 该匹配函数的具体实现方式与 步骤203中匹配函数 的实现方式相同, 在此不做。
49、赘述。 0122 步骤二、 该计算机设备从该多个视频帧中, 获取多个目标视频帧, 一个目标视频帧 的视频帧特征与该文本特征之间的匹配度符合第二匹配条件。 0123 在一种可能实现方式中, 该计算机设备可以对上述多个视频帧的视频帧特征与该 文本特征之间的匹配度进行归一化处理, 使各个匹配度对应的数值的取值范围在0,1之 间。 该计算机设备可以通过分水岭算法对归一化后的匹配度进行聚类, 也即是可以通过分 水岭算获取该算法中部极小值的影响区域内的至少一个匹配度, 去除该至少一个匹配度对 应的视频帧, 将该视频片段中的剩余视频帧作为与该文本特征之间的匹配度符合第二匹配 条件的视频帧。 0124 步骤三。
50、、 该计算机设备基于该多个目标视频帧中的至少一组连续视频帧, 确定该 至少一个子片段。 0125 在一种可能实现方式中, 对于每组连续视频帧, 该计算机设备以该每组连续视频 帧中的第一个视频帧作为起始视频帧, 以最后一个视频帧作为结束帧, 得到该每组连续视 频帧对应的子片段。 该计算机设备可以将该子片段标记为pf, 该子片段pf的起始时刻为 截止时刻为 0126 205、 该计算机设备将该至少一个子片段中与该目标文本之间匹配度符合目标条 件的子片段确定为目标视频片段。 0127 上述步骤205具体可以包括以下步骤: 0128 步骤一、 该计算机设备获取各个子片段与该目标文本之间的匹配度。 01。
- 内容关键字: 视频 片段 定位 方法 装置 计算机 设备 存储 介质
快装预应力锚索.pdf
电池级碳酸锂制备用的烧结设备.pdf
研磨用高效除尘装置.pdf
新型罩杯间距可调的文胸.pdf
防卡板结构.pdf
卧式微波辅助酸碱预处理秸秆的装置.pdf
建筑工程用混凝土回弹仪的弹击杆校准装置.pdf
转移基膜纸及其制备系统、包装膜及其制备系统.pdf
防水卷材成卷后的捆扎装置.pdf
介质加载腔体滤波器.pdf
乳制品自动检测系统与智慧实验室.pdf
屠宰刀具全方位消毒器.pdf
循环气幕集气装置.pdf
含油污泥处理加药装置.pdf
Z轴带双R轴切换作业机构及点胶机.pdf
急诊实验室自动化样本处理及检测系统.pdf
零件3D扫描辅助旋转台.pdf
圆柱电池盖帽焊接工装.pdf
建筑施工土方开挖基坑防护装置.pdf
睡眠感知音乐理疗系统.pdf
自动计数立盒机.pdf
扬声器.pdf
电池钢壳清洗用滚筒机构.pdf
便携式应急LED灯.pdf
超声手术器械.pdf
胸腔镜镜头清洁装置.pdf
工业硅破碎除杂装置.pdf
具有多环境模拟功能的混凝土性能检测装置.pdf
自动纠偏修正的防水卷材绕卷装置.pdf
基于离心过滤洗涤的碳酸锂回收设备.pdf
绝缘电缆料生产设备.pdf
电厂脱硫废水的处理方法.pdf