视频数据处理方法和装置.pdf
《视频数据处理方法和装置.pdf》由会员分享,可在线阅读,更多相关《视频数据处理方法和装置.pdf(13页完成版)》请在专利查询网上搜索。
1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202010769394.2 (22)申请日 2020.08.03 (71)申请人 北京环境特性研究所 地址 100854 北京市海淀区永定路50号 (72)发明人 张樯李斌赵凯李司同 (74)专利代理机构 北京格允知识产权代理有限 公司 11609 代理人 周娇娇 (51)Int.Cl. G06K 9/00(2006.01) G06K 9/46(2006.01) G06N 3/04(2006.01) G06T 3/40(2006.01) G06T 5/50(2006.01) (。
2、54)发明名称 一种视频数据处理方法和装置 (57)摘要 本发明涉及一种视频数据处理方法和装置, 涉及图像处理技术领域。 该方法包括: 将当前帧 图像输入特征提取网络, 以得到所述当前帧图像 的特征图; 确定所述当前帧图像与历史帧图像之 间的光流信息, 根据所述光流信息将历史帧图像 的特征图与所述当前帧图像的特征图进行空间 对齐处理; 其中, 所述历史帧图像为视频中与所 述当前帧图像相邻的一帧或多帧图像; 对所述当 前帧图像的特征图与空间对齐处理后的历史帧 图像的特征图进行融合处理, 以得到融合后的特 征图; 对所述融合后的特征图进行目标关键点检 测, 以得到目标关键点检测结果。 通过以上步骤。
3、, 能够解决由于视频中广泛存在的运动模糊、 遮挡 等问题造成检测算法的性能急剧下降、 目标检测 结果不准确的问题。 权利要求书2页 说明书7页 附图3页 CN 111914756 A 2020.11.10 CN 111914756 A 1.一种视频数据处理方法, 其特征在于, 所述方法包括: 将当前帧图像输入特征提取网络, 以得到所述当前帧图像的特征图; 确定所述当前帧图像与历史帧图像之间的光流信息, 根据所述光流信息将历史帧图像 的特征图与所述当前帧图像的特征图进行空间对齐处理; 其中, 所述历史帧图像为视频中 与所述当前帧图像相邻的一帧或多帧图像; 对所述当前帧图像的特征图与空间对齐处理后。
4、的历史帧图像的特征图进行融合处理, 以得到融合后的特征图; 对所述融合后的特征图进行目标关键点检测, 以得到目标关键点检测结果。 2.根据权利要求1所述的方法, 其特征在于, 所述确定所述当前帧图像与历史帧图像之 间的光流信息包括: 将所述当前帧图像与历史帧图像输入光流信息提取网络, 以得到所述当前帧图像与历 史帧图像之间的光流信息; 其中, 所述光流信息提取网络基于卷积神经网络构建。 3.根据权利要求1所述的方法, 其特征在于, 所述根据所述光流信息将历史帧图像的特 征图与所述当前帧图像的特征图进行空间对齐处理包括: 通过双线性插值将对所述历史帧图像与所述当前帧的光流信息进行缩放, 以使缩放。
5、后 的光流信息与所述特征图的尺寸相同; 根据缩放后的光流信息对历史帧图像的特征图与所 述当前帧图像的特征图进行空间对齐。 4.根据权利要求2所述的方法, 其特征在于, 所述方法还包括: 在所述对所述当前帧图像的特征图与空间对齐处理后的历史帧图像的特征图进行融 合处理之前, 根据所述光流信息提取网络输出的尺度场对所述空间对齐后的历史帧图像的 特征图进行细化处理。 5.根据权利要求4所述的方法, 其特征在于, 所述对所述当前帧图像的特征图与空间对 齐处理后的历史帧图像的特征图进行融合处理, 以得到融合后的特征图包括: 将当前帧图像的特征图与细化处理后的历史帧图像的特征图输入时域特征融合网络, 以得。
6、到融合后的特征图。 6.根据权利要求1所述的方法, 其特征在于, 所述方法还包括: 在所述对所述融合后的特征图进行目标关键点检测, 以得到目标关键点检测结果之 后, 根据所述目标关键点检测结果对目标的姿态进行估计。 7.一种视频数据处理装置, 其特征在于, 所述装置包括: 特征提取模块, 用于将当前帧图像输入特征提取网络, 以得到所述当前帧图像的特征 图; 特征对齐模块, 用于确定所述当前帧图像与历史帧图像之间的光流信息, 根据所述光 流信息将历史帧图像的特征图与所述当前帧图像的特征图进行空间对齐处理; 其中, 所述 历史帧图像为视频中与所述当前帧图像相邻的一帧或多帧图像; 融合处理模块, 用。
7、于对所述当前帧图像的特征图与空间对齐处理后的历史帧图像的特 征图进行融合处理, 以得到融合后的特征图; 检测模块, 用于对所述融合后的特征图进行目标关键点检测, 以得到目标关键点检测 结果。 8.根据权利要求7所述的装置, 其特征在于, 所述特征对齐模块确定所述当前帧图像与 权利要求书 1/2 页 2 CN 111914756 A 2 历史帧图像之间的光流信息包括: 所述特征对齐模块将所述当前帧图像与历史帧图像输入光流信息提取网络, 以得到所 述当前帧图像与历史帧图像之间的光流信息; 其中, 所述光流信息提取网络基于卷积神经 网络构建。 9.根据权利要求7所述的装置, 其特征在于, 所述特征对。
8、齐模块根据所述光流信息将历 史帧图像的特征图与所述当前帧图像的特征图进行空间对齐处理包括: 所述特征对齐模块通过双线性插值将对所述历史帧图像与所述当前帧的光流信息进 行缩放, 以使缩放后的光流信息与所述特征图的尺寸相同; 所述特征对齐模块根据缩放后 的光流信息对历史帧图像的特征图与所述当前帧图像的特征图进行空间对齐。 10.根据权利要求8所述的装置, 其特征在于, 所述特征对齐模块, 还用于根据所述光流 信息提取网络输出的尺度场对所述空间对齐后的历史帧图像的特征图进行细化处理。 权利要求书 2/2 页 3 CN 111914756 A 3 一种视频数据处理方法和装置 技术领域 0001 本发明。
9、涉及图像处理技术领域, 尤其涉及一种视频数据处理方法和装置。 背景技术 0002 人体关键点检测研究的是如何对图像中人体的各个关键点进行准确地识别与定 位, 它是动作识别、 人机交互等诸多计算机视觉应用的基础。 0003 随着深度学习的发展, 深度神经网络被应用在人体关键点检测上, 并且大大提高 了人体关键点检测的准确率。 当前, 根据是否需要先检测全局人体可将人体关键点检测算 法分为 “自底向上” 和 “自顶向下” 两种。 其中,“自底向上” 算法不需要先检测图像中的全局 人体, 它是直接利用神经网络先检测图像中可能存在的关键点, 之后对这些关键点进行聚 类、 去除冗余连接, 最后将每一个检。
10、测到的关键点匹配到具体的一个人。“自顶向下” 算法需 要先采用faster rcnn、 yolo等通用目标检测算法检测出图像中的每一个全局人体, 然后根 据得到的检测框对图像进行剪裁, 从而将一幅多人图像剪裁成多幅单人图像, 之后再对每 一幅单人图像再进行关键点检测。 0004 在实现本发明的过程中, 本发明的发明人发现: 无论是 “自底向上” 还是 “自顶向 下” 算法, 当前的研究多集中在单帧图像方面。 在现有技术中, 处理视频数据时大都只是简 单的将视频分解为若干帧, 再利用单帧检测算法进行逐帧处理, 即将视频中的每一帧作为 独立的图像处理。 这种简单、 粗暴的处理方式没有利用帧间的时域。
11、信息, 无法解决视频中广 泛存在的运动模糊、 遮挡等问题。 当视频中的某一帧存在运动模糊或者遮挡时, 单帧检测算 法的性能会急剧下降。 0005 因此, 针对以上不足, 需要提供一种新的视频数据处理方法和装置, 以提高视频中 目标的检测准确性。 发明内容 0006 (一)要解决的技术问题 0007 本发明要解决的技术问题是解决现有利用单帧检测算法对视频进行逐帧处理时 由于视频中广泛存在的运动模糊、 遮挡等问题造成检测算法的性能急剧下降、 目标检测结 果不准确的问题。 0008 (二)技术方案 0009 为了解决上述技术问题, 一方面, 本发明提供了一种视频数据处理方法。 0010 本发明的视频。
12、数据处理方法包括: 将当前帧图像输入特征提取网络, 以得到所述 当前帧图像的特征图; 确定所述当前帧图像与历史帧图像之间的光流信息, 根据所述光流 信息将历史帧图像的特征图与所述当前帧图像的特征图进行空间对齐处理; 其中, 所述历 史帧图像为视频中与所述当前帧图像相邻的一帧或多帧图像; 对所述当前帧图像的特征图 与空间对齐处理后的历史帧图像的特征图进行融合处理, 以得到融合后的特征图; 对所述 融合后的特征图进行目标关键点检测, 以得到目标关键点检测结果。 说明书 1/7 页 4 CN 111914756 A 4 0011 可选地, 所述确定所述当前帧图像与历史帧图像之间的光流信息包括: 将所。
13、述当 前帧图像与历史帧图像输入光流信息提取网络, 以得到所述当前帧图像与历史帧图像之间 的光流信息; 其中, 所述光流信息提取网络基于卷积神经网络构建。 0012 可选地, 所述根据所述光流信息将历史帧图像的特征图与所述当前帧图像的特征 图进行空间对齐处理包括: 通过双线性插值将对所述历史帧图像与所述当前帧的光流信息 进行缩放, 以使缩放后的光流信息与所述特征图的尺寸相同; 根据缩放后的光流信息对历 史帧图像的特征图与所述当前帧图像的特征图进行空间对齐。 0013 可选地, 所述方法还包括: 在所述对所述当前帧图像的特征图与空间对齐处理后 的历史帧图像的特征图进行融合处理之前, 根据所述光流信。
14、息提取网络输出的尺度场对所 述空间对齐后的历史帧图像的特征图进行细化处理。 0014 可选地, 所述对所述当前帧图像的特征图与空间对齐处理后的历史帧图像的特征 图进行融合处理, 以得到融合后的特征图包括: 将当前帧图像的特征图与细化处理后的历 史帧图像的特征图输入时域特征融合网络, 以得到融合后的特征图。 0015 可选地, 所述方法还包括: 在所述对所述融合后的特征图进行目标关键点检测, 以 得到目标关键点检测结果之后, 根据所述目标关键点检测结果对目标的姿态进行估计。 0016 为了解决上述技术问题, 另一方面, 本发明还提供了一种视频数据处理装置。 0017 本发明的视频数据处理装置包括。
15、: 特征提取模块, 用于将当前帧图像输入特征提 取网络, 以得到所述当前帧图像的特征图; 特征对齐模块, 用于确定所述当前帧图像与历史 帧图像之间的光流信息, 根据所述光流信息将历史帧图像的特征图与所述当前帧图像的特 征图进行空间对齐处理; 其中, 所述历史帧图像为视频中与所述当前帧图像相邻的一帧或 多帧图像; 融合处理模块, 用于对所述当前帧图像的特征图与空间对齐处理后的历史帧图 像的特征图进行融合处理, 以得到融合后的特征图; 检测模块, 用于对所述融合后的特征图 进行目标关键点检测, 以得到目标关键点检测结果。 0018 可选地, 所述特征对齐模块确定所述当前帧图像与历史帧图像之间的光流。
16、信息包 括: 所述特征对齐模块将所述当前帧图像与历史帧图像输入光流信息提取网络, 以得到所 述当前帧图像与历史帧图像之间的光流信息; 其中, 所述光流信息提取网络基于卷积神经 网络构建。 0019 可选地, 所述特征对齐模块根据所述光流信息将历史帧图像的特征图与所述当前 帧图像的特征图进行空间对齐处理包括: 所述特征对齐模块通过双线性插值将对所述历史 帧图像与所述当前帧的光流信息进行缩放, 以使缩放后的光流信息与所述特征图的尺寸相 同; 所述特征对齐模块根据缩放后的光流信息对历史帧图像的特征图与所述当前帧图像的 特征图进行空间对齐。 0020 可选地, 所述特征对齐模块, 还用于根据所述光流信。
17、息提取网络输出的尺度场对 所述空间对齐后的历史帧图像的特征图进行细化处理。 0021 (三)有益效果 0022 本发明的上述技术方案具有如下优点: 通过确定所述当前帧图像与历史帧图像之 间的光流信息, 根据所述光流信息将历史帧图像的特征图与所述当前帧图像的特征图进行 空间对齐处理, 能够消除帧间特征的空间误差, 提高视频检测结果的准确率; 进一步, 通过 对所述当前帧图像的特征图与空间对齐处理后的历史帧图像的特征图进行融合处理, 对融 说明书 2/7 页 5 CN 111914756 A 5 合后的特征图进行目标关键点检测, 能够提取帧间的时域信息来增强当前帧的特征, 进而 提高视频检测结果的。
18、准确率。 附图说明 0023 图1是本发明实施例一中的视频数据处理方法的主要流程示意图; 0024 图2是本发明实施例二中的视频数据处理方法的主要流程示意图; 0025 图3是本发明实施例三中的视频数据处理装置的主要组成模块示意图。 具体实施方式 0026 为使本发明实施例的目的、 技术方案和优点更加清楚, 下面将结合本发明实施例 中的附图, 对本发明实施例中的技术方案进行清楚、 完整地描述, 显然, 所描述的实施例是 本发明的一部分实施例, 而不是全部的实施例。 基于本发明中的实施例, 本领域普通技术人 员在没有做出创造性劳动的前提下所获得的所有其他实施例, 都属于本发明保护的范围。 002。
19、7 需要指出的是, 在不影响本发明实施的情况下, 本发明的实施例以及实施例中的 技术特征可以相互组合。 0028 实施例一 0029 图1是本发明实施例一中的视频数据处理方法的主要流程示意图。 如图1所示, 本 发明实施例提供的视频数据处理方法包括: 0030 步骤S101: 将当前帧图像输入特征提取网络, 以得到所述当前帧图像的特征图。 0031 其中, 当前帧图像为从待检测视频中提取的一帧图像。 在该步骤中, 将当前帧图像 输入特征提取网络, 以从当前帧图像中提取丰富的特征。 示例性地, 所述特征提取网络可采 用卷积神经网络, 比如VGG、 Resnet(残差网络)等网络。 0032 步骤。
20、S102: 确定所述当前帧图像与历史帧图像之间的光流信息, 根据所述光流信 息将历史帧图像的特征图与所述当前帧图像的特征图进行空间对齐处理。 0033 其中, 所述历史帧图像为视频中与所述当前帧图像相邻的一帧或多帧图像。 比如, 当前帧图像为视频中的第5帧图像, 可将视频中的第3帧图像和第4帧图像作为历史帧图像。 0034 光流估计是根据两个观测瞬间之间的物体表面、 形状等的变化从而计算出物体运 动变化的一种方法。 光流表征的是两幅图像间的运动信息, 它反映的是前一帧图像中的像 素运动到后一帧图像的瞬时速度。 0035 在一个可选示例中, 可基于深度学习算法确定当前帧图像与历史帧图像之间的光 。
21、流信息。 在该可选示例中, 可将所述当前帧图像与历史帧图像输入光流信息提取网络, 以得 到所述当前帧图像与历史帧图像之间的光流信息。 其中, 所述光流信息提取网络可基于卷 积神经网络构建。 具体实施时, 所述光流信息提取网络可采用Flownet、 Flownet2.0等网络。 在另一个可选示例中, 可基于传统的光流估计算法(比如Lucas-Kanade算法等)确定当前帧 图像与历史帧图像之间的光流信息。 0036 进一步, 在确定当前帧图像与历史帧图像之间的光流信息之后, 可基于该光流信 息将历史帧图像的特征图与当前帧图像的特征图进行空间对齐, 以得到空间对齐处理后的 历史帧图像的特征图。 0。
22、037 步骤S103: 对所述当前帧图像的特征图与空间对齐处理后的历史帧图像的特征图 说明书 3/7 页 6 CN 111914756 A 6 进行融合处理, 以得到融合后的特征图。 0038 示例性地, 在该步骤中, 可将当前帧图像的特征图与空间对齐处理后的历史帧图 像的特征图输入时域特征融合网络, 以得到融合后的特征图。 其中, 所述时序特征融合网络 可以为LSTM(Long Short-Term Memory, 长短期记忆网络)、 GRU(Gated Recurrent Units, 门控循环单元)、 ConvGRU等可用于时序特征融合的网络。 0039 步骤S104: 对所述融合后的特。
23、征图进行目标关键点检测, 以得到目标关键点检测 结果。 0040 示例性地, 在得到融合后的特征图之后, 可将融合后的特征图输入目标关键点检 测网络, 以输出目标关键点检测结果。 以目标为人体为例, 可将融合后的特征图输入人体关 键点检测模型, 以得到人体关键点检测结果。 例如, 在进行人体关键点检测时, 可采用Mask- RCNN中具体任务的子网络(包括8层3*3的卷积层)。 另外, 考虑到人体关键点检测的准确率 对于特征图的分辨率很敏感, 因此还可在8层卷积层的基础上级联一个解卷积层和一个双 线性插值层, 使得最后输出的结果尺度为5656。 0041 在本发明实施例中, 通过确定所述当前帧。
24、图像与历史帧图像之间的光流信息, 根 据所述光流信息将历史帧图像的特征图与所述当前帧图像的特征图进行空间对齐处理, 能 够消除帧间特征的空间误差, 提高视频检测结果的准确率; 进一步, 通过对所述当前帧图像 的特征图与空间对齐处理后的历史帧图像的特征图进行融合处理, 对融合后的特征图进行 目标关键点检测, 能够提取帧间的时域信息来增强当前帧的特征, 进而提高视频检测结果 的准确率。 0042 实施例二 0043 图2是本发明实施例二中的视频数据处理方法的主要流程示意图。 如图2所示, 本 发明实施例的视频数据方法包括: 0044 步骤S201: 将当前帧图像输入特征提取网络, 以得到所述当前帧。
25、图像的特征图。 0045 其中, 当前帧图像为从待检测视频中提取的一帧图像。 在该步骤中, 将当前帧图像 输入特征提取网络, 以从当前帧图像中提取丰富的特征。 示例性地, 所述特征提取网络可采 用卷积神经网络, 比如VGG、 或者Resnet(残差网络)、 FPN(特征图金字塔网络)等网络。 0046 在一个可选实施方式中, 考虑到图像中往往存在大小、 尺度各异的不同目标, 仅从 单一尺度的特征图进行检测容易漏检, 故而, 采用FPN网络作为特征提取网络, 以输出多尺 度的特征图。 与采用Resnet网络相比, 通过使用FPN网络作为主干网络可以将不同尺度的信 息融合起来, 输出的多尺度特征图。
26、对于后续的目标关键点检测具有重要的意义。 0047 步骤S202: 将所述当前帧图像与历史帧图像输入光流信息提取网络, 以得到所述 当前帧图像与历史帧图像之间的光流信息以及尺度场信息。 0048 其中, 所述历史帧图像为视频中与所述当前帧图像相邻的一帧或多帧图像。 比如, 当前帧图像为视频中的第5帧图像, 可将视频中的第3帧图像和第4帧图像作为历史帧图像。 0049 光流估计是根据两个观测瞬间之间的物体表面、 形状等的变化从而计算出物体运 动变化的一种方法。 光流表征的是两幅图像间的运动信息, 它反映的是前一帧图像中的像 素运动到后一帧图像的瞬时速度。 0050 在本发明实施例中, 可基于深度。
27、学习算法确定当前帧图像与历史帧图像之间的光 流信息。 具体来说, 可将所述当前帧图像与历史帧图像输入光流信息提取网络, 以得到所述 说明书 4/7 页 7 CN 111914756 A 7 当前帧图像与历史帧图像之间的光流信息。 其中, 所述光流信息提取网络可基于卷积神经 网络构建。 具体实施时, 所述光流信息提取网络可采用Flownet、 Flownet2S等网络。 0051 步骤S203: 根据所述光流信息将历史帧图像的特征图与所述当前帧图像的特征图 进行空间对齐处理。 0052 示例性地, 步骤S203可具体包括以下步骤: 通过双线性插值将对所述历史帧图像 与所述当前帧的光流信息进行缩放。
28、, 以使缩放后的光流信息与所述特征图的尺寸相同; 根 据缩放后的光流信息对历史帧图像的特征图与所述当前帧图像的特征图进行空间对齐。 0053 进一步, 假设用Mik来表示一个通过光流提取网络计算得到的第i帧到第k帧的二 维光流场, 假设某一像素在第i帧位于位置p, 在第k帧时该像素运动到位置q, 则有qp+ p, 其中 pMik(p)。 由于上式中的 p大都是小数, 因此可通过式(1)来实现特征对齐。 0054 0055 其中, c表示特征图f的一个通道; q表示特征图上的任一个坐标; G(q,p+ p)表示双 线性插值变换核, 用于将光流缩放到特征图的相同尺寸; 由于G(q,p+ p)是二维。
29、变换核的, 可以将其分解为两个一维变换核相乘的形式, 如式(2)所示。 0056 G(q,p+ p)g(qx,px+ px)g(qy,py+ py) (2) 0057 其中, G(qx,px+ px)表示一个一维变换核, G(qy,py+ py)表示其另一个一维变换核; 这两个一维变换核满足: g(a,b)max(0,1-|a-b)。 由于上式中只有很少项是非零的, 所以 上式的计算会很快。 0058 步骤S204: 根据所述尺度场信息对空间对齐后的历史帧图像的特征图进行细化处 理。 0059 在本发明实施例中, 考虑到光流估计结果可能存在误差, 进而导致上述空间对齐 存在误差。 为了使得对齐。
30、后的特征能够更有利于进行目标关键点检测, 可令光流提取网络 在输出光流场的同时输出一个和特征图相同维度的尺度场Sik, 并令尺度场Sik和空间对 齐后的特征图相乘, 以得到细化后的特征图。 0060 步骤S205: 将当前帧图像的特征图与细化处理后的历史帧图像的特征图输入时域 特征融合网络, 以得到融合后的特征图。 0061 示例性地, 在该步骤中, 可将当前帧图像的特征图与空间对齐处理后的历史帧图 像的特征图输入时域特征融合网络, 以得到融合后的特征图。 其中, 所述时序特征融合网络 可以为LSTM(Long Short-Term Memory, 长短期记忆网络)、 GRU(Gated Re。
31、current Units, 门控循环单元)、 ConvGRU等可用于时序特征融合的网络。 其中, LSTM有遗忘门、 输入门、 输出 门三个门控制信息的流动, LSTM通过记忆单元把隐层状态包装起来。 GRU有更新门、 重置门 两个门, GRU直接将隐层状态传给下一个单元。 与LSTM相比, GRU参数更少因此更容易收敛。 ConvGRU是传统GRU的扩展, 它将传统GRU中的全连接层换成了卷积层, 因此它不仅具有GRU 的时序建模能力, 而且还能像CNN(卷积神经网络)一样刻画局部特征, 可以说是时空特性兼 备。 0062 步骤S206: 对所述融合后的特征图进行目标关键点检测, 以得到目。
32、标关键点检测 结果。 0063 示例性地, 在得到融合后的特征图之后, 可将融合后的特征图输入目标关键点检 说明书 5/7 页 8 CN 111914756 A 8 测网络, 以输出目标关键点检测结果。 以目标为人体为例, 可将融合后的特征图输入人体关 键点检测模型, 以得到人体关键点检测结果。 例如, 在进行人体关键点检测时, 可采用Mask- RCNN中具体任务的子网络(包括8层3*3的卷积层)。 另外, 考虑到人体关键点检测的准确率 对于特征图的分辨率很敏感, 因此还可在8层卷积层的基础上级联一个解卷积层和一个双 线性插值层, 使得最后输出的结果尺度为5656。 具体实施时, 在得到融合。
33、后的特征图之 后, 且在步骤S206之前, 可先通过候选框生成网络生成目标候选框, 根据目标候选框对特征 图进行剪裁。 0064 步骤S207: 根据所述目标关键点检测结果对目标的姿态进行估计。 0065 在得到目标关键点检测结果, 可据此对目标的姿态进行估计。 例如, 在得到人体关 键点检测结果后, 可据此对视频中人物的姿态进行估计。 0066 在本发明实施例中, 通过以上步骤实现了一种适用于视频的目标关键点检测算 法, 能够进一步提高目标关键点检测的准确率, 解决了现有利用单帧检测算法对视频进行 逐帧处理时由于视频中广泛存在的运动模糊、 遮挡等问题造成检测算法的性能急剧下降、 目标检测结果。
34、不准确的问题。 进一步, 通过将相邻的几帧图像送到特征提取网络生成相应 的特征图, 根据光流信息将历史帧的特征图于当前帧的特征图进行对齐, 再通过convGRU (Convlution Gate Recurrent Unit)将对齐后的历史帧的特征图和当前帧的特征图进行 融合, 并将融合后的特征图用于后续的目标关键点检测, 能够进一步提高检测的准确率。 0067 实施例三 0068 图3是本发明实施例三中的视频数据处理装置的主要组成模块示意图。 如图3所 示, 本发明实施例的视频数据处理装置300包括: 特征提取模块301、 特征对齐模块302、 融合 处理模块303、 检测模块304。 00。
35、69 特征提取模块301, 用于将当前帧图像输入特征提取网络, 以得到所述当前帧图像 的特征图。 0070 其中, 当前帧图像为从待检测视频中提取的一帧图像。 具体来说, 特征提取模块 301将当前帧图像输入特征提取网络, 以从当前帧图像中提取丰富的特征。 示例性地, 所述 特征提取网络可采用卷积神经网络, 比如VGG、 Resnet(残差网络)等网络。 0071 特征对齐模块302, 用于确定所述当前帧图像与历史帧图像之间的光流信息, 根据 所述光流信息将历史帧图像的特征图与所述当前帧图像的特征图进行空间对齐处理。 0072 其中, 所述历史帧图像为视频中与所述当前帧图像相邻的一帧或多帧图像。
36、。 比如, 当前帧图像为视频中的第5帧图像, 可将视频中的第3帧图像和第4帧图像作为历史帧图像。 0073 光流估计是根据两个观测瞬间之间的物体表面、 形状等的变化从而计算出物体运 动变化的一种方法。 光流表征的是两幅图像间的运动信息, 它反映的是前一帧图像中的像 素运动到后一帧图像的瞬时速度。 0074 在一个可选示例中, 特征对齐模块302可基于深度学习算法确定当前帧图像与历 史帧图像之间的光流信息。 在该可选示例中, 特征对齐模块302可将所述当前帧图像与历史 帧图像输入光流信息提取网络, 以得到所述当前帧图像与历史帧图像之间的光流信息。 其 中, 所述光流信息提取网络可基于卷积神经网络。
37、构建。 具体实施时, 所述光流信息提取网络 可采用Flownet、 Flownet2.0等网络。 在另一个可选示例中, 特征对齐模块302可基于传统的 光流估计算法(比如Lucas-Kanade算法等)确定当前帧图像与历史帧图像之间的光流信息。 说明书 6/7 页 9 CN 111914756 A 9 0075 进一步, 在确定当前帧图像与历史帧图像之间的光流信息之后, 特征对齐模块302 可基于该光流信息将历史帧图像的特征图与当前帧图像的特征图进行空间对齐, 以得到空 间对齐处理后的历史帧图像的特征图。 0076 融合处理模块303, 用于对所述当前帧图像的特征图与空间对齐处理后的历史帧 图。
38、像的特征图进行融合处理, 以得到融合后的特征图。 0077 示例性地, 融合处理模块303可将当前帧图像的特征图与空间对齐处理后的历史 帧图像的特征图输入时域特征融合网络, 以得到融合后的特征图。 其中, 所述时序特征融合 网络可以为LSTM(Long Short-Term Memory, 长短期记忆网络)、 GRU(Gated Recurrent Units, 门控循环单元)、 ConvGRU等可用于时序特征融合的网络。 0078 检测模块304, 用于对所述融合后的特征图进行目标关键点检测, 以得到目标关键 点检测结果。 0079 示例性地, 在得到融合后的特征图之后, 检测模块304可将。
39、融合后的特征图输入目 标关键点检测网络, 以输出目标关键点检测结果。 以目标为人体为例, 检测模块304可将融 合后的特征图输入人体关键点检测模型, 以得到人体关键点检测结果。 例如, 在进行人体关 键点检测时, 可采用Mask-RCNN中具体任务的子网络(包括8层3*3的卷积层)。 另外, 考虑到 人体关键点检测的准确率对于特征图的分辨率很敏感, 因此还可在8层卷积层的基础上级 联一个解卷积层和一个双线性插值层, 使得最后输出的结果尺度为5656。 0080 在本发明实施例的装置中, 通过特征对齐模块确定所述当前帧图像与历史帧图像 之间的光流信息, 根据所述光流信息将历史帧图像的特征图与所述。
40、当前帧图像的特征图进 行空间对齐处理, 能够消除帧间特征的空间误差, 提高视频检测结果的准确率; 进一步, 通 过融合处理模块对所述当前帧图像的特征图与空间对齐处理后的历史帧图像的特征图进 行融合处理, 对融合后的特征图进行目标关键点检测, 能够提取帧间的时域信息来增强当 前帧的特征, 进而提高视频检测结果的准确率。 0081 最后应说明的是: 以上实施例仅用以说明本发明的技术方案, 而非对其限制; 尽管 参照前述实施例对本发明进行了详细的说明, 本领域的普通技术人员应当理解: 其依然可 以对前述各实施例所记载的技术方案进行修改, 或者对其中部分技术特征进行等同替换; 而这些修改或者替换, 并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和 范围。 说明书 7/7 页 10 CN 111914756 A 10 图1 说明书附图 1/3 页 11 CN 111914756 A 11 图2 说明书附图 2/3 页 12 CN 111914756 A 12 图3 说明书附图 3/3 页 13 CN 111914756 A 13 。
- 内容关键字: 视频 数据处理 方法 装置
高密度微藻培养装置.pdf
垫片检测装置.pdf
微型扬声器音腔定量灌装装置.pdf
晶圆夹持旋转机构.pdf
流延机分切装置.pdf
不规则瓶身喷涂用包覆工装装置.pdf
宽锂带滚切设备.pdf
不锈钢分条加工开平机的导出架结构.pdf
流延机辊筒.pdf
工业硅原料用筛选装置.pdf
激光导引头零位误差测量校准装置.pdf
中药提取物过滤装置.pdf
具有绝缘边的涂碳箔、正极极片及锂电池.pdf
可自动进行降温的新能源配电柜.pdf
多角度预制梁液压钢模板自动开合装置.pdf
烧结矿制备系统.pdf
钢坯十字转盘冷却装置.pdf
快速出料的农膜原料混合装置.pdf
基于大数据和人工智能的购物推荐方法及系统.pdf
短暂保持芯片内存储数据电路及方法.pdf
井盖生产用中频感应电炉.pdf
基于边缘计算的电网异常运行状态监测方法.pdf
自适应PID控制器的参数优化方法.pdf
渲染自定义几何体依附模型的方法及装置.pdf
具有高隔离度的紧凑型功率分配器.pdf
基于CSS样式预渲染对比的UI自动化方法及相关装置.pdf
卷对卷镭射收放卷机.pdf
熔敷陶瓷粉棒条筛板及包含其的筛分装置.pdf
纤维增强型氟塑料电线电缆及其制造方法.pdf
光固化修复机器人.pdf
尺寸可调节的飞机侧副翼组装型架.pdf
套管扶正器.pdf
板栗肽乳酸菌饮料及其制备方法.pdf
微波真空和热风循环综合干燥玫瑰花蕾的方法.pdf
一种软性颗粒饲料及其制备方法.pdf
一种瘦肉型猪饲料.pdf
一种赤人参活血饮料.pdf
桥接信鸽足环.pdf
一种解淀粉芽孢杆菌抗菌脂肽的生产方法及其在对虾饲料中的应用.pdf
体感溜冰鞋.pdf
一种沙棘泡腾片及其生产工艺.pdf
一种健美操基础教学锻炼设备.pdf
一种玉米播种机.pdf
一种太阳能增氧装置.pdf
一种水产养殖箱组合设备.pdf
不含抗生素的獭兔种兔预混料.pdf
新式雨伞.pdf
一种罗汉果姜汁饮料制备方法.pdf
一种全三孔防鸟刺.pdf
一种饲用高活性乳酸菌固态制剂及其制备方法.pdf
一种环保驱蚊剂.pdf