视频数据处理方法和装置.pdf

上传人：bo****18 文档编号：10071583 上传时间：2021-06-03 格式：PDF 页数：13 大小：634.22KB

收藏版权申诉举报下载

第1页 / 共13页

第2页 / 共13页

第3页 / 共13页

下载文档到电脑，查找使用更方便

30 金币

下载文档

文档描述：

《视频数据处理方法和装置.pdf》由会员分享，可在线阅读，更多相关《视频数据处理方法和装置.pdf（13页完成版）》请在专利查询网上搜索。

1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202010769394.2 (22)申请日 2020.08.03 (71)申请人北京环境特性研究所地址 100854 北京市海淀区永定路50号 (72)发明人张樯李斌赵凯李司同 (74)专利代理机构北京格允知识产权代理有限公司 11609 代理人周娇娇 (51)Int.Cl. G06K 9/00(2006.01) G06K 9/46(2006.01) G06N 3/04(2006.01) G06T 3/40(2006.01) G06T 5/50(2006.01) (。

2、54)发明名称一种视频数据处理方法和装置 (57)摘要本发明涉及一种视频数据处理方法和装置，涉及图像处理技术领域。该方法包括：将当前帧图像输入特征提取网络，以得到所述当前帧图像的特征图；确定所述当前帧图像与历史帧图像之间的光流信息，根据所述光流信息将历史帧图像的特征图与所述当前帧图像的特征图进行空间对齐处理；其中，所述历史帧图像为视频中与所述当前帧图像相邻的一帧或多帧图像；对所述当前帧图像的特征图与空间对齐处理后的历史帧图像的特征图进行融合处理，以得到融合后的特征图；对所述融合后的特征图进行目标关键点检测，以得到目标关键点检测结果。通过以上步骤。

3、，能够解决由于视频中广泛存在的运动模糊、遮挡等问题造成检测算法的性能急剧下降、目标检测结果不准确的问题。权利要求书2页说明书7页附图3页 CN 111914756 A 2020.11.10 CN 111914756 A 1.一种视频数据处理方法，其特征在于，所述方法包括：将当前帧图像输入特征提取网络，以得到所述当前帧图像的特征图；确定所述当前帧图像与历史帧图像之间的光流信息，根据所述光流信息将历史帧图像的特征图与所述当前帧图像的特征图进行空间对齐处理；其中，所述历史帧图像为视频中与所述当前帧图像相邻的一帧或多帧图像；对所述当前帧图像的特征图与空间对齐处理后。

4、的历史帧图像的特征图进行融合处理，以得到融合后的特征图；对所述融合后的特征图进行目标关键点检测，以得到目标关键点检测结果。 2.根据权利要求1所述的方法，其特征在于，所述确定所述当前帧图像与历史帧图像之间的光流信息包括：将所述当前帧图像与历史帧图像输入光流信息提取网络，以得到所述当前帧图像与历史帧图像之间的光流信息；其中，所述光流信息提取网络基于卷积神经网络构建。 3.根据权利要求1所述的方法，其特征在于，所述根据所述光流信息将历史帧图像的特征图与所述当前帧图像的特征图进行空间对齐处理包括：通过双线性插值将对所述历史帧图像与所述当前帧的光流信息进行缩放，以使缩放。

5、后的光流信息与所述特征图的尺寸相同；根据缩放后的光流信息对历史帧图像的特征图与所述当前帧图像的特征图进行空间对齐。 4.根据权利要求2所述的方法，其特征在于，所述方法还包括：在所述对所述当前帧图像的特征图与空间对齐处理后的历史帧图像的特征图进行融合处理之前，根据所述光流信息提取网络输出的尺度场对所述空间对齐后的历史帧图像的特征图进行细化处理。 5.根据权利要求4所述的方法，其特征在于，所述对所述当前帧图像的特征图与空间对齐处理后的历史帧图像的特征图进行融合处理，以得到融合后的特征图包括：将当前帧图像的特征图与细化处理后的历史帧图像的特征图输入时域特征融合网络，以得。

6、到融合后的特征图。 6.根据权利要求1所述的方法，其特征在于，所述方法还包括：在所述对所述融合后的特征图进行目标关键点检测，以得到目标关键点检测结果之后，根据所述目标关键点检测结果对目标的姿态进行估计。 7.一种视频数据处理装置，其特征在于，所述装置包括：特征提取模块，用于将当前帧图像输入特征提取网络，以得到所述当前帧图像的特征图；特征对齐模块，用于确定所述当前帧图像与历史帧图像之间的光流信息，根据所述光流信息将历史帧图像的特征图与所述当前帧图像的特征图进行空间对齐处理；其中，所述历史帧图像为视频中与所述当前帧图像相邻的一帧或多帧图像；融合处理模块，用。

7、于对所述当前帧图像的特征图与空间对齐处理后的历史帧图像的特征图进行融合处理，以得到融合后的特征图；检测模块，用于对所述融合后的特征图进行目标关键点检测，以得到目标关键点检测结果。 8.根据权利要求7所述的装置，其特征在于，所述特征对齐模块确定所述当前帧图像与权利要求书 1/2 页 2 CN 111914756 A 2 历史帧图像之间的光流信息包括：所述特征对齐模块将所述当前帧图像与历史帧图像输入光流信息提取网络，以得到所述当前帧图像与历史帧图像之间的光流信息；其中，所述光流信息提取网络基于卷积神经网络构建。 9.根据权利要求7所述的装置，其特征在于，所述特征对。

8、齐模块根据所述光流信息将历史帧图像的特征图与所述当前帧图像的特征图进行空间对齐处理包括：所述特征对齐模块通过双线性插值将对所述历史帧图像与所述当前帧的光流信息进行缩放，以使缩放后的光流信息与所述特征图的尺寸相同；所述特征对齐模块根据缩放后的光流信息对历史帧图像的特征图与所述当前帧图像的特征图进行空间对齐。 10.根据权利要求8所述的装置，其特征在于，所述特征对齐模块，还用于根据所述光流信息提取网络输出的尺度场对所述空间对齐后的历史帧图像的特征图进行细化处理。权利要求书 2/2 页 3 CN 111914756 A 3 一种视频数据处理方法和装置技术领域 0001 本发明。

9、涉及图像处理技术领域，尤其涉及一种视频数据处理方法和装置。背景技术 0002 人体关键点检测研究的是如何对图像中人体的各个关键点进行准确地识别与定位，它是动作识别、人机交互等诸多计算机视觉应用的基础。 0003 随着深度学习的发展，深度神经网络被应用在人体关键点检测上，并且大大提高了人体关键点检测的准确率。当前，根据是否需要先检测全局人体可将人体关键点检测算法分为 “自底向上” 和 “自顶向下” 两种。其中，“自底向上” 算法不需要先检测图像中的全局人体，它是直接利用神经网络先检测图像中可能存在的关键点，之后对这些关键点进行聚类、去除冗余连接，最后将每一个检。

10、测到的关键点匹配到具体的一个人。“自顶向下” 算法需要先采用faster rcnn、 yolo等通用目标检测算法检测出图像中的每一个全局人体，然后根据得到的检测框对图像进行剪裁，从而将一幅多人图像剪裁成多幅单人图像，之后再对每一幅单人图像再进行关键点检测。 0004 在实现本发明的过程中，本发明的发明人发现：无论是 “自底向上” 还是 “自顶向下” 算法，当前的研究多集中在单帧图像方面。在现有技术中，处理视频数据时大都只是简单的将视频分解为若干帧，再利用单帧检测算法进行逐帧处理，即将视频中的每一帧作为独立的图像处理。这种简单、粗暴的处理方式没有利用帧间的时域。

11、信息，无法解决视频中广泛存在的运动模糊、遮挡等问题。当视频中的某一帧存在运动模糊或者遮挡时，单帧检测算法的性能会急剧下降。 0005 因此，针对以上不足，需要提供一种新的视频数据处理方法和装置，以提高视频中目标的检测准确性。发明内容 0006 (一)要解决的技术问题 0007 本发明要解决的技术问题是解决现有利用单帧检测算法对视频进行逐帧处理时由于视频中广泛存在的运动模糊、遮挡等问题造成检测算法的性能急剧下降、目标检测结果不准确的问题。 0008 (二)技术方案 0009 为了解决上述技术问题，一方面，本发明提供了一种视频数据处理方法。 0010 本发明的视频。

12、数据处理方法包括：将当前帧图像输入特征提取网络，以得到所述当前帧图像的特征图；确定所述当前帧图像与历史帧图像之间的光流信息，根据所述光流信息将历史帧图像的特征图与所述当前帧图像的特征图进行空间对齐处理；其中，所述历史帧图像为视频中与所述当前帧图像相邻的一帧或多帧图像；对所述当前帧图像的特征图与空间对齐处理后的历史帧图像的特征图进行融合处理，以得到融合后的特征图；对所述融合后的特征图进行目标关键点检测，以得到目标关键点检测结果。说明书 1/7 页 4 CN 111914756 A 4 0011 可选地，所述确定所述当前帧图像与历史帧图像之间的光流信息包括：将所。

13、述当前帧图像与历史帧图像输入光流信息提取网络，以得到所述当前帧图像与历史帧图像之间的光流信息；其中，所述光流信息提取网络基于卷积神经网络构建。 0012 可选地，所述根据所述光流信息将历史帧图像的特征图与所述当前帧图像的特征图进行空间对齐处理包括：通过双线性插值将对所述历史帧图像与所述当前帧的光流信息进行缩放，以使缩放后的光流信息与所述特征图的尺寸相同；根据缩放后的光流信息对历史帧图像的特征图与所述当前帧图像的特征图进行空间对齐。 0013 可选地，所述方法还包括：在所述对所述当前帧图像的特征图与空间对齐处理后的历史帧图像的特征图进行融合处理之前，根据所述光流信。

14、息提取网络输出的尺度场对所述空间对齐后的历史帧图像的特征图进行细化处理。 0014 可选地，所述对所述当前帧图像的特征图与空间对齐处理后的历史帧图像的特征图进行融合处理，以得到融合后的特征图包括：将当前帧图像的特征图与细化处理后的历史帧图像的特征图输入时域特征融合网络，以得到融合后的特征图。 0015 可选地，所述方法还包括：在所述对所述融合后的特征图进行目标关键点检测，以得到目标关键点检测结果之后，根据所述目标关键点检测结果对目标的姿态进行估计。 0016 为了解决上述技术问题，另一方面，本发明还提供了一种视频数据处理装置。 0017 本发明的视频数据处理装置包括。

15、：特征提取模块，用于将当前帧图像输入特征提取网络，以得到所述当前帧图像的特征图；特征对齐模块，用于确定所述当前帧图像与历史帧图像之间的光流信息，根据所述光流信息将历史帧图像的特征图与所述当前帧图像的特征图进行空间对齐处理；其中，所述历史帧图像为视频中与所述当前帧图像相邻的一帧或多帧图像；融合处理模块，用于对所述当前帧图像的特征图与空间对齐处理后的历史帧图像的特征图进行融合处理，以得到融合后的特征图；检测模块，用于对所述融合后的特征图进行目标关键点检测，以得到目标关键点检测结果。 0018 可选地，所述特征对齐模块确定所述当前帧图像与历史帧图像之间的光流。

16、信息包括：所述特征对齐模块将所述当前帧图像与历史帧图像输入光流信息提取网络，以得到所述当前帧图像与历史帧图像之间的光流信息；其中，所述光流信息提取网络基于卷积神经网络构建。 0019 可选地，所述特征对齐模块根据所述光流信息将历史帧图像的特征图与所述当前帧图像的特征图进行空间对齐处理包括：所述特征对齐模块通过双线性插值将对所述历史帧图像与所述当前帧的光流信息进行缩放，以使缩放后的光流信息与所述特征图的尺寸相同；所述特征对齐模块根据缩放后的光流信息对历史帧图像的特征图与所述当前帧图像的特征图进行空间对齐。 0020 可选地，所述特征对齐模块，还用于根据所述光流信。

17、息提取网络输出的尺度场对所述空间对齐后的历史帧图像的特征图进行细化处理。 0021 (三)有益效果 0022 本发明的上述技术方案具有如下优点：通过确定所述当前帧图像与历史帧图像之间的光流信息，根据所述光流信息将历史帧图像的特征图与所述当前帧图像的特征图进行空间对齐处理，能够消除帧间特征的空间误差，提高视频检测结果的准确率；进一步，通过对所述当前帧图像的特征图与空间对齐处理后的历史帧图像的特征图进行融合处理，对融说明书 2/7 页 5 CN 111914756 A 5 合后的特征图进行目标关键点检测，能够提取帧间的时域信息来增强当前帧的特征，进而提高视频检测结果的。

18、准确率。附图说明 0023 图1是本发明实施例一中的视频数据处理方法的主要流程示意图； 0024 图2是本发明实施例二中的视频数据处理方法的主要流程示意图； 0025 图3是本发明实施例三中的视频数据处理装置的主要组成模块示意图。具体实施方式 0026 为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。 002。

19、7 需要指出的是，在不影响本发明实施的情况下，本发明的实施例以及实施例中的技术特征可以相互组合。 0028 实施例一 0029 图1是本发明实施例一中的视频数据处理方法的主要流程示意图。如图1所示，本发明实施例提供的视频数据处理方法包括： 0030 步骤S101：将当前帧图像输入特征提取网络，以得到所述当前帧图像的特征图。 0031 其中，当前帧图像为从待检测视频中提取的一帧图像。在该步骤中，将当前帧图像输入特征提取网络，以从当前帧图像中提取丰富的特征。示例性地，所述特征提取网络可采用卷积神经网络，比如VGG、 Resnet(残差网络)等网络。 0032 步骤。

20、S102：确定所述当前帧图像与历史帧图像之间的光流信息，根据所述光流信息将历史帧图像的特征图与所述当前帧图像的特征图进行空间对齐处理。 0033 其中，所述历史帧图像为视频中与所述当前帧图像相邻的一帧或多帧图像。比如，当前帧图像为视频中的第5帧图像，可将视频中的第3帧图像和第4帧图像作为历史帧图像。 0034 光流估计是根据两个观测瞬间之间的物体表面、形状等的变化从而计算出物体运动变化的一种方法。光流表征的是两幅图像间的运动信息，它反映的是前一帧图像中的像素运动到后一帧图像的瞬时速度。 0035 在一个可选示例中，可基于深度学习算法确定当前帧图像与历史帧图像之间的光。

21、流信息。在该可选示例中，可将所述当前帧图像与历史帧图像输入光流信息提取网络，以得到所述当前帧图像与历史帧图像之间的光流信息。其中，所述光流信息提取网络可基于卷积神经网络构建。具体实施时，所述光流信息提取网络可采用Flownet、 Flownet2.0等网络。在另一个可选示例中，可基于传统的光流估计算法(比如Lucas-Kanade算法等)确定当前帧图像与历史帧图像之间的光流信息。 0036 进一步，在确定当前帧图像与历史帧图像之间的光流信息之后，可基于该光流信息将历史帧图像的特征图与当前帧图像的特征图进行空间对齐，以得到空间对齐处理后的历史帧图像的特征图。 0。

22、037 步骤S103：对所述当前帧图像的特征图与空间对齐处理后的历史帧图像的特征图说明书 3/7 页 6 CN 111914756 A 6 进行融合处理，以得到融合后的特征图。 0038 示例性地，在该步骤中，可将当前帧图像的特征图与空间对齐处理后的历史帧图像的特征图输入时域特征融合网络，以得到融合后的特征图。其中，所述时序特征融合网络可以为LSTM(Long Short-Term Memory，长短期记忆网络)、 GRU(Gated Recurrent Units，门控循环单元)、 ConvGRU等可用于时序特征融合的网络。 0039 步骤S104：对所述融合后的特。

23、征图进行目标关键点检测，以得到目标关键点检测结果。 0040 示例性地，在得到融合后的特征图之后，可将融合后的特征图输入目标关键点检测网络，以输出目标关键点检测结果。以目标为人体为例，可将融合后的特征图输入人体关键点检测模型，以得到人体关键点检测结果。例如，在进行人体关键点检测时，可采用Mask- RCNN中具体任务的子网络(包括8层3*3的卷积层)。另外，考虑到人体关键点检测的准确率对于特征图的分辨率很敏感，因此还可在8层卷积层的基础上级联一个解卷积层和一个双线性插值层，使得最后输出的结果尺度为5656。 0041 在本发明实施例中，通过确定所述当前帧。

24、图像与历史帧图像之间的光流信息，根据所述光流信息将历史帧图像的特征图与所述当前帧图像的特征图进行空间对齐处理，能够消除帧间特征的空间误差，提高视频检测结果的准确率；进一步，通过对所述当前帧图像的特征图与空间对齐处理后的历史帧图像的特征图进行融合处理，对融合后的特征图进行目标关键点检测，能够提取帧间的时域信息来增强当前帧的特征，进而提高视频检测结果的准确率。 0042 实施例二 0043 图2是本发明实施例二中的视频数据处理方法的主要流程示意图。如图2所示，本发明实施例的视频数据方法包括： 0044 步骤S201：将当前帧图像输入特征提取网络，以得到所述当前帧。

25、图像的特征图。 0045 其中，当前帧图像为从待检测视频中提取的一帧图像。在该步骤中，将当前帧图像输入特征提取网络，以从当前帧图像中提取丰富的特征。示例性地，所述特征提取网络可采用卷积神经网络，比如VGG、或者Resnet(残差网络)、 FPN(特征图金字塔网络)等网络。 0046 在一个可选实施方式中，考虑到图像中往往存在大小、尺度各异的不同目标，仅从单一尺度的特征图进行检测容易漏检，故而，采用FPN网络作为特征提取网络，以输出多尺度的特征图。与采用Resnet网络相比，通过使用FPN网络作为主干网络可以将不同尺度的信息融合起来，输出的多尺度特征图。

26、对于后续的目标关键点检测具有重要的意义。 0047 步骤S202：将所述当前帧图像与历史帧图像输入光流信息提取网络，以得到所述当前帧图像与历史帧图像之间的光流信息以及尺度场信息。 0048 其中，所述历史帧图像为视频中与所述当前帧图像相邻的一帧或多帧图像。比如，当前帧图像为视频中的第5帧图像，可将视频中的第3帧图像和第4帧图像作为历史帧图像。 0049 光流估计是根据两个观测瞬间之间的物体表面、形状等的变化从而计算出物体运动变化的一种方法。光流表征的是两幅图像间的运动信息，它反映的是前一帧图像中的像素运动到后一帧图像的瞬时速度。 0050 在本发明实施例中，可基于深度。

27、学习算法确定当前帧图像与历史帧图像之间的光流信息。具体来说，可将所述当前帧图像与历史帧图像输入光流信息提取网络，以得到所述说明书 4/7 页 7 CN 111914756 A 7 当前帧图像与历史帧图像之间的光流信息。其中，所述光流信息提取网络可基于卷积神经网络构建。具体实施时，所述光流信息提取网络可采用Flownet、 Flownet2S等网络。 0051 步骤S203：根据所述光流信息将历史帧图像的特征图与所述当前帧图像的特征图进行空间对齐处理。 0052 示例性地，步骤S203可具体包括以下步骤：通过双线性插值将对所述历史帧图像与所述当前帧的光流信息进行缩放。

28、，以使缩放后的光流信息与所述特征图的尺寸相同；根据缩放后的光流信息对历史帧图像的特征图与所述当前帧图像的特征图进行空间对齐。 0053 进一步，假设用Mik来表示一个通过光流提取网络计算得到的第i帧到第k帧的二维光流场，假设某一像素在第i帧位于位置p，在第k帧时该像素运动到位置q，则有qp+ p，其中 pMik(p)。由于上式中的 p大都是小数，因此可通过式(1)来实现特征对齐。 0054 0055 其中， c表示特征图f的一个通道； q表示特征图上的任一个坐标； G(q,p+ p)表示双线性插值变换核，用于将光流缩放到特征图的相同尺寸；由于G(q,p+ p)是二维。

29、变换核的，可以将其分解为两个一维变换核相乘的形式，如式(2)所示。 0056 G(q,p+ p)g(qx,px+ px)g(qy,py+ py) (2) 0057 其中， G(qx,px+ px)表示一个一维变换核， G(qy,py+ py)表示其另一个一维变换核；这两个一维变换核满足： g(a,b)max(0,1-|a-b)。由于上式中只有很少项是非零的，所以上式的计算会很快。 0058 步骤S204：根据所述尺度场信息对空间对齐后的历史帧图像的特征图进行细化处理。 0059 在本发明实施例中，考虑到光流估计结果可能存在误差，进而导致上述空间对齐存在误差。为了使得对齐。

30、后的特征能够更有利于进行目标关键点检测，可令光流提取网络在输出光流场的同时输出一个和特征图相同维度的尺度场Sik，并令尺度场Sik和空间对齐后的特征图相乘，以得到细化后的特征图。 0060 步骤S205：将当前帧图像的特征图与细化处理后的历史帧图像的特征图输入时域特征融合网络，以得到融合后的特征图。 0061 示例性地，在该步骤中，可将当前帧图像的特征图与空间对齐处理后的历史帧图像的特征图输入时域特征融合网络，以得到融合后的特征图。其中，所述时序特征融合网络可以为LSTM(Long Short-Term Memory，长短期记忆网络)、 GRU(Gated Re。

31、current Units，门控循环单元)、 ConvGRU等可用于时序特征融合的网络。其中， LSTM有遗忘门、输入门、输出门三个门控制信息的流动， LSTM通过记忆单元把隐层状态包装起来。 GRU有更新门、重置门两个门， GRU直接将隐层状态传给下一个单元。与LSTM相比， GRU参数更少因此更容易收敛。 ConvGRU是传统GRU的扩展，它将传统GRU中的全连接层换成了卷积层，因此它不仅具有GRU 的时序建模能力，而且还能像CNN(卷积神经网络)一样刻画局部特征，可以说是时空特性兼备。 0062 步骤S206：对所述融合后的特征图进行目标关键点检测，以得到目。

32、标关键点检测结果。 0063 示例性地，在得到融合后的特征图之后，可将融合后的特征图输入目标关键点检说明书 5/7 页 8 CN 111914756 A 8 测网络，以输出目标关键点检测结果。以目标为人体为例，可将融合后的特征图输入人体关键点检测模型，以得到人体关键点检测结果。例如，在进行人体关键点检测时，可采用Mask- RCNN中具体任务的子网络(包括8层3*3的卷积层)。另外，考虑到人体关键点检测的准确率对于特征图的分辨率很敏感，因此还可在8层卷积层的基础上级联一个解卷积层和一个双线性插值层，使得最后输出的结果尺度为5656。具体实施时，在得到融合。

33、后的特征图之后，且在步骤S206之前，可先通过候选框生成网络生成目标候选框，根据目标候选框对特征图进行剪裁。 0064 步骤S207：根据所述目标关键点检测结果对目标的姿态进行估计。 0065 在得到目标关键点检测结果，可据此对目标的姿态进行估计。例如，在得到人体关键点检测结果后，可据此对视频中人物的姿态进行估计。 0066 在本发明实施例中，通过以上步骤实现了一种适用于视频的目标关键点检测算法，能够进一步提高目标关键点检测的准确率，解决了现有利用单帧检测算法对视频进行逐帧处理时由于视频中广泛存在的运动模糊、遮挡等问题造成检测算法的性能急剧下降、目标检测结果。

34、不准确的问题。进一步，通过将相邻的几帧图像送到特征提取网络生成相应的特征图，根据光流信息将历史帧的特征图于当前帧的特征图进行对齐，再通过convGRU (Convlution Gate Recurrent Unit)将对齐后的历史帧的特征图和当前帧的特征图进行融合，并将融合后的特征图用于后续的目标关键点检测，能够进一步提高检测的准确率。 0067 实施例三 0068 图3是本发明实施例三中的视频数据处理装置的主要组成模块示意图。如图3所示，本发明实施例的视频数据处理装置300包括：特征提取模块301、特征对齐模块302、融合处理模块303、检测模块304。 00。

35、69 特征提取模块301，用于将当前帧图像输入特征提取网络，以得到所述当前帧图像的特征图。 0070 其中，当前帧图像为从待检测视频中提取的一帧图像。具体来说，特征提取模块 301将当前帧图像输入特征提取网络，以从当前帧图像中提取丰富的特征。示例性地，所述特征提取网络可采用卷积神经网络，比如VGG、 Resnet(残差网络)等网络。 0071 特征对齐模块302，用于确定所述当前帧图像与历史帧图像之间的光流信息，根据所述光流信息将历史帧图像的特征图与所述当前帧图像的特征图进行空间对齐处理。 0072 其中，所述历史帧图像为视频中与所述当前帧图像相邻的一帧或多帧图像。

36、。比如，当前帧图像为视频中的第5帧图像，可将视频中的第3帧图像和第4帧图像作为历史帧图像。 0073 光流估计是根据两个观测瞬间之间的物体表面、形状等的变化从而计算出物体运动变化的一种方法。光流表征的是两幅图像间的运动信息，它反映的是前一帧图像中的像素运动到后一帧图像的瞬时速度。 0074 在一个可选示例中，特征对齐模块302可基于深度学习算法确定当前帧图像与历史帧图像之间的光流信息。在该可选示例中，特征对齐模块302可将所述当前帧图像与历史帧图像输入光流信息提取网络，以得到所述当前帧图像与历史帧图像之间的光流信息。其中，所述光流信息提取网络可基于卷积神经网络。

37、构建。具体实施时，所述光流信息提取网络可采用Flownet、 Flownet2.0等网络。在另一个可选示例中，特征对齐模块302可基于传统的光流估计算法(比如Lucas-Kanade算法等)确定当前帧图像与历史帧图像之间的光流信息。说明书 6/7 页 9 CN 111914756 A 9 0075 进一步，在确定当前帧图像与历史帧图像之间的光流信息之后，特征对齐模块302 可基于该光流信息将历史帧图像的特征图与当前帧图像的特征图进行空间对齐，以得到空间对齐处理后的历史帧图像的特征图。 0076 融合处理模块303，用于对所述当前帧图像的特征图与空间对齐处理后的历史帧图。

38、像的特征图进行融合处理，以得到融合后的特征图。 0077 示例性地，融合处理模块303可将当前帧图像的特征图与空间对齐处理后的历史帧图像的特征图输入时域特征融合网络，以得到融合后的特征图。其中，所述时序特征融合网络可以为LSTM(Long Short-Term Memory，长短期记忆网络)、 GRU(Gated Recurrent Units，门控循环单元)、 ConvGRU等可用于时序特征融合的网络。 0078 检测模块304，用于对所述融合后的特征图进行目标关键点检测，以得到目标关键点检测结果。 0079 示例性地，在得到融合后的特征图之后，检测模块304可将。

39、融合后的特征图输入目标关键点检测网络，以输出目标关键点检测结果。以目标为人体为例，检测模块304可将融合后的特征图输入人体关键点检测模型，以得到人体关键点检测结果。例如，在进行人体关键点检测时，可采用Mask-RCNN中具体任务的子网络(包括8层3*3的卷积层)。另外，考虑到人体关键点检测的准确率对于特征图的分辨率很敏感，因此还可在8层卷积层的基础上级联一个解卷积层和一个双线性插值层，使得最后输出的结果尺度为5656。 0080 在本发明实施例的装置中，通过特征对齐模块确定所述当前帧图像与历史帧图像之间的光流信息，根据所述光流信息将历史帧图像的特征图与所述。

40、当前帧图像的特征图进行空间对齐处理，能够消除帧间特征的空间误差，提高视频检测结果的准确率；进一步，通过融合处理模块对所述当前帧图像的特征图与空间对齐处理后的历史帧图像的特征图进行融合处理，对融合后的特征图进行目标关键点检测，能够提取帧间的时域信息来增强当前帧的特征，进而提高视频检测结果的准确率。 0081 最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。说明书 7/7 页 10 CN 111914756 A 10 图1 说明书附图 1/3 页 11 CN 111914756 A 11 图2 说明书附图 2/3 页 12 CN 111914756 A 12 图3 说明书附图 3/3 页 13 CN 111914756 A 13 。

展开阅读全文

内容关键字: 视频数据处理方法装置