用用于容错及波动鲁棒性的神经网络除抖动的方法及装置.pdf

上传人：齐** 文档编号：10553432 上传时间：2021-06-23 格式：PDF 页数：22 大小：923.32KB

收藏版权申诉举报下载

第1页 / 共22页

第2页 / 共22页

第3页 / 共22页

下载文档到电脑，查找使用更方便

30 金币

下载文档

文档描述：

《用用于容错及波动鲁棒性的神经网络除抖动的方法及装置.pdf》由会员分享，可在线阅读，更多相关《用用于容错及波动鲁棒性的神经网络除抖动的方法及装置.pdf（22页完成版）》请在专利查询网上搜索。

1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202010020867.9 (22)申请日 2020.01.09 (30)优先权数据 16/262,996 2019.01.31 US (71)申请人斯特拉德视觉公司地址韩国庆尚北道 (72)发明人金桂贤金镕重金寅洙金鹤京南云铉夫硕焄成明哲吕东勋柳宇宙张泰雄郑景中诸泓模赵浩辰 (74)专利代理机构北京同立钧成知识产权代理有限公司 11205 代理人延美花臧建明 (51)Int.Cl. G06T 5/00(2006.01) G06N 3/04(2006.01)。

2、 G06N 3/08(2006.01) (54)发明名称用用于容错及波动鲁棒性的神经网络除抖动的方法及装置 (57)摘要本申请涉及为了在极限状况的容错及波动鲁棒性而提供的，为了使用神经网络去除视频上的抖动而从由于晃动的摄像头而生成的视频检测抖动的方法，其特征在于包括：计算装置生成对应于第t图像内的各客体的各第t掩码的步骤；对各第t掩码、各第t剪切的图像、各第t-1掩码及各第t-1剪切的图像适用至少一次第二神经网络运算生成包含于第t图像的各客体像素的各第t 客体运动向量的步骤；以及参照各第t客体运动向量生成对应于第t图像内的像素中各参考像素的各第t抖动向量的步。

3、骤。本发明可用于视频稳定化、超精密客体追踪、行动预测、运动分解等。权利要求书6页说明书13页附图2页 CN 111507906 A 2020.08.07 CN 111507906 A 1.一种方法，是为了使用至少一个神经网络去除视频上的抖动而从由于晃动的摄像头而生成的所述视频检测抖动的方法，其特征在于，包括： (a)获取到对应于所述视频的第t帧的第t图像时，计算装置使第一神经网络对所述第t 图像适用至少一次第一神经网络运算生成对应于所述第t图像内的各客体的第t掩码的步骤； (b)所述计算装置使第二神经网络对(i)各所述第t掩码、 (ii)与其对应的作为所述第t 图像。

4、的一部分的各第t剪切的图像、 (iii)各第t-1掩码及(iv)与其对应的作为第t-1图像的一部分的各第t-1剪切的图像适用至少一次第二神经网络运算生成关于包含于所述第t图像的对应于各所述客体的各客体像素的各第t客体运动向量的步骤；以及 (c)所述计算装置使抖动预测单元参照各所述第t客体运动向量生成对应于所述第t图像内的像素中各参考像素的各第t抖动向量的步骤。 2.根据权利要求1所述的方法，其特征在于，还包括： (d)所述计算装置使所述抖动预测单元参照所述第t抖动向量生成缓解了所述第t图像的抖动的第t调整图像的步骤。 3.根据权利要求1所述的方法，其特征在于，还包括： (e)。

5、所述计算装置使学习单元参照(i)通过用于生成所述第t抖动向量的过程优化的第 t调整客体运动向量及(ii)优化之前的所述第t客体运动向量算出至少一个损失，并使得反向传播所述损失学习所述第二神经网络的至少一个参数的至少一部分的步骤。 4.根据权利要求1所述的方法，其特征在于，在所述(c)步骤中，所述计算装置使所述抖动预测单元还参照(i)表示在通过所述摄像头拍摄所述第t-1 图像的时间点与拍摄所述第t图像的时间点之间对应于所述第t图像内的各像素的各地点运动的程度的各第t光流向量及(ii)表示在通过所述摄像头拍摄所述第t-1图像的时间点与拍摄所述第t图像的时间点之间在三维上各所述地点运动。

6、的程度的各第t FPV向量生成所述第t抖动向量。 5.根据权利要求2所述的方法，其特征在于：在所述(d)步骤中，所述计算装置使所述抖动预测单元算出最小化以下数学式的以生成所述第t抖动向量，表示所述第t抖动向量，表示所述第t FPV向量，表示所述第t客体运动向量，表示第t-1FPV向量，表示第t-1客体运动向量， v及0表示关于及的各加权值。 6.根据权利要求5所述的方法，其特征在于：所述数学式使得对满足以下条件的项有效，权利要求书 1/6 页 2 CN 111507906 A 2 表示作为所述第t光流向量中的一部分的关于所述参考像素的第一的第t光流向量，表示关于非所述参。

7、考像素的其余像素的第二的第t光流向量，表示关于作为所述第t客体运动向量中的一部分的是所述客体像素且是所述参考像素的特定像素的第t客体运动向量，符号下端的i， jNB(x， y)表示使用关于包括指定像素的网格内的所述参考像素中的一部分的信息， wij， xy表示关于所述网格内的所述指定像素的至少一个位置的各加权值。 7.根据权利要求4所述的方法，其特征在于：所述计算装置使所述抖动预测单元算出最小化以下数学式的表示所述第t抖动向量，表示所述第t FPV向量，表示所述第t客体运动向量，表示关于第t-k图像的第t-k FPV向量，表示关于所述第t-k图像的第t-k 客体运动向量， w。

8、k表示关于及的各加权值， K为指定常数。 8.根据权利要求1所述的方法，其特征在于：在所述(b)步骤中，所述第二神经网络包括第2_1神经网络及第2_2神经网络，所述第2_1神经网络执行至少一次对各所述第t掩码、各所述第t剪切的图像、各所述第 t-1掩码及各所述第t-1剪切的图像进行分析的包含于所述第二神经网络运算的第2_1神经网络运算生成至少一个中间特征地图，所述第2_2神经网络参照对获取到所述第t图像之前输入的值的分析内容，对所述中间特征地图适用至少一次包含于所述第二神经网络运算的第2_2神经网络运算生成所述第t 客体运动向量。 9.根据权利要求8所述的方法，其特征在于。

9、：所述第2_2神经网络使得(i)反映对关于第一图像至所述第t-1图像中至少一部分的值的分析，使用所述第2_1神经网络生成的所述第2_2神经网络的状态向量生成所述第t客体运动向量， (ii)更新所述状态向量。 10.根据权利要求1所述的方法，其特征在于：所述参考像素是位于所述第t图像上的所述网格的网格单元的边界上的顶点。 11.根据权利要求1所述的方法，其特征在于：权利要求书 2/6 页 3 CN 111507906 A 3 在所述(a)步骤中，所述第一神经网络包括至少一个RPN、至少一个卷积层及至少一个池化层，所述RPN生成至少一个ROI时，所述第一神经网络利用双线性插。

10、值法从所述第t图像上选择对应于所述ROI的至少一个区域后，对其适用至少一次所述卷积层的运算生成所述第t 掩码。 12.一种方法，是为了使用至少一个神经网络去除测试用视频上的抖动而从由于晃动的摄像头而生成的所述测试用视频去除所述抖动的测试方法，其特征在于，包括： (a)学习装置(1)获取到对应于学习用视频上的学习用第t帧的学习用第t图像时，使第一神经网络对所述学习用第t图像适用至少一次第一神经网络运算生成对应于所述学习用第t图像内的各学习用客体的学习用第t掩码， (2)使第二神经网络对(i)各所述学习用第t 掩码、 (ii)与其对应的作为所述学习用第t图像的一部分的各学习用第t。

11、剪切的图像、 (iii) 各学习用第t-1掩码及(iv)与其对应的作为学习用第t-1图像的一部分的各学习用第t-1剪切的图像适用至少一次第二神经网络运算生成关于包含于所述学习用第t图像的对应于各所述学习用客体的各学习用客体像素的各学习用第t客体运动向量， (3)使抖动预测单元参照各所述学习用第t客体运动向量生成对应于所述学习用第t图像内的像素中各学习用参考像素的各学习用第t抖动向量， (4)使学习单元参照(i)通过用于生成所述学习用第t抖动向量的过程优化的学习用第t调整客体运动向量及(ii)优化之前的所述学习用第t客体运动向量算出至少一个损失，并使得反向传播所述损失完成了所述第二。

12、神经网络的至少一个参数的至少一部分的学习的状态下，获取到对应于所述测试用视频的测试用第t帧的测试用第t图像时，测试装置使所述第一神经网络对所述测试用第t图像适用第一神经网络运算生成对应于所述测试用第t图像内的各测试用客体的各测试用第t掩码的步骤； (b)所述测试装置使所述第二神经网络对(i)各所述测试用第t掩码、 (ii)与其对应的作为所述测试用第t图像的一部分的各测试用第t剪切的图像、 (iii)各测试用第t-1掩码及 (iv)与其对应的作为测试用第t-1图像的一部分的各测试用第t-1剪切的图像适用第二神经网络运算生成关于包含于所述测试用第t图像的对应于各所述测试用客体的各测试。

13、用客体像素的各测试用第t客体运动向量的步骤；以及 (c)所述测试装置使所述抖动预测单元参照各所述测试用第t客体运动向量生成对应于所述测试用第t图像内的像素中各测试用参考像素的各测试用第t抖动向量的步骤。 13.根据权利要求12所述的方法，其特征在于，包括： (d)所述计算装置使所述抖动预测单元参照所述测试用第t抖动向量生成缓解了所述测试用第t图像的抖动的测试用第t调整图像的步骤。 14.一种装置，是为了使用至少一个神经网络去除视频上的抖动而从由于晃动的摄像头而生成的所述视频检测抖动的计算装置，其特征在于，包括：至少一个存储器，其存储指令；以及至少一个处理器，其构成。

14、为运行用于执行(I)获取到对应于所述视频的第t帧的第t图像时，使第一神经网络对所述第t图像适用至少一次第一神经网络运算生成对应于所述第t 图像内的各客体的第t掩码的过程， (II)使第二神经网络对(i)各所述第t掩码、 (ii)与其对应的作为所述第t图像的一部分的各第t剪切的图像、 (iii)各第t-1掩码及(iv)与其对应的作为第t-1图像的一部分的各第t-1剪切的图像适用至少一次第二神经网络运算生成关于权利要求书 3/6 页 4 CN 111507906 A 4 包含于所述第t图像的对应于各所述客体的各客体像素的各第t客体运动向量的过程，以及 (III)使抖动预测单元参照各所述。

15、第t客体运动向量生成对应于所述第t图像内的像素中各参考像素的各第t抖动向量的过程的所述指令。 15.根据权利要求14所述的装置，其特征在于：所述处理器还包括(IV)使所述抖动预测单元参照所述第t抖动向量生成缓解了所述第 t图像的抖动的第t调整图像的过程。 16.根据权利要求14所述的装置，其特征在于：所述处理器还包括(V)使学习单元参照(i)通过用于生成所述第t抖动向量的过程优化的第t调整客体运动向量及(ii)优化之前的所述第t客体运动向量算出至少一个损失，并使得反向传播所述损失学习所述第二神经网络的至少一个参数的至少一部分的过程。 17.根据权利要求14所述的装置，其特征在。

16、于：在所述(III)过程中，所述处理器使所述抖动预测单元还参照(i)表示在通过所述摄像头拍摄所述第t-1图像的时间点与拍摄所述第t图像的时间点之间对应于所述第t图像内的各像素的各地点运动的程度的各第t光流向量及(ii)表示在通过所述摄像头拍摄所述第t- 1图像的时间点与拍摄所述第t图像的时间点之间在三维上各所述地点运动的程度的各第t FPV向量生成所述第t抖动向量。 18.根据权利要求15所述的装置，其特征在于：在所述(IV)过程中，所述处理器使所述抖动预测单元算出最小化以下数学式的以生成所述第t抖动向量，表示所述第t抖动向量，表示所述第t FPV向量，表示所述第t客体运动向。

17、量，表示第t-1 FPV向量，表示第t-1客体运动向量， v及o表示关于及的各加权值。 19.根据权利要求18所述的装置，其特征在于：所述数学式使得对满足以下条件的项有效，表示作为所述第t光流向量中的一部分的关于所述参考像素的第一的第t光流向量，表示关于非所述参考像素的其余像素的第二的第t光流向量，表示关于作为所述第t客体运动向量中的一部分的是所述客体像素且是所述参考像素的特定像素的第t客体运动向量，符号下端的i， jNB(x， y)表示使用关于包括指定像素的网格内的所述参考像素中的一部分的信息， wij， xy表示关于所述网格内的所述指定像素的至少一个位置的各加权利要求。

18、书 4/6 页 5 CN 111507906 A 5 权值。 20.根据权利要求17所述的装置，其特征在于：所述处理器使所述抖动预测单元算出最小化以下数学式的表示所述第t抖动向量，表示所述第t FPV向量，表示所述第t客体运动向量，表示关于第t-k图像的第t-k FPV向量，表示关于所述第t-k图像的第t-k 客体运动向量， wk表示关于及的各加权值， K为指定常数。 21.根据权利要求14所述的装置，其特征在于：在所述(II)过程中，所述第二神经网络包括第2_1神经网络及第2_2神经网络，所述第2_1神经网络执行至少一次对各所述第t掩码、各所述第t剪切的图像、各所述第 t。

19、-1掩码及各所述第t-1剪切的图像进行分析的包含于所述第二神经网络运算的第2_1神经网络运算生成至少一个中间特征地图，所述第2_2神经网络参照对获取到所述第t图像之前输入的值的分析内容，对所述中间特征地图适用至少一次包含于所述第二神经网络运算的第2_2神经网络运算生成所述第t 客体运动向量。 22.根据权利要求21所述的装置，其特征在于：所述第2_2神经网络使得(i)反映对关于第一图像至所述第t-1图像中至少一部分的值的分析，使用所述第2_1神经网络生成的所述第2_2神经网络的状态向量生成所述第t客体运动向量， (ii)更新所述状态向量。 23.根据权利要求14所述的装置，。

20、其特征在于：所述参考像素是位于所述第t图像上的所述网格的网格单元的边界上的顶点。 24.根据权利要求14所述的装置，其特征在于：在所述(I)过程中，所述第一神经网络包括至少一个RPN、至少一个卷积层及至少一个池化层，所述RPN生成至少一个ROI时，所述第一神经网络利用双线性插值法从所述第t图像上选择对应于所述ROI的至少一个区域后，对其适用至少一次所述卷积层的运算生成所述第t 掩码。 25.一种装置，是为了使用至少一个神经网络去除测试用视频(Video)上的抖动而从由于晃动的摄像头而生成的所述测试用视频去除所述抖动的测试装置，其特征在于，包括：至少一个存储器，其存。

21、储指令；以及至少一个处理器，其构成为在学习装置(1)获取到对应于学习用视频上的学习用第t帧的学习用第t图像时，使第一神经网络对所述学习用第t图像适用至少一次第一神经网络运权利要求书 5/6 页 6 CN 111507906 A 6 算生成对应于所述学习用第t图像内的各学习用客体的学习用第t掩码， (2)使第二神经网络对(i)各所述学习用第t掩码、 (ii)与其对应的作为所述学习用第t图像的一部分的各学习用第t剪切的图像、 (iii)各学习用第t-1掩码及(iv)与其对应的作为学习用第t-1图像的一部分的各学习用第t-1剪切的图像适用至少一次第二神经网络运算生成关于包含于所述。

22、学习用第t图像的对应于各所述学习用客体的各学习用客体像素的各学习用第t客体运动向量， (3)使抖动预测单元参照各所述学习用第t客体运动向量生成对应于所述学习用第t 图像内的像素中各学习用参考像素的各学习用第t抖动向量， (4)使学习单元参照(i)通过用于生成所述学习用第t抖动向量的过程优化的学习用第t调整客体运动向量及(ii)优化之前的所述学习用第t客体运动向量算出至少一个损失，并使得反向传播所述损失完成了所述第二神经网络的至少一个参数的至少一部分的学习的状态下，运行用于执行(I)获取到对应于所述测试用视频的测试用第t帧的测试用第t图像时，测试装置使所述第一神经网络对所述测试。

23、用第t图像适用第一神经网络运算生成对应于所述测试用第t图像内的各测试用客体的各测试用第t掩码的过程、 (II)使所述第二神经网络对(i)各所述测试用第t掩码、 (ii)与其对应的作为所述测试用第t图像的一部分的各测试用第t剪切的图像、 (iii)各测试用第t-1掩码及(iv)与其对应的作为测试用第t-1图像的一部分的各测试用第t-1剪切的图像适用第二神经网络运算生成关于包含于所述测试用第t图像的对应于各所述测试用客体的各测试用客体像素的各测试用第t客体运动向量的过程、及(III)使所述抖动预测单元参照各所述测试用第t客体运动向量生成对应于所述测试用第t图像内的像素中各测试用参考。

24、像素的各测试用第t抖动向量的过程的所述指令。 26.根据权利要求25所述的装置，其特征在于：所述处理器包括(IV)使所述抖动预测单元参照所述测试用第t抖动向量生成缓解了所述测试用第t图像的抖动的测试用第t调整图像的过程。权利要求书 6/6 页 7 CN 111507906 A 7 用用于容错及波动鲁棒性的神经网络除抖动的方法及装置技术领域 0001 本发明涉及与自动行驶车辆一起利用的学习方法及学习装置，更具体来讲涉及为了使用至少一个神经网络(Neural Network)去除视频(Video)上的抖动(Jittering)，从由于晃动的摄像头而生成的所述视频检测抖动的学习方法。

25、及学习装置、以及利用其的测试方法及测试装置。背景技术 0002 深度卷积神经网络(Deep Convolution Neural Networks； Deep CNNs)是深度学习领域发生的惊人的发展核心。 CNNs为了解决文字识别问题而自90年代以来开始使用，而像目前广泛使用是则多亏近来的研究结果。这种深度CNN在2012年ImageNet图像分类比赛打败其他竞争者获胜。自那以后卷积神经网络在机器学习(Machine Learning)领域成为了非常有用的工具。 0003 CNN还广泛用于车辆的自动行驶领域，其主要执行分析通过附着于车辆的摄像头获取的图像检测障碍物，。

26、检测自由空间(Free Space)等功能使得车辆能够安全行驶。 0004 然而，如上利用CNN使得车辆自动行驶的方法在特定状况下可能难以执行。即， CNN 须使用通过摄像头得到的图像，由于摄像头晃动等问题导致图像严重晃动的情况下，视频的各帧发生图像显著改变的抖动(Jittering)现象。发生这种抖动现象的情况下CNN难以追踪图像上的客体的运动。尤其，这种抖动现象在常常越野行驶的军用车辆自动行驶的状况下经常发生，防止这种现象的方法非常重要。 0005 用于防止这种抖动的现有技术有物理地测定摄像头的运动后利用其补正发生抖动的图像的方法，这种方法需要大量费用、摄像头模。

27、块的重量过大、使用多个装置，因此引起故障的危险性高。现有技术中有不同于以上所述物理性方法的软件性方法，但该方法也只考虑图像的客体的光流，因此具有补正发生抖动的图像的过程中导致图像发生很大失真的问题。发明内容 0006 技术问题 0007 本发明的目的是解决上述问题。 0008 本发明的另一目的是通过多个神经网络(Neural Network)补正发生抖动 (Jittering)的图像使得即使摄像头晃动也能够获取合适的图像。 0009 技术方案 0010 为了达成如上所述的本发明的目的且实现下述本发明的特征性效果的本发明的特征性的构成如下所述。 0011 根据本发明的一个方面。

28、，提供一种为了使用至少一个神经网络(Neural Network) 去除视频(Video)上的抖动(Jittering)而从由于晃动的摄像头而生成的所述视频检测抖动的方法，其特征在于，包括： (a)获取到对应于所述视频的第t帧的第t图像时，计算装置使说明书 1/13 页 8 CN 111507906 A 8 第一神经网络对所述第t图像适用至少一次第一神经网络运算生成对应于所述第t图像内的各客体的第t掩码的步骤； (b)所述计算装置使第二神经网络对(i)各所述第t掩码、 (ii) 与其对应的作为所述第t图像的一部分的各第t剪切的(Cropped)图像、 (iii)各第t-1掩码及。

29、(iv)与其对应的作为第t-1图像的一部分的各第t-1剪切的图像适用至少一次第二神经网络运算生成关于包含于所述第t图像的对应于各所述客体的各客体像素的各第t客体运动向量(Object Motion Vector)的步骤；以及(c)所述计算装置使抖动预测单元 (Jittering Estimation Unit)参照各所述第t客体运动向量生成对应于所述第t图像内的像素中各参考像素(Reference Pixel)的各第t抖动向量(Jittering Vector)的步骤。 0012 根据一个实施例，其特征在于，还包括： (d)所述计算装置使所述抖动预测单元参照所述第t抖动向量生成缓。

30、解了所述第t图像的抖动的第t调整图像(Adjusted Image)的步骤。 0013 根据一个实施例，其特征在于，还包括： (e)所述计算装置使学习单元(Learning Unit)参照(i)通过用于生成所述第t抖动向量的过程优化的第t调整客体运动向量及(ii) 优化之前的所述第t客体运动向量算出至少一个损失，并使得反向传播所述损失学习所述第二神经网络的至少一个参数的至少一部分的步骤。 0014 根据一个实施例，其特征在于，在所述(c)步骤中，所述计算装置使所述抖动预测单元还参照(i)表示在通过所述摄像头拍摄所述第t-1图像的时间点与拍摄所述第t图像的时间点之间对应于所述。

31、第t图像内的各像素的各地点运动的程度的各第t光流向量 (Optical Flow Vector)及(ii)表示在通过所述摄像头拍摄所述第t-1图像的时间点与拍摄所述第t图像的时间点之间在三维上各所述地点运动的程度的各第t FPV向量生成所述第t抖动向量。 0015 根据一个实施例，其特征在于，在所述(d)步骤中，所述计算装置使所述抖动预测单元算出最小化以下数学式的以生成所述第t抖动向量， 0016 0017表示所述第t抖动向量，表示所述第t FPV向量，表示所述第t客体运动向量，表示第t-1FPV向量，表示第t-1客体运动向量， v及o表示关于及的各加权值。 0018 根据一个。

32、实施例，其特征在于，所述数学式使得对满足以下条件的项(Term)有效， 0019 0020表示作为所述第t光流向量中的一部分的关于所述参考像素的第一的第t光流向量，表示关于非所述参考像素的其余像素的第二的第t光流向量，表示关于作为所述第t客体运动向量中的一部分的是所述客体像素且是所述参考像素的特定像素的第说明书 2/13 页 9 CN 111507906 A 9 t客体运动向量，符号下端的i， jNB(x， y)表示使用关于包括指定像素的网格内的所述参考像素中的一部分的信息， wij， xy表示关于所述网格内的所述指定像素的至少一个位置的各加权值。 0021 根据一个实施例，。

33、其特征在于，所述计算装置使所述抖动预测单元算出最小化以下数学式的 0022 0023表示所述第t抖动向量，表示所述第t FPV向量，表示所述第t客体运动向量，表示关于第t-k图像的第t-k FPV向量，表示关于所述第t-k图像的第 t-k客体运动向量， wk表示关于及的各加权值， K为指定常数。 0024 根据一个实施例，其特征在于，在所述(b)步骤中，所述第二神经网络包括第2_1神经网络及第2_2神经网络，所述第2_1神经网络执行至少一次对各所述第t掩码、各所述第t 剪切的图像、各所述第t-1掩码及各所述第t-1剪切的图像进行分析的包含于所述第二神经网络运算的第2_1。

34、神经网络运算生成至少一个中间特征地图(Intermediate Feature Map)，所述第2_2神经网络参照对获取到所述第t图像之前输入的值的分析内容，对所述中间特征地图适用至少一次包含于所述第二神经网络运算的第2_2神经网络运算生成所述第 t客体运动向量。 0025 根据一个实施例，其特征在于，所述第2_2神经网络使得(i)反映对关于第一图像至所述第t-1图像中至少一部分的值的分析，使用所述第2_1神经网络生成的所述第2_2神经网络的状态向量(State Vector)生成所述第t客体运动向量， (ii)更新所述状态向量。 0026 根据一个实施例，其特征在于，所述。

35、参考像素是位于所述第t图像上的所述网格的网格单元(Grid Cell)的边界(Boundary)上的顶点。 0027 根据一个实施例，其特征在于，在所述(a)步骤中，所述第一神经网络包括至少一个区域候网络(Region Proposal Network， RPN)、至少一个卷积层及至少一个池化层，所述 RPN生成至少一个ROI时，所述第一神经网络利用双线性插值法(Bilinear Interpolation) 从所述第t图像上选择对应于所述ROI的至少一个区域后，对其适用至少一次所述卷积层的运算生成所述第t掩码。 0028 根据本发明的另一方面，提供一种为了使用至少一个神。

36、经网络(Neural Network) 去除测试用视频(Video)上的抖动(Jittering)而从由于晃动的摄像头而生成的所述测试用视频去除所述抖动的测试方法，其特征在于，包括： (a)学习装置(1)获取到对应于学习用视频上的学习用第t帧的学习用第t图像时，使第一神经网络对所述学习用第t图像适用至少一次第一神经网络运算生成对应于所述学习用第t图像内的各学习用客体的学习用第t 掩码， (2)使第二神经网络对(i)各所述学习用第t掩码、 (ii)与其对应的作为所述学习用第 t图像的一部分的各学习用第t剪切的(Cropped)图像、 (iii)各学习用第t-1掩码及(iv)与其对应。

37、的作为学习用第t-1图像的一部分的各学习用第t-1剪切的图像适用至少一次第二说明书 3/13 页 10 CN 111507906 A 10 神经网络运算生成关于包含于所述学习用第t图像的对应于各所述学习用客体的各学习用客体像素的各学习用第t客体运动向量(Object Motion Vector)， (3)使抖动预测单元 (Jittering Estimation Unit)参照各所述学习用第t客体运动向量生成对应于所述学习用第t图像内的像素中各学习用参考像素(Reference Pixel)的各学习用第t抖动向量 (Jittering Vector)， (4)使学习单元参照(i)通过用于。

38、生成所述学习用第t抖动向量的过程优化的学习用第t调整客体运动向量及(ii)优化之前的所述学习用第t客体运动向量算出至少一个损失，并使得反向传播所述损失完成了所述第二神经网络的至少一个参数的至少一部分的学习的状态下，获取到对应于所述测试用视频的测试用第t帧的测试用第t图像时，测试装置使所述第一神经网络对所述测试用第t图像适用第一神经网络运算生成对应于所述测试用第t图像内的各测试用客体的各测试用第t掩码的步骤； (b)所述测试装置使所述第二神经网络对(i)各所述测试用第t掩码、 (ii)与其对应的作为所述测试用第t图像的一部分的各测试用第t剪切的(Cropped)图像、 (ii。

39、i)各测试用第t-1掩码及(iv)与其对应的作为测试用第t-1图像的一部分的各测试用第t-1剪切的图像适用第二神经网络运算生成关于包含于所述测试用第t图像的对应于各所述测试用客体的各测试用客体像素的各测试用第t客体运动向量(Object Motion Vector)的步骤；以及(c)所述测试装置使所述抖动预测单元(Jittering Estimation Unit)参照各所述测试用第t客体运动向量生成对应于所述测试用第t图像内的像素中各测试用参考像素(Reference Pixel)的各测试用第t抖动向量(Jittering Vector)的步骤。 0029 根据一个实施例，其。

40、特征在于，包括(d)所述计算装置使所述抖动预测单元参照所述测试用第t抖动向量生成缓解了所述测试用第t图像的抖动的测试用第t调整图像 (Adjusted Image)的步骤。 0030 根据本发明的又一方面，提供一种为了使用至少一个神经网络(Neural Network) 去除视频(Video)上的抖动(Jittering)而从由于晃动的摄像头而生成的所述视频检测抖动的装置，其特征在于，包括：至少一个存储器，其存储指令；以及至少一个处理器，其构成为运行用于执行(I)获取到对应于所述视频的第t帧的第t图像时，使第一神经网络对所述第t图像适用至少一次第一神经网络运算生成对应。

41、于所述第t图像内的各客体的第t掩码的过程， (II)使第二神经网络对(i)各所述第t掩码、 (ii)与其对应的作为所述第t图像的一部分的各第t剪切的(Cropped)图像、 (iii)各第t-1掩码及(iv)与其对应的作为第t-1图像的一部分的各第t-1剪切的图像适用至少一次第二神经网络运算生成关于包含于所述第t图像的对应于各所述客体的各客体像素的各第t客体运动向量(Object Motion Vector)的过程，以及(III)使抖动预测单元(Jittering Estimation Unit)参照各所述第t客体运动向量生成对应于所述第t图像内的像素中各参考像素(Referen。

42、ce Pixel)的各第t抖动向量 (Jittering Vector)的过程的所述指令。 0031 根据一个实施例，其特征在于，所述处理器还包括(IV)使所述抖动预测单元参照所述第t抖动向量生成缓解了所述第t图像的抖动的第t调整图像(Adjusted Image)的过程。 0032 根据一个实施例，其特征在于，所述处理器还包括(V)使学习单元(Learning Unit)参照(i)通过用于生成所述第t抖动向量的过程优化的第t调整客体运动向量及(ii) 优化之前的所述第t客体运动向量算出至少一个损失，并使得反向传播所述损失学习所述说明书 4/13 页 11 CN 1115079。

43、06 A 11 第二神经网络的至少一个参数的至少一部分的过程。 0033 根据一个实施例，其特征在于，在所述(III)过程中，所述处理器使所述抖动预测单元还参照(i)表示在通过所述摄像头拍摄所述第t-1图像的时间点与拍摄所述第t图像的时间点之间对应于所述第t图像内的各像素的各地点运动的程度的各第t光流向量 (Optical Flow Vector)及(ii)表示在通过所述摄像头拍摄所述第t-1图像的时间点与拍摄所述第t图像的时间点之间在三维上各所述地点运动的程度的各第t FPV向量生成所述第t抖动向量。 0034 根据一个实施例，其特征在于，在所述(IV)过程中，所述处理器。

44、使所述抖动预测单元算出最小化以下数学式的以生成所述第t抖动向量， 0035 0036表示所述第t抖动向量，表示所述第t FPV向量，表示所述第t客体运动向量，表示第t-1FPV向量，表示第t-1客体运动向量， v及o表示关于及的各加权值。 0037 根据一个实施例，其特征在于，所述数学式使得对满足以下条件的项(Term)有效， 0038 0039表示作为所述第t光流向量中的一部分的关于所述参考像素的第一的第t光流向量，表示关于非所述参考像素的其余像素的第二的第t光流向量，表示关于作为所述第t客体运动向量中的一部分的是所述客体像素且是所述参考像素的特定像素的第 t客体运动向量，符。

45、号下端的i， jNB(x， y)表示使用关于包括指定像素的网格内的所述参考像素中的一部分的信息， wij， xy表示关于所述网格内的所述指定像素的至少一个位置的各加权值。 0040 根据一个实施例，其特征在于，所述处理器使所述抖动预测单元算出最小化以下数学式的 0041 0042表示所述第t抖动向量，表示所述第t FPV向量，表示所述第t客体运动向量，表示关于第t-k图像的第t-k FPV向量，表示关于所述第t-k图像的第 t-k客体运动向量， wk表示关于及的各加权值， K为指定说明书 5/13 页 12 CN 111507906 A 12 常数。 0043 根据一个实施例，。

46、其特征在于，在所述(II)过程中，所述第二神经网络包括第2_1 神经网络及第2_2神经网络，所述第2_1神经网络执行至少一次对各所述第t掩码、各所述第 t剪切的图像、各所述第t-1掩码及各所述第t-1剪切的图像进行分析的包含于所述第二神经网络运算的第2_1神经网络运算生成至少一个中间特征地图(Intermediate Feature Map)，所述第2_2神经网络参照对获取到所述第t图像之前输入的值的分析内容，对所述中间特征地图适用至少一次包含于所述第二神经网络运算的第2_2神经网络运算生成所述第 t客体运动向量。 0044 根据一个实施例，其特征在于，所述第2_2神经网。

47、络使得(i)反映对关于第一图像至所述第t-1图像中至少一部分的值的分析，使用所述第2_1神经网络生成的所述第2_2神经网络的状态向量(State Vector)生成所述第t客体运动向量， (ii)更新所述状态向量。 0045 根据一个实施例，其特征在于，所述参考像素是位于所述第t图像上的所述网格的网格单元(Grid Cell)的边界(Boundary)上的顶点。 0046 根据一个实施例，其特征在于，在所述(I)过程中，所述第一神经网络包括至少一个区域候网络(Region Proposal Network， RPN)、至少一个卷积层及至少一个池化层，所述 RPN生成至少。

48、一个ROI时，所述第一神经网络利用双线性插值法(Bilinear Interpolation) 从所述第t图像上选择对应于所述ROI的至少一个区域后，对其适用至少一次所述卷积层的运算生成所述第t掩码。 0047 根据本发明的又一方面，提供一种为了使用至少一个神经网络(Neural Network) 去除测试用视频(Video)上的抖动(Jittering)而从由于晃动的摄像头而生成的所述测试用视频去除所述抖动的测试装置，其特征在于，包括：至少一个存储器，其存储指令；以及至少一个处理器，其构成为在学习装置(1)获取到对应于学习用视频上的学习用第t帧的学习用第t图像时，。

49、使第一神经网络对所述学习用第t图像适用至少一次第一神经网络运算生成对应于所述学习用第t图像内的各学习用客体的学习用第t掩码， (2)使第二神经网络对(i) 各所述学习用第t掩码、 (ii)与其对应的作为所述学习用第t图像的一部分的各学习用第t 剪切的(Cropped)图像、 (iii)各学习用第t-1掩码及(iv)与其对应的作为学习用第t-1图像的一部分的各学习用第t-1剪切的图像适用至少一次第二神经网络运算生成关于包含于所述学习用第t图像的对应于各所述学习用客体的各学习用客体像素的各学习用第t客体运动向量(Object Motion Vector)， (3)使抖动预测单元(Jitte。

50、ring Estimation Unit)参照各所述学习用第t客体运动向量生成对应于所述学习用第t图像内的像素中各学习用参考像素(Reference Pixel)的各学习用第t抖动向量(Jittering Vector)， (4)使学习单元参照(i)通过用于生成所述学习用第t抖动向量的过程优化的学习用第t调整客体运动向量及 (ii)优化之前的所述学习用第t客体运动向量算出至少一个损失，并使得反向传播所述损失完成了所述第二神经网络的至少一个参数的至少一部分的学习的状态下，运行用于执行 (I)获取到对应于所述测试用视频的测试用第t帧的测试用第t图像时，测试装置使所述第一神经网络对所。

展开阅读全文

内容关键字: 用用容错波动鲁棒性神经网络抖动方法装置