用用于容错及波动鲁棒性的神经网络除抖动的方法及装置.pdf
《用用于容错及波动鲁棒性的神经网络除抖动的方法及装置.pdf》由会员分享,可在线阅读,更多相关《用用于容错及波动鲁棒性的神经网络除抖动的方法及装置.pdf(22页完成版)》请在专利查询网上搜索。
1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202010020867.9 (22)申请日 2020.01.09 (30)优先权数据 16/262,996 2019.01.31 US (71)申请人 斯特拉德视觉公司 地址 韩国庆尚北道 (72)发明人 金桂贤金镕重金寅洙金鹤京 南云铉夫硕焄成明哲吕东勋 柳宇宙张泰雄郑景中诸泓模 赵浩辰 (74)专利代理机构 北京同立钧成知识产权代理 有限公司 11205 代理人 延美花臧建明 (51)Int.Cl. G06T 5/00(2006.01) G06N 3/04(2006.01)。
2、 G06N 3/08(2006.01) (54)发明名称 用用于容错及波动鲁棒性的神经网络除抖 动的方法及装置 (57)摘要 本申请涉及为了在极限状况的容错及波动 鲁棒性而提供的, 为了使用神经网络去除视频上 的抖动而从由于晃动的摄像头而生成的视频检 测抖动的方法, 其特征在于包括: 计算装置生成 对应于第t图像内的各客体的各第t掩码的步骤; 对各第t掩码、 各第t剪切的图像、 各第t-1掩码及 各第t-1剪切的图像适用至少一次第二神经网络 运算生成包含于第t图像的各客体像素的各第t 客体运动向量的步骤; 以及参照各第t客体运动 向量生成对应于第t图像内的像素中各参考像素 的各第t抖动向量的步。
3、骤。 本发明可用于视频稳 定化、 超精密客体追踪、 行动预测、 运动分解等。 权利要求书6页 说明书13页 附图2页 CN 111507906 A 2020.08.07 CN 111507906 A 1.一种方法, 是为了使用至少一个神经网络去除视频上的抖动而从由于晃动的摄像头 而生成的所述视频检测抖动的方法, 其特征在于, 包括: (a)获取到对应于所述视频的第t帧的第t图像时, 计算装置使第一神经网络对所述第t 图像适用至少一次第一神经网络运算生成对应于所述第t图像内的各客体的第t掩码的步 骤; (b)所述计算装置使第二神经网络对(i)各所述第t掩码、 (ii)与其对应的作为所述第t 图像。
4、的一部分的各第t剪切的图像、 (iii)各第t-1掩码及(iv)与其对应的作为第t-1图像的 一部分的各第t-1剪切的图像适用至少一次第二神经网络运算生成关于包含于所述第t图 像的对应于各所述客体的各客体像素的各第t客体运动向量的步骤; 以及 (c)所述计算装置使抖动预测单元参照各所述第t客体运动向量生成对应于所述第t图 像内的像素中各参考像素的各第t抖动向量的步骤。 2.根据权利要求1所述的方法, 其特征在于, 还包括: (d)所述计算装置使所述抖动预测单元参照所述第t抖动向量生成缓解了所述第t图像 的抖动的第t调整图像的步骤。 3.根据权利要求1所述的方法, 其特征在于, 还包括: (e)。
5、所述计算装置使学习单元参照(i)通过用于生成所述第t抖动向量的过程优化的第 t调整客体运动向量及(ii)优化之前的所述第t客体运动向量算出至少一个损失, 并使得反 向传播所述损失学习所述第二神经网络的至少一个参数的至少一部分的步骤。 4.根据权利要求1所述的方法, 其特征在于, 在所述(c)步骤中, 所述计算装置使所述抖动预测单元还参照(i)表示在通过所述摄像头拍摄所述第t-1 图像的时间点与拍摄所述第t图像的时间点之间对应于所述第t图像内的各像素的各地点 运动的程度的各第t光流向量及(ii)表示在通过所述摄像头拍摄所述第t-1图像的时间点 与拍摄所述第t图像的时间点之间在三维上各所述地点运动。
6、的程度的各第t FPV向量生成 所述第t抖动向量。 5.根据权利要求2所述的方法, 其特征在于: 在所述(d)步骤中, 所述计算装置使所述抖动预测单元算出最小化以下数学式的 以生成所述第t抖动向量, 表示所述第t抖动向量,表示所述第t FPV向量,表示所述第t客体运动向 量,表示第t-1FPV向量,表示第t-1客体运动向量, v及0表示关于 及的各加权值。 6.根据权利要求5所述的方法, 其特征在于: 所述数学式使得对满足以下条件的项有效, 权利要求书 1/6 页 2 CN 111507906 A 2 表示作为所述第t光流向量中的一部分的关于所述参考像素的第一的第t光流向 量,表示关于非所述参。
7、考像素的其余像素的第二的第t光流向量,表示关于作为所 述第t客体运动向量中的一部分的是所述客体像素且是所述参考像素的特定像素的第t客 体运动向量, 符号下端的i, jNB(x, y)表示使用关于包括指定像素的网格内的所述参考 像素中的一部分的信息, wij, xy表示关于所述网格内的所述指定像素的至少一个位置的各加 权值。 7.根据权利要求4所述的方法, 其特征在于: 所述计算装置使所述抖动预测单元算出最小化以下数学式的 表示所述第t抖动向量,表示所述第t FPV向量,表示所述第t客体运动向 量,表示关于第t-k图像的第t-k FPV向量,表示关于所述第t-k图像的第t-k 客体运动向量, w。
8、k表示关于及的各加权值, K为指定常数。 8.根据权利要求1所述的方法, 其特征在于: 在所述(b)步骤中, 所述第二神经网络包括第2_1神经网络及第2_2神经网络, 所述第2_1神经网络执行至少一次对各所述第t掩码、 各所述第t剪切的图像、 各所述第 t-1掩码及各所述第t-1剪切的图像进行分析的包含于所述第二神经网络运算的第2_1神经 网络运算生成至少一个中间特征地图, 所述第2_2神经网络参照对获取到所述第t图像之前输入的值的分析内容, 对所述中间 特征地图适用至少一次包含于所述第二神经网络运算的第2_2神经网络运算生成所述第t 客体运动向量。 9.根据权利要求8所述的方法, 其特征在于。
9、: 所述第2_2神经网络使得(i)反映对关于第一图像至所述第t-1图像中至少一部分的值 的分析, 使用所述第2_1神经网络生成的所述第2_2神经网络的状态向量生成所述第t客体 运动向量, (ii)更新所述状态向量。 10.根据权利要求1所述的方法, 其特征在于: 所述参考像素是位于所述第t图像上的所述网格的网格单元的边界上的顶点。 11.根据权利要求1所述的方法, 其特征在于: 权利要求书 2/6 页 3 CN 111507906 A 3 在所述(a)步骤中, 所述第一神经网络包括至少一个RPN、 至少一个卷积层及至少一个池化层, 所述RPN生成至少一个ROI时, 所述第一神经网络利用双线性插。
10、值法从所述第t图像上 选择对应于所述ROI的至少一个区域后, 对其适用至少一次所述卷积层的运算生成所述第t 掩码。 12.一种方法, 是为了使用至少一个神经网络去除测试用视频上的抖动而从由于晃动 的摄像头而生成的所述测试用视频去除所述抖动的测试方法, 其特征在于, 包括: (a)学习装置(1)获取到对应于学习用视频上的学习用第t帧的学习用第t图像时, 使第 一神经网络对所述学习用第t图像适用至少一次第一神经网络运算生成对应于所述学习用 第t图像内的各学习用客体的学习用第t掩码, (2)使第二神经网络对(i)各所述学习用第t 掩码、 (ii)与其对应的作为所述学习用第t图像的一部分的各学习用第t。
11、剪切的图像、 (iii) 各学习用第t-1掩码及(iv)与其对应的作为学习用第t-1图像的一部分的各学习用第t-1剪 切的图像适用至少一次第二神经网络运算生成关于包含于所述学习用第t图像的对应于各 所述学习用客体的各学习用客体像素的各学习用第t客体运动向量, (3)使抖动预测单元参 照各所述学习用第t客体运动向量生成对应于所述学习用第t图像内的像素中各学习用参 考像素的各学习用第t抖动向量, (4)使学习单元参照(i)通过用于生成所述学习用第t抖动 向量的过程优化的学习用第t调整客体运动向量及(ii)优化之前的所述学习用第t客体运 动向量算出至少一个损失, 并使得反向传播所述损失完成了所述第二。
12、神经网络的至少一个 参数的至少一部分的学习的状态下, 获取到对应于所述测试用视频的测试用第t帧的测试 用第t图像时, 测试装置使所述第一神经网络对所述测试用第t图像适用第一神经网络运算 生成对应于所述测试用第t图像内的各测试用客体的各测试用第t掩码的步骤; (b)所述测试装置使所述第二神经网络对(i)各所述测试用第t掩码、 (ii)与其对应的 作为所述测试用第t图像的一部分的各测试用第t剪切的图像、 (iii)各测试用第t-1掩码及 (iv)与其对应的作为测试用第t-1图像的一部分的各测试用第t-1剪切的图像适用第二神 经网络运算生成关于包含于所述测试用第t图像的对应于各所述测试用客体的各测试。
13、用客 体像素的各测试用第t客体运动向量的步骤; 以及 (c)所述测试装置使所述抖动预测单元参照各所述测试用第t客体运动向量生成对应 于所述测试用第t图像内的像素中各测试用参考像素的各测试用第t抖动向量的步骤。 13.根据权利要求12所述的方法, 其特征在于, 包括: (d)所述计算装置使所述抖动预测单元参照所述测试用第t抖动向量生成缓解了所述 测试用第t图像的抖动的测试用第t调整图像的步骤。 14.一种装置, 是为了使用至少一个神经网络去除视频上的抖动而从由于晃动的摄像 头而生成的所述视频检测抖动的计算装置, 其特征在于, 包括: 至少一个存储器, 其存储指令; 以及 至少一个处理器, 其构成。
14、为运行用于执行(I)获取到对应于所述视频的第t帧的第t图 像时, 使第一神经网络对所述第t图像适用至少一次第一神经网络运算生成对应于所述第t 图像内的各客体的第t掩码的过程, (II)使第二神经网络对(i)各所述第t掩码、 (ii)与其对 应的作为所述第t图像的一部分的各第t剪切的图像、 (iii)各第t-1掩码及(iv)与其对应的 作为第t-1图像的一部分的各第t-1剪切的图像适用至少一次第二神经网络运算生成关于 权利要求书 3/6 页 4 CN 111507906 A 4 包含于所述第t图像的对应于各所述客体的各客体像素的各第t客体运动向量的过程, 以及 (III)使抖动预测单元参照各所述。
15、第t客体运动向量生成对应于所述第t图像内的像素中各 参考像素的各第t抖动向量的过程的所述指令。 15.根据权利要求14所述的装置, 其特征在于: 所述处理器还包括(IV)使所述抖动预测单元参照所述第t抖动向量生成缓解了所述第 t图像的抖动的第t调整图像的过程。 16.根据权利要求14所述的装置, 其特征在于: 所述处理器还包括(V)使学习单元参照(i)通过用于生成所述第t抖动向量的过程优化 的第t调整客体运动向量及(ii)优化之前的所述第t客体运动向量算出至少一个损失, 并使 得反向传播所述损失学习所述第二神经网络的至少一个参数的至少一部分的过程。 17.根据权利要求14所述的装置, 其特征在。
16、于: 在所述(III)过程中, 所述处理器使所述抖动预测单元还参照(i)表示在通过所述摄像 头拍摄所述第t-1图像的时间点与拍摄所述第t图像的时间点之间对应于所述第t图像内的 各像素的各地点运动的程度的各第t光流向量及(ii)表示在通过所述摄像头拍摄所述第t- 1图像的时间点与拍摄所述第t图像的时间点之间在三维上各所述地点运动的程度的各第t FPV向量生成所述第t抖动向量。 18.根据权利要求15所述的装置, 其特征在于: 在所述(IV)过程中, 所述处理器使所述抖动预测单元算出最小化以下数学式的 以生成所述第t抖动向量, 表示所述第t抖动向量,表示所述第t FPV向量,表示所述第t客体运动向。
17、 量,表示第t-1 FPV向量,表示第t-1客体运动向量, v及o表示关于 及的各加权值。 19.根据权利要求18所述的装置, 其特征在于: 所述数学式使得对满足以下条件的项有效, 表示作为所述第t光流向量中的一部分的关于所述参考像素的第一的第t光流向 量,表示关于非所述参考像素的其余像素的第二的第t光流向量,表示关于作为所 述第t客体运动向量中的一部分的是所述客体像素且是所述参考像素的特定像素的第t客 体运动向量, 符号下端的i, jNB(x, y)表示使用关于包括指定像素的网格内的所述参考 像素中的一部分的信息, wij, xy表示关于所述网格内的所述指定像素的至少一个位置的各加 权利要求。
18、书 4/6 页 5 CN 111507906 A 5 权值。 20.根据权利要求17所述的装置, 其特征在于: 所述处理器使所述抖动预测单元算出最小化以下数学式的 表示所述第t抖动向量,表示所述第t FPV向量,表示所述第t客体运动向 量,表示关于第t-k图像的第t-k FPV向量,表示关于所述第t-k图像的第t-k 客体运动向量, wk表示关于及的各加权值, K为指定常数。 21.根据权利要求14所述的装置, 其特征在于: 在所述(II)过程中, 所述第二神经网络包括第2_1神经网络及第2_2神经网络, 所述第2_1神经网络执行至少一次对各所述第t掩码、 各所述第t剪切的图像、 各所述第 t。
19、-1掩码及各所述第t-1剪切的图像进行分析的包含于所述第二神经网络运算的第2_1神经 网络运算生成至少一个中间特征地图, 所述第2_2神经网络参照对获取到所述第t图像之前输入的值的分析内容, 对所述中间 特征地图适用至少一次包含于所述第二神经网络运算的第2_2神经网络运算生成所述第t 客体运动向量。 22.根据权利要求21所述的装置, 其特征在于: 所述第2_2神经网络使得(i)反映对关于第一图像至所述第t-1图像中至少一部分的值 的分析, 使用所述第2_1神经网络生成的所述第2_2神经网络的状态向量生成所述第t客体 运动向量, (ii)更新所述状态向量。 23.根据权利要求14所述的装置, 。
20、其特征在于: 所述参考像素是位于所述第t图像上的所述网格的网格单元的边界上的顶点。 24.根据权利要求14所述的装置, 其特征在于: 在所述(I)过程中, 所述第一神经网络包括至少一个RPN、 至少一个卷积层及至少一个池化层, 所述RPN生成至少一个ROI时, 所述第一神经网络利用双线性插值法从所述第t图像上 选择对应于所述ROI的至少一个区域后, 对其适用至少一次所述卷积层的运算生成所述第t 掩码。 25.一种装置, 是为了使用至少一个神经网络去除测试用视频(Video)上的抖动而从由 于晃动的摄像头而生成的所述测试用视频去除所述抖动的测试装置, 其特征在于, 包括: 至少一个存储器, 其存。
21、储指令; 以及 至少一个处理器, 其构成为在学习装置(1)获取到对应于学习用视频上的学习用第t帧 的学习用第t图像时, 使第一神经网络对所述学习用第t图像适用至少一次第一神经网络运 权利要求书 5/6 页 6 CN 111507906 A 6 算生成对应于所述学习用第t图像内的各学习用客体的学习用第t掩码, (2)使第二神经网 络对(i)各所述学习用第t掩码、 (ii)与其对应的作为所述学习用第t图像的一部分的各学 习用第t剪切的图像、 (iii)各学习用第t-1掩码及(iv)与其对应的作为学习用第t-1图像的 一部分的各学习用第t-1剪切的图像适用至少一次第二神经网络运算生成关于包含于所述 。
22、学习用第t图像的对应于各所述学习用客体的各学习用客体像素的各学习用第t客体运动 向量, (3)使抖动预测单元参照各所述学习用第t客体运动向量生成对应于所述学习用第t 图像内的像素中各学习用参考像素的各学习用第t抖动向量, (4)使学习单元参照(i)通过 用于生成所述学习用第t抖动向量的过程优化的学习用第t调整客体运动向量及(ii)优化 之前的所述学习用第t客体运动向量算出至少一个损失, 并使得反向传播所述损失完成了 所述第二神经网络的至少一个参数的至少一部分的学习的状态下, 运行用于执行(I)获取 到对应于所述测试用视频的测试用第t帧的测试用第t图像时, 测试装置使所述第一神经网 络对所述测试。
23、用第t图像适用第一神经网络运算生成对应于所述测试用第t图像内的各测 试用客体的各测试用第t掩码的过程、 (II)使所述第二神经网络对(i)各所述测试用第t掩 码、 (ii)与其对应的作为所述测试用第t图像的一部分的各测试用第t剪切的图像、 (iii)各 测试用第t-1掩码及(iv)与其对应的作为测试用第t-1图像的一部分的各测试用第t-1剪切 的图像适用第二神经网络运算生成关于包含于所述测试用第t图像的对应于各所述测试用 客体的各测试用客体像素的各测试用第t客体运动向量的过程、 及(III)使所述抖动预测单 元参照各所述测试用第t客体运动向量生成对应于所述测试用第t图像内的像素中各测试 用参考。
24、像素的各测试用第t抖动向量的过程的所述指令。 26.根据权利要求25所述的装置, 其特征在于: 所述处理器包括(IV)使所述抖动预测单元参照所述测试用第t抖动向量生成缓解了所 述测试用第t图像的抖动的测试用第t调整图像的过程。 权利要求书 6/6 页 7 CN 111507906 A 7 用用于容错及波动鲁棒性的神经网络除抖动的方法及装置 技术领域 0001 本发明涉及与自动行驶车辆一起利用的学习方法及学习装置, 更具体来讲涉及为 了使用至少一个神经网络(Neural Network)去除视频(Video)上的抖动(Jittering), 从由 于晃动的摄像头而生成的所述视频检测抖动的学习方法。
25、及学习装置、 以及利用其的测试方 法及测试装置。 背景技术 0002 深度卷积神经网络(Deep Convolution Neural Networks; Deep CNNs)是深度学 习领域发生的惊人的发展核心。 CNNs为了解决文字识别问题而自90年代以来开始使用, 而 像目前广泛使用是则多亏近来的研究结果。 这种深度CNN在2012年ImageNet图像分类比赛 打败其他竞争者获胜。 自那以后卷积神经网络在机器学习(Machine Learning)领域成为了 非常有用的工具。 0003 CNN还广泛用于车辆的自动行驶领域, 其主要执行分析通过附着于车辆的摄像头 获取的图像检测障碍物, 。
26、检测自由空间(Free Space)等功能使得车辆能够安全行驶。 0004 然而, 如上利用CNN使得车辆自动行驶的方法在特定状况下可能难以执行。 即, CNN 须使用通过摄像头得到的图像, 由于摄像头晃动等问题导致图像严重晃动的情况下, 视频 的各帧发生图像显著改变的抖动(Jittering)现象。 发生这种抖动现象的情况下CNN难以追 踪图像上的客体的运动。 尤其, 这种抖动现象在常常越野行驶的军用车辆自动行驶的状况 下经常发生, 防止这种现象的方法非常重要。 0005 用于防止这种抖动的现有技术有物理地测定摄像头的运动后利用其补正发生抖 动的图像的方法, 这种方法需要大量费用、 摄像头模。
27、块的重量过大、 使用多个装置, 因此引 起故障的危险性高。 现有技术中有不同于以上所述物理性方法的软件性方法, 但该方法也 只考虑图像的客体的光流, 因此具有补正发生抖动的图像的过程中导致图像发生很大失真 的问题。 发明内容 0006 技术问题 0007 本发明的目的是解决上述问题。 0008 本发明的另一目的是通过多个神经网络(Neural Network)补正发生抖动 (Jittering)的图像使得即使摄像头晃动也能够获取合适的图像。 0009 技术方案 0010 为了达成如上所述的本发明的目的且实现下述本发明的特征性效果的本发明的 特征性的构成如下所述。 0011 根据本发明的一个方面。
28、, 提供一种为了使用至少一个神经网络(Neural Network) 去除视频(Video)上的抖动(Jittering)而从由于晃动的摄像头而生成的所述视频检测抖 动的方法, 其特征在于, 包括: (a)获取到对应于所述视频的第t帧的第t图像时, 计算装置使 说明书 1/13 页 8 CN 111507906 A 8 第一神经网络对所述第t图像适用至少一次第一神经网络运算生成对应于所述第t图像内 的各客体的第t掩码的步骤; (b)所述计算装置使第二神经网络对(i)各所述第t掩码、 (ii) 与其对应的作为所述第t图像的一部分的各第t剪切的(Cropped)图像、 (iii)各第t-1掩码 及。
29、(iv)与其对应的作为第t-1图像的一部分的各第t-1剪切的图像适用至少一次第二神经 网络运算生成关于包含于所述第t图像的对应于各所述客体的各客体像素的各第t客体运 动向量(Object Motion Vector)的步骤; 以及(c)所述计算装置使抖动预测单元 (Jittering Estimation Unit)参照各所述第t客体运动向量生成对应于所述第t图像内的 像素中各参考像素(Reference Pixel)的各第t抖动向量(Jittering Vector)的步骤。 0012 根据一个实施例, 其特征在于, 还包括: (d)所述计算装置使所述抖动预测单元参 照所述第t抖动向量生成缓。
30、解了所述第t图像的抖动的第t调整图像(Adjusted Image)的步 骤。 0013 根据一个实施例, 其特征在于, 还包括: (e)所述计算装置使学习单元(Learning Unit)参照(i)通过用于生成所述第t抖动向量的过程优化的第t调整客体运动向量及(ii) 优化之前的所述第t客体运动向量算出至少一个损失, 并使得反向传播所述损失学习所述 第二神经网络的至少一个参数的至少一部分的步骤。 0014 根据一个实施例, 其特征在于, 在所述(c)步骤中, 所述计算装置使所述抖动预测 单元还参照(i)表示在通过所述摄像头拍摄所述第t-1图像的时间点与拍摄所述第t图像的 时间点之间对应于所述。
31、第t图像内的各像素的各地点运动的程度的各第t光流向量 (Optical Flow Vector)及(ii)表示在通过所述摄像头拍摄所述第t-1图像的时间点与拍 摄所述第t图像的时间点之间在三维上各所述地点运动的程度的各第t FPV向量生成所述 第t抖动向量。 0015 根据一个实施例, 其特征在于, 在所述(d)步骤中, 所述计算装置使所述抖动预测 单元算出最小化以下数学式的以生成所述第t抖动向量, 0016 0017表示所述第t抖动向量,表示所述第t FPV向量,表示所述第t客体运 动向量,表示第t-1FPV向量,表示第t-1客体运动向量, v及o表示关于 及的各加权值。 0018 根据一个。
32、实施例, 其特征在于, 所述数学式使得对满足以下条件的项(Term)有效, 0019 0020表示作为所述第t光流向量中的一部分的关于所述参考像素的第一的第t光 流向量,表示关于非所述参考像素的其余像素的第二的第t光流向量,表示关于作 为所述第t客体运动向量中的一部分的是所述客体像素且是所述参考像素的特定像素的第 说明书 2/13 页 9 CN 111507906 A 9 t客体运动向量, 符号下端的i, jNB(x, y)表示使用关于包括指定像素的网格内的所述 参考像素中的一部分的信息, wij, xy表示关于所述网格内的所述指定像素的至少一个位置的 各加权值。 0021 根据一个实施例, 。
33、其特征在于, 所述计算装置使所述抖动预测单元算出最小化以 下数学式的 0022 0023表示所述第t抖动向量,表示所述第t FPV向量,表示所述第t客体运 动向量,表示关于第t-k图像的第t-k FPV向量,表示关于所述第t-k图像的第 t-k客体运动向量, wk表示关于及的各加权值, K为指定 常数。 0024 根据一个实施例, 其特征在于, 在所述(b)步骤中, 所述第二神经网络包括第2_1神 经网络及第2_2神经网络, 所述第2_1神经网络执行至少一次对各所述第t掩码、 各所述第t 剪切的图像、 各所述第t-1掩码及各所述第t-1剪切的图像进行分析的包含于所述第二神经 网络运算的第2_1。
34、神经网络运算生成至少一个中间特征地图(Intermediate Feature Map), 所述第2_2神经网络参照对获取到所述第t图像之前输入的值的分析内容, 对所述中 间特征地图适用至少一次包含于所述第二神经网络运算的第2_2神经网络运算生成所述第 t客体运动向量。 0025 根据一个实施例, 其特征在于, 所述第2_2神经网络使得(i)反映对关于第一图像 至所述第t-1图像中至少一部分的值的分析, 使用所述第2_1神经网络生成的所述第2_2神 经网络的状态向量(State Vector)生成所述第t客体运动向量, (ii)更新所述状态向量。 0026 根据一个实施例, 其特征在于, 所述。
35、参考像素是位于所述第t图像上的所述网格的 网格单元(Grid Cell)的边界(Boundary)上的顶点。 0027 根据一个实施例, 其特征在于, 在所述(a)步骤中, 所述第一神经网络包括至少一 个区域候网络(Region Proposal Network, RPN)、 至少一个卷积层及至少一个池化层, 所述 RPN生成至少一个ROI时, 所述第一神经网络利用双线性插值法(Bilinear Interpolation) 从所述第t图像上选择对应于所述ROI的至少一个区域后, 对其适用至少一次所述卷积层的 运算生成所述第t掩码。 0028 根据本发明的另一方面, 提供一种为了使用至少一个神。
36、经网络(Neural Network) 去除测试用视频(Video)上的抖动(Jittering)而从由于晃动的摄像头而生成的所述测试 用视频去除所述抖动的测试方法, 其特征在于, 包括: (a)学习装置(1)获取到对应于学习用 视频上的学习用第t帧的学习用第t图像时, 使第一神经网络对所述学习用第t图像适用至 少一次第一神经网络运算生成对应于所述学习用第t图像内的各学习用客体的学习用第t 掩码, (2)使第二神经网络对(i)各所述学习用第t掩码、 (ii)与其对应的作为所述学习用第 t图像的一部分的各学习用第t剪切的(Cropped)图像、 (iii)各学习用第t-1掩码及(iv)与 其对应。
37、的作为学习用第t-1图像的一部分的各学习用第t-1剪切的图像适用至少一次第二 说明书 3/13 页 10 CN 111507906 A 10 神经网络运算生成关于包含于所述学习用第t图像的对应于各所述学习用客体的各学习用 客体像素的各学习用第t客体运动向量(Object Motion Vector), (3)使抖动预测单元 (Jittering Estimation Unit)参照各所述学习用第t客体运动向量生成对应于所述学习 用第t图像内的像素中各学习用参考像素(Reference Pixel)的各学习用第t抖动向量 (Jittering Vector), (4)使学习单元参照(i)通过用于。
38、生成所述学习用第t抖动向量的过 程优化的学习用第t调整客体运动向量及(ii)优化之前的所述学习用第t客体运动向量算 出至少一个损失, 并使得反向传播所述损失完成了所述第二神经网络的至少一个参数的至 少一部分的学习的状态下, 获取到对应于所述测试用视频的测试用第t帧的测试用第t图像 时, 测试装置使所述第一神经网络对所述测试用第t图像适用第一神经网络运算生成对应 于所述测试用第t图像内的各测试用客体的各测试用第t掩码的步骤; (b)所述测试装置使 所述第二神经网络对(i)各所述测试用第t掩码、 (ii)与其对应的作为所述测试用第t图像 的一部分的各测试用第t剪切的(Cropped)图像、 (ii。
39、i)各测试用第t-1掩码及(iv)与其对应 的作为测试用第t-1图像的一部分的各测试用第t-1剪切的图像适用第二神经网络运算生 成关于包含于所述测试用第t图像的对应于各所述测试用客体的各测试用客体像素的各测 试用第t客体运动向量(Object Motion Vector)的步骤; 以及(c)所述测试装置使所述抖动 预测单元(Jittering Estimation Unit)参照各所述测试用第t客体运动向量生成对应于 所述测试用第t图像内的像素中各测试用参考像素(Reference Pixel)的各测试用第t抖动 向量(Jittering Vector)的步骤。 0029 根据一个实施例, 其。
40、特征在于, 包括(d)所述计算装置使所述抖动预测单元参照所 述测试用第t抖动向量生成缓解了所述测试用第t图像的抖动的测试用第t调整图像 (Adjusted Image)的步骤。 0030 根据本发明的又一方面, 提供一种为了使用至少一个神经网络(Neural Network) 去除视频(Video)上的抖动(Jittering)而从由于晃动的摄像头而生成的所述视频检测抖 动的装置, 其特征在于, 包括: 至少一个存储器, 其存储指令; 以及至少一个处理器, 其构成 为运行用于执行(I)获取到对应于所述视频的第t帧的第t图像时, 使第一神经网络对所述 第t图像适用至少一次第一神经网络运算生成对应。
41、于所述第t图像内的各客体的第t掩码的 过程, (II)使第二神经网络对(i)各所述第t掩码、 (ii)与其对应的作为所述第t图像的一部 分的各第t剪切的(Cropped)图像、 (iii)各第t-1掩码及(iv)与其对应的作为第t-1图像的 一部分的各第t-1剪切的图像适用至少一次第二神经网络运算生成关于包含于所述第t图 像的对应于各所述客体的各客体像素的各第t客体运动向量(Object Motion Vector)的过 程, 以及(III)使抖动预测单元(Jittering Estimation Unit)参照各所述第t客体运动向 量生成对应于所述第t图像内的像素中各参考像素(Referen。
42、ce Pixel)的各第t抖动向量 (Jittering Vector)的过程的所述指令。 0031 根据一个实施例, 其特征在于, 所述处理器还包括(IV)使所述抖动预测单元参照 所述第t抖动向量生成缓解了所述第t图像的抖动的第t调整图像(Adjusted Image)的过 程。 0032 根据一个实施例, 其特征在于, 所述处理器还包括(V)使学习单元(Learning Unit)参照(i)通过用于生成所述第t抖动向量的过程优化的第t调整客体运动向量及(ii) 优化之前的所述第t客体运动向量算出至少一个损失, 并使得反向传播所述损失学习所述 说明书 4/13 页 11 CN 1115079。
43、06 A 11 第二神经网络的至少一个参数的至少一部分的过程。 0033 根据一个实施例, 其特征在于, 在所述(III)过程中, 所述处理器使所述抖动预测 单元还参照(i)表示在通过所述摄像头拍摄所述第t-1图像的时间点与拍摄所述第t图像的 时间点之间对应于所述第t图像内的各像素的各地点运动的程度的各第t光流向量 (Optical Flow Vector)及(ii)表示在通过所述摄像头拍摄所述第t-1图像的时间点与拍 摄所述第t图像的时间点之间在三维上各所述地点运动的程度的各第t FPV向量生成所述 第t抖动向量。 0034 根据一个实施例, 其特征在于, 在所述(IV)过程中, 所述处理器。
44、使所述抖动预测单 元算出最小化以下数学式的以生成所述第t抖动向量, 0035 0036表示所述第t抖动向量,表示所述第t FPV向量,表示所述第t客体运 动向量,表示第t-1FPV向量,表示第t-1客体运动向量, v及o表示关于 及的各加权值。 0037 根据一个实施例, 其特征在于, 所述数学式使得对满足以下条件的项(Term)有效, 0038 0039表示作为所述第t光流向量中的一部分的关于所述参考像素的第一的第t光 流向量,表示关于非所述参考像素的其余像素的第二的第t光流向量,表示关于作 为所述第t客体运动向量中的一部分的是所述客体像素且是所述参考像素的特定像素的第 t客体运动向量, 符。
45、号下端的i, jNB(x, y)表示使用关于包括指定像素的网格内的所述 参考像素中的一部分的信息, wij, xy表示关于所述网格内的所述指定像素的至少一个位置的 各加权值。 0040 根据一个实施例, 其特征在于, 所述处理器使所述抖动预测单元算出最小化以下 数学式的 0041 0042表示所述第t抖动向量,表示所述第t FPV向量,表示所述第t客体运 动向量,表示关于第t-k图像的第t-k FPV向量,表示关于所述第t-k图像的第 t-k客体运动向量, wk表示关于及的各加权值, K为指定 说明书 5/13 页 12 CN 111507906 A 12 常数。 0043 根据一个实施例, 。
46、其特征在于, 在所述(II)过程中, 所述第二神经网络包括第2_1 神经网络及第2_2神经网络, 所述第2_1神经网络执行至少一次对各所述第t掩码、 各所述第 t剪切的图像、 各所述第t-1掩码及各所述第t-1剪切的图像进行分析的包含于所述第二神 经网络运算的第2_1神经网络运算生成至少一个中间特征地图(Intermediate Feature Map), 所述第2_2神经网络参照对获取到所述第t图像之前输入的值的分析内容, 对所述中 间特征地图适用至少一次包含于所述第二神经网络运算的第2_2神经网络运算生成所述第 t客体运动向量。 0044 根据一个实施例, 其特征在于, 所述第2_2神经网。
47、络使得(i)反映对关于第一图像 至所述第t-1图像中至少一部分的值的分析, 使用所述第2_1神经网络生成的所述第2_2神 经网络的状态向量(State Vector)生成所述第t客体运动向量, (ii)更新所述状态向量。 0045 根据一个实施例, 其特征在于, 所述参考像素是位于所述第t图像上的所述网格的 网格单元(Grid Cell)的边界(Boundary)上的顶点。 0046 根据一个实施例, 其特征在于, 在所述(I)过程中, 所述第一神经网络包括至少一 个区域候网络(Region Proposal Network, RPN)、 至少一个卷积层及至少一个池化层, 所述 RPN生成至少。
48、一个ROI时, 所述第一神经网络利用双线性插值法(Bilinear Interpolation) 从所述第t图像上选择对应于所述ROI的至少一个区域后, 对其适用至少一次所述卷积层的 运算生成所述第t掩码。 0047 根据本发明的又一方面, 提供一种为了使用至少一个神经网络(Neural Network) 去除测试用视频(Video)上的抖动(Jittering)而从由于晃动的摄像头而生成的所述测试 用视频去除所述抖动的测试装置, 其特征在于, 包括: 至少一个存储器, 其存储指令; 以及至 少一个处理器, 其构成为在学习装置(1)获取到对应于学习用视频上的学习用第t帧的学习 用第t图像时, 。
49、使第一神经网络对所述学习用第t图像适用至少一次第一神经网络运算生成 对应于所述学习用第t图像内的各学习用客体的学习用第t掩码, (2)使第二神经网络对(i) 各所述学习用第t掩码、 (ii)与其对应的作为所述学习用第t图像的一部分的各学习用第t 剪切的(Cropped)图像、 (iii)各学习用第t-1掩码及(iv)与其对应的作为学习用第t-1图像 的一部分的各学习用第t-1剪切的图像适用至少一次第二神经网络运算生成关于包含于所 述学习用第t图像的对应于各所述学习用客体的各学习用客体像素的各学习用第t客体运 动向量(Object Motion Vector), (3)使抖动预测单元(Jitte。
50、ring Estimation Unit)参照 各所述学习用第t客体运动向量生成对应于所述学习用第t图像内的像素中各学习用参考 像素(Reference Pixel)的各学习用第t抖动向量(Jittering Vector), (4)使学习单元参 照(i)通过用于生成所述学习用第t抖动向量的过程优化的学习用第t调整客体运动向量及 (ii)优化之前的所述学习用第t客体运动向量算出至少一个损失, 并使得反向传播所述损 失完成了所述第二神经网络的至少一个参数的至少一部分的学习的状态下, 运行用于执行 (I)获取到对应于所述测试用视频的测试用第t帧的测试用第t图像时, 测试装置使所述第 一神经网络对所。
- 内容关键字: 用用 容错 波动 鲁棒性 神经网络 抖动 方法 装置
印章弯曲文本行矫正方法、装置及系统.pdf
电缆切断装置.pdf
可调节板仓.pdf
骨料烘干装置.pdf
防停机落尘的分切机双通道吸尘机构.pdf
高精度垂直升降顶升设备.pdf
电池水冷散热器结构.pdf
手机视频采集器.pdf
不锈钢无缝管接头.pdf
棒料折弯装置.pdf
蔬菜温室大棚温湿度检测装置.pdf
铜合金电缆加工用电缆夹持装置.pdf
电路板检测用定位机构.pdf
具有高可靠性的调浆机输送装置.pdf
储能移动电源分体装置.pdf
药学西药碎药器.pdf
水循环喷淋式旋风分离除尘装置.pdf
龙虾扣检测机.pdf
管道连接的机械密封结构.pdf
多工位钻孔定位机构.pdf
圆筒混料机掘进式清料装置.pdf
低净空安装隔热保冷管托.pdf
PICC导管防压伤连接座.pdf
用于钾肥生产的筛分装置.pdf
基于JDE多任务网络模型的多目标跟踪方法.pdf
基于碳减排的多能源协调优化控制系统及方法.pdf
基于图像分析的工地大气污染物检测方法及相关装置.pdf
挤出机挤出稳定性测试装置.pdf
沉水植物群落生态系统构建方法.pdf
路网生成方法、可读存储介质及智能设备.pdf
路由表维护方法、路径选择方法、设备、系统及存储介质.pdf
照明模组、照明系统及车辆.pdf
热疗器.pdf
以网页为基础的提案复审系统与方法.pdf
微波热水器.pdf
自然空气多功能增氧系统.pdf
具有改进的下游喷嘴的吹灰器喷嘴组件.pdf
石墨缠绕垫片分级制造方法.pdf
光学薄膜、偏振器和液晶显示装置.pdf
非成像的光学照亮系统.pdf
层叠式防雾镜子组件.pdf
具有时钟发生器和双向时钟引脚装置的多时钟集成电路.pdf
包括含有至少一种水溶性嵌段和一种疏水嵌段的嵌段共聚物的凝胶化水性组合物.pdf
一种多色丝网印刷机.pdf
制备不饱和有机硅化合物的方法.pdf
冷凝热管式汽化器.pdf
室内空调机.pdf
环保油烟机.pdf
合金钢塑复合管及其生产方法.pdf
塔式反应器合成高分子化合物.pdf
基板曝光装置及方法.pdf