目标跟踪方法、装置、设备及可读存储介质.pdf

上传人:王** 文档编号:10301059 上传时间:2021-06-17 格式:PDF 页数:25 大小:1.14MB
收藏 版权申诉 举报 下载
目标跟踪方法、装置、设备及可读存储介质.pdf_第1页
第1页 / 共25页
目标跟踪方法、装置、设备及可读存储介质.pdf_第2页
第2页 / 共25页
目标跟踪方法、装置、设备及可读存储介质.pdf_第3页
第3页 / 共25页
文档描述:

《目标跟踪方法、装置、设备及可读存储介质.pdf》由会员分享,可在线阅读,更多相关《目标跟踪方法、装置、设备及可读存储介质.pdf(25页完成版)》请在专利查询网上搜索。

1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202010741433.8 (22)申请日 2020.07.29 (71)申请人 腾讯科技 (深圳) 有限公司 地址 518057 广东省深圳市南山区高新区 科技中一路腾讯大厦35层 (72)发明人 彭瑾龙王昌安罗泽坤李剑 王亚彪汪铖杰李季檩黄飞跃 (74)专利代理机构 北京三高永信知识产权代理 有限责任公司 11138 代理人 张所明 (51)Int.Cl. G06T 7/20(2017.01) G06T 3/40(2006.01) G06K 9/32(2006.01) (5。

2、4)发明名称 目标跟踪方法、 装置、 设备及可读存储介质 (57)摘要 本申请公开了一种目标跟踪方法、 装置、 设 备及可读存储介质, 涉及单目标跟踪领域。 该方 法包括: 获取第一图像帧, 第一图像帧中标注有 第一边界框; 获取第二图像帧; 以第一边界框的 尺寸进行缩放后得到的目标尺寸, 在第二图像帧 中确定兴趣区域窗; 在兴趣区域窗中对目标对象 进行跟踪识别, 得到第二边界框。 确定第一图像 帧中的第一边界框后, 对第一边界框进行缩放处 理, 从而确定第二图像帧中的第二边界框, 由于 第二边界框基于第一边界框缩放得到的兴趣区 域窗识别得到, 也即在第二图像帧中, 对第一图 像帧中目标对象所。

3、处区域的周侧, 进行目标对象 的识别, 提高了对目标对象进行跟踪的效率和准 确率。 权利要求书3页 说明书15页 附图6页 CN 111754541 A 2020.10.09 CN 111754541 A 1.一种目标跟踪方法, 其特征在于, 所述方法包括: 获取第一图像帧, 所述第一图像帧中标注有第一边界框, 所述第一边界框用于指示目 标对象在所述第一图像帧中对应的显示区域; 获取第二图像帧, 所述第二图像帧为视频文件中在所述第一图像帧之后显示的图像 帧; 以所述第一边界框的尺寸进行缩放后得到的目标尺寸, 在所述第二图像帧中确定兴趣 区域窗, 所述兴趣区域窗中包括以所述目标尺寸在所述第二图像。

4、帧中进行框选得到的图像 内容; 在所述兴趣区域窗中对所述目标对象进行跟踪识别, 得到第二边界框, 所述第二边界 框用于指示所述目标对象在所述第二图像帧中对应的显示区域。 2.根据权利要求1所述的方法, 其特征在于, 所述以所述第一边界框的尺寸进行缩放后 得到的目标尺寸, 在所述第二图像帧中确定兴趣区域窗, 包括: 在缩放范围内确定缩放倍数; 以所述缩放倍数对所述第一边界框的尺寸进行缩放得到所述目标尺寸; 根据所述目标尺寸在所述第二图像帧中确定所述兴趣区域窗。 3.根据权利要求2所述的方法, 其特征在于, 所述根据所述目标尺寸在所述第二图像帧 中确定所述兴趣区域窗, 包括: 以所述第一边界框的中。

5、心点在所述第一图像帧中的位置, 确定所述兴趣区域窗的中心 点在所述第二图像帧中的位置; 根据所述兴趣区域窗的中心点和所述目标尺寸在所述第二图像帧中确定所述兴趣区 域窗。 4.根据权利要求1至3任一所述的方法, 其特征在于, 所述在所述兴趣区域窗中对所述 目标对象进行跟踪识别, 得到第二边界框, 包括: 将所述兴趣区域窗中的图像内容输入跟踪模型, 所述跟踪模型用于对指定类型对象进 行识别, 所述目标对象属于所述指定类型对象; 通过所述跟踪模型对所述图像内容进行对象识别, 输出得到所述第二边界框。 5.根据权利要求4所述的方法, 其特征在于, 所述通过所述跟踪模型对所述图像内容进 行对象识别, 输。

6、出得到所述第二边界框, 包括: 通过所述跟踪模型对所述图像内容进行对象识别, 输出得到第二区域边界框, 所述第 二区域边界框对应有在所述兴趣区域窗内的第一边界坐标; 根据所述兴趣区域窗与所述第二图像帧的相对位置关系, 将所述第一边界坐标映射到 所述第二图像帧中, 得到所述第二边界框, 所述第二边界框对应有在所述第二图像帧中的 第二边界坐标。 6.根据权利要求5所述的方法, 其特征在于, 所述第二图像帧标注有参考边界坐标; 所述将所述第一边界坐标映射到所述第二图像帧中, 得到所述第二边界框之后, 还包 括: 通过所述第二边界坐标和所述参考边界坐标之间的损失值对所述跟踪模型进行训练。 7.根据权利。

7、要求5所述的方法, 其特征在于, 所述第二图像帧标注有第一参考置信度, 所述第一参考置信度用于指示所述第二图像帧中包含所述目标对象, 所述方法还包括: 权利要求书 1/3 页 2 CN 111754541 A 2 通过所述跟踪模型对所述兴趣区域窗进行对象识别, 输出得到第一识别置信度, 所述 第一识别置信度用于指示所述跟踪模型识别得到所述兴趣区域窗中包括所述目标对象的 概率; 根据所述第一识别置信度和所述第一参考置信度之间的损失值对所述跟踪模型进行 训练。 8.根据权利要求4所述的方法, 其特征在于, 所述方法还包括: 获取第三图像帧, 所述第三图像帧标注有第二参考置信度, 所述第二参考置信度。

8、用于 指示所述第三图像帧中不包含所述目标对象; 在所述第三图像帧中随机确定图像截取框; 通过所述跟踪模型对所述图像截取框中的图像内容进行对象识别, 输出得到第二识别 置信度, 所述第二识别置信度用于指示所述跟踪模型识别得到所述图像截取框中包括所述 目标对象的概率; 根据所述第二识别置信度和所述第二参考置信度之间的损失值对所述跟踪模型进行 训练。 9.根据权利要求1至3任一所述的方法, 其特征在于, 所述方法还包括: 响应于缩放处理后, 所述兴趣区域窗中存在超出所述第二图像帧图像边界的超出区 域, 对所述超出区域进行补黑填充处理。 10.一种目标跟踪装置, 其特征在于, 所述装置包括: 获取模块。

9、, 用于获取第一图像帧, 所述第一图像帧中标注有第一边界框, 所述第一边界 框用于指示目标对象在所述第一图像帧中对应的显示区域; 所述获取模块, 还用于获取第二图像帧, 所述第二图像帧为视频文件中在所述第一图 像帧之后显示的图像帧; 确定模块, 用以所述第一边界框的尺寸进行缩放后得到的目标尺寸, 在所述第二图像 帧中确定兴趣区域窗, 所述兴趣区域窗中包括以所述目标尺寸在所述第二图像帧中进行框 选得到的图像内容; 识别模块, 用于在所述兴趣区域窗中对所述目标对象进行跟踪识别, 得到第二边界框, 所述第二边界框用于指示所述目标对象在所述第二图像帧中对应的显示区域。 11.根据权利要求10所述的装置。

10、, 其特征在于, 所述确定模块, 具体用于在缩放范围内 确定缩放倍数; 以所述缩放倍数对所述第一边界框的尺寸进行缩放得到所述目标尺寸; 根 据所述目标尺寸在所述第二图像帧中确定所述兴趣区域窗。 12.根据权利要求11所述的装置, 其特征在于, 所述确定模块, 具体用于以所述第一边 界框的中心点在所述第一图像帧中的位置, 确定所述兴趣区域窗的中心点在所述第二图像 帧中的位置; 根据所述兴趣区域窗的中心点和所述目标尺寸在所述第二图像帧中确定所述 兴趣区域窗。 13.一种计算机设备, 其特征在于, 所述计算机设备包括处理器和存储器, 所述存储器 中存储有至少一条指令、 至少一段程序、 代码集或指令集。

11、, 所述至少一条指令、 所述至少一 段程序、 所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至9任一所述的 目标跟踪方法。 14.一种计算机可读存储介质, 其特征在于, 所述存储介质中存储有至少一条指令、 至 权利要求书 2/3 页 3 CN 111754541 A 3 少一段程序、 代码集或指令集, 所述至少一条指令、 所述至少一段程序、 所述代码集或指令 集由处理器加载并执行以实现如权利要求1至9任一所述的目标跟踪方法。 权利要求书 3/3 页 4 CN 111754541 A 4 目标跟踪方法、 装置、 设备及可读存储介质 技术领域 0001 本申请实施例涉及单目标跟踪领域,。

12、 特别涉及一种目标跟踪方法、 装置、 设备及可 读存储介质。 背景技术 0002 在人工智能(Artificial Intelligence, AI)领域, 通常需要通过目标跟踪技术对 视频中的特定目标进行跟踪, 目标跟踪在视频监控、 自动驾驶、 行为分析等领域都有着重要 的作用, 如: 在监控视频中, 通过目标跟踪技术对人物A在视频帧中的区域进行识别跟踪, 从 而对人物A的行动轨迹进行跟踪等。 0003 相关技术中, 在进行目标跟踪时, 首先输出第一帧的初始化目标框, 在后续图像帧 中生成多个候选框, 并提取候选框中的特征, 将候选框特征与初始化目标框的特征进行比 对后, 生成用于指示准确度。

13、的评分, 根据评分情况融合得到结果框作为后续图像帧中目标 所在的区域。 0004 然而, 通过上述方式进行目标跟踪时, 由于候选框为在图像帧中随机确定得到的, 与初始化目标框并无直接关联, 通常得到的结果框准确率较低, 也即目标跟踪的准确率较 低。 发明内容 0005 本申请实施例提供了一种目标跟踪方法、 装置、 设备及可读存储介质, 能够提高目 标跟踪的准确率。 所述技术方案如下: 0006 一方面, 提供了一种目标跟踪方法, 所述方法包括: 0007 获取第一图像帧, 所述第一图像帧中标注有第一边界框, 所述第一边界框用于指 示目标对象在所述第一图像帧中对应的显示区域; 0008 获取第二。

14、图像帧, 所述第二图像帧为视频文件中在所述第一图像帧之后显示的图 像帧; 0009 以所述第一边界框的尺寸进行缩放后得到的目标尺寸, 在所述第二图像帧中确定 兴趣区域窗, 所述兴趣区域窗中包括以所述目标尺寸在所述第二图像帧中进行框选得到的 图像内容; 0010 在所述兴趣区域窗中对所述目标对象进行跟踪识别, 得到第二边界框, 所述第二 边界框用于指示所述目标对象在所述第二图像帧中对应的显示区域。 0011 另一方面, 提供了一种目标跟踪装置, 所述装置包括: 0012 获取模块, 用于获取第一图像帧, 所述第一图像帧中标注有第一边界框, 所述第一 边界框用于指示目标对象在所述第一图像帧中对应的。

15、显示区域; 0013 所述获取模块, 还用于获取第二图像帧, 所述第二图像帧为视频文件中在所述第 一图像帧之后显示的图像帧; 0014 确定模块, 用以所述第一边界框的尺寸进行缩放后得到的目标尺寸, 在所述第二 说明书 1/15 页 5 CN 111754541 A 5 图像帧中确定兴趣区域窗, 所述兴趣区域窗中包括以所述目标尺寸在所述第二图像帧中进 行框选得到的图像内容; 0015 识别模块, 用于在所述兴趣区域窗中对所述目标对象进行跟踪识别, 得到第二边 界框, 所述第二边界框用于指示所述目标对象在所述第二图像帧中对应的显示区域。 0016 另一方面, 提供了一种计算机设备, 所述计算机设。

16、备包括处理器和存储器, 所述存 储器中存储有至少一条指令、 至少一段程序、 代码集或指令集, 所述至少一条指令、 所述至 少一段程序、 所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中 任一所述目标跟踪方法。 0017 另一方面, 提供了一种计算机可读存储介质, 所述存储介质中存储有至少一条指 令、 至少一段程序、 代码集或指令集, 所述至少一条指令、 所述至少一段程序、 所述代码集或 指令集由处理器加载并执行以实现如上述本申请实施例中任一所述的目标跟踪方法。 0018 另一方面, 提供了一种计算机程序产品或计算机程序, 该计算机程序产品或计算 机程序包括计算机指令, 该计算。

17、机指令存储在计算机可读存储介质中。 计算机设备的处理 器从计算机可读存储介质读取该计算机指令, 处理器执行该计算机指令, 使得该计算机设 备执行上述实施例中任一所述的目标跟踪方法。 0019 本申请实施例提供的技术方案带来的有益效果至少包括: 0020 确定第一图像帧中的第一边界框后, 对第一边界框进行缩放处理, 从而确定第二 图像帧中的第二边界框, 由于第二边界框基于第一边界框缩放得到的兴趣区域窗识别得 到, 也即在第二图像帧中, 对第一图像帧中目标对象所处区域的周侧, 进行目标对象的识 别, 提高了目标对象的识别效率以及识别准确率, 进一步提高了对目标对象进行跟踪的效 率和准确率。 附图说。

18、明 0021 为了更清楚地说明本申请实施例中的技术方案, 下面将对实施例描述中所需要使 用的附图作简单地介绍, 显而易见地, 下面描述中的附图仅仅是本申请的一些实施例, 对于 本领域普通技术人员来讲, 在不付出创造性劳动的前提下, 还可以根据这些附图获得其他 的附图。 0022 图1是本申请一个示例性实施例提供的单目标跟踪的过程示意图; 0023 图2是本申请一个示例性实施例提供的单目标跟踪过程的整体流程图; 0024 图3是本申请一个示例性实施例提供的实施环境示意图; 0025 图4是本申请一个示例性实施例提供的目标跟踪方法流程图; 0026 图5是基于图4示出的实施例提供的目标跟踪系统的结。

19、构示意图; 0027 图6是本申请另一个示例性实施例提供的目标跟踪方法的流程图; 0028 图7是基于图6示出的实施例提供的目标跟踪过程的整体流程图; 0029 图8是本申请另一个示例性实施例提供的目标跟踪方法的流程图; 0030 图9是本申请一个示例性实施例提供的目标跟踪装置的结构框图; 0031 图10是本申请另一个示例性实施例提供的目标跟踪装置的结构框图; 0032 图11是本申请一个示例性实施例提供的服务器的结构框图。 说明书 2/15 页 6 CN 111754541 A 6 具体实施方式 0033 为使本申请的目的、 技术方案和优点更加清楚, 下面将结合附图对本申请实施方 式作进一。

20、步地详细描述。 0034 首先, 针对本申请实施例中涉及的名词进行简单介绍: 0035 人工智能(Artificial Intelligence, AI): 是利用数字计算机或者数字计算机控 制的机器模拟、 延伸和扩展人的智能, 感知环境、 获取知识并使用知识获得最佳结果的理 论、 方法、 技术及应用系统。 换句话说, 人工智能是计算机科学的一个综合技术, 它企图了解 智能的实质, 并生产出一种新的能以人类智能相似的方式做出反应的智能机器。 人工智能 也就是研究各种智能机器的设计原理与实现方法, 使机器具有感知、 推理与决策的功能。 0036 人工智能技术是一门综合学科, 涉及领域广泛, 既有。

21、硬件层面的技术也有软件层 面的技术。 人工智能基础技术一般包括如传感器、 专用人工智能芯片、 云计算、 分布式存储、 大数据处理技术、 操作/交互系统、 机电一体化等技术。 人工智能软件技术主要包括计算机 视觉技术、 语音处理技术、 自然语言处理技术以及机器学习/深度学习等几大方向。 0037 计算机视觉技术(Computer Vision, CV): 是一门研究如何使机器 “看” 的科学, 更 进一步的说, 就是指用摄影机和电脑代替人眼对目标进行识别、 跟踪和测量等机器视觉, 并 进一步做图形处理, 使电脑处理成为更适合人眼观察或传送给仪器检测的图像。 作为一个 科学学科, 计算机视觉研究相。

22、关的理论和技术, 试图建立能够从图像或者多维数据中获取 信息的人工智能系统。 计算机视觉技术通常包括图像处理、 图像识别、 图像语义理解、 图像 检索、 光学字符识别(Optical Character Recognition, OCR)、 视频处理、 视频语义理解、 视 频内容/行为识别、 三维物体重建、 3D技术、 虚拟现实、 增强现实、 同步定位与地图构建等技 术, 还包括常见的人脸识别、 指纹识别等生物特征识别技术。 0038 机器学习(Machine Learning, ML): 是一门多领域交叉学科, 涉及概率论、 统计学、 逼近论、 凸分析、 算法复杂度理论等多门学科。 专门研究。

23、计算机怎样模拟或实现人类的学习 行为, 以获取新的知识或技能, 重新组织已有的知识结构使之不断改善自身的性能。 机器学 习是人工智能的核心, 是使计算机具有智能的根本途径, 其应用遍及人工智能的各个领域。 机器学习和深度学习通常包括人工神经网络、 置信网络、 强化学习、 迁移学习、 归纳学习、 示 教学习等技术。 0039 单目标跟踪: 是指对视频中的特定目标在不同图像帧中所处的区域进行跟踪, 单 目标跟踪在视频监控、 自动驾驶、 行为分析等领域都有着重要的作用, 在视频第一帧中给定 某一特定目标(如: 一个行人、 一个动物、 一辆汽车等)的边界坐标框, 通过算法对该特定目 标进行跟踪, 以得。

24、到特定目标在每一视频帧中的边界坐标框。 单目标跟踪算法在智能视频 监控、 自动驾驶、 行为分析等领域都有着重要的作用。 相关技术中, 主流的单目标跟踪算法 分为两类, 一类是基于相关滤波的单目标跟踪算法, 如核相关滤波算法(Kernel Correlation Filter, KCF)、 卷积跟踪算法(Efficient Convolution Operators for Tracking, ECO)等, 这类方法跟踪识别的速度较快, 但是准确度较低, 另一类是基于孪生网 络的单目标跟踪算法, 如SiamFC、 SiamRPN等, 这类方法准确度较高, 但是跟踪速度较慢。 0040 示意性的,。

25、 请参考图1, 其示出了本申请一个示例性实施例提供的单目标跟踪的过 程示意图, 以对人体进行跟踪为例进行说明, 如图1所示, 在第一图像帧110中标注有目标对 象111所对应的边界框112, 其中, 边界框112为通过对第一图像帧110进行人体检测后得到 说明书 3/15 页 7 CN 111754541 A 7 的框选区域, 在第一图像帧110后续显示的图像帧中, 通过单目标跟踪算法进行目标对象 111的跟踪, 如: 基于边界框112在第二图像帧120中确定边界框121, 以及基于边界框121在 第三图像帧130中确定边界框131, 以此类推。 0041 值得注意的是, 上述举例中, 第一图。

26、像帧110、 第二图像帧120和第三图像帧130为 依次相邻的三个图像帧; 或, 第一图像帧110、 第二图像帧120和第三图像帧130为依次排列, 且每两帧之间存在间隔帧的三个图像帧。 0042 结合上述名词简介, 对本申请实施例的应用场景进行举例说明: 0043 在视频监控领域, 获取监控设备采集得到的监控视频流, 在监控视频流中, 首先依 次对图像帧进行人物检测, 在检测到第i帧图像帧中包括目标人物时, 获取目标人物对应的 边界框, 边界框用于指示目标人物在第i帧图像帧中的显示区域, 针对第i帧之后的图像帧, 如: 针对第i+1帧, 以第i帧中的边界框为基准边界框, 将基准边界框在第i+。

27、1帧图像帧中按 照预设缩放范围进行缩放后, 得到兴趣区域窗, 将兴趣区域窗内的图像内容输入跟踪模型, 识别得到目标人物所在的区域后, 映射至第i+1帧图像, 得到第i+1帧图像中与目标人物对 应的边界框, 依次类推, 其中, 以第i+2帧图像为例, 第i+2帧图像以上一帧图像(也即第i+1 帧图像)中的边界框作为基准边界框; 或, 第i+2帧图像以第一帧包括目标对象的图像帧(也 即第i帧图像)中的边界框作为基准边界框, i为正整数。 示意性的, 请参考图2, 获取监控视 频流后, 从监控视频流中获取图像帧210, 图像帧210中进行人物检测识别得到边界框211, 对边界框211进行放大处理后,。

28、 得到兴趣区域窗221的尺寸, 并在图像帧220(视频流中位于 图像帧210之后的图像帧)中确定兴趣区域窗221, 从兴趣区域窗221框选的图像内容中进行 跟踪识别, 得到图像帧220中目标人物对应的边界框222。 0044 上述应用场景仅为本申请示意性的举例, 本申请实施例提供的目标跟踪方法还可 以应用于其他通过前图像帧中的边界框作为基准框进行缩放, 从而在缩放后的兴趣区域窗 中确定当前帧中目标对象所处区域的方案中, 本申请实施例对此不加以限定。 0045 值得注意的是, 本申请实施例提供的目标跟踪方法, 可以由终端实现, 也可以由服 务器实现, 还可以由终端和服务器协同实现。 其中, 终端。

29、包括智能手机、 平板电脑、 便携式膝 上笔记本电脑、 台式计算机、 智能音箱、 智能可穿戴设备等终端中的至少一种, 服务器可以 是物理服务器, 也可以是提供云计算服务的云服务器, 且服务器可以实现为一台服务器, 也 可以是多个服务器构成的服务器集群或分布式系统。 其中, 当终端和服务器协同实现本申 请实施例提供的方案时, 终端和服务器可以通过有线或无线通信方式进行直接或间接连 接, 本申请实施例对此不加以限定。 0046 请参考图3, 其示出了本申请一个示例性实施例提供的实施环境示意图, 如图3所 示, 该实施环境中包括终端310、 服务器320, 终端310和服务器320之间通过通信网络33。

30、0连 接; 0047 其中, 终端310中安装有包括视频播放功能的程序, 其可以是视频播放程序、 电子 书阅读程序、 即时通讯应用程序、 浏览器、 游戏、 工具类应用程序等, 本申请实施例对此不加 以限定。 需要进行目标跟踪的视频为终端310发送至服务器320进行跟踪计算的; 或, 需要进 行目标跟踪的视频为服务器320中存储的在计算得到跟踪结果后, 发送至终端310进行播放 的。 本实施例中, 以终端310向服务器320发送视频, 由服务器320计算得到目标跟踪结果后, 向终端310发送跟踪结果进行播放为例进行说明。 可选地, 终端310发送的视频为终端310拍 说明书 4/15 页 8 C。

31、N 111754541 A 8 摄的视频; 或, 终端310发送的视频为终端310从其他服务器中下载的视频; 或, 终端310发送 的视频为终端310从其他终端接收到视频。 0048 服务器320对终端310发送的视频通过目标跟踪算法进行目标跟踪识别, 得到每帧 图像帧中目标对象所处的区域位置, 并将区域位置的边界框数据发送至终端310, 终端310 接收到边界框数据后, 在对应的图像帧中绘制边界框进行展示。 0049 服务器320中包括跟踪模型321, 通过跟踪模型321对图像帧或图像帧中的兴趣区 域框进行跟踪识别, 得到目标对象的边界数据。 0050 值得注意的是, 上述通信网络330可以。

32、实现为有线网络, 也可以实现为无线网络, 且通信网络330可以实现为局域网、 城域网或广域网中的任意一种, 本申请实施例对此不加 以限定。 0051 结合上述名词简介以及应用场景, 对本申请实施例提供的目标跟踪方法进行说 明, 以由服务器执行以完成该方法为例进行说明, 如图4所示, 该方法包括: 0052 步骤401, 获取第一图像帧, 第一图像帧中标注有第一边界框, 第一边界框用于指 示目标对象在第一图像帧中对应的显示区域。 0053 第一图像帧为视频文件中的图像帧。 可选地, 第一图像帧为视频文件中的第一帧; 或, 第一图像帧为视频文件中目标对象出现的第一帧; 或, 第一图像帧为视频文件中。

33、任意一 帧。 0054 第一边界框为对第一图像帧进行对象检测得到的框选区域; 或, 第一边界框为第 一图像帧根据第一图像帧中标注的边界框, 确定兴趣区域窗后, 从兴趣区域窗框选的图像 内容中识别得到的; 或, 第一边界框为用户指定的框选区域。 示意性的, 目标对象为人物对 象, 则对第一图像帧进行人物识别检测后, 得到人物对象对应的第一边界框。 0055 对第一图像帧进行人物识别检测, 得到第一边界框的过程中, 包括如下情况中的 任意一种: 0056 第一, 第一图像帧中包括单个人物对象, 则对第一图像帧进行人物识别检测后, 将 检测得到的边界框, 确定为目标人物对象对应的第一边界框; 005。

34、7 第二, 第一图像帧中包括多个人物对象, 则对第一图像帧进行人物识别检测后, 得 到多个边界框, 从多个边界框中确定其中一个边界框(如: 尺寸最大的边界框、 尺寸最小的 边界框、 选择操作对应的边界框等)作为目标人物对象对应的第一边界框。 0058 可选地, 第一边界框的标注方式包括如下方式中的任意一种: 0059 第一, 以第一边界框对角两个点的坐标对第一边界框进行标注, 如: 以第一边界框 左上角坐标点和右下角坐标点的坐标对第一边界框进行标注; 或, 以第一边界框左下角坐 标点和右上角坐标点的坐标对第一边界框进行标注; 0060 第二, 以第一边界框中心点坐标、 长边长度、 宽边长度对第。

35、一边界框进行标注; 0061 第三, 以第一边界框指定角坐标、 长边长度和宽边长度对第一边界框进行标注, 如: 以第一边界框左上角坐标点、 长边长度和宽边长度对第一边界框进行标注。 0062 上述三种方式仅为示意性的举例, 本申请实施例对第一边界框的标注方式不加以 限定。 0063 步骤402, 获取第二图像帧, 第二图像帧为第一图像帧之后显示的图像帧。 0064 可选地, 第二图像帧为在第一图像帧后一帧显示的图像帧; 或, 第二图像帧为在第 说明书 5/15 页 9 CN 111754541 A 9 一图像帧之后显示的, 且与第一图像帧之间间隔若干帧的图像帧; 或, 第二图像帧为第一图 像帧。

36、之后的第一帧关键帧(简称I帧)。 即, 第二图像帧为显示在第一图像帧之后的图像帧, 本实施例对第一图像帧和第二图像帧之间的图像帧间隔情况不加以限定。 0065 本实施例中, 以第二图像帧为与第一图像帧相邻的下一帧图像帧为例进行说明。 0066 第一图像帧和第二图像帧为同一个视频文件中按序显示的图像帧。 0067 第二图像帧中包括目标对象; 或, 第二图像帧中不包括目标对象。 本实施例中, 以 第二图像帧中包括目标对象为例进行说明。 0068 第二图像帧基于第一图像帧中的第一边界框进行目标对象的跟踪。 0069 可选地, 第一图像帧和第二图像帧的获取方式包括如下方式中的至少一种: 0070 第一。

37、, 终端实时将视频流发送至服务器进行目标跟踪计算, 服务器对终端发送的 视频流进行解码后, 将解码得到的图像帧缓存至缓存区中, 并在进行目标跟踪计算时, 依次 从缓存区中取出图像帧进行, 故, 首先取出第一图像帧, 并在第一图像帧之后, 取出第二图 像帧; 0071 第二, 服务器获取预先存储的视频文件, 并对视频文件进行解码, 得到视频图像 帧, 其中, 包括第一图像帧和第二图像帧, 依次取出需要进行目标跟踪的图像帧, 故, 首先取 出第一图像帧, 并在第一图像帧之后, 取出第二图像帧。 0072 步骤403, 以第一边界框的尺寸进行缩放后得到的目标尺寸, 在第二图像帧中确定 兴趣区域窗。 。

38、0073 兴趣区域窗中包括以目标尺寸在第二图像帧中进行框选得到的图像内容。 也即, 兴趣区域窗中包括对第一边界框进行缩放后第二图像帧中被框选的内容。 可选地, 通常兴 趣区域窗中包括对第一边界框进行放大处理后, 在第二图像帧中被框选的内容。 0074 由于目标对象在相邻两帧图像帧之间的位移通常较小, 故直接用前一帧图像帧中 目标对象对应的第一边界框扩大一个特定倍数, 作为后一帧图像帧中的兴趣区域窗, 进而 预测得到后一帧图像帧中目标对象对应的目标框。 也即, 以第一边界框为基准框, 对第一边 界框进行一定倍数的放缩, 从而得到第二图像帧中的兴趣区域窗, 兴趣区域窗中包括第二 图像帧中被框选的内。

39、容。 可选地, 对第一边界框进行一定倍数的放大后, 得到第二图像帧中 的兴趣区域窗。 0075 在一些实施例中, 对第一边界框进行放缩处理时, 预先设定有缩放范围, 在缩放范 围内确定缩放倍数, 以缩放倍数对第一边界框的尺寸进行缩放得到目标尺寸, 并根据目标 尺寸在第二图像帧中确定兴趣区域窗。 示意性的, 缩放范围在1-2之间, 也即, 最小以第一边 界框原尺寸在第二图像帧中确定兴趣区域窗, 最大以第一边界框的2倍尺寸在第二图像帧 中确定兴趣区域窗。 其中, 缩放倍数是指对第一边界框的边长进行缩放的倍数; 或, 缩放倍 数是指对第一边界框的面积进行缩放的倍数。 0076 可选地, 当连续多帧图。

40、像帧中的边界框表现为缩小趋势时, 缩放范围还包括对小 于1的范围, 也即, 当连续多挣图像帧中的边界框表现为缩小趋势时, 从缩小范围内选取缩 小倍数, 以缩小倍数对第一边界框进行缩小处理, 得到兴趣区域窗。 如: 当连续n帧图像帧中 的边界框表现为缩小趋势时, 缩放范围在0.5-1.5之间, 选取0.8作为缩小倍数, 对第一边界 框进行缩小处理, 得到兴趣区域窗, n为正整数。 0077 在对第一边界框进行缩放, 并得到第二图像帧中的兴趣区域窗时, 包括如下情况 说明书 6/15 页 10 CN 111754541 A 10 中的任意一种: 0078 第一, 保持第一边界框在第一图像帧, 和基。

41、准框在第二图像帧中的相对位置一致, 并在第二图像帧中对基准框按缩放倍数进行缩放处理, 得到兴趣区域窗。 0079 示意性的, 第一边界框的长为a, 宽为b, 对第一边界框以1.5被进行放大, 得到长为 1.5a, 宽为1.5b的兴趣区域窗尺寸, 保持兴趣区域窗尺寸的中心点在第二图像帧中的位置, 与第一边界框的中心点在第一图像帧中的位置一致, 得到第二图像帧中的兴趣区域窗。 也 即, 以第一边界框的中心点在第一图像帧中的位置, 确定兴趣区域窗的中心点在第二图像 帧中的位置, 并根据兴趣区域窗的中心点和目标尺寸在第二图像帧中确定兴趣区域窗。 0080 第二, 对第二图像帧进行初步对象识别, 得到目。

42、标对象所在的候选位置信息, 对第 一边界框进行缩放处理后, 结合候选位置信息, 得到兴趣区域窗。 0081 示意性的, 第一边界框的长为a, 宽为b, 对第一边界框以1.5倍进行放大, 得到长为 1.5a, 宽为1.5b的兴趣区域窗尺寸, 对第二图像帧进行初步对象识别, 得到候选位置信息为 (x, y), 该坐标为目标对象初步识别位置坐标, 则将(x, y)确定为兴趣区域窗的中点, 1.5a为 兴趣区域窗的长, 1.5b为兴趣区域窗的宽, 确定兴趣区域窗。 0082 值得注意的是, 在对第一边界框进行放大时, 对第一边界框的长边放大至1.5倍, 并将短边按长边进行对应补齐。 0083 可选地,。

43、 本实施例中, 以第一图像帧中标注有第一边界框为例进行说明, 在一些实 施例中, 当第一图像帧中未标注第一边界框时, 则第二图像帧以原图作为兴趣区域窗, 也即 针对第二图像帧的完整图像进行对象识别。 0084 可选地, 在兴趣区域窗的确定过程中, 存在兴趣区域窗被缩放处理后, 存在超出第 二图像帧图像边界的情况, 则, 响应于缩放处理后, 兴趣区域窗中存在超出第二图像帧图像 边界的超出区域, 对超出区域进行补黑填充处理。 也即, 在超出区域中, 对像素点进行补0处 理, 将超出区域填充为黑色。 0085 步骤404, 在兴趣区域窗中对目标对象进行跟踪识别, 得到第二边界框。 0086 第二边界。

44、框用于指示目标对象在第二图像帧中对应的显示区域。 0087 对目标对象的跟踪识别包括如下方式中的任意一种: 0088 第一, 根据第一图像帧中目标对象的图像特征信息, 在兴趣区域窗中进行识别, 得 到与第一边界框内图像内容相似度较高的区域, 作为第二边界框对应的图像区域, 并映射 至第二图像帧中, 得到第二边界框; 0089 第二, 对兴趣区域窗中的图像内容进行指定类型对象的识别, 得到目标对象所在 的区域, 作为第二边界框对应的图像区域, 并映射至第二图像帧中, 得到第二边界框。 其中, 目标对象属于该指定类型对象。 示意性的, 指定类型对象用于指示人物对象, 对兴趣区域窗 中的图像内容进行。

45、人物识别, 得到目标人物所在的区域, 作为第二边界框对应的图像区域。 0090 在对第二边界框进行识别时, 首先在兴趣区域窗中识别得到第一区域边界框, 并 将第一区域边界框映射至第二图像帧中, 得到第二边界框。 0091 综上所述, 本申请实施例提供的目标跟踪方法, 确定第一图像帧中的第一边界框 后, 对第一边界框进行缩放处理, 从而确定第二图像帧中的第二边界框, 由于第二边界框基 于第一边界框缩放得到的兴趣区域窗识别得到, 也即在第二图像帧中, 对第一图像帧中目 标对象所处区域的周侧, 进行目标对象的识别, 提高了目标对象的识别效率以及识别准确 说明书 7/15 页 11 CN 111754。

46、541 A 11 率, 进一步提高了对目标对象进行跟踪的效率和准确率。 0092 示意性的, 请参考图5, 本申请实施例中涉及兴趣区域窗生成模块510、 边界框坐标 回归模块520和坐标映射模块530。 0093 兴趣区域窗生成模块510用于基于第一图像帧中标注的边界框, 从第二图像帧中 确定出兴趣区域窗, 其中, 兴趣区域窗为对边界框进行缩放处理(通常为放大处理)后, 得到 的框选区域, 其中, 当兴趣区域窗超出第二图像帧的图像边界时, 对超出区域以0补黑处理。 0094 如图5所示, 在第一图像帧500中标注有第一边界框501, 第一边界框501为目标对 象502显示位置对应的框选区域, 。

47、通过兴趣区域窗生成模块510, 结合第一图像帧500中的第 一边界框501, 在第二图像帧540中确定兴趣区域窗541, 兴趣区域窗541为对第一边界框501 进行缩放处理后得到的区域框; 通过边界回归模块520对兴趣区域窗541中的图像内容进行 边界回归, 得到第二区域边界542, 第二区域边界542为目标对象在兴趣区域窗541内的边界 数据; 通过坐标映射模块530将第二区域边界542映射至第二图像帧540中, 得到第二边界框 543。 0095 在一个可选的实施例中, 通过跟踪模型对兴趣区域窗中的图像内容进行目标对象 的识别, 图6是本申请另一个示例性实施例提供的目标跟踪方法的流程图, 。

48、以该方法应用于 服务器中为例进行说明, 如图6所示, 该方法包括: 0096 步骤601, 获取第一图像帧, 第一图像帧中标注有第一边界框, 第一边界框用于指 示目标对象在第一图像帧中对应的显示区域。 0097 第一图像帧为视频文件中的图像帧。 0098 第一边界框为对第一图像帧进行对象检测得到的框选区域; 或, 第一边界框为用 户指定的框选区域。 示意性的, 目标对象为人物对象, 则对第一图像帧进行人物识别检测 后, 得到人物对象对应的第一边界框。 0099 步骤602, 获取第二图像帧, 第二图像帧为第一图像帧之后显示的图像帧。 0100 第一图像帧和第二图像帧为同一个视频文件中按序显示的。

49、图像帧。 0101 步骤603, 以第一边界框的尺寸进行缩放后得到的目标尺寸, 在第二图像帧中确定 兴趣区域窗。 0102 兴趣区域窗中包括以目标尺寸在第二图像帧中进行框选得到的图像内容。 也即, 兴趣区域窗中包括对第一边界框进行缩放后第二图像帧中被框选的内容。 0103 由于目标对象在相邻两帧图像帧之间的位移通常较小, 故直接用前一帧图像帧中 目标对象对应的第一边界框扩大一个特定倍数, 作为后一帧图像帧中的兴趣区域窗, 进而 预测得到后一帧图像帧中目标对象对应的目标框。 0104 在一些实施例中, 对第一边界框进行放缩处理时, 预先设定有缩放范围, 在缩放范 围内确定缩放倍数, 以缩放倍数在。

50、第二图像帧中对第一边界框进行缩放处理, 得到兴趣区 域窗。 0105 步骤604, 将兴趣区域窗中的图像内容输入跟踪模型。 0106 跟踪模型用于对指定类型对象进行识别, 其中, 目标对象属于指定类型对象。 0107 跟踪模型为通过标注有参考边界框的样本图像帧训练得到的模型; 或, 跟踪模型 为待训练的模型。 0108 其中, 当跟踪模型为已经过训练的模型时, 则第一图像帧和第二图像帧为通过跟 说明书 8/15 页 12 CN 111754541 A 12 踪模型进行跟踪识别的图像帧; 当跟踪模型为待训练的模型时, 则第一图像帧和第二图像 帧为标注有参考边界框的用于对跟踪模型进行训练的图像帧。。

展开阅读全文
内容关键字: 目标 跟踪 方法 装置 设备 可读 存储 介质
关于本文
本文标题:目标跟踪方法、装置、设备及可读存储介质.pdf
链接地址:https://www.zhuanlichaxun.net/pdf/10301059.html
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1