书签 分享 收藏 举报 版权申诉 / 15

视频识别方法以及装置.pdf

  • 上传人:奻奴
  • 文档编号:5993216
  • 上传时间:2019-04-02
  • 格式:PDF
  • 页数:15
  • 大小:1.15MB
  • 摘要
    申请专利号:

    CN201611011085.9

    申请日:

    2016.11.17

    公开号:

    CN106504187A

    公开日:

    2017.03.15

    当前法律状态:

    实审

    有效性:

    审中

    法律详情:

    实质审查的生效IPC(主分类):G06T 3/00申请日:20161117|||公开

    IPC分类号:

    G06T3/00; G06K9/00

    主分类号:

    G06T3/00

    申请人:

    乐视控股(北京)有限公司; 乐视网信息技术(北京)股份有限公司

    发明人:

    于广达

    地址:

    100025 北京市朝阳区姚家园路105号3号楼10层1102

    优先权:

    专利代理机构:

    北京润平知识产权代理有限公司 11283

    代理人:

    许冠男;金旭鹏

    PDF完整版下载: PDF下载
    内容摘要

    本发明实施例提供一种视频识别方法以及装置,属于视频处理技术领域。所述方法包括:获取全景视频,将所述全景视频的三维视频帧转换为目标二维视频帧;对所述目标二维视频帧进行目标对象识别和标记,生成标记后的目标二维视频帧;将所述标记后的目标二维视频帧转换为标记后的目标三维视频帧,其中所述标记后的目标三维视频帧中标记有所述目标对象。本发明实施例能够实现精确地、有效地、方便地识别全景视频帧中的目标对象,避免了因全景视频帧中视频图像的扭曲而造成的难以识别其中目标对象或者识别结果不准确的情况的发生,为全景视频的广泛应用提供了技术基础。

    权利要求书

    1.一种视频识别方法,其特征在于,该方法包括:
    获取全景视频,将所述全景视频的三维视频帧转换为目标二维视频帧;
    对所述目标二维视频帧进行目标对象识别和标记,生成标记后的目标二维视频帧;将
    所述标记后的目标二维视频帧转换为标记后的目标三维视频帧,其中所述标记后的目标三
    维视频帧中标记有所述目标对象。
    2.根据权利要求1所述的方法,其特征在于,所述全景视频为球模型三维全景视频,所
    述将所述全景视频的三维视频帧转换为目标二维视频帧包括:
    将所述球模型三维全景视频的三维视频帧转换为具有第一预设形状的第一二维视频
    帧;
    将所述第一二维视频帧按照第一预设规则切割成多个第二二维视频帧,将所述多个第
    二二维视频帧拼接成具有第二预设形状的目标二维视频帧,其中,所述第一预设形状与所
    述第二预设形状相匹配。
    3.根据权利要求2所述的方法,其特征在于,所述对所述目标二维视频帧进行目标对象
    识别和标记,生成标记后的目标二维视频帧包括:
    识别所述目标二维视频帧中的目标对象;
    获取所识别的目标对象的位置;以及
    根据所述目标对象的位置,利用几何区域标记所述目标对象,生成标记后的目标二维
    视频帧。
    4.根据权利要求3所述的方法,其特征在于,所述将所述标记后的目标二维视频帧转换
    为标记后的目标三维视频帧包括:
    获取所述标记后的目标二维视频帧中所述几何区域的坐标;
    将包括有所述几何区域的坐标的所述标记后的目标二维视频帧根据预定映射关系转
    换为多个标记后的第二二维视频帧;
    将所述多个标记后的第二二维视频帧按照第二预设规则组合为标记后的第一二维视
    频帧,其中所述第二预设规则与所述第一预设规则相匹配;将所述标记后的第一二维视频
    帧的坐标转换为球模型坐标,生成标记后的目标三维视频帧。
    5.根据权利要求1-4任一项权利要求所述的方法,其特征在于,该方法还包括:
    将所述标记后的目标三维视频帧进行组合,形成标记后的全景视频。
    6.一种视频识别装置,其特征在于,该装置包括:
    获取模块,用于获取全景视频;
    转换模块,用于将所述全景视频的三维视频帧转换为目标二维视频帧;
    识别和标记模块,用于对所述目标二维视频帧进行目标对象识别和标记生成标记后的
    目标二维视频帧;以及
    逆转换模块,用于将所述标记后的目标二维视频帧转换为标记后的目标三维视频帧,
    其中所述标记后的目标三维视频帧中标记有所述目标对象。
    7.根据权利要求6所述的装置,其特征在于,所述全景视频为球模型三维全景视频,所
    述转换模块用于:将所述球模型三维全景视频的三维视频帧转换为具有第一预设形状的第
    一二维视频帧;将所述第一二维视频帧按照第一预设规则切割成多个第二二维视频帧,将
    所述多个第二二维视频帧拼接成具有第二预设形状的目标二维视频帧,其中,所述第一预
    设形状与所述第二预设形状相匹配。
    8.根据权利要求7所述的装置,其特征在于,所述识别和标记模块用于:识别所述目标
    二维视频帧中的目标对象;获取所识别的目标对象的位置;以及根据所述目标对象的位置,
    利用几何区域标记所述目标对象,生成标记后的目标二维视频帧。
    9.根据权利要求8所述的装置,其特征在于,所述逆转换模块用于:获取所述标记后的
    目标二维视频帧的中所述几何区域的坐标;将包括有所述几何区域的坐标的所述标记后的
    目标二维视频帧根据预定映射关系转换为多个标记后的第二二维视频帧;将所述多个标记
    后的第二二维视频帧按照第二预设规则组合为标记后的第一二维视频帧,其中所述第二预
    设规则与所述第一预设规则相匹配;将所述标记后的第一二维视频帧的坐标转换为球模型
    坐标,生成标记后的目标三维视频帧。
    10.根据权利要求6-9中任一项权利要求所述的装置,其特征在于,该装置还包括:显示
    模块,用于将所述标记后的目标三维视频帧进行组合形成标记后的全景视频。

    说明书

    视频识别方法以及装置

    技术领域

    本发明实施例涉及视频处理技术领域,具体地,涉及一种视频识别方法以及一种
    视频识别装置。

    背景技术

    随着三维全景的技术的不断发展,全景视频被越来越多的应用,全景视频的每一
    视频帧都是一个360度的全景,给人身临其境的感觉。但是本申请发明人在实现本发明的过
    程中发现:全景视频的视频源,例如球模型的全景视频,是经过坐标转换映射成的2:1比例
    视频,视频内容已经发生扭曲,因此,存在难以对全景视频中的目标对象进行检测识别或者
    识别不准确的问题。

    发明内容

    针对全景视频的视频帧中的目标对象识别难以进行或识别不准确的技术问题,本
    发明实施例提供一种视频识别方法,该方法包括:获取全景视频,将所述全景视频的三维视
    频帧转换为目标二维视频帧;对所述目标二维视频帧进行目标对象识别和标记,生成标记
    后的目标二维视频帧;将所述标记后的目标二维视频帧转换为标记后的目标三维视频帧,
    其中所述标记后的目标三维视频帧中标记有所述目标对象。

    可选的,所述全景视频为球模型三维全景视频,所述将所述全景视频的三维视频
    帧转换为目标二维视频帧包括:将所述球模型三维全景视频的三维视频帧转换为具有第一
    预设形状的第一二维视频帧;将所述第一二维视频帧按照第一预设规则切割成多个第二二
    维视频帧,将所述多个第二二维视频帧拼接成具有第二预设形状的目标二维视频帧,其中,
    所述第一预设形状与所述第二预设形状相匹配。

    可选的,所述对所述目标二维视频帧进行目标对象识别和标记,生成标记后的目
    标二维视频帧包括:识别所述目标二维视频帧中的目标对象;获取所识别的目标对象的位
    置;以及根据所述目标对象的位置,利用几何区域标记所述目标对象,以生成标记后的目标
    二维视频帧。

    可选的,所述将所述标记后的目标二维视频帧转换为标记后的目标三维视频帧包
    括:获取所述标记后的目标二维视频帧的中所述几何区域的坐标;将包括有所述几何区域
    的坐标的所述标记后的目标二维视频帧根据预定映射关系转换为多个标记后的第二二维
    视频帧;将所述多个标记后的第二二维视频帧按照第二预设规则组合为标记后的第一二维
    视频帧,其中所述第二预设规则与所述第一预设规则相匹配;将所述标记后的第一二维视
    频帧的坐标转换为球模型坐标,生成标记后的目标三维视频帧。

    可选的,该方法还包括:将所述标记后的目标三维视频帧进行组合,形成标记后的
    全景视频。

    此外,本发明实施例还提供了一种视频识别装置,该装置包括:获取模块,用于获
    取全景视频;转换模块,用于将所述全景视频的三维视频帧转换为目标二维视频帧;识别和
    标记模块,用于对所述目标二维视频帧进行目标对象识别和标记生成标记后的目标二维视
    频帧;以及逆转换模块,用于将所述标记后的目标二维视频帧转换为标记后的目标三维视
    频帧,其中所述标记后的目标三维视频帧中标记有所述目标对象。

    可选的,所述全景视频为球模型三维全景视频,所述转换模块用于:将所述球模型
    三维全景视频的三维视频帧转换为具有第一预设形状的第一二维视频帧;将所述第一二维
    视频帧按照第一预设规则切割成多个第二二维视频帧,将所述多个第二二维视频帧拼接成
    具有第二预设形状的目标二维视频帧,其中,所述第一预设形状与所述第二预设形状相匹
    配。

    可选的,所述识别和标记模块用于:识别所述目标二维视频帧中的目标对象;获取
    所识别的目标对象的位置;以及根据所述目标对象的位置,利用几何区域标记所述目标对
    象,生成标记后的目标二维视频帧。

    可选的,所述逆转换模块用于:获取所述标记后的目标二维视频帧的中所述几何
    区域的坐标;将包括有所述几何区域的坐标的所述标记后的目标二维视频帧根据预定映射
    关系转换为多个标记后的第二二维视频帧;将所述多个标记后的第二二维视频帧按照第二
    预设规则组合为标记后的第一二维视频帧,其中所述第二预设规则与所述第一预设规则相
    匹配;将所述标记后的第一二维视频帧的坐标转换为球模型坐标,生成标记后的目标三维
    视频帧。

    可选的,该装置还包括:显示模块,用于将所述标记后的目标三维视频帧进行组合
    形成标记后的全景视频。

    通过上述技术方案,将获取的全景视频转换为目标二维视频帧,之后对所述目标
    二维视频帧进行目标对象识别并对所识别的目标对象进行标记,最终将标记有目标对象的
    标记后的目标二维视频帧转换为标记后的三维视频帧,能够实现精确地、有效地、方便地识
    别全景视频帧中的目标对象,避免了因全景视频帧中视频图像的扭曲而造成的难以识别其
    中目标对象或者识别结果不准确的情况的发生,为全景视频的广泛应用提供了技术基础。

    本发明实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。

    附图说明

    附图是用来提供对本发明实施例的进一步理解,并且构成说明书的一部分,与下
    面的具体实施方式一起用于解释本发明实施例,但并不构成对本发明实施例的限制。在附
    图中:

    图1是根据本发明实施例的一种实施例的视频识别方法的示例流程图;

    图2是根据本发明实施例的一种实施例的视频识别方法进行视频识别过程的示意
    图;

    图3是根据本发明实施例的一种实施例的视频识别方法进行视频识别过程的示意
    图;

    图4A-4B是根据本发明实施例的一种实施例的视频识别方法进行视频识别过程的
    示意图;

    图5是根据本发明实施例的一种实施例的视频识别方法进行视频识别过程的示意
    图;

    图6是根据本发明实施例的一种实施例的视频识别方法进行视频识别过程的示意
    图;

    图7是根据本发明实施例的一种实施例的视频识别装置的结构示意图;以及

    图8是根据本发明实施例的一种实施例的视频识别装置的结构示意图;

    具体实施方式

    以下结合附图对本发明实施例的具体实施方式进行详细说明。应当理解的是,此
    处所描述的具体实施方式仅用于说明和解释本发明实施例,并不用于限制本发明实施例。

    为了实现对全景视频的三维视频帧中的目标对象进行精确地、有效地、方便地识
    别,本发明实施例考虑了多种实施例,下面将一一进行详细地说明:

    实施例1

    图1是根据本发明实施例的一种实施例的视频识别方法的示例流程图,如图1所
    示,该方法可以包括以下步骤:

    步骤S11,获取全景视频,例如可以从视频库中获取待识别的视频源或者从终端预
    先存储的视频中获取全景视频源,例如车辆在公路上行驶的全景视频。

    步骤S12,将所述全景视频的三维视频帧转换为目标二维视频帧。

    步骤S13,对所述目标二维视频帧进行目标对象识别和标记,生成标记后的目标二
    维视频帧。例如,对于车辆在公路上行驶的全景视频,可以将其中的车辆设定为目标对象,
    并且,可以使用深度学习的工具(诸如faster-rcnn、yolo等)对全景视频中的目标对象(例
    如车辆)进行识别并标记,生成标记后的目标二维视频帧,以为后续视频转换提供基础。

    步骤S14,将所述标记后的目标二维视频帧转换为标记后的目标三维视频帧,其中
    所述标记后的目标三维视频帧中标记有所述目标对象。例如对于上述车辆在公路上行驶的
    示例,标记后的目标二维视频帧中包括对于车辆的标记(例如几何形状区域框、车辆边缘提
    取线等),将包括该标记的标记后的目标二维视频帧转换为标记后的目标三维视频帧,即将
    具有标记的二维视频帧转换到三维空间,以在全景视频中显示出该标记后的目标对象,以
    为后续的功能(例如车辆位置检测等操作)提供数据基础。

    采用本实施例,将获取的全景视频转换为目标二维视频帧,之后对所述目标二维
    视频帧进行目标对象识别并对所识别的目标对象进行标记,最终将标记有目标对象的标记
    后的目标二维视频帧转换为标记后的三维视频帧,能够实现精确地、有效地、方便地识别全
    景视频帧中的目标对象,避免了因全景视频帧中视频图像的扭曲而造成的难以识别其中目
    标对象或者识别结果不准确的情况的发生,为全景视频的广泛应用提供了技术基础。

    实施例2

    图2-6是根据本发明实施例的一种实施例的视频识别方法进行视频识别过程的示
    意图。如图2所示,在实施例2中,以球模型三维全景视频为例来说明对全景视频的示例识别
    过程:

    首先,在步骤S11,获取全景视频,所述全景视频为球模型三维全景视频,例如车辆
    在公路上行驶的球模型三维全景视频帧a,如图2所示。

    之后,在步骤S12,如图3所示,将所述全景视频的三维视频帧转换为目标二维视频
    帧可以包括:

    步骤S121,将所述球模型三维全景视频的三维视频帧转换为具有第一预设形状的
    第一二维视频帧,所述第一预设形状可以为任何适当的形状,例如立方体,所述第一二维视
    频帧可以为立方体贴图,即将所述球模型的三维视频帧转换为立方体贴图,即执行过程
    1001;

    步骤S122,将所述第一二维视频帧按照第一预设规则切割成多个第二二维视频
    帧,例如所述第一预设规则为将所述立方体贴图的每个面的二维纹理图像映射为6宫格视
    频帧,其中所述立方体贴图的每个面(即立方体的上面、下面、左面、右面、前面、后面,6个
    面)的二维纹理图像分别对应所述6宫格视频帧中的每个宫格(对应图4A的数字标号3、4、2、
    1、5、6),根据上述第一预设规则可以将立方体贴图切割成多个第二二维视频帧,如图2中的
    视频帧b所示,其中多个第二二维视频帧可以对应图4A的数字标号3、4、2、1、5、6,即执行过
    程1002;其中过程1001-1002可以借助一些视频处理的开源工具实现,例如,使用facebook
    等开源工具完成。

    步骤S123,将所述多个第二二维视频帧拼接成具有第二预设形状的目标二维视频
    帧,其中,所述第一预设形状与所述第二预设形状相匹配,例如当所述第一预设形状为立方
    体时,所述第二预设形状可以为十字形,该十字形可以是将立方体的6个面按照几何分解而
    得到的十字形图像。具体地,可以将所述6宫格视频帧映射为十字形的目标二维视频帧,例
    如,如图2中的视频帧c所示,即执行过程1003。

    举例来说,图4A-4B是根据本发明实施例的一种实施例的视频识别方法进行视频
    识别过程的示意图,其中示出了将6宫格视频帧b映射为十字形视频帧c的一种示例。

    具体来说,首先将对6宫格视频帧b进行按照3x2的划分,计算出每个小正方形的位
    置;之后,使用opencv等图像处理工具,根据坐标裁剪出6个矩形块,即图4A中的1、2、3、4、5、
    6矩形块分别对应着立方体贴图的右面、左面、上面、下面、前面、后面;接着,将六个矩形块
    1、2、3、4、5、6重新拼接,拼接成由立方体展开而得到的按4x3进行分割的十字形视频帧,如
    图4B所示。最后,记录使用图4A中的数字标号记录6宫格图像与图4B中十字形图像中各块的
    预定映射关系:

    PLANE_43_TO_32_MAP[]={-1,3,-1,-1,2,5,1,6,-1,4,-1,-1}(-1代表无效位
    置),其中PLANE_43_TO_32_MAP表示映射数组,数组标表示其在十字形中的数字,相应的值
    为其在6宫格图像中所在矩形块的数字,通过该映射数组,就可以计算十字形图像中的任何
    有效位置(非黑色区域,黑色区域为无效区域)在六宫格图像中相匹配的坐标,该逆映射过
    程将在下述逆转换过程中使用。

    接着,在步骤S13,如图5所示,对所述目标二维视频帧进行目标对象识别和标记生
    成标记后的目标二维视频帧可以包括:

    步骤S131,识别所述目标二维视频帧中的目标对象,例如,使用深度学习的工具
    (诸如faster-rcnn、yolo等)对视频帧c中的目标对象(例如车辆car)进行识别。

    步骤S132,获取所识别的目标对象的位置;以及根据所述目标对象的位置,利用几
    何区域标记所述目标对象,以生成标记后的目标二维视频帧。例如。可以使用矩形框等的几
    何区域标记所识别的目标对象车辆car,例如,如图2所示,视频帧d中使用矩形框标记出了
    在场景中车辆car的位置,即执行过程1004,或者也可以直接高亮描绘车辆的轮廓线。

    接着,在步骤S14,如图6所示,将所述标记后的目标二维视频帧转换为标记后的目
    标三维视频帧可以包括:

    步骤141,获取所述标记后的目标二维视频帧的中所述几何区域的坐标,例如对于
    视频帧d中的矩形框,可以使用(x,y)的形式来表示该矩形框的四个顶点的坐标,根据该四
    个顶点的坐标即可以绘制出该矩形框。

    步骤S142,将包括有所述几何区域的坐标的所述标记后的目标二维视频帧根据预
    定映射关系转换为多个标记后的第二二维视频帧,例如根据过程1003中设置好的预定映射
    关系(即上述映射数组),可以将矩形框的四个顶点的坐标映射到6宫格视频帧,即执行过程
    1005,将具有矩形框的十字形视频帧映射到6宫格视频帧上,即执行逆映射过程。

    步骤S143,将多个标记后的第二二维视频帧按照第二预设规则组合为标记后的第
    一二维视频帧,其中所述第二预设规则与所述第一预设规则相匹配,例如,所述第二预设规
    则为将6宫格视频帧映射为所述立方体贴图的每个面的二维纹理图像,其中所述6宫格视频
    帧中的每个宫格(对应图4A的数字标号3、4、2、1、5、6)分别对应所述立方体贴图的每个面
    (即立方体的上面、下面、左面、右面、前面、后面,6个面)的二维纹理图像,即执行过程1006。

    步骤S144将所述标记后的第一二维视频帧的坐标转换为球模型坐标,以生成标记
    后的目标三维视频帧。例如,将所述标记后的立方体贴图转换为标记后的球模型的三维视
    频帧,具体地,根据立方体贴图上的坐标,计算出极坐标α和β,α、β可以分别除以360度和180
    度,按比例找出在球模型上对应的坐标(在2:1视频中的像素点),如图2中的视频帧e所示,
    即执行过程1007,其中,如图2所示,视频帧e在梯形区域中标记出了在该全景场景中车辆
    car的位置,实现了本发明实施例的目的。其中步骤1006-1007可以借助一些视频处理的开
    源工具实现,例如,使用facebook等开源工具完成。

    最后,将通过上述过程1001-1007标记后的目标三维视频帧进行组合,形成标记后
    的全景视频。

    可选地,作为本实施例的一种可选实施方式,所述方法还包括:将所述标记后的目
    标三维视频帧进行组合以形成标记后的全景视频,以及显示所述标记后的全景视频,例如
    将如图2中所示的视频帧e与其他标记后的视频帧f\h\i等任意数量的视频帧进行组合,以
    形成标记后的全景视频,以及最终显示所述标记后的全景视频。

    相匹配采用本实施例,能够实现在全景视频帧中精确地、有效地、方便地识别出目
    标对象,避免了因全景视频帧中视频图像的扭曲而造成的难以识别其中目标对象或者识别
    结果不准确的情况的发生,为全景视频的广泛应用提供了技术基础。

    实施例3

    图7是根据本发明实施例的一种实施例的视频识别装置100的结构示意图,如图7
    所示,该装置可以包括:获取模块10,用于获取全景视频,例如可以从视频库中获取待识别
    的视频源或者从终端预先存储的视频中获取全景视频源,例如车辆在公路上行驶的全景视
    频;转换模块20,用于将所述全景视频的三维视频帧转换为目标二维视频帧;识别和标记模
    块30,用于对所述目标二维视频帧进行目标对象识别和标记生成标记后的目标二维视频
    帧,例如,对于车辆在公路上行驶的全景视频,可以将其中的车辆设定为目标对象,并且,可
    以使用深度学习的工具(诸如faster-rcnn、yolo等)对全景视频中的目标对象(例如车辆)
    进行识别并标记,生成标记后的目标二维视频帧,以为后续视频转换提供基础;以及逆转换
    模块40,用于将所述标记后的目标二维视频帧转换为标记后的目标三维视频帧,其中所述
    标记后的目标三维视频帧中标记有所述目标对象。例如对于上述车辆在公路上行驶的示
    例,标记后的目标二维视频帧中将包括对于车辆的标记(例如几何形状区域框、车辆边缘提
    取线等),将包括该标记的标记后的目标二维视频帧转换为标记后的目标三维视频帧,即将
    具有标记的二维视频帧转换到三维空间,以在全景视频中显示出该标记后的目标对象,以
    为后续的功能(例如车辆位置检测等操作)提供数据基础。

    采用本实施例,视频识别装置100可以将获取的全景视频转换为目标二维视频帧,
    之后对所述目标二维视频帧进行目标对象识别并对所识别的目标对象进行标记,最终将标
    记有目标对象的标记后的目标二维视频帧转换为标记后的三维视频帧,能够实现精确地、
    有效地、方便地识别全景视频帧中的目标对象,避免了因全景视频帧中视频图像的扭曲而
    造成的难以识别其中目标对象或者识别结果不准确的情况的发生,为全景视频的广泛应用
    提供了技术基础。

    实施例4

    如图2所示,在实施例4中,以球模型三维全景视频为例来说明视频识别装置100对
    全景视频的示例识别过程:

    首先,获取模块10可以获取全景视频,所述全景视频为球模型三维全景视频,例如
    车辆在公路上行驶的球模型三维全景视频帧a,如图2所示。

    之后,转换模块20可以将所述全景视频的三维视频帧转换为目标二维视频帧,具
    体地可以执行以下过程:

    将所述球模型三维全景视频的三维视频帧转换为具有第一预设形状的第一二维
    视频帧,所述第一预设形状可以为任何适当的形状,例如立方体,所述第一二维视频帧可以
    为立方体贴图,即将所述球模型的三维视频帧转换为立方体贴图,即执行过程1001;

    将所述第一二维视频帧按照第一预设规则切割成多个第二二维视频帧,例如所述
    第一预设规则为将所述立方体贴图的每个面的二维纹理图像映射为6宫格视频帧,其中所
    述立方体贴图的每个面(即立方体的上面、下面、左面、右面、前面、后面,6个面)的二维纹理
    图像分别对应所述6宫格视频帧中的每个宫格(对应图4A的数字标号3、4、2、1、5、6),根据上
    述第一预设规则可以将立方体贴图切割成多个第二二维视频帧,如图2中的视频帧b所示,
    其中多个第二二维视频帧可以对应图4A的数字标号3、4、2、1、5、6,即执行过程1002;其中过
    程1001-1002可以借助一些视频处理的开源工具实现,例如,使用facebook等开源工具完
    成;

    将所述多个第二二维视频帧拼接成具有第二预设形状的目标二维视频帧,其中,
    所述第一预设形状与所述第二预设形状相匹配,例如所述第二预设形状可以为十字形,该
    十字形可以是将立方体的6个面按照几何分解而得到的十字形图像。具体地,可以将所述6
    宫格视频帧映射为十字形的目标二维视频帧,例如,如图2中的视频帧c所示,即执行过程
    1003。

    举例来说,如图4A-4B所示,其中示出了将6宫格视频帧b映射为十字形视频帧c的
    一种示例。具体来说,首先将对6宫格视频帧b进行按照3x2的划分,计算出每个小正方形的
    位置;之后,使用opencv等图像处理工具,根据坐标裁剪出6个矩形块,即图4A中的1、2、3、4、
    5、6矩形块分别对应着立方体贴图的右面、左面、上面、下面、前面、后面;接着,将六个矩形
    块1、2、3、4、5、6重新拼接,拼接成由立方体展开而得到的按4x3进行分割的十字形视频帧,
    如图4B所示。最后,记录使用图4A中的数字标号记录6宫格图像与图4B中十字形图像中各块
    的预定映射关系:

    PLANE_43_TO_32_MAP[]={-1,3,-1,-1,2,5,1,6,-1,4,-1,-1}(-1代表无效位
    置),其中PLANE_43_TO_32_MAP表示映射数组,数组标表示其在十字形中的数字,相应的值
    为其在6宫格图像中所在矩形块的数字,通过该映射数组,就可以计算十字形图像中的任何
    有效位置(非黑色区域,黑色区域为无效区域)在六宫格图像中相匹配的坐标,该逆映射过
    程将在下述逆转换模块40中使用。

    接着,识别和标记模块30可以对所述目标二维视频帧进行目标对象识别和标记,
    生成标记后的目标二维视频帧,具体地,可以执行以下过程:

    识别所述目标二维视频帧中的目标对象,例如,使用深度学习的工具(诸如
    faster-rcnn、yolo等)对视频帧c中的目标对象(例如车辆car)进行识别;

    获取所识别的目标对象的位置;以及根据所述目标对象的位置,利用几何区域标
    记所述目标对象,以生成标记后的目标二维视频帧。例如,可以使用矩形框等的几何区域标
    记所识别的目标对象车辆car,例如,如图2所示,视频帧d中使用矩形框标记出了在场景中
    车辆car的位置,即执行过程1004,或者也可以直接高亮描绘车辆的轮廓线。

    接着,逆转换模块40可以将所述标记后的目标二维视频帧转换为标记后的目标三
    维视频帧,例如可以执行以下过程:

    获取所述标记后的目标二维视频帧的中所述几何区域的坐标,例如所述目标对象
    的位置信息(例如坐标)以及几何区域的坐标,例如对于视频帧d中的矩形框,可以使用(x,
    y)的形式来表示该矩形框的四个顶点的坐标,根据该四个顶点的坐标即可以绘制出该矩形
    框;

    将包括有所述几何区域的坐标所述标记后的目标二维视频帧根据预定映射关系
    转换为多个标记后的第二二维视频帧,例如根据过程1003中设置好的预定映射关系(即上
    述映射数组),可以将矩形框的四个顶点的坐标映射到6宫格视频帧,即执行过程1005,将具
    有矩形框的十字形视频帧映射到6宫格视频帧上,即执行逆映射过程;

    将多个标记后的第二二维视频帧按照第二预设规则组合为标记后的第一二维视
    频帧,其中所述第二预设规则与所述第一预设规则相匹配,例如,所述第二预设规则为将6
    宫格视频帧映射为所述立方体贴图的每个面的二维纹理图像,其中所述6宫格视频帧中的
    每个宫格(对应图4A的数字标号3、4、2、1、5、6)分别对应所述立方体贴图的每个面(即立方
    体的上面、下面、左面、右面、前面、后面,6个面)的二维纹理图像,即执行过程1006;

    将所述标记后的第一二维视频帧的坐标转换为球模型坐标,以生成标记后的目标
    三维视频帧。例如,将所述标记后的立方体贴图转换为标记后的球模型的三维视频帧,具体
    地,根据立方体贴图上的坐标,计算出极坐标α和β,α、β可以分别除以360度和180度,按比例
    找出在球模型上对应的坐标(在2:1视频中的像素点),如图2中的视频帧e所示,即执行过程
    1007,其中,如图2所示,视频帧e在梯形区域中标记出了在该全景场景中车辆car的位置,实
    现了本发明实施例的目的。其中步骤1006-1007可以借助一些视频处理的开源工具实现,例
    如,使用facebook等开源工具完成。

    最后,可以将通过上述过程1001-1007标记后的目标三维视频帧进行组合,以形成
    标记后的全景视频。

    采用本实施例,视频识别装置100能够实现在全景视频帧中精确地、有效地、方便
    地识别出目标对象,避免了因全景视频帧中视频图像的扭曲而造成的难以识别其中目标对
    象或者识别结果不准确的情况的发生,为全景视频的广泛应用提供了技术基础。

    实施例5

    图8是根据本发明实施例的一种实施例的视频识别装置100的结构示意图,如图8
    所示,该实施例5与实施例3或4的视频识别装置100的不同之处在于,该装置除了包括上述
    获取模块10、转换模块20、识别和标记模块30、逆转换模块40外,还可以包括:显示模块50,
    用于将所述标记后的目标三维视频帧进行组合形成标记后的全景视频。该显示模块50还可
    以显示所述标记后的全景视频,例如将如图2中所示的视频帧e与其他标记后的视频帧f\h\
    i等任意数量的视频帧进行组合,形成标记后的全景视频,以及最终显示所述标记后的全景
    视频。

    采用实施例5,能够将各个标记后的视频帧进行组合并显示最终全景视频,更加方
    便、直观,避免了因全景视频帧中视频图像的扭曲而造成的难以识别其中目标对象或者识
    别结果不准确的情况的发生,为全景视频的广泛应用提供了技术基础。

    本发明实施例提供的视频识别方法以及装置可以以硬件或软件的形式实现,例如
    可以以软件的形式应用于需要对视频进行识别的任何适当的场景中,例如电视机、手机、平
    板电脑、VR设备、以及智能可穿戴设备等,也可以以硬件的形式与上述场景中的设备集成,
    本发明实施例对此不进行限定。

    应当理解的是,本领域技术人员可以根据本发明实施例的公开选择上述各种实施
    例中的任一者,或者选择上述各种实施例的组合来配置视频识别方法和装置,并且其他的
    替换实施例也落入本发明实施例的保护范围。

    以上结合附图详细描述了本发明实施例的可选实施方式,但是,本发明实施例并
    不限于上述实施方式中的具体细节,在本发明实施例的技术构思范围内,可以对本发明实
    施例的技术方案进行多种简单变型,这些简单变型均属于本发明实施例的保护范围。

    另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛
    盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本发明实施例对
    各种可能的组合方式不再另行说明。

    本领域技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过
    程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一
    个(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部
    或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only
    Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程
    序代码的介质。

    此外,本发明实施例的各种不同的实施方式之间也可以进行任意组合,只要其不
    违背本发明实施例的思想,其同样应当视为本发明实施例所公开的内容。

    关 键  词:
    视频 识别 方法 以及 装置
      专利查询网所有文档均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    0条评论

    还可以输入200字符

    暂无评论,赶快抢占沙发吧。

    关于本文
    本文标题:视频识别方法以及装置.pdf
    链接地址:https://www.zhuanlichaxun.net/p-5993216.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
    经营许可证编号:粤ICP备2021068784号-1