球机监控视频的结构化描述方法和系统.pdf

上传人：a3

文档编号：6136587

上传时间：2019-04-18

格式：PDF

页数：12

大小：1.08MB

《球机监控视频的结构化描述方法和系统.pdf》由会员分享，可在线阅读，更多相关《球机监控视频的结构化描述方法和系统.pdf（12页完整版）》请在专利查询网上搜索。

1、(10)申请公布号 CN 103903269 A (43)申请公布日 2014.07.02 CN 103903269 A (21)申请号 201410143280.1 (22)申请日 2014.04.10 G06T 7/00(2006.01) G06K 9/32(2006.01) (71)申请人公安部第三研究所地址 200031 上海市徐汇区岳阳路 76 号 (72)发明人胡传平梅林段慧仙尚岩峰谭懿先颜志国王春 (74)专利代理机构上海天翔知识产权代理有限公司 31224 代理人刘常宝 (54) 发明名称球机监控视频的结构化描述方法和系统 (57) 摘要本发明公开了。

2、球机监控视频的结构化描述方法和系统，该方法包括以下步骤：首先通过对超大视野的物理背景建立初始模型，接着通过监控视频对物理背景模型局部动态进行更新形成高精度背景模型；最后利用背景模型辅助监控视频进行视频内容分析。由此形成的系统包括：视频采集模块、背景建模模块、目标检测与识别模块和输出模块。本发明通过对超大视野的物理背景建立模型，实现对球机下的复杂监控视频的结构化描述。 (51)Int.Cl. 权利要求书 2 页说明书 6 页附图 3 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请权利要求书2页说明书6页附图3页 (10)申请公布号。

3、 CN 103903269 A CN 103903269 A 1/2 页 2 1. 球机监控视频的结构化描述方法，其特征在于，所述方法包括：步骤（1）建立球机下超大视野视频的物理背景的初始背景模型，同时，对场景中标志性物体进行标注，得到场景信息；步骤（2）通过球机采集到的新视频更新步骤 1 中得到的初始背景模型，形成高精度背景模型；步骤（3）根据步骤（2）所得到的高精度背景模型以及场景信息，在球机下的复杂监控视频中，对关注的目标进行检测与识别。 2. 根据权利要求 1 所述的球机监控视频的结构化描述方法，其特征在于，所述步骤（1）中通过。

4、如下步骤建立初始背景模型：步骤（1-1）根据球机的水平范围和垂直范围，来回扫描全部场景，获得视频中全部的场景图片；步骤（1-2）将扫描得到的场景图片进行拼接，得到一个场景全景图，作为初始背景模型 B0；步骤（1-3）对场景全景图中的标志性物体进行标注，得到场景信息，用于对关注目标的检测与识别；步骤（1-4）计算场景全景图的 SIFT 特征。 3. 根据权利要求 1 所述的球机监控视频的结构化描述方法，其特征在于，所述步骤（2）中更新初始背景模型，获得高精度背景模型的方法具体包括：步骤（2-1）判断新的视频帧中是否存在移动目标或遮挡。

5、物体，若有，则不对拍摄的新视频进行分析处理；反之则引入该视频帧，用于更新初始背景模型；步骤（2-2）利用 SIFT 特征的匹配程度，计算摄像头的位置信息，完成摄像头定位；步骤（2-3）通过如下公式进行稳定背景判断：其中 Bt(x,y) 表示根据 t-1 时刻背景模型 Bt-1(x,y) 仿射变换得到的背景；步骤（2-4）背景更新：更新背景模型，形成高精度背景模型。 4. 根据权利要求 1 所述的球机监控视频的结构化描述方法，其特征在于，所述步骤（3）中对关注目标进行检测与识别的方法具体包括：步骤（3-1）利用在步骤（2-3）。

6、中建立的高精度背景模型，通过背景差分法对目标进行检测；步骤（3-2）利用标注好的场景信息，从视频序列中识别出感兴趣的目标，并描述其静态和运动信息。 5. 根据权利要求 2 所述的球机监控视频的结构化描述方法，其特征在于，所述步骤权利要求书 CN 103903269 A 2 2/2 页 3 （1-2）中形成的场景全景图是圆柱形全景图，该全景图能够实现视线 360的环视，并且在垂直方向转动角度小于 180，该全景图能够展开形成一个矩形图像，直接利用计算机的图像格式进行存储与访问。 6. 根据权利要求 3 所述的球机监控视频的结构化描述方法，其特征在于。

7、，所述步骤（2-2）中摄像头的位置信息包括摄像头的水平位置和垂直位置。 7.根据权利要求1或3所述的球机监控视频的结构化描述方法，其特征在于，所述高精度背景模型采用平均值法来建立，当有新的视频帧引入时，取其与原有的视频帧的平均值作为新的背景模型。 8. 根据权利要求 7 所述的球机监控视频的结构化描述方法，其特征在于，建立高精度背景模型时，将用于计算同一位置的高精度背景模型的视频帧数量设定上限为 N 帧，当该数量到达 N 帧，并又有新的视频帧引入时，则用该新的视频帧代替第 1 帧，也就是离当前时间最远的一帧，再计算平均值。 9.根据权利要求1或3所述的球。

8、机监控视频的结构化描述方法，其特征在于，所述步骤（2）中形成的高精度背景模型综合了球机本身的物理参数、监控场景的关键特征、监控关注目标在大场景下的空间几何模型、视频内容和大场景的变换参数因素，高精度的背景模型能够辅助对监控视频的分析，实现球机下复杂监控视频的目标检测。 10. 球机监控视频的结构化描述系统，其特征在于，所述系统包括：视频采集模块，所述视频采集模块通过球机采集视频；背景建模模块，所述背景建模模块从视频采集模块获取球机下超大视野视频，并建立相应的物理背景的初始背景模型且根据新视频对初始背景模型进行更新形成高精度背景模型；目标检测与识别。

9、模块，所述目标检测与识别模块利用背景建模模块建立的高精度背景模型对视频采集模块采集的视频中的关注目标进行检测和识别；输出模块，所述输出模块接收并输出目标检测与识别模块的检测和识别结果。权利要求书 CN 103903269 A 3 1/6 页 4 球机监控视频的结构化描述方法和系统技术领域 0001 本发明涉及计算机视觉领域和人工智能领域，具体涉及球机监控视频的结构化描述方法和系统。背景技术 0002 目前，面向社会安全的大型公共场所监控和管理，直接关系到人民的生命财产安全、社会稳定和国家的安危。现阶段，中国正进入 “突发公共事件的高发期” 和 “社会高风险。

10、期” ，如何应对这 “两高” ，是中国政府的当务之急。尤其是在大型活动和场所中，需要对一系列事件进行自动预警和统一协调，包括团体活动态势、人员危险警戒、个人身份确认、危化品的全程跟踪管理、单兵的有效指挥调度等等。最新的微电子、自动化、机械、计算机等技术为场景目标的感知监控提供了各种解决方案，各种枪机、球机、多摄像头等的关联网络成为公共安全保障的强大支撑。 0003 球机全称为球型摄像机，是现代电视监控发展的代表。她继承彩色一体化摄像机、云台、解码器、防护罩等多功能与一体，安装方便、使用简单但功能强大。球机具有体积小、外形美观、功能强大。

11、、安装方便、使用简单、维护容易等特点，广泛应用于开阔区域的监控，如家庭安全监控、交通安全监控、公共场所安全监控、工厂安全监控等。 0004 然而，球机的可变视野和可变聚焦等赋予业务应用灵活方便性的同时却带给结构化描述技术巨大难题。视频结构化描述技术是对视频内容按语义关系，采用时空分割、特征提取、对象识别等手段，组织成可供计算机和人理解的文本信息的技术。目标提取是视频图像结构化描述的最重要前提，主要包括两种途径：一、通过对关注目标特征进行建模，直接提取目标；二、通过对背景进行建模，在视频图像中去掉背景来实现前景目标的间接提取。在视频监控和。

12、侦查中，由于关注目标及其特征的多样化，且关注对象多为非常态的，导致对目标进行建模是非常困难的。而对背景建模，因其高效快速以及处理目标的不特定性，成为枪机等监控视频图像分析的主要手段。但对于球机，由于本身物理参数不断变化，很难用传统的方法对背景进行建模。发明内容 0005 针对球机下的复杂监控视频的结构化描述所存在的问题，本发明的第一目的在于提供一种球机监控视频的结构化描述方法，以克服现有球机下超大视野的监控视频背景建模难的问题，并能够实现对监控视频中关注目标的检测与识别。 0006 作为第二目的，本发明还提供一种球机监控视频的结构化描述系统。 0007 为。

13、了达到上述目的，本发明采用如下的具体方案： 0008 球机监控视频的结构化描述方法，所述方法包括： 0009 步骤（1）建立球机下超大视野视频的物理背景的初始背景模型；并对背景中标志性物体进行标注，得到场景信息。 0010 步骤（2）通过球机采集到的新的视频更新步骤 1 中得到的初始背景模型，形成高说明书 CN 103903269 A 4 2/6 页 5 精度背景模型； 0011 步骤（3）根据步骤（2）所得到的高精度背景模型以及场景信息，在球机下复杂监控视频中，对关注的目标进行检测与识别。 0012 在该方法的优选实例中，所述步骤（1）中。

14、通过如下步骤建立初始背景模型： 0013 步骤（1-1）根据球机的水平范围和垂直范围，来回扫描全部场景，获得视频中全部的场景图片； 0014 步骤（1-2）将扫描得到的场景图片进行拼接，得到一个场景全景图，作为初始背景模型 B0； 0015 步骤（1-3）对场景全景图中的标志性物体进行标注，用于对关注目标的检测与识别； 0016 步骤（1-4）计算场景全景图的 SIFT 特征。 0017 进一步的，所述步骤（2）中更新初始背景模型，获得高精度背景模型的方法具体包括： 0018 步骤（2-1）判断新的视频帧中是否存在移动目标或遮挡物体，若有。

15、，则不对拍摄的新视频进行分析处理；反之则引入该视频帧，用于更新初始背景模型； 0019 步骤（2-2）利用 SIFT 特征的匹配程度，计算摄像头的位置信息，完成摄像头定位； 0020 步骤（2-3）稳定背景判断： 0021 0022 其中 Bt(x,y) 表示根据 t-1 时刻背景模型 Bt-1(x,y) 仿射变换得到的背景。 0023 步骤（2-4）背景更新 0024 0025 更新背景模型，形成高精度背景模型。 0026 进一步的，所述步骤（3）中对关注目标进行检测与识别的方法具体包括： 0027 步骤（3-1）利用在步骤（2-3）中建立的。

16、高精度背景模型，通过背景差分法对目标进行检测； 0028 步骤（3-2）利用标注好的场景信息，从视频序列中识别出感兴趣的目标，并描述其静态和运动信息。 0029 进一步的，所述步骤（1-2）中形成的场景全景图是圆柱形全景图，该全景图能够实现视线 360的环视，并且在垂直方向转动角度小于 180，该全景图能够展开形成一个矩形图像，直接利用计算机的图像格式进行存储与访问。 0030 进一步的，所述步骤（2）中形成的高精度背景模型综合了球机本身的物理参数、监控场景的关键特征、监控关注目标在大场景下的空间几何模型、视频内容和大场景的变换参数因素，高精。

17、度的背景模型能够辅助对监控视频的分析，实现球机下复杂监控视频的目标检测。 0031 进一步的，所述步骤（2-2）中摄像头的位置信息包括摄像头的水平位置和垂直位说明书 CN 103903269 A 5 3/6 页 6 置。 0032 进一步的，所述步骤（2-3）中的高精度背景模型采用平均值法来建立，当有新的视频帧引入时，取其与原有的视频帧的平均值作为新的背景模型。 0033 再进一步的，建立高精度背景模型时，将用于计算同一位置的高精度背景模型的视频帧数量设定上限为 N 帧，当该数量到达 N 帧，并又有新的视频帧引入时，则用该新的视频帧代替第 1 帧，也。

18、就是离当前时间最远的一帧，再计算平均值。 0034 作为本发明的第二目的，球机监控视频的结构化描述系统，所述系统包括： 0035 视频采集模块，所述视频采集模块通过球机采集视频； 0036 背景建模模块，所述背景建模模块从视频采集模块获取球机下超大视野视频，并建立相应的物理背景的初始背景模型且根据新视频对初始背景模型进行更新形成高精度背景模型； 0037 目标检测与识别模块，所述目标检测与识别模块利用背景建模模块建立的高精度背景模型对视频采集模块采集的视频中的关注目标进行检测和识别； 0038 输出模块，所述输出模块接收并输出目标检测与识别模块的检测和识别结果。。

19、0039 根据上述方案，本发明通过建立球机下超大视野的监控视频的背景模型，能够对球机下的复杂监控视频进行结构化描述，提升了球机下视频监控系统的自动化程度，大大减少了系统对人力的依靠，具有广阔的应用发展空间。附图说明 0040 以下结合附图和具体实施方式来进一步说明本发明。 0041 图 1 为本发明方法的流程图； 0042 图 2 为全景图拼接示意图； 0043 图 3 为背景标注示意图； 0044 图 4 为本发明系统的示意图。具体实施方式 0045 为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合具体图示，进一步阐述本发明。 00。

20、46 本发明通过建立监控视频超大视野的背景模型，从而实现球机下的目标检测与识别，进而对球机监控视频进行结构化描述。 0047 参见图 1，其所示为本发明基于上述原理提出的球机监控视频的结构化描述方法的流程图。由图可知，整个实现过程如下： 0048 步骤 1，建立球机下超大视野视频的物理背景的初始背景模型。 0049 在具体实现时，该步骤主要包括四个子步骤：球机扫描场景、拼接成一个全景图、对场景进行标注以及计算全景图的 SIFT 特征。 0050 建立初始背景模型，首先，通过球机进行全景扫描，获得视频中全部的场景图片，具体可通过球机自带的全景扫描功能，或通过云。

21、台预设扫描路线。预设扫描路线需确保摄像机能够获得监控视频中全部场景的图片。 0051 其次，将扫描得到的场景图片拼接起来，形成一张场景全景图。具体可采用多重投说明书 CN 103903269 A 6 4/6 页 7 影拼接法、等距匹配法、基于特征的方法等方法来实现。 0052 而在本发明中，场景图像的拼接采用基于 SIFT 特征的全景图像拼接算法。首先，要对配准的两幅或多幅图像进行处理，提取图像的 SIFT 特征；其次，采用图像间的相似性度量方法对两幅或多幅图像的SIFT特征进行匹配；然后，利用RANSAC算法去除冗余和误匹配特征对，并利用匹配特征对的。

22、坐标关系，计算变换矩阵；最后，采用柱面投影模型连接起所有图像，并进行加权平均融合处理，得到无缝的全景拼接图像。 0053 基于 SIFT 特征的图像配准方法中的相似性度量采用均方差算法（Mean Square Difference），具体公式如下： 0054 0055 其中 f,g 是两幅用于配准的图像， d(f,g) 表示图像 f 与 g 的均方差； f(i,j) 表示模板子图像中第 i 行和第 j 列的像素的灰度值； g(m+i,n+j) 是匹配图像中参考点 (m,n) 处的参考子图像上的第 i 行和第 j 列的像素的灰度值。 0056 采用该方法拼接而成的场。

23、景全景图为圆柱形全景图，该全景图能够实现视线 360的环视，并且在垂直方向转动角度小于 180，该全景图能够展开形成一个矩形图像，直接利用计算机的图像格式进行存储与访问。 0057 再次，在完成场景全景图的拼接后，再对场景全景图中的标志物体进行标注，，得到相应的场景信息，用于后续对关注目标的检测与识别。在通常应用中，场景全景图中需要标注的标志物包括道路、地面标志、天空、沙滩、水、建筑物等。具体可使用成熟的图像标注软件，采用人工手动的方式标注。 0058 最后，计算场景全景图的 SIFT 特征，用于在步骤 2 中与新视频帧中的图像 SIFT 特征进行。

24、匹配，从而更新背景模型。由于该场景全景图能够展开形成一个矩形图像，因此可直接采用SIFT特征提取算法来计算场景全景图的SIFT特征。 SIFT特征向量的生成的具体步骤包括如下：第一，检测尺度空间极值点；第二，精确定位特征点的位置；第三，确定特征点的主方向；第四，生成 SIFT 特征向量。 0059 步骤 2，更新初始背景模型，形成高精度背景模型。 0060 该步骤主要包括三个过程：新视频帧的引入、摄像头的定位、稳定背景判断以及全景背景的更新。 0061 首先判断球机中摄像头所采集的新视频帧是否有移动目标或遮挡物体，用于决定是否要将其用于更新。

25、背景模型。 0062 在本发明中判断的具体方法如下：计算新视频帧的 SIFT 特征向量，与步骤 1 中获得的场景全景图的 SIFT 特征进行匹配，若匹配程度高于阈值，则将该视频帧引入新的背景模型中，反之则对下一帧进行判断。 0063 其中 SIFT 特征向量的匹配，通过在图像的尺度空间内，将定位极值点作为匹配候选关键点，并且提取极值点的方向参数，最后获得匹配所需关键点描述符。 0064 接着，利用上一步中计算得到的，该新视频帧与全景图的 SIFT 特征向量的匹配程度，从中找到匹配程度最高的点，通过该点在场景全景图中的位置，确定摄像头的水平和垂直位置，完。

26、成摄像头的定位。由此确定的摄像头位置信息（即水平和垂直位置信息）既用于更新背景模型，也用于步骤 3 中通过背景差分法对目标进行检测。说明书 CN 103903269 A 7 5/6 页 8 0065 然后，利用摄像头的位置信息，将 t-1 时刻的背景模型进行仿射变换，变换后的背景用于稳定背景判断。具体如下： 0066 0067 其中 Bt(x,y) 表示根据 t-1 时刻背景模型 Bt-1(x,y) 仿射变换得到的背景。 0068 最后，根据稳定背景判断结果，更新背景模型，形成高精度背景模型。具体如下： 0069 0070 在该步骤中，高精度背景模型采用平均值。

27、法来建立，当有新的视频帧引入时，取其与原有的视频帧的平均值作为新的背景模型。 0071 具体的，将用于计算同一位置的高精度背景模型的视频帧数量设定上限为 N 帧，当该数量到达 N 帧，并又有新的视频帧引入时，则用该新的视频帧代替第 1 帧，也就是离当前时间最远的一帧，再计算平均值。 0072 由此形成的高精度背景模型能够辅助对监控视频的分析，可实现球机下复杂监控视频的目标检测。 0073 步骤 3，目标检测与识别。 0074 该步骤主要包括两个步骤：根据标注好的场景信息对目标进行检测以及对目标进行识别。 0075 因为球机下的摄像头运动轨迹是固定的，步骤 2 。

28、给出了各种运动轨迹下的摄像头位置信息。在对引入的视频帧进行目标检测时，基于确定的摄像头位置信息对视频帧进行仿射变换，然后利用在步骤1与步骤2中建立的高精度背景模型，通过背景差分法对兴趣目标进行检测，用于目标识别。 0076 在完成对兴趣目标进行检测后，再利用步骤 1 中标注好的场景信息，从视频序列中识别出感兴趣的目标，并提取其形状、颜色、纹理、运动、定位、轮廓等视觉特征，并生成关于这些特征的描述。 0077 在对视频图像进行识别、描述时，本发明可采用的方式包括自动、半自动和人工三种方式。自动方式是指对视频图像进行识别描述的工作全部由系统独立完成，中。

29、间没有人工的参与或干预。半自动的方式是指上述识别描述工作一部分由系统完成，另一部分由人工完成，人与系统之间存在着交互。例如：系统通过特征提取和目标分类将目标分为行人和车辆两类，再通过人工对分类的结果进行校正，并进行高级语义分析和描述。人工方式是指对视频的分析和描述工作全部由人工来完成，并把分析描述的结果通过人工输入到系统中。 0078 下面通过一具体实施例案来进一步说明本方法： 0079 该实例基于一球机监控视频的结构化描述系统来实现。参见图4，其所示为球机监控视频的结构化描述系统的组成结构图。 0080 由图可知，该系统主要包括视频采集模块 01、背景建模。

30、模块 02、目标检测与识别模块 03 和输出模块 04。其中：说明书 CN 103903269 A 8 6/6 页 9 0081 视频采集模块 01 用于采集视频。 0082 本实例中，该视频采集模块 01 采用球形摄像机来采集视频，该球形摄像机可通过云台进行控制。 0083 背景建模模块02，其与视频采集模块01数据相接，从视频采集模块01中获取球机下超大视野视频，并建立相应的物理背景的初始背景模型且根据新视频对初始背景模型进行更新形成高精度背景模型。 0084 该背景建模模块 02 由相应的软件程序来实现，所采用的背景建模的方法具体采用上述的球机监控视频的结。

31、构化描述方法中背景建模的方法，此处不加以赘述。 0085 目标检测与识别模块03，其与背景建模模块02和视频采集模块01数据相接，其利用背景建模模块建立的高精度背景模型对视频采集模块采集的视频中的关注目标进行检测和识别。 0086 该目标检测与识别模块 03 由相应的软件程序来实现，所采用的具体检测与识别的方法为上述的球机监控视频的结构化描述方法中目标检测与识别的方法，此处不加以赘述。 0087 输出模块 04，其与目标检测与识别模块 03 数据相接，用于输出目标检测与识别的结果。 0088 由此形成的球机监控视频的结构化描述系统运行于 PC 中，其中相关模块的功能。

32、都通过 PC 机来实现。 0089 本实例以某广场为例，该球机监控视频的结构化描述系统在进行结构化描述时，首先由视频采集模块 01 控制球机获取了场景图片 1 与场景图片 2（如图 2 所示）。 0090 接着，背景建模模块 02 从视频采集模块 01 中获取场景图片 1 与场景图片 2，并以此来构建背景模型。为此，背景建模模块 02 需将这两张图片拼接起来，形成全景图，背景建模模块 02 分别计算场景图片 1 和 2 的 SIFT 特征，并采用图像间的相似性度量方法对图片 1 和 2 的 SIFT 特征进行匹配，然后利用 RANSAC 算法去除冗余和误匹配特征对，并。

33、利用匹配特征对的坐标关系，计算变换矩阵；最后，采用柱面投影模型连接起所有图像，并进行加权平均融合处理，得到无缝的全景拼接图像。 0091 再接着，背景建模模块 02 对背景中的标志性物体进行标注，形成场景信息。本实例中则通过人工的方式，对该背景中的天空、建筑物、树以及道路进行了标注，这些标注信息将应用到之后的目标检测、定位等步骤中去（参见图 3）。 0092 最后，背景建模模块02再完成背景模型的更新，并由目标检测与识别模块03对感兴趣目标进行检测和识别。 0093 本实例中的球机监控视频的结构化描述系统还可以通过网络连接到服务器，每台服务器可连。

34、接一个或多个所述系统，用户可通过连接服务器查看、调阅视频以及目标检测与识别的结果。 0094 以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。说明书 CN 103903269 A 9 1/3 页 10 图 1 说明书附图 CN 103903269 A 10 2/3 页 11 图 2 说明书附图 CN 103903269 A 11 3/3 页 12 图 3 图 4 说明书附图 CN 103903269 A 12 。

摘要
申请专利号：	CN201410143280.1	申请日：	2014.04.10
公开号：	CN103903269A	公开日：	2014.07.02
当前法律状态：	授权	有效性：	有权
法律详情：	授权\|\|\|实质审查的生效IPC(主分类):G06T 7/00申请日:20140410\|\|\|公开
IPC分类号：	G06T7/00; G06K9/32	主分类号：	G06T7/00
申请人：	公安部第三研究所
发明人：	胡传平; 梅林; 段慧仙; 尚岩峰; 谭懿先; 颜志国; 王春
地址：	200031 上海市徐汇区岳阳路76号
优先权：
专利代理机构：	上海天翔知识产权代理有限公司 31224	代理人：	刘常宝
PDF完整版下载：	PDF下载

内容摘要

本发明公开了球机监控视频的结构化描述方法和系统，该方法包括以下步骤：首先通过对超大视野的物理背景建立初始模型，接着通过监控视频对物理背景模型局部动态进行更新形成高精度背景模型；最后利用背景模型辅助监控视频进行视频内容分析。由此形成的系统包括：视频采集模块、背景建模模块、目标检测与识别模块和输出模块。本发明通过对超大视野的物理背景建立模型，实现对球机下的复杂监控视频的结构化描述。

权利要求书

权利要求书
1.  球机监控视频的结构化描述方法，其特征在于，所述方法包括：
步骤（1）建立球机下超大视野视频的物理背景的初始背景模型，同时，对场景中标志性物体进行标注，得到场景信息；
步骤（2）通过球机采集到的新视频更新步骤1中得到的初始背景模型，形成高精度背景模型；
步骤（3）根据步骤（2）所得到的高精度背景模型以及场景信息，在球机下的复杂监控视频中，对关注的目标进行检测与识别。

2.  根据权利要求1所述的球机监控视频的结构化描述方法，其特征在于，所述步骤（1）中通过如下步骤建立初始背景模型：
步骤（1-1）根据球机的水平范围和垂直范围，来回扫描全部场景，获得视频中全部的场景图片；
步骤（1-2）将扫描得到的场景图片进行拼接，得到一个场景全景图，作为初始背景模型B0；
步骤（1-3）对场景全景图中的标志性物体进行标注，得到场景信息，用于对关注目标的检测与识别；
步骤（1-4）计算场景全景图的SIFT特征。

3.  根据权利要求1所述的球机监控视频的结构化描述方法，其特征在于，所述步骤（2）中更新初始背景模型，获得高精度背景模型的方法具体包括：
步骤（2-1）判断新的视频帧中是否存在移动目标或遮挡物体，若有，则不对拍摄的新视频进行分析处理；反之则引入该视频帧，用于更新初始背景模型；
步骤（2-2）利用SIFT特征的匹配程度，计算摄像头的位置信息，完成摄像头定位；
步骤（2-3）通过如下公式进行稳定背景判断：
M(x,y)=0|ft(x,y)-Bt′(x,y)|<T1|ft(x,y)-Bt′(x,y)|&GreaterEqual;T]]>
其中Bt'(x,y)表示根据t-1时刻背景模型Bt-1(x,y)仿射变换得到的背景；
步骤（2-4）背景更新：
Bt(x,y)=ft(x,y)+Bt′(x,y)2,M(x,y)=0||Bt′(x,y)=0Bt′(x,y),M(x,y)=1]]>
更新背景模型，形成高精度背景模型。

4.  根据权利要求1所述的球机监控视频的结构化描述方法，其特征在于，所述步骤（3）中对关注目标进行检测与识别的方法具体包括：
步骤（3-1）利用在步骤（2-3）中建立的高精度背景模型，通过背景差分法对目标进行检测；
步骤（3-2）利用标注好的场景信息，从视频序列中识别出感兴趣的目标，并描述其静态和运动信息。

5.  根据权利要求2所述的球机监控视频的结构化描述方法，其特征在于，所述步骤（1-2）中形成的场景全景图是圆柱形全景图，该全景图能够实现视线360°的环视，并且在垂直方向转动角度小于180°，该全景图能够展开形成一个矩形图像，直接利用计算机的图像格式进行存储与访问。

6.  根据权利要求3所述的球机监控视频的结构化描述方法，其特征在于，所述步骤（2-2）中摄像头的位置信息包括摄像头的水平位置和垂直位置。

7.  根据权利要求1或3所述的球机监控视频的结构化描述方法，其特征在于，所述高精度背景模型采用平均值法来建立，当有新的视频帧引入时，取其与原有的视频帧的平均值作为新的背景模型。

8.  根据权利要求7所述的球机监控视频的结构化描述方法，其特征在于，建立高精度背景模型时，将用于计算同一位置的高精度背景模型的视频帧数量设定上限为N帧，当该数量到达N帧，并又有新的视频帧引入时，则用该新的视频帧代替第1帧，也就是离当前时间最远的一帧，再计算平均值。

9.  根据权利要求1或3所述的球机监控视频的结构化描述方法，其特征在于，所述步骤（2）中形成的高精度背景模型综合了球机本身的物理参数、监控场景的关键特征、监控关注目标在大场景下的空间几何模型、视频内容和大场景的变换参数因素，高精度的背景模型能够辅助对监控视频的分析，实现球机下复杂监控视频的目标检测。

10.  球机监控视频的结构化描述系统，其特征在于，所述系统包括：
视频采集模块，所述视频采集模块通过球机采集视频；
背景建模模块，所述背景建模模块从视频采集模块获取球机下超大视野视频，并建立相应的物理背景的初始背景模型且根据新视频对初始背景模型进行更新形成高精度背景模型；
目标检测与识别模块，所述目标检测与识别模块利用背景建模模块建立的高精度背景模型对视频采集模块采集的视频中的关注目标进行检测和识别；
输出模块，所述输出模块接收并输出目标检测与识别模块的检测和识别结果。

说明书

说明书球机监控视频的结构化描述方法和系统
技术领域
本发明涉及计算机视觉领域和人工智能领域，具体涉及球机监控视频的结构化描述方法和系统。
背景技术
目前，面向社会安全的大型公共场所监控和管理，直接关系到人民的生命财产安全、社会稳定和国家的安危。现阶段，中国正进入“突发公共事件的高发期”和“社会高风险期”，如何应对这“两高”，是中国政府的当务之急。尤其是在大型活动和场所中，需要对一系列事件进行自动预警和统一协调，包括团体活动态势、人员危险警戒、个人身份确认、危化品的全程跟踪管理、单兵的有效指挥调度等等。最新的微电子、自动化、机械、计算机等技术为场景目标的感知监控提供了各种解决方案，各种枪机、球机、多摄像头等的关联网络成为公共安全保障的强大支撑。
球机全称为球型摄像机，是现代电视监控发展的代表。她继承彩色一体化摄像机、云台、解码器、防护罩等多功能与一体，安装方便、使用简单但功能强大。球机具有体积小、外形美观、功能强大、安装方便、使用简单、维护容易等特点，广泛应用于开阔区域的监控，如家庭安全监控、交通安全监控、公共场所安全监控、工厂安全监控等。
然而，球机的可变视野和可变聚焦等赋予业务应用灵活方便性的同时却带给结构化描述技术巨大难题。视频结构化描述技术是对视频内容按语义关系，采用时空分割、特征提取、对象识别等手段，组织成可供计算机和人理解的文本信息的技术。目标提取是视频图像结构化描述的最重要前提，主要包括两种途径：一、通过对关注目标特征进行建模，直接提取目标；二、通过对背景进行建模，在视频图像中去掉背景来实现前景目标的间接提取。在视频监控和侦查中，由于关注目标及其特征的多样化，且关注对象多为非常态的，导致对目标进行建模是非常困难的。而对背景建模，因其高效快速以及处理目标的不特定性，成为枪机等监控视频图像分析的主要手段。但对于球机，由于本身物理参数不断变化，很难用传统的方法对背景进行建模。
发明内容
针对球机下的复杂监控视频的结构化描述所存在的问题，本发明的第一目的在于提供一种球机监控视频的结构化描述方法，以克服现有球机下超大视野的监控视频背景建模难的问题，并能够实现对监控视频中关注目标的检测与识别。
作为第二目的，本发明还提供一种球机监控视频的结构化描述系统。
为了达到上述目的，本发明采用如下的具体方案：
球机监控视频的结构化描述方法，所述方法包括：
步骤（1）建立球机下超大视野视频的物理背景的初始背景模型；并对背景中标志性物体进行标注，得到场景信息。
步骤（2）通过球机采集到的新的视频更新步骤1中得到的初始背景模型，形成高精度背景模型；
步骤（3）根据步骤（2）所得到的高精度背景模型以及场景信息，在球机下复杂监控视频中，对关注的目标进行检测与识别。
在该方法的优选实例中，所述步骤（1）中通过如下步骤建立初始背景模型：
步骤（1-1）根据球机的水平范围和垂直范围，来回扫描全部场景，获得视频中全部的场景图片；
步骤（1-2）将扫描得到的场景图片进行拼接，得到一个场景全景图，作为初始背景模型B0；
步骤（1-3）对场景全景图中的标志性物体进行标注，用于对关注目标的检测与识别；
步骤（1-4）计算场景全景图的SIFT特征。
进一步的，所述步骤（2）中更新初始背景模型，获得高精度背景模型的方法具体包括：
步骤（2-1）判断新的视频帧中是否存在移动目标或遮挡物体，若有，则不对拍摄的新视频进行分析处理；反之则引入该视频帧，用于更新初始背景模型；
步骤（2-2）利用SIFT特征的匹配程度，计算摄像头的位置信息，完成摄像头定位；
步骤（2-3）稳定背景判断：
M(x,y)=0|ft(x,y)-Bt′(x,y)|<T1|ft(x,y)-Bt′(x,y)|&GreaterEqual;T]]>
其中Bt'(x,y)表示根据t-1时刻背景模型Bt-1(x,y)仿射变换得到的背景。
步骤（2-4）背景更新
Bt(x,y)=ft(x,y)+Bt′(x,y)2,M(x,y)=0||Bt′(x,y)=0Bt′(x,y),M(x,y)=1]]>
更新背景模型，形成高精度背景模型。
进一步的，所述步骤（3）中对关注目标进行检测与识别的方法具体包括：
步骤（3-1）利用在步骤（2-3）中建立的高精度背景模型，通过背景差分法对目标进行检测；
步骤（3-2）利用标注好的场景信息，从视频序列中识别出感兴趣的目标，并描述其静态和运动信息。
进一步的，所述步骤（1-2）中形成的场景全景图是圆柱形全景图，该全景图能够实现视线360°的环视，并且在垂直方向转动角度小于180°，该全景图能够展开形成一个矩形图像，直接利用计算机的图像格式进行存储与访问。
进一步的，所述步骤（2）中形成的高精度背景模型综合了球机本身的物理参数、监控场景的关键特征、监控关注目标在大场景下的空间几何模型、视频内容和大场景的变换参数因素，高精度的背景模型能够辅助对监控视频的分析，实现球机下复杂监控视频的目标检测。
进一步的，所述步骤（2-2）中摄像头的位置信息包括摄像头的水平位置和垂直位置。
进一步的，所述步骤（2-3）中的高精度背景模型采用平均值法来建立，当有新的视频帧引入时，取其与原有的视频帧的平均值作为新的背景模型。
再进一步的，建立高精度背景模型时，将用于计算同一位置的高精度背景模型的视频帧数量设定上限为N帧，当该数量到达N帧，并又有新的视频帧引入时，则用该新的视频帧代替第1帧，也就是离当前时间最远的一帧，再计算平均值。
作为本发明的第二目的，球机监控视频的结构化描述系统，所述系统包括：
视频采集模块，所述视频采集模块通过球机采集视频；
背景建模模块，所述背景建模模块从视频采集模块获取球机下超大视野视频，并建立相应的物理背景的初始背景模型且根据新视频对初始背景模型进行更新形成高精度背景模型；
目标检测与识别模块，所述目标检测与识别模块利用背景建模模块建立的高精度背景模型对视频采集模块采集的视频中的关注目标进行检测和识别；
输出模块，所述输出模块接收并输出目标检测与识别模块的检测和识别结果。
根据上述方案，本发明通过建立球机下超大视野的监控视频的背景模型，能够对球机下的复杂监控视频进行结构化描述，提升了球机下视频监控系统的自动化程度，大大减少了系统对人力的依靠，具有广阔的应用发展空间。
附图说明
以下结合附图和具体实施方式来进一步说明本发明。
图1为本发明方法的流程图；
图2为全景图拼接示意图；
图3为背景标注示意图；
图4为本发明系统的示意图。
具体实施方式
为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合具体图示，进一步阐述本发明。
本发明通过建立监控视频超大视野的背景模型，从而实现球机下的目标检测与识别，进而对球机监控视频进行结构化描述。
参见图1，其所示为本发明基于上述原理提出的球机监控视频的结构化描述方法的流程图。由图可知，整个实现过程如下：
步骤1，建立球机下超大视野视频的物理背景的初始背景模型。
在具体实现时，该步骤主要包括四个子步骤：球机扫描场景、拼接成一个全景图、对场景进行标注以及计算全景图的SIFT特征。
建立初始背景模型，首先，通过球机进行全景扫描，获得视频中全部的场景图片，具体可通过球机自带的全景扫描功能，或通过云台预设扫描路线。预设扫描路线需确保摄像机能够获得监控视频中全部场景的图片。
其次，将扫描得到的场景图片拼接起来，形成一张场景全景图。具体可采用多重投影拼接法、等距匹配法、基于特征的方法等方法来实现。
而在本发明中，场景图像的拼接采用基于SIFT特征的全景图像拼接算法。首先，要对配准的两幅或多幅图像进行处理，提取图像的SIFT特征；其次，采用图像间的相似性度量方法对两幅或多幅图像的SIFT特征进行匹配；然后，利用RANSAC算法去除冗余和误匹配特征对，并利用匹配特征对的坐标关系，计算变换矩阵；最后，采用柱面投影模型连接起所有图像，并进行加权平均融合处理，得到无缝的全景拼接图像。
基于SIFT特征的图像配准方法中的相似性度量采用均方差算法（Mean Square Difference），具体公式如下：
d(f,g)=1M1M2Σi=0M1-1Σj=0M2-1|f(i,j)-g(m+i,n+j)|2]]>
其中f,g是两幅用于配准的图像，d(f,g)表示图像f与g的均方差；f(i,j)表示模板子图像中第i行和第j列的像素的灰度值；g(m+i,n+j)是匹配图像中参考点(m,n)处的参考子图像上的第i行和第j列的像素的灰度值。
采用该方法拼接而成的场景全景图为圆柱形全景图，该全景图能够实现视线360°的环视，并且在垂直方向转动角度小于180°，该全景图能够展开形成一个矩形图像，直接利用计算机的图像格式进行存储与访问。
再次，在完成场景全景图的拼接后，再对场景全景图中的标志物体进行标注，，得到相应的场景信息，用于后续对关注目标的检测与识别。在通常应用中，场景全景图中需要标注的标志物包括道路、地面标志、天空、沙滩、水、建筑物等。具体可使用成熟的图像标注软件，采用人工手动的方式标注。
最后，计算场景全景图的SIFT特征，用于在步骤2中与新视频帧中的图像SIFT特征进行匹配，从而更新背景模型。由于该场景全景图能够展开形成一个矩形图像，因此可直接采用SIFT特征提取算法来计算场景全景图的SIFT特征。SIFT特征向量的生成的具体步骤包括如下：第一，检测尺度空间极值点；第二，精确定位特征点的位置；第三，确定特征点的主方向；第四，生成SIFT特征向量。
步骤2，更新初始背景模型，形成高精度背景模型。
该步骤主要包括三个过程：新视频帧的引入、摄像头的定位、稳定背景判断以及全景背景的更新。
首先判断球机中摄像头所采集的新视频帧是否有移动目标或遮挡物体，用于决定是否要将其用于更新背景模型。
在本发明中判断的具体方法如下：计算新视频帧的SIFT特征向量，与步骤1中获得的场景全景图的SIFT特征进行匹配，若匹配程度高于阈值，则将该视频帧引入新的背景模型中，反之则对下一帧进行判断。
其中SIFT特征向量的匹配，通过在图像的尺度空间内，将定位极值点作为匹配候选关键点，并且提取极值点的方向参数，最后获得匹配所需关键点描述符。
接着，利用上一步中计算得到的，该新视频帧与全景图的SIFT特征向量的匹配程度，从中找到匹配程度最高的点，通过该点在场景全景图中的位置，确定摄像头的水平和垂直位置，完成摄像头的定位。由此确定的摄像头位置信息（即水平和垂直位置信息）既用于更新背景模型，也用于步骤3中通过背景差分法对目标进行检测。
然后，利用摄像头的位置信息，将t-1时刻的背景模型进行仿射变换，变换后的背景用于稳定背景判断。具体如下：
M(x,y)=0|ft(x,y)-Bt′(x,y)|<T1|ft(x,y)-Bt′(x,y)|&GreaterEqual;T]]>
其中Bt'(x,y)表示根据t-1时刻背景模型Bt-1(x,y)仿射变换得到的背景。
最后，根据稳定背景判断结果，更新背景模型，形成高精度背景模型。具体如下：
Bt(x,y)=ft(x,y)+Bt′(x,y)2,M(x,y)=0||Bt′(x,y)=0Bt′(x,y),M(x,y)=1.]]>
在该步骤中，高精度背景模型采用平均值法来建立，当有新的视频帧引入时，取其与原有的视频帧的平均值作为新的背景模型。
具体的，将用于计算同一位置的高精度背景模型的视频帧数量设定上限为N帧，当该数量到达N帧，并又有新的视频帧引入时，则用该新的视频帧代替第1帧，也就是离当前时间最远的一帧，再计算平均值。
由此形成的高精度背景模型能够辅助对监控视频的分析，可实现球机下复杂监控视频的目标检测。
步骤3，目标检测与识别。
该步骤主要包括两个步骤：根据标注好的场景信息对目标进行检测以及对目标进行识别。
因为球机下的摄像头运动轨迹是固定的，步骤2给出了各种运动轨迹下的摄像头位置信息。在对引入的视频帧进行目标检测时，基于确定的摄像头位置信息对视频帧进行仿射变换，然后利用在步骤1与步骤2中建立的高精度背景模型，通过背景差分法对兴趣目标进行检测，用于目标识别。
在完成对兴趣目标进行检测后，再利用步骤1中标注好的场景信息，从视频序列中识别出感兴趣的目标，并提取其形状、颜色、纹理、运动、定位、轮廓等视觉特征，并生成关于这些特征的描述。
在对视频图像进行识别、描述时，本发明可采用的方式包括自动、半自动和人工三种方式。自动方式是指对视频图像进行识别描述的工作全部由系统独立完成，中间没有人工的参与或干预。半自动的方式是指上述识别描述工作一部分由系统完成，另一部分由人工完成，人与系统之间存在着交互。例如：系统通过特征提取和目标分类将目标分为行人和车辆两类，再通过人工对分类的结果进行校正，并进行高级语义分析和描述。人工方式是指对视频的分析和描述工作全部由人工来完成，并把分析描述的结果通过人工输入到系统中。
下面通过一具体实施例案来进一步说明本方法：
该实例基于一球机监控视频的结构化描述系统来实现。参见图4，其所示为球机监控视频的结构化描述系统的组成结构图。
由图可知，该系统主要包括视频采集模块01、背景建模模块02、目标检测与识别模块03和输出模块04。其中：
视频采集模块01用于采集视频。
本实例中，该视频采集模块01采用球形摄像机来采集视频，该球形摄像机可通过云台进行控制。
背景建模模块02，其与视频采集模块01数据相接，从视频采集模块01中获取球机下超大视野视频，并建立相应的物理背景的初始背景模型且根据新视频对初始背景模型进行更新形成高精度背景模型。
该背景建模模块02由相应的软件程序来实现，所采用的背景建模的方法具体采用上述的球机监控视频的结构化描述方法中背景建模的方法，此处不加以赘述。
目标检测与识别模块03，其与背景建模模块02和视频采集模块01数据相接，其利用背景建模模块建立的高精度背景模型对视频采集模块采集的视频中的关注目标进行检测和识别。
该目标检测与识别模块03由相应的软件程序来实现，所采用的具体检测与识别的方法为上述的球机监控视频的结构化描述方法中目标检测与识别的方法，此处不加以赘述。
输出模块04，其与目标检测与识别模块03数据相接，用于输出目标检测与识别的结果。
由此形成的球机监控视频的结构化描述系统运行于PC中，其中相关模块的功能都通过PC机来实现。
本实例以某广场为例，该球机监控视频的结构化描述系统在进行结构化描述时，首先由视频采集模块01控制球机获取了场景图片1与场景图片2（如图2所示）。
接着，背景建模模块02从视频采集模块01中获取场景图片1与场景图片 2，并以此来构建背景模型。为此，背景建模模块02需将这两张图片拼接起来，形成全景图，背景建模模块02分别计算场景图片1和2的SIFT特征，并采用图像间的相似性度量方法对图片1和2的SIFT特征进行匹配，然后利用RANSAC算法去除冗余和误匹配特征对，并利用匹配特征对的坐标关系，计算变换矩阵；最后，采用柱面投影模型连接起所有图像，并进行加权平均融合处理，得到无缝的全景拼接图像。
再接着，背景建模模块02对背景中的标志性物体进行标注，形成场景信息。本实例中则通过人工的方式，对该背景中的天空、建筑物、树以及道路进行了标注，这些标注信息将应用到之后的目标检测、定位等步骤中去（参见图3）。
最后，背景建模模块02再完成背景模型的更新，并由目标检测与识别模块03对感兴趣目标进行检测和识别。
本实例中的球机监控视频的结构化描述系统还可以通过网络连接到服务器，每台服务器可连接一个或多个所述系统，用户可通过连接服务器查看、调阅视频以及目标检测与识别的结果。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。