书签分享收藏举报版权申诉 / 10

立即下载加入VIP,免费下载

当前位置：首页 > 物理 > 计算；推算；计数 > 基于实时视频流的三维场景构建方法及其系统.pdf

基于实时视频流的三维场景构建方法及其系统.pdf

上传人：a2

文档编号：6008889

上传时间：2019-04-02

格式：PDF

页数：10

大小：508.46KB

《基于实时视频流的三维场景构建方法及其系统.pdf》由会员分享，可在线阅读，更多相关《基于实时视频流的三维场景构建方法及其系统.pdf（10页完整版）》请在专利查询网上搜索。

本发明公开了一种基于实时视频流的三维场景构建方法，包括如下步骤：设置标准框架；在标准框架下，布设并校正若干摄像头的位姿，以使得各摄像头中的拍摄画面有序排列，并且拼接；获取摄像头在同一时间帧拍摄的图像；选取所述图像中的特征帧进行全景拼接；校验拼接后的效果；整合全景数据源，并将其切换为视频源；发布视频源。本发明还公开了一种基于实时视频流的三维场景构建系统。采用本发明所述的基于实时视频流的三维场景构建方。

摘要
申请专利号：	CN201610872000.X	申请日：	2016.09.30
公开号：	CN106485781A	公开日：	2017.03.08
当前法律状态：	实审	有效性：	审中
法律详情：	实质审查的生效IPC(主分类):G06T 17/00申请日:20160930\|\|\|公开
IPC分类号：	G06T17/00	主分类号：	G06T17/00
申请人：	广州博进信息技术有限公司
发明人：	冯斌
地址：	510000 广东省广州市南沙区环市大道南20号A区1栋二楼208.209室
优先权：
专利代理机构：	广州新诺专利商标事务所有限公司 44100	代理人：	王丽
PDF完整版下载：	PDF下载

内容摘要

本发明公开了一种基于实时视频流的三维场景构建方法，包括如下步骤：设置标准框架；在标准框架下，布设并校正若干摄像头的位姿，以使得各摄像头中的拍摄画面有序排列，并且拼接；获取摄像头在同一时间帧拍摄的图像；选取所述图像中的特征帧进行全景拼接；校验拼接后的效果；整合全景数据源，并将其切换为视频源；发布视频源。本发明还公开了一种基于实时视频流的三维场景构建系统。采用本发明所述的基于实时视频流的三维场景构建方法，能够对动态场景进行三维还原，具有实时性、成本低、处理周期短、还原逼真的特点。

权利要求书

1.一种基于实时视频流的三维场景构建方法，其特征在于，包括如下步骤：
设置标准框架；
在标准框架下，布设并校正若干摄像头的位姿，以使得各摄像头中的拍摄画面有序排
列，并且拼接；
获取摄像头在同一时间帧拍摄的图像；
选取所述图像中的特征帧进行全景拼接；
校验拼接后的效果；
整合全景数据源，并将其切换为视频源；
发布三维场景。
2.根据权利要求1所述的基于实时视频流的三维场景构建方法，其特征在于：
在布设并校正若干摄像头的步骤中，所述摄像头的视域覆盖整个场景，并且相邻摄像
头的视域存在15-25％的重叠。
3.根据权利要求1或2所述的基于实时视频流的三维场景构建方法，其特征在于：
在布设并校正若干摄像头的步骤中，若干摄像头均匀分布于以场景的中心为圆心的圆
周上，并且各摄像头的景深差距不超过所述圆周半径的20％。
4.根据权利要求1所述的基于实时视频流的三维场景构建方法，其特征在于：
所述摄像头的分辨率不低于1080p、视角不超过110°。
5.根据权利要求1所述的基于实时视频流的三维场景构建方法，其特征在于：
所述选取所述图像中的特征帧进行全景拼接的步骤，具体包括：
根据摄像头的方位，将同一时间帧的图像按照逆时针或顺时针进行排序；
将相邻摄像头之间的图像提取特征；
将提取后的特征进行匹配和参数计算；
图像融合。
6.根据权利要求5所述的基于实时视频流的三维场景构建方法，其特征在于：
将相邻相机间的图片提取特征的步骤，具体是：
采用SIFT算法和SURF算法作为算法，具体包括尺度空间极值检测的步骤、特征点定位
的步骤、方向赋值的步骤和特征点描述符计算的步骤；
其中，所述尺度空间极值检测的步骤，具体是：
采用SIFT算法对图像进行高斯金字塔和DOG分解，以建立图像的尺寸空间；
所述特征点定位的步骤，具体是：
在DOG金字塔的3×3×3的领域，对特征点进行极大值求解和亚像素定位；
所述方向赋值的步骤，具体是：
为提取出的每一个特征点根据领域梯度分布赋予一个主方向；
所述特征点描述符计算的步骤，具体是：
对每一个特征点的坐标、尺度和主方向进行量化，形成128维的特征描述符，并对所述
128维的向量进行归一化处理。
7.根据权利要求5所述的基于实时视频流的三维场景构建方法，其特征在于：
将提取后的特征进行匹配和参数估计的步骤，具体是：
以两个特征点的特征向量之间的欧氏距离作为特征点匹配的相似度准则，欧式距离最
小并且小于某个阈值的两个特征点即为匹配点对。
8.一种基于实时视频流的三维场景构建系统，其特征在于，包括：
设置模块，用于设置标准框架；
布设与校正模块，用于在标准框架下，布设并校正若干摄像头的位姿，以使得各摄像头
中的拍摄画面有序排列，并且拼接；
获取模块，用于获取摄像头在同一时间帧拍摄的图像；
选取模块，用于选取所述图像中的特征帧进行全景拼接；
校验模块，用于校验拼接后的效果；
整合与切换模块，用于整合全景数据源，并将其切换为视频源；
发布模块，用于发布三维场景。
9.根据权利要求8所述的基于实时视频流的三维场景构建系统，其特征在于：
在所述布设与校正模块中，所述摄像头的视域覆盖整个场景，并且相邻摄像头的视域
存在15-25％的重叠。
10.根据权利要求8或9所述的基于实时视频流的三维场景构建系统，其特征在于：
在所述布设与校正模块中，若干摄像头均匀分布于以场景的中心为圆心的圆周上，并
且各摄像头的景深差距不超过所述圆周半径的20％。

说明书

基于实时视频流的三维场景构建方法及其系统

技术领域

本发明属于虚拟仿真、混合显示、地理感知三维建模技术领域，具体涉及一种基于
实时视频流的三维场景构建方法。

背景技术

随着信息化程度的不断提高，人们对时间维度和空间维度构成的四维空间需求越
来越大,因为它能帮助人们捕捉到三维实时图像所无法呈现的信息，有助于人们实现决策、
监控等目标。目前三维场景的构建，大体上有两种：第一种方式利用三维建模软件勾画出
来，如3DMax和玛雅等工具；第二种方式通过全景拍摄，利用图像处理技术，如AutoPano等。

对于第一种三维软件建模的方式，存在以下问题：

(1)只适用于物体源数据量大且维度丰富的建模，存在局限性；

(2)处理过程中需要大量的人工、时间、数据采集成本；

(3)只能基于一个时间点的三维空间构建，难以对一个持续时间维度的三维场景
还原。

对于第二种通过全景拍摄的方式，虽然具有成本低、周期短的优点，但依然存在以
下问题：

(1)构建三维场景的过程中，是通过异地数据采集，因此存在大场景还原及场景变
形失真等问题严重，因此限制了该方法的应用；

(2)无法对一个持续时间维度的三维空间进行还原。

以上两种方式都是属于静态图像的建模，无法为使用者提供在一个时间段内的动
态三维场景。

发明内容

为了解决上述问题，本发明的第一目的是：提供一种基于实时视频流的三维场景
构建方法，能够对动态场景进行视频流的三维还原，具有实时性、成本低、处理周期短、还原
逼真的特点。

为实现上述目的，本发明按以下技术方案予以实现的：

本发明所述的基于实时视频流的三维场景构建方法，包括如下步骤：

设置标准框架；

在标准框架下，布设并校正若干摄像头的位姿，以使得各摄像头中的拍摄画面有
序排列，并且拼接；

获取摄像头在同一时间帧拍摄的图像；

选取所述图像中的特征帧进行全景拼接；

校验拼接后的效果；

整合全景数据源，并将其切换为视频源；

发布三维场景。

进一步地，在布设并校正若干摄像头的步骤中，所述摄像头的视域覆盖整个场景，
并且相邻摄像头的视域存在15-25％的重叠。

进一步地，在布设并校正若干摄像头的步骤中，若干摄像头均匀分布于以场景的
中心为圆心的圆周上，并且各摄像头的景深差距不超过所述圆周半径的20％。

进一步地，所述摄像头的分辨率不低于1080p、视角不超过110°。

进一步地，所述选取所述图像中的第一特征帧进行全景拼接的步骤，具体包括：

根据摄像头的方位，将同一时间帧的图像按照逆时针或顺时针进行排序；

将相邻摄像头之间的图像提取特征；

将提取后的特征进行匹配和参数计算；

图像融合。

进一步地，将相邻相机间的图片提取特征的步骤，具体是：

采用SIFT算法和SURF算法作为算法，具体包括尺度空间极值检测的步骤、特征点
定位的步骤、方向赋值的步骤和特征点描述符计算的步骤；

其中，所述尺度空间极值检测的步骤，具体是：

采用SIFT算法对图像进行高斯金字塔和DOG分解，以建立图像的尺寸空间；

所述特征点定位的步骤，具体是：

在DOG金字塔的3×3×3的领域，对特征点进行极大值求解和亚像素定位；

所述方向赋值的步骤，具体是：

为提取出的每一个特征点根据领域梯度分布赋予一个主方向；

所述特征点描述符计算的步骤，具体是：

对每一个特征点的坐标、尺度和主方向进行量化，形成128维的特征描述符，并对
所述128维的向量进行归一化处理。

进一步地，将提取后的特征进行匹配和参数估计的步骤，具体是：以两个特征点的
特征向量之间的欧氏距离作为特征点匹配的相似度准则，欧式距离最小并且小于某个阈值
的两个特征点即为匹配点对。

为了解决上述问题，本发明的第二目的是：提供一种基于实时视频流的三维场景
构建系统，该系统能够为动态场景进行视频流的三维还原提供有利基础，并且通过该系统
还原的三维场景具有实时性、成本低、处理周期短、还原逼真的特点。

为实现上述目的，本发明按以下技术方案予以实现的：

本发明所述的基于实时视频流的三维场景构建系统，包括：

设置模块，用于设置标准框架；

布设与校正模块，用于在标准框架下，布设并校正若干摄像头的位姿，以使得各摄
像头中的拍摄画面有序排列，并且拼接；

获取模块，用于获取摄像头在同一时间帧拍摄的图像；

选取模块，用于选取所述图像中的特征帧进行全景拼接；

校验模块，用于校验拼接后的效果；

整合与切换模块，用于整合全景数据源，并将其切换为视频源；

发布模块，用于发布三维场景。

进一步地，在所述布设与校正模块中，所述摄像头的视域覆盖整个场景，并且相邻
摄像头的视域存在15-25％的重叠。

进一步地，在所述布设与校正模块中，若干摄像头均匀分布于以场景的中心为圆
心的圆周上，并且各摄像头的景深差距不超过所述圆周半径的20％。

与现有技术相比，本发明的有益效果是：

采用本发明所述的基于实时视频流的三维场景构建方法,通过在获取摄像头拍摄
画面前，就对若干摄像头位置的布设和校正做好处理，从而保证了拍摄出的画面有序排列，
避免后期大量时间进行处理，同时画面拼接，保证后续再拼接处理时的逼真度。然后根据视
频摄像头的视频流数据，快速计算，模拟出实时三维空间场景，并利用数据存储技术，可以
对该场景进行时间和空间四个维度还原，能为用户提供成本低、异地远程、持续跟踪的四维
空间信息服务。

本发明所述的基于实时视频流的三维场景构建方法中采用对视频流的处理，与现
有技术中只是对静态的画面等处理存在本质上的区别，其是基于三维的视频和第四维时间
的结合，将在一个时间段的视频依据时间次序进行快速计算，模拟出三维场景，解决了现有
技术中对于四维场景的还原的需求，但又无法模拟的难题，为场景在四维上的建模打开了
新纪元。

附图说明

下面结合附图对本发明的具体实施方式作进一步详细的说明，其中：

图1是本发明的给予实时视频流的三维建模还原方法的流程示意图；

图2是本发明的给予实时视频流的三维建模还原系统的原理框图。

1：设置模块 2：布设与校正模块 3：获取模块 4：选取模块

5：校验模块 6：整合与切换模块 7：发布模块

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实
施例仅用于说明和解释本发明，并不用于限定本发明。

如图1所示，本发明所述的基于实时视频流的三维场景构建方法，包括如下步骤：

S01：设置标准框架；

该标准框架设置的目的在于为布设摄像头提供标准依据，以便后续对三维场景还
原进行初始化设置。具体则是根据实际场景的几何结构来确定多个标准的场景框架，在实
际使用中，则选取适宜的框架作为标准框架。

S02：在标准框架下，布设并校正若干摄像头的位姿，以使得各摄像头中的拍摄画
面有序排列，并且拼接；

其中，所述摄像头的视域覆盖整个场景，以便取景完全，同时相邻摄像头的视域存
在15-25％的重叠，保证后续拼接过程中方便处理；

另外，所述摄像头的布设中，若干摄像头均匀分布于以场景的中心为圆心的圆周
上，并且各摄像头的景深差距不超过所述圆周半径的20％，目的就是为了保证各摄像头拍
摄的图像能更好的为后续拼接减少处理的环境，避免失真等问题。其中，对于选择的摄像
头，其分辨率要不低于1080p、视角不超过110°，旨在提高拍摄效果。

以上布设后，还需检查和校正摄像头的位姿、摄像头的中心点以及摄像头的景深
是否符合预设标准。

S03：获取摄像头在同一时间帧拍摄的图像；

确保摄像头在拍摄过程中是同时进行，不会存在时间差导致的失真问题的出现。

S04：选取所述图像中的特征帧进行全景拼接；

该步骤又具体包括：

S041：根据摄像头的方位，将同一时间帧的图像按照逆时针或顺时针进行排序；

S042：将相邻摄像头之间的图像提取特征；

该步骤中采用SIFT算法和SURF算法作为算法，具体包括尺度空间极值检测的步
骤、特征点定位的步骤、方向赋值的步骤和特征点描述符计算的步骤；

其中，所述尺度空间极值检测的步骤，具体是：

采用SIFT算法对图像进行高斯金字塔和DOG分解，以建立图像的尺寸空间；

所述特征点定位的步骤，具体是：

在DOG金字塔的3×3×3的领域，对特征点进行极大值求解和亚像素定位；

所述方向赋值的步骤，具体是：

为提取出的每一个特征点根据领域梯度分布赋予一个主方向；

所述特征点描述符计算的步骤，具体是：

对每一个特征点的坐标、尺度和主方向进行量化，形成128维的特征描述符，并对
所述128维的向量进行归一化处理，以去除光照变化带来的影响。

S043：将提取后的特征进行匹配和参数计算；

以两个特征点的特征向量之间的欧氏距离作为特征点匹配的相似度准则，选取欧
式距离最小并且小于某个阈值的两个特征点即为匹配点对。在该步骤中，对不同图像之间
的特征点进行匹配时，需要对特征向量进行最近k-d树邻搜索。

S044：图像融合；

该步骤包括球面投影法或塔式算法的多平带融合算法；

其中，所述球面投影法具体是：

将图像统一投影到同一个球面上进行图像混合处理；

所述塔式算法的多平带融合算法具体是：

将图像在不同频带内进行分解；

取用不同的Tw值分别进行加权插值处理后进行融合，以同时实现较平滑的过渡以
及较好的高频细节保留能力。

S05：校验拼接后的效果；

S06：整合全景数据源，并将其切换为视频源；

S07：发布三维场景。

如图2所示，本发明所述的基于实时视频流的三维场景构建系统，包括：

设置模块1，用于设置标准框架；

布设与校正模块2，用于在标准框架下，布设并校正若干摄像头的位姿，以使得各
摄像头中的拍摄画面有序排列，并且拼接；

其中，所述摄像头的视域覆盖整个场景，并且相邻摄像头的视域存在15-25％的重
叠，最优的选择则是20％的重叠，为后续拼接过程更为方便的处理。同时，若干摄像头均匀
分布于以场景的中心为圆心的圆周上，并且各摄像头的景深差距不超过所述圆周半径的
20％，旨在保证各摄像头拍摄的图像能更好的为后续拼接减少处理的环境，避免失真等问
题。

获取模块3，用于获取摄像头在同一时间帧拍摄的图像；

选取模块4，用于选取所述图像中的特征帧进行全景拼接；

校验模块5，用于校验拼接后的效果；

整合与切换模块6，用于整合全景数据源，并将其切换为视频源；

发布模块7，用于发布三维场景。

本发明所述的基于实时视频流的三维场景构建方法和系统，通过摄像的方式，并
且在摄像前将对摄像头的位姿进行有效调整，为后面图像的拼接大大缩减了工作量，并且
也保证了获取图像的有效性。同时，结合对摄像头捕捉的视频流，而非静态的画面，保证了
三维空间视频与第四位时间上的结合，大大满足了各行业对四维场景还原的需求，也为现
有技术开创四维图像开创了了新纪元。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，故
凡是未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所作的任何修改、
等同变化与修饰,均仍属于本发明技术方案的范围内。