书签 分享 收藏 举报 版权申诉 / 31

用于3维照相机和3维视频的自动场景建模.pdf

  • 上传人:54
  • 文档编号:4981161
  • 上传时间:2018-12-04
  • 格式:PDF
  • 页数:31
  • 大小:1.73MB
  • 摘要
    申请专利号:

    CN200680013707.X

    申请日:

    2006.02.23

    公开号:

    CN101208723A

    公开日:

    2008.06.25

    当前法律状态:

    撤回

    有效性:

    无权

    法律详情:

    登录超时

    IPC分类号:

    G06T17/00; G06T17/20; G06T15/00; G06T7/20; G06T5/00; A63F13/00; H04N13/02; H04N5/262

    主分类号:

    G06T17/00

    申请人:

    克雷格·萨默斯

    发明人:

    克雷格·萨默斯

    地址:

    加拿大新斯科舍

    优先权:

    2005.2.23 US 60/655,514

    专利代理机构:

    北京市柳沈律师事务所

    代理人:

    钱大勇

    PDF完整版下载: PDF下载
    内容摘要

    公开了一种用于普通运动视频中的3D漫游的单个照相机图像处理方法。可以为每个像素定义色彩、亮度和XYZ坐标。可以使用所得到的几何模型从数字图像中获得度量,以作为诸如激光测距的现场勘定装备的替代。使用运动视差将前景物体与背景分离。这提供了一种用于产品放置的将视频元素放置到不同背景中的便利方法,并提供了一种将视频元素与计算机辅助设计(CAD)模型和来自其他源的点云团进行融合的便利方法。如果家庭用户可以从视频中保存视频穿梭飞行或特定3D元素,则该方法提供了对贴有商标的媒体进行主动共享的优势。当与视频会议照相机一起使用该图像处理时,用户的移动可以自动控制视点、在普通的电视机和计算机屏幕上创建3D全息效果。

    权利要求书

    权利要求书
    1.  一种自动将二维数字图像序列分割成可漫游的3D模型的方法,所述方法包括:
    a)捕获图像序列,并且基于成比例地增大的横向移动来定义较近的遮罩层和/或深度图;
    b)根据在步骤(a)中捕获和处理的原始视频数据为背景和前景物体生成线框表面;
    c)使用下述之一对前景物体给出深度:来自不同视角的侧面影像、使全部物体突出与宽度成比例的深度的中心转轴,以及如果可获得的话的运动视差信息;
    d)在所述线框上对原始视频进行纹理贴图;
    e)通过将图像边缘拉伸到空白场所的中心而填充前景物体后面的遮蔽区域,该区域既包括在背景上也包括视图之外的侧面上;以及
    f)使用现有的视频软件开发包或通过编写实现广泛公知的卷积掩模的图像处理代码来锐化较近物体的表面图像并模糊更远距离的图像,以创建更多的深度感,从而自动将图像序列分割成3D模型。

    2.  一种用于基于由数字图像生成的3D模型的单位测量来对场景中的物体和特征进行非接触测量的方法,该方法用于工程学、工业和其他应用领域,从而:
    a)一旦对点或特征定义了X、Y和Z坐标,则可以使用常规的数学方法来计数或计算距离和其它度量;
    b)如果在特定的尺度中需要测量、数据融合或校准,则用户可以在软件界面中对可视参考物体指示少至一个的长度,并且可以将XYZ坐标转换成那些单位;以及
    c)界面可以允许用户指示需要测量的地方,并且可以显示作为结果的距离、体积或其它度量。

    3.  一种用于控制3D视频、3D计算机游戏、物体电影、3D物体和全景VR场景中的漫游和视点的方法,该方法使用网络摄像头、利用简单的身体移动和手势以检测用户的前景移动,然后将类似于鼠标或键盘输入的用户前景移动进行发送,以控制视点或进行漫游。

    4.  根据权利要求1所述的生成3D模型的方法,其中,自动提取前景遮罩,并使用运动视差为其布置深度,而不需要手工干预来放置目标或标志物体。

    5.  根据权利要求1所述的生产3D模型的方法,其中,可以仅仅根据3幅图像生成完整的3D物体,并且可以根据少至2个的序列或透视图像开发局部形状和深度模型。

    6.  根据权利要求5所述的根据2幅或3幅图像生成几何形状的过程,其中,在物体从一个视角旋转到另一个视角的情况下,可以在视频中使用运动视差,而不是蓝屏照片或手工背景去除,以自动提取不同视角中的前景物体侧面影像的遮罩。

    7.  根据权利要求1所述的生成3D模型的方法,其中,此后也将用于生成3D点和深度图或线框的图像在深度图或线框上进行纹理贴图,以创建真实感的3D模型。

    8.  根据权利要求1所述的使用运动视差生成3D模型的方法,其基于可以随运动视频改变的动态线框模型。

    9.  根据权利要求1所述的生成3D模型的方法,使用来自视频和/或来自无需限定位置的静态照相机的图像序列。

    10.  根据权利要求1所述的生成3D模型的方法,其中,自动生成3D模型,并且只需要单个成像设备,尽管可以使用立体视法或多机图像捕获。

    11.  根据权利要求1所述的根据线性视频自动生成3D场景的方法,其中,可以对3D场景中的点的XYZ坐标进行定标,以允许在场景中放置额外的静止或运动物体,如可以进行产品放置。

    12.  根据权利要求1所述的生成3D模型的方法,其中,根据逐帧的图像比较来识别移动的差别速率是基于“最佳”特征匹配,而不是绝对匹配。

    13.  根据权利要求1所述的生成3D模型的方法,其中,可以在3D照相机的图像捕获期间或者在例如机顶盒、数字媒体集线器或计算机中的观看时发生处理。

    14.  根据权利要求2所述的可以在成像或观看时发生处理的方法,其中,该方法可以根据古旧电影胶片并且更广泛地是根据任何线性电影胶片来自动生成可漫游的3D场景。

    15.  根据权利要求1所述的生成3D模型的方法,其中,所述软件界面包括用于下述的可选的可调节控制:前景层和背景之间的突出程度;主帧频率;前景物体的宽度;线框改变的速率;以及视场的深度。

    16.  根据权利要求3所述的使用视频会议照相机在普通监控器上生成全息效果的方法,其中,用户可以基于视点的移动来调节包括视点的改变灵敏度的变量,无论视点的移动是否影响了鼠标的上下控制、移动方向的反转和主帧速率。

    17.  根据权利要求3所述的在普通监控器上生成全息效果的方法,其中,通过经由用于游戏引擎的动态连接库(DLL)和/或软件开发包(SDK)提交的移动指令、由视频会议照相机或由操作系统驱动器来检测用户的身体移动,以增加到鼠标、键盘、游戏杆或游戏板驱动器输入。

    18.  根据权利要求1所述的生成3D模型的方法,其中,XYZ视点可以在中心或“节”点之外的场景内移动,并且其可以绕在该视点移动时展示视差的前景物体移动。

    19.  根据权利要求1所述的生成3D模型的方法,其中,可以在诸如DirectX或OpenGL的平台中使用软件开发包(SDK)来以3D对包括盘上文件、网络摄像头输出、在线视频流和有线广播的各种格式的数字视频进行处理、纹理贴图和重放。

    20.  根据权利要求1所述的生成3D模型的方法,使用具有诸如平面、圆柱体、球体或立方体背景的坐标系统的线性视频或全景视频。

    21.  根据权利要求1所述的生成3D模型的方法,其中,通过保存遮蔽区域的任何表面结构和图像直到处理关于它们的新信息或最初的遮蔽区域不再位于场景中,也能够将遮蔽填充为显示尽可能多的背景。

    22.  根据权利要求3所述的利用视频会议照相机控制漫游和视点的方法,其中,通过照相机检测侧向移动,并将其翻译成相反方向的鼠标拖动命令,以使用户在普通的计算机桌面上查看前景物体,以具有观看屏上窗口的后面的能力。

    23.  根据权利要求1所述的生成3D模型的方法,其中,可以使用诸如MPEG-4的视频压缩编解码器以不同的帧速率来发送独立的场景元素,以更有效地利用带宽。

    24.  根据权利要求1所述的生成3D模型的方法,其中,运动分析为图像序列中可见的所有场景元素而不是仅仅个别物体自动创建空间中的XYZ点。

    25.  根据权利要求1所述的生成3D模型的方法,其中,在知道旋转量的情况下,可以利用不同视角的图像使用三角学来将不同角度的横截面宽度转换成XYZ坐标。

    26.  根据权利要求25所述的使用不同角度的物体侧面影像来定义物体厚度和形状的方法,其中,为了完全自动地呈现3D物体模型,可以在用户界面中给出照片之间的旋转角度,或以预定角度拍摄照片。

    27.  根据权利要求1和25所述的定义中心转轴来定义3D物体的深度的方法,其中,可以通过沿物体上的中心脊部的一个边缘来定义物体的深度,或者利用作为可调节的用户选项的角的锐化程度,该深度可以是更圆滑的多边形表面。

    28.  根据权利要求1所述的生成3D模型的方法,其中,使用数据点对的列或行来逐步建立用于在四个坐标中的三个之间创建三角形的列,然后在进行到下一列之前沿同一列用另一三角形填充成正方形,从而在外部物体数据点上生成三角形以构建线框表面。

    29.  根据权利要求28所述的使用三角多边形来生成3D线框模型的方法,其中,用户可以选择加入或不加入物体边缘到背景中的三角形,以创建单个的浮雕表面图或分割的物体。

    30.  根据权利要求1所述的将源图像表面映射到线框模型上的方法,其中,所述软件可以包括用于移动图片边缘(接缝)以示出更多或更少的图像的变量,从而改进图像边缘的适宜度。

    31.  根据权利要求1所述的根据图像生成3D模型的方法,其中,通过将快速移动的物体放置在更近的层上、并且允许实现图像来克服距离中缺少精度的缺点,来简单地解决移动物体的速度、尺寸或距离的模糊。

    32.  根据权利要求1所述的根据图像生成3D模型的方法,其中,我们使用尺寸、形状和值可变的在图像中逐像素移动的“掩模”或模板将一个帧与随后的帧进行比较,以对诸如每个像素的强度或色彩的变量从一个帧到下一帧跟踪最接近的匹配,从而确定图像的移动区域。

    33.  根据权利要求32所述的检测移动和视差的方法,其中,使用掩模定义前景物体的替代是定义逐帧改变的区域,定义那些区域中的每一个的中心点,并跟踪该中心点,以确定移动的位置、速率和方向。

    34.  根据权利要求1所述的处理图像序列的方法,其中,利用可调节的参数能够减少所需要的几何计算,同时保持视频播放和良好的深度感,所述可调节的参数包括:在比较帧之间跳过的帧数、掩模的尺寸、所创建的深度层的数量、物体中的多边形的数量、以及基于先前方向和移动速度的搜索区域。

    35.  根据权利要求1和3所述的生成和漫游3D模型的方法,其中,可以将软件的基本促销版本和/或所创建的3D模型和视频穿梭飞行压缩成压缩的自执行档案文件,并且将其默认保存到也用于诸如MP3音乐的其它媒体内容的媒体共享文件夹。

    36.  根据权利要求1所述的根据图像生成3D模型的方法,其中:
    a)默认地,所生成的任何3D模型或视频穿梭飞行可以包括到其他人能够获得软件的网站的链接,可以由用户来重置默认到诸如(1,1,1)的位置的链接的XYZ位置;以及
    b)该链接可以被放置在类似半透明蓝色球体的简单形状上,但是也可以使用其它物体和色彩。

    37.  根据权利要求1所述的根据图像生成3D模型的方法,其中,可以使用视频中的连续漫游;或对视点在预定路径中的简单偶然移动使用单按钮控制。

    38.  根据权利要求1所述的根据图像生成深度图的方法,其中,不是使用可漫游的3D场景而是使用距离信息来定义立体图像中的视差,使用诸如红-绿、偏光或LCD快门眼镜的立体观景器或眼镜来观看所述立体图像,所述立体观景器或眼镜根据同一图像集合对每只眼睛给出不同的视角。

    39.  一种用于将二维图像序列自动分割成3D模型的方法,所述方法包括:
    a)视频设备,用于捕获在数字环境中具有二维坐标的图像;以及
    b)处理器,被配置为接收、转换和处理从所述视频捕获设备检测和捕获到的二维图像;所述系统根据所述二维图像生成具有3D坐标的点云团,根据点云团定义边缘以生成具有3D坐标的线框,以及向所述线框增加线网以随后将来自视频捕获设备的图像在所述线网上进行纹理贴图,从而在屏幕上显示所述3D模型。

    40.  根据权利要求39所述的方法,其中,所述处理器系统位于机顶盒、数字媒体集线器或计算机中。

    41.  根据权利要求39所述的方法,其中,所述图像设备是视频捕获设备或静态照相机。

    42.  根据权利要求39所述的方法,其中,所述视频捕获设备是视频会议照相机。

    43.  根据权利要求39至42中的任何一个所述的方法,其中,所述处理器还通过将3D图像边缘拉伸到被遮蔽区域的中心来填充该遮蔽区域。

    44.  根据权利要求39至43中的任何一个所述的方法,其中,所述处理器对前景中的图像进行锐化,并且对背景中更远的图像进行柔化或模糊,以创建更多的深度感。

    45.  根据权利要求39所述的方法,其中,所述处理器包括可调节的控制。

    46.  根据权利要求45所述的方法,其中,所述可调节的控制调整前景层和背景层之间的距离,并且调节视场的深度。

    47.  根据权利要求39所述的方法,其中,所述二维图像是各种格式中的任何一种,包括盘上文件、网络摄像头输出、在线视频流和有线广播。

    48.  根据权利要求39所述的方法,其中,使用线性视频或全景视频,并利用诸如平面、圆柱形、球形或立方体背景的坐标系统。

    49.  根据权利要求39所述的方法,其中,在不同的角度使用所述二维图像侧面影像,以定义3D物体的厚度和形状。

    50.  根据权利要求39所述的方法,其中,所述3D视点可以在中心或节点之外的场景中移动,并可绕展示视差的前景物体移动。

    51.  根据权利要求3所述的通过使用视频会议照相机来控制3D视频、3D计算机游戏、物体电影、3D物体和全景VR场景中的漫游和视点的方法,其中使用用户的移动来控制立体观看眼镜的视点的方向、观看角度和距离。

    52.  根据权利要求51所述的方法,其中,所述立体观看眼镜是红-绿立体眼镜、偏光3D眼镜或LCD快门眼镜。

    53.  根据权利要求1所述的生成3D模型的方法,其中,所述软件界面包括最佳可调节控制,以相对于前景物体使背景变暗,这增强了可察觉的深度和突出。

    54.  根据权利要求4所述的生成3D模型的方法,其中,可以连同转换图和深度图一起固定置信图,以更精确地跟踪逐帧的移动。

    55.  根据权利要求4所述的分析移动来推断前景遮罩的深度的方法,其中,可以将浮雕遮罩示出为保持附着到背景上。

    56.  根据权利要求4所述的分析移动来推断前景遮罩的深度的方法,其中,可以将浮雕遮蔽示出为更接近观察者的分离的物体。

    57.  根据权利要求1所述的生成3D模型的方法,其中,为了根据场景分析来解释移动并进行计算,可以手工设置照相机移动。

    58.  根据权利要求57所述的方法,其中,所述照相机是固定的。

    59.  根据权利要求57所述的方法,其中,照相机移动的类型可以是横向的。

    60.  根据权利要求57所述的方法,其中,照相机移动类型是不受控的。

    61.  根据权利要求15所述的生成3D模型的方法,其中,可以根据检测帧来调节软件界面,以说明突出到前景或凹到背景中的物体,从而改进稳定而准确的深度建模。

    62.  根据权利要求38所述的生成立体视图的方法,其中,在双眼望远镜中显示左和右眼视角,以产生深度突出。

    63.  根据权利要求14所述的呈现可漫游视频的方法,其中,默认的漫游是将视点的摆动限制成可调节的量。

    64.  根据权利要求63所述的方法,其中,默认摆动在任何方向上是已定义的量。

    65.  根据权利要求64所述的方法,其中,所述已定义的量在任何方向中大约为20度。

    66.  根据权利要求14所述的呈现可漫游视频的方法,其中,默认将视点自动返回到开始位置。

    67.  根据权利要求14所述的根据视频呈现可漫游3D场景的方法,其中,可以为键盘键和鼠标移动设置移动控制,以允许用户在使用键盘察看时利用鼠标在场景中到处移动。

    68.  根据权利要求14所述的呈现视频的可漫游3D场景的方法,其中,可以为键盘键和鼠标移动设置移动控制,以允许用户在使用鼠标察看时利用键盘在场景中到处移动。

    说明书

    说明书用于3维照相机和3维视频的自动场景建模
    技术领域
    本发明涉及图像处理技术,并且更具体地,本发明涉及将图像序列自动分割成可漫游(navigable)的3D场景(scene)的系统和方法。
    背景技术
    近来,虚拟旅游是数字图像到3D漫游的最大应用。存在许多影像式虚拟实景(photo-VR)方法,从将照片接合为全景图片到将两个鱼眼镜头照片转换成球面图像的现有系统,再到捕获并展开(unwarp)360度视图的抛物柱面镜系统。不幸的是,这些方法为了操作的简单而都基于被约束到一个视点的节点全景(nodal panorama)。它们都允许在屏上取景以在场景中进行察看,并允许进行放大直到将图像像素化。但是,即使在每种情况下3D模型都是这些场景的基础,其也不能绕3D模型移动、不能合并前景物体、并且当前景物体相对于背景移动时也没有来自视差的深度感觉。
    这些限制在360度视频中变得更加糟糕。即使制造出价格最昂贵、分辨率最高的照相机,其视频分辨率对于全景场景来说也是不够的。将视点固定在一个位置也意味着没有运动视差。当我们在实际生活中移动时,前景中的物体相对于背景中的物体而移动。这是视觉中的基本深度暗示(cue)。
    一种替代方法是使用3D渲染程序来创建3D物体模型。然而,这通常是一种耗时的方法,其需要昂贵的计算机硬件和软件以及大量的训练。此外,3D透视图和动画的技术状态是类似动漫的对象。因而,需要创建和观看真实感(photorealistic)的3D模型。此外,该方法应当快速并且不昂贵。
    利用当前一代的照片建模(photomedeling)和移动跟踪软件的通常实践是在对象周围放置标记或使用户标记出每个平坦表面的特征和至高点,以确保在不同视角的照片中都标记出相应的点。当然,用手来一次一个点地创建点云团(point cloud)显然是较慢的。尽管可以为所制作的物体手动创建理想形状,但是这并不能很好地应用于有机物的柔和梯度和轮廓。
    Bracey,G.C.、Goss,M.K和Goss,Y.N.(2001)提交了关于标记面部的几个轮廓来创建3D头部模型的题目为“3D Game Avatar Using PhysicalCharacteristics”、国际公开号为WO 01/63560的国际专利申请。而这里所公开的申请可以用于产生类似的结果,且可以自动生成而无需手动标记。诸如Bracey等人定义的头部建模的照相测量法依赖于不同视角的图像中的各个标记特征点。尽管Bracey等人声称这可以用手动或计算机程序来完成,但是识别在不同视角中具有不同形状的事物是还未被计算解决的人工智能的基本问题。Bracey等人没有指出用于解决该长期存在的问题的任何方法。他们没有限定当从前面和侧面观察眉毛时计算机程序如何将其“识别”为相同的物体。他们真正描述的方法包括用户干涉以手动指示几个相应照片中的每个特征。Bracey等人公开的方法的目的看来是关于预定普通头部形状(线框,wireframe)的纹理贴图(texture mapping),而不是实际的3D建模。假设头发对人头部的形状和外观有影响,则将照片强行规定成现有的无头发的人体模型类型的头部是一个明显的缺点。本发明的方法将定义任何形状的线框物体(和纹理贴图)。
    除了通常标记至少7个点之外,Bracey等人也没有明显指定对于要使用的相应特征点的任何约束。这里公开的方法可以逐帧匹配任何数目的像素,并且利用非常清楚的方法来完成。本发明的方法可以使用不同视角的图像或运动视差以自动生成线框结构。与Bracey等人的方法相反,本发明的方法意味着由计算机程序来自动完成,几乎不需要手动。本发明的方法将呈现完整的3D场景,而不仅仅是头部(尽管它也影响包括头部和脸部的特写的人物图像)。本发明的方法不用像Bracey等人的方法那样必须使用前和侧视图。Bracey等人的手动特征标记方法类似于现有的用于图像建模的商业软件,尽管Bracey等人的方法被限制为纹理贴图且仅为头部和脸部。
    尽管所有这些系统都趋向于劳动密集的花费并需要非常昂贵的设备,但是对于根据现实物体生成3D几何形状也存在特殊的硬件系统。
    立体视觉:特殊的工业照相机具有两个透镜系统,这两个透镜系统被校准分开某个距离。这些并不用于消费者,并且具有额外的制造费用。观察者通常需要诸如LCD快门眼镜或红-绿3D眼镜的特殊设备。
    激光测距:线、点或格被投影在物体上,以当识别出特定的光点时使用光传播(travel)时间或三角测量法来定义其距离或形状。该方法需要昂贵的设备且基于大量的数据集合,并且该方法较慢且不具备真实感。
    这些设置包括特定硬件的基本费用和不便,并且倾向于适合较小的物体而不是类似建筑物或山脉之类的物体。
    通过所有这些不同领域内进行的研究和产品开发,仍然几乎没有工具可以根据图像序列中的XY坐标自动生成XYZ坐标。也没有从XYZ点转换成3D表面模型的可用工具。在市场上不存在可以让人们通过移动视频而自己漫游的系统——无论是专业级别的还是消费级别的。也没有根据视频自动生成几何模型的可用的系统。也没有对图片或视频进行加工的系统,并且没有仅仅根据几幅图像就能自动生成几何模型而不用比较这些图片来手动标记匹配目标的系统。最后,诸如激光测距、立体视法(stereoscopy)、各种形式的3D渲染和照相测量法的特殊方法消耗过多的设备、劳力和培训费用,使得该技术被排除在除少数主要的好莱坞工作室以外的消费者和大多数电影制作人范围之外。
    在广播和电影术中,提取遮罩层(matte layer)的目的通常是将可互换的前景和背景层合成在一起。例如,对每夜的天气预报使用绿色屏幕的摄影棚,可以将天气地图数字地放置在播报员的后面。甚至在二十世纪四十年代的电影术中,就在玻璃上描绘精心制作的场景元素,透过该“合成”窗口对演员进行拍摄。在数字特效出现以前的日子里,该“遮罩描绘”允许在普通布景中对演员进行拍摄,但是从摄影机的视觉上看是具有被描绘在玻璃上的精心制作的家居陈设。传统上已将类似的技术应用于小格动画中,其中明胶薄片被分层,以便以不同速率刷新前景和背景。此外,在历史上,将迪斯尼的多平面照相机开发为通过合成玻璃视窗上的动漫元素而放大视点来生成深度感。
    通过使用运动视差来推断数字图像序列中的深度,这里所公开的方法可以将前景物体与背景分开,而不需要特殊的照相机硬件或摄影棚打光。知道定义任何像素的3D位置的X、Y和Z坐标,然后我们可以允许人们从不同的视点来观察场景并通过场景元素进行漫游。与基于照片的物体电影和全景VR场景不同,该移动是平滑的,不存在逐帧的跳动,并且对于每个单独的观察者来说可能是不同的路径。本发明的方法允许移动已在场景中被分割的特定物体、添加新的3D前景物体或允许在特定的表面上映射新图像的能力,例如替换墙上的图片。在用户越来越能够绕开传统的电视商业广告模式的时代,这是实时视频的产品布置的方法。如果家庭用户可以从连续运转的视频中保存视频穿梭飞行(fly-through)和特定的3D元素,则该方法因而可以能够对贴有商标的媒体(branded media)进行主动共享。
    当与数字视频会议照相机(或“网络摄像头”)一起使用时,我们可以跟随用户的移动,并且改变他们正观看的视频的视点。这为普通的电视机和计算机监视器提供了3D全息的效果。一个成果是不需要主动控制的交互式TV;当用户移动时视点自动地移动。用户可以被动地观看TV,但是使用手势和身体移动来漫游3D重放和/或当视频播放时进行浏览。
    因而,需要一种将二维图像序列自动分割成可漫游的3D场景的方法。
    发明内容
    本发明涉及自动将二维图像序列分割成可能包括移动的可漫游的3D场景的方法和系统。
    这里所公开的方法使用“运动视差”来自动分割连续视频中的前景物体,或使用物体不同角度的侧面形状来自动生成其3D形状。“运动视差”是一种光学深度暗示,其中较近的物体以与更远的背景物体的光学流不同的速率和量而横向移动。可以使用“运动视差”来提取“遮罩层”:可以是以层合成的图像部分。这不需要蓝屏遮罩层的特殊打光,也被称为色度调节(chromakey)、“转描”摄影方法的主帧的手动跟踪或相应点的手动标记。运动视差也不需要在场景上投影任何类型的格、线或图案。因为这是用于3D视频的自动场景建模的单个照相机方法,所以该技术可以在“3D照相机”内操作,或可以用于在播放现有或过去的电影胶片期间生成可漫游的3D体验。利用该方法可以连续地以3D观看普通的视频,或可以保存和在线共享3D元素和穿梭飞行。
    在图1中说明了本发明所述的图像处理技术。它对获得实用的视频中的3D效果做出了平衡,该3D效果满足了视觉对于丰富的3D、移动的且音频可视环境的需要。运动视差用于向帧中的每个XY坐标点添加深度(Z),以生成3D视频的单个照相机自动场景建模。在因为其被设计为是自动的且对于消费者的使用来说是物有所值的而较为方便的同时,其也对我们通常所认为的运动照片打开了全新的界面,其中电影可以移动,但是观众也可以移动。可以将电影生成为在场景之内和之间预期漫游。但是即使不进行生产上的改变,机顶盒和计算机的软件也可以允许利用该系统来几何地表示任何视频信号。
    为了方便,用Z来表示深度维,遵循2D坐标系统中用X来表示水平轴且用Y来表示垂直轴的传统。然而,这些标签多少有点任意性,可以使用不同的符号来表示这三个维。
    根据普通视频生成3D模型的基本能力还导致两个其它的能力。如果我们可以根据视频来生成几何结构,则我们必须知道视频帧中的特定点的3D坐标。因而我们可以从视频的物体中提取距离、体积以及其它测量量,这允许将该图像处理用于工业应用中。
    于是可能出现的第二个能力涉及屏上全息效果。如果将连续运转的视频分成移动3D模型,则需要视点参数来定义XYZ位置和注视方向。如果观察者正在使用网络摄像头或视频照相机,则可以将他们观察时的移动用来修改3D视频、VR场景或3D游戏中的视点参数。然后,当人移动时,屏上视点自动移动,允许他们四处观看前景物体。这使用普通照相机或计算机监视器生成了类似于3D全息图的效果。
    从最广的意义上说,这里所公开的方法的目的是使“3D照相机”能够:对于所保存的每个像素,我们也可以以XYZ坐标来定义其位置。这超出了位图的一个静态视点,并且提供了用于分析场景几何形状以生成更完整的3D体验的数据和能力。可以利用照相机中的图像传感器或在播放时进行该图像处理。对于任何一种方式,这里描述的系统都可以利用普通视频的自动处理在普通监视器屏幕上创建强烈的视觉(view)体验。不需要特殊的照相机硬件。其使用根据图像直接生成场景的有效方法,而不是试图将几百万个多边形呈现为真实场景的标准方法。
    因此,本发明的一个目的是基于运动视频中的差分光学流来识别前景物体,然后向帧中的每个XY坐标点增加深度(Z)。
    本发明的另一目的是允许产品放置,其中将贴有商标的产品插入到场景中,甚至具有基于人口统计或诸如天气或位置的其它变量的动态目标处理。
    本发明的另一目的是创建一种允许进行生成具有可测量的尺寸的3D模型的图像处理的系统。
    本发明的另一目的是当网络摄像头可获得时根据网络摄像头处理用户移动,以控制在屏幕上进行3D漫游时的视点。
    通常,利用3D建模的前提是必须最小化可视细节以有利于线框模型。即使这样,为动画电影呈现“穿梭飞行”(即记录3D场景漫游)需要处理包含巨大“呈现区域(render farm)”上的几百万个多边形的线框:对于记录在线性视频的单个穿梭飞行的大量多机呈现。相反,这里所描述的方法和软件采用了一种在如何生成3D视频的假定上非常不同的方法。这里所定义的方法被设计为放宽对复杂和精确的几何模型的需要,这有利于利用最少的多边形模型和丰富的音频-视频内容来生成真实感。这打开了3D体验,使得任何人可以在家庭计算机上创建穿梭飞行。普通的家庭计算机或机顶盒就足够了,而无需花费几小时或几天来呈现几百万个线框表面来生成3D穿梭飞行的工业系统。
    这里所公开的方法被设计为生成最少的几何模型,以利用适度的处理量向视频增加深度,并且在该简化的几何模型上简单地运行所映射的视频。不需要呈现区域。只生成有限数目的几何物体使这种呈现具有较小的计算强度,并且使纹理贴图更容易。当以这种方式根据普通的一个照相机线性视频获得运动视频内的3D漫游时,可以通过视频的声音和移动来克服模型的缺点。
    我们现在具有改变意味着“拍照片”的本质的技术能力。并非存储彩色像素的位图,“数字图像”也可以存储场景几何。并非仿效如在绘画中那样记录彩色点的传统能力,数字成像可以包括3D结构以及彩色点。因而,软件能够改变照片拍摄和视觉体验的基本本质。
    使用这里描述的方法,可以与视频中的背景分开对前景物体进行建模、处理和发送。想象当播放3D视频时在其中进行漫游。当你使用普通的视频照相机时,可能一些人走进场景中。然后,当你观看视频时,可以将他们示出为在你进行3D漫游的同时在3D场景中到处走动。当你飞跃(fly around)时,界面也将允许你冻结该动作或使其加速或倒退。这类似于冻结时间(frozen-in-time)左右旋转(spin-around)效果,然而,在这种情况下,你可以从任何方向离开该空间,并且也可以使播放加速、暂停或倒转。而且,因为我们可以将前景与背景分离,所以你可以将人们放到不同的3D环境中让他们走动。
    很长时间以来,天文学家已对使用运动视差来计算行星和恒星之间的距离产生了兴趣,其通过根据地球在晚上旋转或其每年的轨道中的不同点所拍的照片来推断距离。这里所公开的图像处理也推出了一种根据在地球轨道的不同点所拍的一系列图像自动生成可漫游的3D星体模型的新方法。
    该对于可能的视觉体验特性(来自线形视频、利用一个照相机、在平板电视屏幕或监视器上)的示范性改变可以基本上改变我们观看电影的形式和运动图片生成的特性。即使我们形容这些能力的语言只能限于术语“影片”、“电影”和“运动图片”,但是没有一个能够完全表达当播放非线性视频时可以对其进行漫游的体验。从你在场景中的交互体验每个时间都不相同的意义上来说,这不是真正的“重播”。
    同样,也为可交互式电视的生产者和用户开发了新的可能性,将前景物体分开的能力有助于发送诸如MPEG-4的压缩格式的与静态物体相比的更高的移动帧速率,以降低视频带宽。
    附图说明
    结合附图来最好地理解下面以示例的方式给出的详细描述,该描述不用于将本发明仅限于此,其中:
    图1示出了整个处理的示意性说明:前景物体遮罩与背景分开,在物体所在区域创建空白区域(当从不同角度观看时),并且向背景遮罩增加线框以给出厚度;
    图2示出了利用本发明的软件控制的屏上全息图,该软件检测从网络摄像头反馈的用户移动,使视点在屏上移动;
    图3示出了本发明的处理部件的一般流程图;
    图4示出了不同透视图的台灯的两张照片,根据该照片呈现3D模型;
    图5示出了根据两张照片创建的台灯的3D模型。在左图中示出了平滑的线框模型。右图是具有被映射到表面上的图像的最终的3D物体。物体的后面部分是空的(其在原始图片中是不可见的),尽管可以关闭该表面;
    图6示出了用于定义XYZ坐标点上的三角形以创建线框网的方法;
    图7示出了显示背景上的阴影的分离视频的斜视图。
    具体实施方式
    如果连同诸如色彩和对比度的绘画和图像的传统特征一起在图像处理中分析深度几何,则可以在照片和视频中产生更好的视觉体验。与照片、绘画或甚至是壁画中将色彩点表示在二维图像上不同,这里所公开的技术处理3D场景结构。其利用普通的数字图像设备来进行该处理,无论是静态照相机还是视频摄像机。可以在照相机中进行该处理,但是通常是随着观察者的漫游而发生该处理。该处理自动发生而无需手动干预。它甚至可以利用古旧的电影胶片来工作。
    通常在视频中存在影响3D结构的场景改变和照相机移动。整个光流(optic flow)可以被用作某类照相机移动的指示符;例如,照相机绕透镜节点的旋转将去除视差,并且导致3D模型变平。照相机的横向移动将增强运动视差并突出前景物体。也可以基于与整个光流相比的差分运动来分割移动物体。尽管敏感度控制可以允许用户下调突出量,但这对于视觉体验来说可能并不算坏。当在3D坐标中播放视频时,默认将其建立在与所捕获的初始视频相同的屏幕区域上。
    与当前所使用的所有虚拟旅游不同,该系统允许用户在真实感的环境内移动,并从任何视角来观看它,即使那里从来没有过照相机。由于基础的3D模型,从而可以由场景来推出距离测量。
    本发明的一个实施例基于自动遮罩提取,其中基于与背景光流不同速率的横向移动(即,运动视差)来分割前景物体。然而,还存在一种将要公开的普通变形。某些图像序列由其特性所定在其中不具有任何运动:具体而言,诸如人或物体的正视图和侧视图的正交照片。如果两张照片是成90度或其它特定视角而拍摄的,则仍然可以自动呈现物体形状而无需人工干预。只要是以背景可以分开的方式来拍摄照片(无论是移动、色度调节还是手动擦除背景),不同视角的两个侧面影像就足以定义该物体,使其膨胀,并且将该图像在结果线框上进行纹理贴图。如果背景可以是切断的,并且如果照片是以预先建立的旋转度数拍摄的,则该处理可以是完全自动的。如果照片不是以预先建立的旋转度数拍摄的,则在用户界面中仍然能够指定不同视角的旋转度数。然后,可以使用三角公式来计算点的X、Y和Z坐标,以定义线框在三维中的外部形状。
    不管图像捕获设备的类型如何这里所公开的图像处理系统都可以运行,并且与例如数字视频、静止照片序列或立体照相机输入兼容。其也被设计为应用于全景图像,包括从抛物柱面镜或者从外向型(outward-looking)静止或视频照相机的集群获得的全景图像。可以分离来自全景图像的前景物体,或该全景可以作为背景,其它前景人物或物体可以被放置到其中。与根据视频生成3D模型不同,也能够使用这里所陈述的方法来生成两个不同的视点,以利用立体镜或红-绿、偏光或LCD快门眼镜生成深度感觉。而且,可以使用用户的移动来控制对于立体观看眼镜的视点的方向、观看角度和距离。
    该系统中的图像处理实现了具有明确的维度的3D模型。因而,其能够从所创建的场景中提取长度尺寸。例如,对于工程师和房地产经纪人,该技术允许根据数字照片和视频生成维度和尺寸,而不用亲临实地并进行物理测量或勘定。对于需要来自许多用户的测量的任何组织或产业,数据收集可以与为处理而提交的或已被许多用户处理过的图像分离,而不需要安排涉及昂贵的测量硬件和人员的寻访。优选的实施例包含从界面获得尺寸测量的能力,包括所指示的点到点的距离,以及所呈现的物体的体积。
    使用运动视差来从图像序列中获得几何结构也是一种分离或组合可漫游的视频和3D物体的方法。这与新MPEG-4数字视频标准的目的一致,该新MPEG-4数字视频标准是以比静态元素更大的帧速率发送快速移动的场景元素的压缩格式。所公开的本发明允许其中将商标产品插入到屏幕中的产品放置——甚至是基于诸如天气或位置的统计学或其它变量的个性化目标物(targeting)(见阶段7中描述的方法)。
    该软件也可以被用来利用视频会议照相机(通常被称为“网络照相机”)检测用户移动,作为3D游戏、全景VR场景、计算机桌面控制或3D视频中的漫游控制的方法。网络摄像头是通常安装在用于视频会议的计算机监视器上的小型数字视频照相机。利用这里公开的本发明,优选实施例用于检测用户在前景中的移动,以控制普通电视机或计算机监视器上的3D视频游戏中的视点,如图2中所示。向计算机发送关于用户移动的信息,以控制漫游期间的视点,从鼠标、键盘、游戏板和/或操纵杆增加移动指令。在优选的实施例中,这是通过安装在操作系统中的驱动器来完成的,例如,所述驱动器以鼠标移动的形式对将向计算机发送的来自网络摄像头的身体移动进行转换。能够在动态连接库(DLL)和/或SDK(软件开发包)中运行网络摄像头反馈,所述动态连接库(DLL)和/或SDK(软件开发包)增加了3D游戏的图形引擎的能力。本领域内的技术人员将认识到,DLL和SDK的使用是计算机编程中的普通过程。尽管优选实施例使用了低成本的数字网络摄像头,但是可使用任何类型的数字视频捕获设备。
    可以设置来自网络摄像头的反馈,以控制不同类型的漫游和移动,要么是在图像处理软件中,要么是具有3D游戏选项或要控制的应用程序。在优选的实施例中,当用户左右或前后移动时,XYZ视点参数相应地移动。然而,在一些诸如赛车的游戏中,游戏中的左右移动改变视点并且也控制漫游。如在诸如VRML的工业标准中,当存在穿过空间移动或旋转物体的选择时,左右控制移动使得进行用户已选择的任何类型的场景移动。这通常在应用程序或游戏中定义,并且不需要被设置为网络摄像头反馈的一部分。
    当观看电影、体育广播或其它视频或图像序列时,这里所公开的方法也可以用于基于视频输入来控制视点,而不是用鼠标漫游。如果是通过检测视差的软件将电影进行分割的,则我们也将使用软件利用网络摄像头来检测用户移动。于是,在电影播放期间,视点可以随着用户移动或经由鼠标控制而改变。
    在一个实施例中,当不使用网络摄像头时,可以将移动控制设置为键盘上的键和鼠标移动,以允许用户在使用键盘浏览时通过使用鼠标的在场景中移动,反之亦然。
    图3中的流程图说明了利用该软件的主要技术过程。根据下面九个阶段的描述,本领域技术人员应完全理解本发明的这些和其他目的、特征和优点。
    阶段1:视频分离和建模
    从较宽的意义上来说,这里所公开的本发明处理关于差分移动区域(运动视差)的原始视频。该信息可以用来推断3D视频的深度,或当通过网络摄像头来使用时用来检测用户的移动,以控制3D视频、照片-VR场景或3D视频游戏中的视点。
    逐帧的运动检测的一个实施例基于对诸如色彩或亮度的属性已发生改变的图像的像素和/或区域的检测。跟踪发生改变的区域的边缘、特征或中心点可以用来确定在图像内移动的位置、速率和方向。在不背离本发明的精神或本质特征的情况下,可以通过跟踪这些特征中的任何一个来具体化本发明。
    边缘检测和光流可以被用来识别正以与背景不同的速率移动的前景物体(即,运动视差)。无论使用多个(或立体)照片还是使用视频帧,边缘检测都基于帧之间的诸如色调、RGB值或亮度的相应特征的最佳匹配,而不是特征的绝对匹配。下一个步骤是为背景和前景物体生成线框表面。基于所输入的尺寸,该背景可以是视频的矩形,或对于诸如多机、广角镜头或抛物柱面镜可以是观看的更宽的全景视场(例如,圆柱形、球形或立方体形)。将该视频在所呈现的表面上进行纹理贴图。然后,以可兼容的、跨平台的、广泛可用的建模形式(包括但不限于OpenGL、DirectX或VRML)进行播放,以允许在播放场景时在该场景内进行平滑快速的漫游移动。
    为了评估帧之间的相对像素移动,低级别图像处理的一个实施例是发现两个图像中的同一点。在计算机视觉研究中,这被称为对应问题。诸如照相机移动或其它光流的知识之类的信息可以缩小查找范围。通过指定照相机移动或分离的平面(即,水平、垂直或某个其它方向),减少了匹配查找。依赖于生成3D模型所需的分辨率级别和处理速度,该程序可以跳过一些列。
    然后,将匹配点中的像素分离量转换成深度点(即,Z坐标),并且将其写入XYZ坐标的3D模型数据文件中(例如,以VRML 2.0为规范)。也可以在处理期间降低图像的尺寸来寻找具有较小分辨率的较大特征,同时降低所需的处理时间。也可以将图像降低为灰度图(grayscale),以简化对比点的识别(两个或给定数目的像素之间的色彩或亮度移动)。仅仅提取出足够的距离信息也是很好的策略。用户可以控制应用软件来寻找距离信息(并且仅仅是该信息)中的最大移动。对于比指定范围小的像素视差,简单地将该图像的那些部分定义为背景。一旦匹配完成,则不需要进一步搜索。
    此外,为了更精确地跟踪逐帧的移动,可以连同移动图和深度图一起估定置信图。可以将将浮雕遮罩示出为保持附着到背景图像上,或将其示出为更靠近观察者的分离的物体。
    存在由用户调节的多个变量:用于前景层和背景之间的突出程度的深度调节器;对于主帧频率的控制;对于前景物体的膨胀的敏感度控制;以及线框改变的速率。视场的深度也是可调节的参数(在阶段5实现)。默认对前景物体进行锐化,以定焦并将它们与背景进一步区分(即,缩短视场的深度)。然后,可以将背景视频进行柔化并降低分辨率,并且如果不是全景,则可以将其安装在3D背景上,以使其总是固定的且观察者不能看到它的后面。如在VRML 2.0规范中,默认的移动总是在背景的前面的XYZ空间中。
    阶段2:膨胀前景物体
    当基于原始视频初始分割物体时,创建点的数据集合(有时称之为“点云团”)。基于处理器资源利用指定量的细节,这些点可以被连接到一起形成深度变化的表面。通常将分割在一起的特征组定义为同一物体的部分。当用户到处移动它们的视点时,如果前景物体具有厚度,则立体感将更强。尽管点的处理可以定义足够详细的深度图,但是也可以通过创建中心转轴(spine)并将其往前拖以对前景物体给出与宽度成比例的深度。尽管这有点原始,但是对于呈现运动视频来说该算法很快,并且有可能使视频流中的移动和音频克服任何可察觉的缺陷。
    为了从各个XYZ数据点的点云团转换为线框网,我们的方法是对网的元素使用三角形,以确保所有的多边形都是非常平坦的。可以使用三角形来创建任何形状,并且可以将两个三角形放在一起来形成正方形。为了用三角形构造线网,该算法从物体的左边缘的底端开始(图6中的点1)。在最简单的情况下,在一侧上存在限定形状的三个点的集合:用于左边缘的XYZ(点1),用于中心厚度的XYZ(点2),和用于右边缘的XYZ(点3),如图6所示。从像素的底端行开始,我们将三角形放在左边缘和中心之间(1-2-4)。然后,我们利用第二三角形(5-4-2)返回,其与第一三角形(1,2,4)形成正方形。沿该列向物体的顶端向上重复,首先是下面的三角形(1-2-4,4-5-7,7-8-10...),然后是上面的三角形(8-7-5,5-4-2...)。然后,使用相同的方法向上进行,并且向下进行右边的列。已知存在三个(或任何其它特定数目)点穿过物体,则于是可以自动生成三角形的每个角的编号,这既用于限定三角形也用于将图像表面映射到三角形上。我们将左下坐标定义为“1”,将中间坐标定义为“2”,并且将右边缘定义为“3”,然后对上面的每行继续编号。这是优选的方法,但是本领域技术人员应当理解,当然也可以对行向下计数或跨列。
    在一个实施例中,尽管如果如图4可以看到的那样存在一个或多个角度的侧视图,则可以定义更准确的物体厚度的深度图,但是在物体上仍生成转轴以给出与宽度成比例的深度。在该情况下,软件可以使用每张图片中的物体侧面影像来定义X和Y坐标(分别为水平和垂直),并且利用三角法则使用不同角度的横截面来定义Z坐标(物体的深度)。如图5中所示,知道物体上的表面点的X、Y和Z坐标即允许在线框表面上构造图像的线框模型和纹理贴图。如果软件不能检测到侧面影像的清晰边缘,则可以包括制图工具或可以使用第三方软件来进行色度调节或进行掩模处理(masking)。如果帧被隔开得足够近,则运动视差可能是足够的。为了校准两个照片,该程序可以降低分辨率并将两个图片定标成相同高度。用户也可以为物体指示中心特征或重心,使得在两张图片中对Z深度做出相同参考。通过对每张照片重复该方法,生成根据每个视点的坐标集合来限定物体。通过将这些坐标放到一个相同比例的较大的数据集合中,可以合并这些坐标。该算法真正的创新价值在于程序生成XYZ坐标只需要进行照相机的旋转和定标。
    当使用有限数目的多边形时,所生成的模型看起来可以是成块的或有角的。这对于类似盒子、汽车或建筑物的制造物体可能是所希望的。但是对于类似人脸的柔和的有机物或穿过云的色彩梯度来说,需要更柔和的曲线。该软件考虑到该需要,在界面中具有调节至高点和角落的边缘的柔度的参数。这与VRML 2.0规范中的类似参数是一致的。
    阶段3:纹理贴图
    一旦我们已从点云团转换为线框网,则仍然需要将图像放到3D表面上。将用于每帧的部分的相关XY坐标与XYZ模型中的坐标匹配,就如同那时它就存在于那里(通过使Z坐标下降并保持X和Y)。然后,使用诸如但不限于OpenGL、DirectX或VRML(虚拟现实建模语言)的工业标准建模格式,在模型的表面上播放视频。该方法也与用于数字视频的MPEG-4标准中的分离视频层(基于BIFS:二进制场景格式)一致。(MPEG是运动图像专家组的简称,是定义技术标准的工业联盟。)
    这里所使用的用于映射到线框网上的方法与VRML 2.0标准一致。VRML2.0中用于表面贴图的惯例是将图像坐标映射到水平轴和垂直轴上从0到1的刻度内。因而需要根据XYZ进行坐标变换。省略Z,并且将X和Y转换成0和1之间的小数。这定义了图像的伸展和位置,以将它们放置在透视图中。如果不同的图像重叠,则也没关系,因为它们应是透明的,并且应被融合在一起。
    该方法在下面的方面也是创新的:其能够拍摄多个重叠图像,并且合乎透视法将它们施加到3D表面,而不需要将图像接合在一起的附加步骤。当将邻近的照片结合到一起来形成全景时,通常手动地排列它们,然后将两个图像混合在一起。这需要时间,并且实际中常常导致接缝人工假象。这里所定义的方法的一个重要创新在于它不需要接合。图像被映射到定义模型的同一坐标上。
    阶段4:填充背景
    如可以从图7中看出,当将物体拖到前景中时,其在背景中留下一个在从不同视角观看时可见的空白。理想地,当视点移动时,你可以看见前景物体的后面,但是人们没有注意到背景中的任何孔洞。这里公开的方法开始通过拉伸边缘来将外围色彩拉到孔的中心而填充背景。由于存在表面,所以简单地使用不同的坐标来将原始图像适合到较大区域,拉伸图像来覆盖空白空间。本领域技术人员应当理解,考虑到这些解释,在不背离本发明的精神或范围的情况下可以有各种变体来实现。
    也可以向对照相机来说后面部分或顶部和底部不可见的物体施加相同的处理。可以通过生成表面来连接起孔洞的边缘。然后,可以将周围图像部分拉进。随着更多部分在输入图像中变得更可见,也可以增加更多的表面。
    阶段5:视场的深度
    锐化前景并柔化或模糊背景,以增强深度感觉。对于本领域技术人员来说明显的是,存在诸如卷积掩模的标准掩蔽和滤波方法以及实现该类图像处理的现有可用(off-the-shelf)的工具,以在图像处理中放大或柔化边缘。这有助于掩盖背景中的孔洞以及降低背景的分辨率要求。这是用户可调节的变量。
    阶段6:漫游
    一旦生成最终的3D模型,则存在许多可以观看和使用它的方法。对于漫游,在本文件中所描述的过程与诸如VRML 2.0的标准一致。本领域技术人员应当清楚如何使用诸如VRML 2.0、OpenGL或DirectX的平台的公开可用标准要求来格式化用于3D建模和漫游的结果视频文件和3D数据。
    也能够使用这里所定义的技术生成3D模型,并将来自穿梭飞行的一系列视图保存为线性视频。通过保存不同的穿梭飞行或重放,例如能够在诸如DVD或体育广播的界面上提供某些交互式选择,其中可能存在最小化的漫游控制。
    因为这里所定义的图像处理意味着将前景物体与背景分离并根据运动视差创建深度感觉,所以也能很好地适合于MPEG-4视频中的模型的使用。利用这些方法生成的数据集合和3D模型与VRML 2.0标准兼容,其中MPEG-4中的模型是基于VRML 2.0标准的。
    具体而言,在专业的体育广播中,在浏览场地中心的同时,在游戏期间来回上下移动播放表面是非常普遍的。漫游可能需要与移动的位置、方向和速率分开而对凝视的方向进行控制。这些在3D游戏中可以是可选控制,但是对于诸如VRML的特定建模平台也可以由观看者来设置。这些附加的观看参数将允许我们在从不同方向观看比赛时上下移动播放表面,不管所使用的照相机的个数或视点如何,都可以具有平滑移动。利用这里所公开的方法,能够进行场景漫游,而不用知道照相机的位置。
    阶段7:测量校准和融合
    上述解释的方法的阶段1、2和3用于使用运动视差提取视频遮罩,合成这些深度片断(depth-wise),膨胀前景物体并在结果浮雕表面对原始图像进行纹理贴图。一旦将任何像素定义为XYZ坐标空间中的点,则计算其与任意其它点的距离即是常规数学问题。在优选的实施例中,3D视频软件的一个版本包括用户界面。在该区域可以使用工具来指示点或物体,根据该点或物体可以计算诸如距离或体积的测量。
    我们也希望与之前来自其它系统(例如,激光测距获取器)的点云团融合。在融合数据点之前,需要对这两种格式进行定标。对于定标,用户界面也需要包括:指示器,用来标记参考物体;以及输入框,用来输入其真实长度。可以有目的地在原始照片中包括已知长度的参考物体,或可以对出现在场景中的物体进行长度估计。一旦在场景中对长度进行了定标后,可以将所有数据点转换成新的单位,或可以根据需要进行转换。
    与其他3D模型的融合的能力也使其能够在普通视频中以正确视点合并产品放置广告。这可以包括在场景中放置商品,或将图片以正确视点映射到场景中的表面上。
    阶段8:用于屏上全息图的网络摄像头
    一旦我们可以分析视频中的视差移动,则如果正在使用网络摄像头、DV照相机或视频电话,我们就可以使用相同的算法来跟踪在人们观察中的移动。移动到侧面将使你环顾屏上物体,给予3D前景物体屏上立体感。如从图2中可以看出的,通过利用网络摄像头检测用户移动来修改视点参数。当人移动时,3D视点相应地改变。前景物体应更成比例地移动,并且用户应当能够看见更多侧面。在3D计算机游戏中,用户的左右移动可以修改来自箭头键、鼠标或游戏板的输入,影响正在控制的任何类型的移动。利用网络摄像头的运动检测也可以用于在诸如全景图片-VR场景的交互式多媒体中控制漫游的方向和速率。
    这里所公开的方法也使用唯一方法来控制屏上的3D物体和“物体电影”。通常,例如当你在房间中漫游移动到左边时,屏上移动自然地也移动到左边。但是利用影响前景物体的观看的视差,当视点移动到左边时,物体应实际上移动到右边,以使得看起来比较真实。一种允许任一控制类型的方式是提供可选的反转器(toggle),以便如果需要,用户可以反转移动的方向。
    阶段9:在线共享
    这些所公开的技术设计的一个重要部分涉及媒体共享软件本身和3D视频输出。软件的设计意味着鼓励快速在线分发以及用户基数的指数增长。当保存视频穿梭飞行时,使用商业软件开发包保存文件或文件夹,在共享文件夹中默认自解压缩。这可能包括视频内容和/或软件本身的促销版本。同时,当保存3D场景时,也可以默认地在场景中放置该软件下载站点的链接。在安装期间或之后的软件选项中可以改变该默认值。
    该软件也被设计具有“升级”能力,该“升级”能力在购买后输入序列号时取消时间限制或其它限制。尽管优选实施例是在在线购物车中自动付费,但是可以以各种不同的零售方法购买升级。具有免费促销版本的同一安装系统及其升级也可以与网络摄像头软件一起使用。
    使用这里所公开的方法,首次使用的家庭用户具有下述能力:(i)保存视频穿梭飞行;和/或(ii)从普通视频中提取3D元素。利用大多数的数字媒体,这些可以通过即时消息、电子邮件、端对端文件共享网络来共享,并且类似于无摩擦的(frictionless)、便捷的在线方法。因而,该技术能够对贴有商标的媒体进行主动共享。
    该技术正随着相当多的公众对在线媒体共享感兴趣而发展。使用类似于数字视频记录机的设备,家庭消费者也越来越具有绕开传统的基于中断的电视商业广告的能力。现在,任何人也可以使用该技术来在线发表他们自己的电影,这将我们从广播垄断引向了“无限制的频道世界”。因而,分割、定标和融合3D视频元素的能力提供了一种商标和产品放置的重要新方法,并提供了发起视频生产、分发和网络广播的新方法。不同的数据流也可以用于商标或产品放置,这意味着可以基于例如具体的人口统计、地点或一天中的时间利用偶然性来动态地插入不同的元素。通过将视频分离成3D元素的技术能力,使得电视、广播、视频和网络广播发起的该新范例成为可能。
    在附图和说明书中,已公开了本发明的典型优选实施例,尽管使用了特定的术语,但是它们只用于一般和描述的意义,而不用于限制,在下面的权利要求书中阐述了本发明的范围。

    关 键  词:
    用于 照相机 视频 自动 场景 建模
      专利查询网所有文档均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    0条评论

    还可以输入200字符

    暂无评论,赶快抢占沙发吧。

    关于本文
    本文标题:用于3维照相机和3维视频的自动场景建模.pdf
    链接地址:https://www.zhuanlichaxun.net/p-4981161.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
    经营许可证编号:粤ICP备2021068784号-1