《一种基于最小二乘的多视点视频编码视点合成预测方法.pdf》由会员分享,可在线阅读,更多相关《一种基于最小二乘的多视点视频编码视点合成预测方法.pdf(9页完整版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 102790895 A (43)申请公布日 2012.11.21 C N 1 0 2 7 9 0 8 9 5 A *CN102790895A* (21)申请号 201210266945.9 (22)申请日 2012.07.30 H04N 13/00(2006.01) H04N 7/32(2006.01) (71)申请人武汉大学 地址 430072 湖北省武汉市武昌区珞珈山武 汉大学 (72)发明人胡瑞敏 胡金晖 段漭 龚燕 王中元 (74)专利代理机构武汉科皓知识产权代理事务 所(特殊普通合伙) 42222 代理人鲁力 (54) 发明名称 一种基于最小二乘的多视点视频。
2、编码视点合 成预测方法 (57) 摘要 本发明涉及一种基于最小二乘的多视点视频 编码视点合成预测方法。本发明首先通过三维变 换找到虚拟视点帧的当前像素点在参考视点帧中 的对应像素;然后,将得到的参考视点帧中的对 应像素,作为虚拟视点帧的当前像素的预测像素; 其次,利用先前已解码的帧及其虚拟视点帧,采用 最小二乘法训练求得预测系数;再次,根据得到 预测系数,将预测像素的像素值通过线性估计来 得到当前像素的像素值,对于每个像素执行相同 的操作,最终得到虚拟视点帧;最后,将生成的虚 拟视点帧,加入到参考帧列表,编码器根据参考帧 列表对当前视点待编码帧进行编码。本发明同时 利用视点内和视点间的信息来增。
3、强合成视点的质 量,提高了基于视点合成预测的多视点视频编码 效率。 (51)Int.Cl. 权利要求书2页 说明书5页 附图1页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书 2 页 说明书 5 页 附图 1 页 1/2页 2 1.一种基于最小二乘的多视点视频编码视点合成预测方法,其特征在于,包括以下步 骤: 步骤1,通过三维变换找到虚拟视点帧的当前像素点在参考视点帧中的对应像素; 步骤2,将步骤1得到的参考视点帧中的对应像素及其邻域的八个像素,作为虚拟视点 帧的当前像素的预测像素; 步骤3,利用编码器中当前帧之前的重建帧及其虚拟视点帧,采用最小二乘法训练求得 预测系。
4、数; 步骤4,根据步骤3得到预测系数,将预测像素的像素值通过线性估计来得到当前像素 的像素值, 步骤5,对于每个像素重复执行步骤1至步骤4,最终得到虚拟视点帧; 步骤6,将步骤5生成的虚拟视点帧,加入到参考帧列表,编码器根据参考帧列表对当 前视点待编码帧进行编码。 2.根据权利要求1所述的一种基于最小二乘的多视点视频编码视点合成预测方法,其 特征在于,步骤1中,找到虚拟视点帧中的当前像素在参考视点帧中的对应像素的步骤采 用以下步骤实现, 对于虚拟视点帧中的当前像素其在参考视点帧中的对应像素通过式一和式 二来获取: u,v,wR(c)A -1 (c)x,y,1Dc,t,x,y+T(c) x,y,。
5、zA(c)R -1 (c)u,v,w-T(c)式二 式一和式二中,A,R和T分别表示内参矩阵,旋转矩阵和相机的平移矢量;c和t分别 表示参考视点标号与视点内时域上的序号;D为深度值;x,y,1是虚拟视点帧中的像素坐 标,x,y,z是参考视点帧中的像素坐标,u,v,w指的是世界坐标。 3.根据权利要求1所述的一种基于最小二乘的多视点视频编码合成预测方法,其特征 在于,步骤2中,将步骤1得到的参考视点帧中的对应像素及其周围像素,作为虚拟视点帧 的当前像素的预测像素,选取方式如下: 虚拟视点帧的当前像素的预测像素为步骤1中获得的与其邻域的N个像素。 4.根据权利要求1所述的一种基于最小二乘的多视点视。
6、频编码视点合成预测方法,其 特征在于,所述步骤3中,利用先前已解码的帧及其虚拟视点帧,采用最小二乘法训练求得 预测系数,具体采用以下步骤实现, 步骤3.1:将先前已解码的帧作为训练样本,训练窗口的选择如下: W(T 1 ,T 1 )-T 1 ,T 1 -T 1 ,T 1 式三 其中T1是空间窗口的大小;W(T 1 ,T 1 )表示训练窗口; 步骤3.2:设在训练窗口中有M个样本,将窗口中的所有样本写成M1向量定义训 练样本在其虚拟视点帧中的对应像素和它的N个相邻像素为1(N+1)的向量,则训练样 本产生一个大小为M(N+1)的协方差矩阵C,于是,预测系数由式四和五获得: 式四 式五 其中C M。
7、(N+1) 表示所有训练样本及其预测像素所组成的矩阵;和表示训练样本像 权 利 要 求 书CN 102790895 A 2/2页 3 素;C T 表示C M(N+1) 的转置。 5.根据权利要求1所述的一种基于最小二乘的多视点视频编码视点合成预测方法,其 特征在于,所述步骤4中,根据步骤3得到预测系数,将预测像素的像素值通过线性估计来 得到当前像素的像素值,对于每个像素执行相同的操作,最终得到虚拟视点帧,采用以下步 骤实现: 在得到预测系数后,对于虚拟视点帧中的当前像素,它的像素值利用其在参考视点帧 中的对应像素及该像素的邻域像素线性估计得来,如式六所示: 式六 其中为虚拟视点帧中的像素坐标x。
8、,y,1,表示对应像素及该像素的邻域像素的坐 标。 6.根据权利要求1所述的一种基于最小二乘的多视点视频编码视点合成预测方法,其 特征在于,将步骤5生成的虚拟视点帧,加入到参考帧列表采用如下方式实现: 对于P视点锚定帧,只使用LIST_0用于预测,直接在列表末尾增加虚拟视点帧,对于P 视点锚定帧,只使用LIST_0预测,直接将虚拟视点帧放至参考帧列表末尾;对于P视点非锚 定帧,LIST_0和LIST_1都用于层次B帧预测,因此用虚拟视点帧替换LIST_0中的第一个 后向时域参考帧,以及LIST_1中的第一个前向时域参考帧,对于B视点的锚定帧,直接将虚 拟视点帧加至LIST_0和LIST_1的末。
9、尾;对于B视点的非锚定帧,参考帧列表的管理方式和 P视点的相同。 权 利 要 求 书CN 102790895 A 1/5页 4 一种基于最小二乘的多视点视频编码视点合成预测方法 技术领域 0001 本发明涉及一种多视点视频编码视点合成预测方法,尤其是涉及一种基于最小二 乘的多视点视频编码视点合成预测方法。 背景技术 0002 第一代3D显示终端是基于左右格式的,它只提供两路视频流,分别用于左右眼。 这意味着基于这种立体终端要求观看者佩戴特殊眼镜坐在一个较为狭窄的范围内观看。虽 然,当前的立体显示系统能够提供高质量的3D视频,但在观看上的这些限制影响了观看时 的舒适与自然。近来,深度图研究的进步。
10、带动了一种新的3D显示终端的发展,即自由视点 电视。 0003 自由视点电视在不同方向显示不同的立体视频流,它可以为用户提供对于场景的 自由视点选择,而且用户不需要配戴眼镜。为了提供一个宽阔的观赏视角和视点过渡,这种 显示需要使用更多数目的视频流。深度图信息将有助于合成中间视点以到达视点无缝过渡 的目的。然而,多台摄像机的拍摄导致了数据量的显著增加,需要对多路视频流进行压缩, 一个直接的方法是利用最新的多视点视频编码国际标准(MVC)来压缩不同的纹理视点。然 而,一方面,在MVC中使用的平移运动模型不足以消除由于不同摄像机拍出的物体的位置 不同产生的视点间冗余。另一方面,这种方法忽略了纹理图和。
11、对应的深度图之间的关系。 0004 因此,在2006年,Martinian等人,首次提出深度辅助的视间预测方法,称为基于 视点合成预测(VSP)的多视点视频编码,以提高视间预测效率1。这种方法的基本思想 是通过三维变换来创建当前视点的一个虚拟视点,在预测的过程中可以作为附加的参考视 点。与视差预测相比,VSP可很好地补偿不同视点间的几何差异。2008年,Oh等利用VSP 的技术来压缩多视深度数据2。此外,在2009年,Sehoon等提出了基于VSP的率失真优 化模型3。为改变视差矢量的预测,在2010年,Iyer等通过基于VSP的后向变换,提出了 一种基于三维变换的视差矢量预测方法4。在201。
12、1年,Shinya等利用VSP来完成后向运 动估计和视差估计5。 0005 然而,现有的VSP技术仅仅使用了相邻的视点间信息去合成虚拟视点,由于深度 信息的不准确,不同相机的异质性,和对象的非朗伯反射,虚拟视点的质量和预测能力是有 限的。因此,现有的VSP技术很难大幅度降低码率,而在VSP技术中,虚拟视点不是被用于 显示的,而只是用于预测。 发明内容 0006 本发明主要是解决现有技术所存在的技术问题;提供了一种基于最小二乘的多视 点视频编码视点合成预测方法。 0007 本发明的上述技术问题主要是通过下述技术方案得以解决的: 0008 一种基于最小二乘的多视点视频编码视点合成预测方法,其特征在。
13、于,包括以下 步骤: 说 明 书CN 102790895 A 2/5页 5 0009 步骤1,通过三维变换找到虚拟视点帧的当前像素点在参考视点帧中的对应像 素; 0010 步骤2,将步骤1得到的参考视点帧中的对应像素及其邻域的八个像素,作为虚拟 视点帧的当前像素的预测像素; 0011 步骤3,利用编码器中当前帧之前的重建帧及其虚拟视点帧,采用最小二乘法训练 求得预测系数; 0012 步骤4,根据步骤3得到预测系数,将预测像素的像素值通过线性估计来得到当前 像素的像素值, 0013 步骤5,对于每个像素重复执行步骤1至步骤4,最终得到虚拟视点帧; 0014 步骤6,将步骤5生成的虚拟视点帧,加入。
14、到参考帧列表,编码器根据参考帧列表 对当前视点待编码帧进行编码。 0015 在上述的一种基于最小二乘的多视点视频编码视点合成预测方法,步骤1中,找 到虚拟视点帧中的当前像素在参考视点帧中的对应像素的步骤采用以下步骤实现, 0016 对于虚拟视点帧中的当前像素其在参考视点帧中的对应像素通过式一 和式二来获取: 0017 u,v,wR(c)A -1 (c)x,y,1Dc,t,x,y+T(c)式一 0018 x,y,zA(c)R -1 (c)u,v,w-T(c)式二 0019 式一和式二中,A,R和T分别表示内参矩阵,旋转矩阵和相机的平移矢量;c和t分 别表示参考视点标号与视点内时域上的序号;D为深。
15、度值;x,y,1是虚拟视点帧中的像素 坐标,x,y,z是参考视点帧中的像素坐标,u,v,w指的是世界坐标。 0020 在上述的一种基于最小二乘的多视点视频编码视点合成预测方法,步骤2中,将 步骤1得到的参考视点帧中的对应像素及其周围像素,作为虚拟视点帧的当前像素的预测 像素,选取方式如下: 0021 虚拟视点帧的当前像素的预测像素为步骤1中获得的与其邻域的N个像素。 0022 在上述的一种基于最小二乘的多视点视频编码视点合成预测方法,所述步骤3 中,利用先前已解码的帧及其虚拟视点帧,采用最小二乘法训练求得预测系数,具体采用以 下步骤实现, 0023 步骤3.1:将先前已解码的帧作为训练样本,训。
16、练窗口的选择如下: 0024 W(T 1 ,T 1 )-T 1 ,T 1 -T 1 ,T 1 式三 0025 其中T1是空间窗口的大小;W(T 1 ,T 1 )表示训练窗口; 0026 步骤3.2:设在训练窗口中有M个样本,将窗口中的所有样本写成M1向量定 义训练样本在其虚拟视点帧中的对应像素和它的N个相邻像素为1(N+1)的向量,则训 练样本产生一个大小为M(N+1)的协方差矩阵C,于是,预测系数由式四和五获得: 0027 式四 0028 式五 0029 其中C M(N+1) 表示所有训练样本及其预测像素所组成的矩阵;和表示训练样 本像素;C T 表示C M(N+1) 的转置。 0030 在。
17、上述的一种基于最小二乘的多视点视频编码视点合成预测方法,所述步骤4 中,根据步骤3得到预测系数,将预测像素的像素值通过线性估计来得到当前像素的像素 说 明 书CN 102790895 A 3/5页 6 值,对于每个像素执行相同的操作,最终得到虚拟视点帧,采用以下步骤实现: 0031 在得到预测系数后,对于虚拟视点帧中的当前像素,它的像素值利用其在参考视 点帧中的对应像素及该像素的邻域像素线性估计得来,如式六所示: 0032 式六 0033 其中为虚拟视点帧中的像素坐标x,y,1,表示对应像素及该像素的邻域像素 的坐标。 0034 在上述的一种基于最小二乘的多视点视频编码视点合成预测方法,将步骤。
18、5生成 的虚拟视点帧,加入到参考帧列表采用如下方式实现: 0035 对于P视点锚定帧,只使用LIST_0用于预测,直接在列表末尾增加虚拟视点帧,对 于P视点锚定帧,只使用LIST_0预测,直接将虚拟视点帧放至参考帧列表末尾;对于P视点 非锚定帧,LIST_0和LIST_1都用于层次B帧预测,因此用虚拟视点帧替换LIST_0中的第 一个后向时域参考帧,以及LIST_1中的第一个前向时域参考帧,对于B视点的锚定帧,直接 将虚拟视点帧加至LIST_0和LIST_1的末尾;对于B视点的非锚定帧,参考帧列表的管理方 式和P视点的相同。 0036 因此,本发明具有如下优点:1、在合成虚拟视点进行预测时不仅。
19、利用了视间信息, 还利用了时域信息,使得合成的视点对视点间光照的差异、深度信息的误差更加鲁棒;2、合 成的视点更接近于当前视点,使得VSP技术能大幅度降低多视点视频编码码率。 附图说明 0037 图1是本发明的方法流程示意图。 具体实施方式 0038 下面通过实施例,并结合附图,对本发明的技术方案作进一步具体的说明。 0039 实施例: 0040 本发明技术方案可采用如下步骤进行。为便于实施参考起见,结合附图和实施例 详细说明发明技术方案。本发明实施例提供基于最小二乘的视点合成预测多视点视频编码 方法,采用MVC参考软件JMVC6.0作为编码器,选取分辨率为1024768大小的多视点标准 测试。
20、序列“ballet”和“breakdancers”的第0、1、2视点进行本算法的测试,GOP(图像组) 设置为8,QP(量化步长)分别为22,27,32,37,以编码第2视点中的第3帧为例,说明编码 当前视点待编码帧时的步骤,流程图见图1: 0041 步骤1,通过三维变换找到第3帧的虚拟视点帧的当前像素在参考视点0的第 3帧中的对应像素 0042 u,v,wR(c)A -1 (c)x,y,1Dc,t,x,y+T(c) 0043 (1) 0044 x,y,zA(c)R -1 (c)u,v,w-T(c) 0045 (2) 0046 公式1和公式2中,A,R和T分别表示内参矩阵,旋转矩阵和相机的平移。
21、矢量;c和 t分别表示参考视点标号与视点内时域上的序号;D为深度值;x,y,1是虚拟视点帧中的 像素的坐标,x,y,z是参考视点帧中的像素的坐标,u,v,w指的是世界坐 说 明 书CN 102790895 A 4/5页 7 标。 0047 步骤2,将步骤1得到的参考视点帧中的对应像素及其周围像素,作为虚拟视点帧 的当前像素的预测像素;实施例将步骤1得到的参考视点0的第3帧中的对应像素及其周 围像素,作为虚拟视点帧的当前像素的预测像素。 0048 步骤3,利用先前已解码的帧及其虚拟视点帧,采用最小二乘法训练求得预测系 数。为便于实施参考起见,提供具体步骤如下: 0049 步骤3.1:将先前已解码。
22、的帧作为训练样本,训练窗口的选择如下: 0050 W(T 1 ,T 1 )-T 1 ,T 1 -T 1 ,T 1 (3) 0051 其中T1是空间窗口的大小,在本申请中,T1设为3。那么训练窗口的大小为77。 另外,由于先前已解码帧的虚拟视点帧已经被获取,对于一个训练样本,它的预测像素为虚 拟帧中对应位置像素及其周围像素; 0052 步骤3.2:设在训练窗口中有M个样本,将窗口中的所有样本写成M1向量把 训练样本在其虚拟视点帧中的对应像素和它的N个相邻像素写成1(N+1)的向量,这样 所有的训练样本就可以产生一个大小为M(N+1)的协方差矩阵C,此处,M=49,N=9,于是, 预测系数可以由公。
23、式4和公式5求得: 0053 0054 0055 步骤4,根据步骤3得到预测系数,将预测像素的像素值通过线性估计来得到当前 像素的像素值,对于每个像素执行相同的操作,最终得到虚拟视点帧。为便于实施参考起 见,提供具体步骤如下: 0056 步骤4.1:在得到预测系数后,对于虚拟视点帧中的当前像素,它的像素值利用其 在参考视点帧中的对应像素及该像素的邻域像素线性估计得来,如公式6所示。 0057 0058 其中为虚拟视点帧中的像素坐标x,y,1,表示对应像素及该像素的邻域像素 的坐标; 0059 步骤5,将步骤4生成的虚拟视点帧,加入到参考帧列表。为便于实施参考起见,提 供步骤具体如下: 0060。
24、 步骤5.1:对于第2视点中的第3帧,LIST_0和LIST_1都用于层次B帧编码,因此 用虚拟视点帧替换LIST_0中的第一个后向时域参考帧,以及LIST_1中的第一个前向时域 参考帧,根据参考帧列表对当前视点待编码帧进行编码。 0061 为说明本发明所取得的技术效果起见,对分辨率为1024768大小的“ballet”和 “breakdancers”多视点序列的第0、1、2视点进行编码测试,测试平台为JMVC6.0,每个视点 的编码帧数为49帧,GOP(图像组)设置为8,QP(量化步长)分别为22,27,32,37,分别将本 发明提出的方法、传统的基于视点合成预测的多视点视频编码方法4与MVC标准编码方 法进行了比较,编码的码率节省结果下表所示,从中可以看出本发明具有更佳的压缩效率。 0062 说 明 书CN 102790895 A 5/5页 8 0063 本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领 域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替 代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。 说 明 书CN 102790895 A 1/1页 9 图1 说 明 书 附 图CN 102790895 A 。