书签分享收藏举报版权申诉 / 9

立即下载加入VIP,免费下载

当前位置：首页 > 电学 > 电通信技术 > 一种基于最小二乘的多视点视频编码视点合成预测方法.pdf

一种基于最小二乘的多视点视频编码视点合成预测方法.pdf

上传人：Y0****01

文档编号：4325321

上传时间：2018-09-13

格式：PDF

页数：9

大小：1.65MB

《一种基于最小二乘的多视点视频编码视点合成预测方法.pdf》由会员分享，可在线阅读，更多相关《一种基于最小二乘的多视点视频编码视点合成预测方法.pdf（9页完整版）》请在专利查询网上搜索。

1、(10)申请公布号 CN 102790895 A (43)申请公布日 2012.11.21 C N 1 0 2 7 9 0 8 9 5 A *CN102790895A* (21)申请号 201210266945.9 (22)申请日 2012.07.30 H04N 13/00(2006.01) H04N 7/32(2006.01) (71)申请人武汉大学地址 430072 湖北省武汉市武昌区珞珈山武汉大学 (72)发明人胡瑞敏胡金晖段漭龚燕王中元 (74)专利代理机构武汉科皓知识产权代理事务所(特殊普通合伙) 42222 代理人鲁力 (54) 发明名称一种基于最小二乘的多视点视频。

2、编码视点合成预测方法 (57) 摘要本发明涉及一种基于最小二乘的多视点视频编码视点合成预测方法。本发明首先通过三维变换找到虚拟视点帧的当前像素点在参考视点帧中的对应像素；然后，将得到的参考视点帧中的对应像素，作为虚拟视点帧的当前像素的预测像素；其次，利用先前已解码的帧及其虚拟视点帧，采用最小二乘法训练求得预测系数；再次，根据得到预测系数，将预测像素的像素值通过线性估计来得到当前像素的像素值，对于每个像素执行相同的操作，最终得到虚拟视点帧；最后，将生成的虚拟视点帧，加入到参考帧列表，编码器根据参考帧列表对当前视点待编码帧进行编码。本发明同时利用视点内和视点间的信息来增。

3、强合成视点的质量，提高了基于视点合成预测的多视点视频编码效率。 (51)Int.Cl. 权利要求书2页说明书5页附图1页 (19)中华人民共和国国家知识产权局 (12)发明专利申请权利要求书 2 页说明书 5 页附图 1 页 1/2页 2 1.一种基于最小二乘的多视点视频编码视点合成预测方法，其特征在于，包括以下步骤：步骤1，通过三维变换找到虚拟视点帧的当前像素点在参考视点帧中的对应像素；步骤2，将步骤1得到的参考视点帧中的对应像素及其邻域的八个像素，作为虚拟视点帧的当前像素的预测像素；步骤3，利用编码器中当前帧之前的重建帧及其虚拟视点帧，采用最小二乘法训练求得预测系。

4、数；步骤4，根据步骤3得到预测系数，将预测像素的像素值通过线性估计来得到当前像素的像素值，步骤5，对于每个像素重复执行步骤1至步骤4，最终得到虚拟视点帧；步骤6，将步骤5生成的虚拟视点帧，加入到参考帧列表，编码器根据参考帧列表对当前视点待编码帧进行编码。 2.根据权利要求1所述的一种基于最小二乘的多视点视频编码视点合成预测方法，其特征在于，步骤1中，找到虚拟视点帧中的当前像素在参考视点帧中的对应像素的步骤采用以下步骤实现，对于虚拟视点帧中的当前像素其在参考视点帧中的对应像素通过式一和式二来获取： u,v,wR(c)A -1 (c)x,y,1Dc,t,x,y+T(c) x，y，。

5、zA(c)R -1 (c)u,v,w-T(c)式二式一和式二中，A，R和T分别表示内参矩阵，旋转矩阵和相机的平移矢量；c和t分别表示参考视点标号与视点内时域上的序号；D为深度值；x，y,1是虚拟视点帧中的像素坐标，x，y,z是参考视点帧中的像素坐标，u,v,w指的是世界坐标。 3.根据权利要求1所述的一种基于最小二乘的多视点视频编码合成预测方法，其特征在于，步骤2中，将步骤1得到的参考视点帧中的对应像素及其周围像素，作为虚拟视点帧的当前像素的预测像素，选取方式如下：虚拟视点帧的当前像素的预测像素为步骤1中获得的与其邻域的N个像素。 4.根据权利要求1所述的一种基于最小二乘的多视点视。

6、频编码视点合成预测方法，其特征在于，所述步骤3中，利用先前已解码的帧及其虚拟视点帧，采用最小二乘法训练求得预测系数，具体采用以下步骤实现，步骤3.1：将先前已解码的帧作为训练样本，训练窗口的选择如下： W(T 1 ,T 1 )-T 1 ,T 1 -T 1 ,T 1 式三其中T1是空间窗口的大小；W(T 1 ,T 1 )表示训练窗口；步骤3.2：设在训练窗口中有M个样本，将窗口中的所有样本写成M1向量定义训练样本在其虚拟视点帧中的对应像素和它的N个相邻像素为1（N+1）的向量，则训练样本产生一个大小为M（N+1）的协方差矩阵C，于是，预测系数由式四和五获得：式四式五其中C M。

7、(N+1) 表示所有训练样本及其预测像素所组成的矩阵；和表示训练样本像权利要求书CN 102790895 A 2/2页 3 素；C T 表示C M(N+1) 的转置。 5.根据权利要求1所述的一种基于最小二乘的多视点视频编码视点合成预测方法，其特征在于，所述步骤4中，根据步骤3得到预测系数，将预测像素的像素值通过线性估计来得到当前像素的像素值，对于每个像素执行相同的操作，最终得到虚拟视点帧，采用以下步骤实现：在得到预测系数后，对于虚拟视点帧中的当前像素，它的像素值利用其在参考视点帧中的对应像素及该像素的邻域像素线性估计得来，如式六所示：式六其中为虚拟视点帧中的像素坐标x。

8、，y,1，表示对应像素及该像素的邻域像素的坐标。 6.根据权利要求1所述的一种基于最小二乘的多视点视频编码视点合成预测方法，其特征在于，将步骤5生成的虚拟视点帧，加入到参考帧列表采用如下方式实现：对于P视点锚定帧，只使用LIST_0用于预测，直接在列表末尾增加虚拟视点帧，对于P 视点锚定帧，只使用LIST_0预测，直接将虚拟视点帧放至参考帧列表末尾；对于P视点非锚定帧，LIST_0和LIST_1都用于层次B帧预测，因此用虚拟视点帧替换LIST_0中的第一个后向时域参考帧，以及LIST_1中的第一个前向时域参考帧，对于B视点的锚定帧，直接将虚拟视点帧加至LIST_0和LIST_1的末。

9、尾；对于B视点的非锚定帧，参考帧列表的管理方式和 P视点的相同。权利要求书CN 102790895 A 1/5页 4 一种基于最小二乘的多视点视频编码视点合成预测方法技术领域 0001 本发明涉及一种多视点视频编码视点合成预测方法，尤其是涉及一种基于最小二乘的多视点视频编码视点合成预测方法。背景技术 0002 第一代3D显示终端是基于左右格式的，它只提供两路视频流，分别用于左右眼。这意味着基于这种立体终端要求观看者佩戴特殊眼镜坐在一个较为狭窄的范围内观看。虽然，当前的立体显示系统能够提供高质量的3D视频，但在观看上的这些限制影响了观看时的舒适与自然。近来，深度图研究的进步。

10、带动了一种新的3D显示终端的发展，即自由视点电视。 0003 自由视点电视在不同方向显示不同的立体视频流，它可以为用户提供对于场景的自由视点选择，而且用户不需要配戴眼镜。为了提供一个宽阔的观赏视角和视点过渡，这种显示需要使用更多数目的视频流。深度图信息将有助于合成中间视点以到达视点无缝过渡的目的。然而，多台摄像机的拍摄导致了数据量的显著增加，需要对多路视频流进行压缩，一个直接的方法是利用最新的多视点视频编码国际标准（MVC）来压缩不同的纹理视点。然而，一方面，在MVC中使用的平移运动模型不足以消除由于不同摄像机拍出的物体的位置不同产生的视点间冗余。另一方面，这种方法忽略了纹理图和。

11、对应的深度图之间的关系。 0004 因此，在2006年，Martinian等人，首次提出深度辅助的视间预测方法，称为基于视点合成预测（VSP）的多视点视频编码，以提高视间预测效率1。这种方法的基本思想是通过三维变换来创建当前视点的一个虚拟视点，在预测的过程中可以作为附加的参考视点。与视差预测相比，VSP可很好地补偿不同视点间的几何差异。2008年，Oh等利用VSP 的技术来压缩多视深度数据2。此外，在2009年，Sehoon等提出了基于VSP的率失真优化模型3。为改变视差矢量的预测，在2010年，Iyer等通过基于VSP的后向变换，提出了一种基于三维变换的视差矢量预测方法4。在201。

12、1年，Shinya等利用VSP来完成后向运动估计和视差估计5。 0005 然而，现有的VSP技术仅仅使用了相邻的视点间信息去合成虚拟视点，由于深度信息的不准确，不同相机的异质性，和对象的非朗伯反射，虚拟视点的质量和预测能力是有限的。因此，现有的VSP技术很难大幅度降低码率，而在VSP技术中，虚拟视点不是被用于显示的，而只是用于预测。发明内容 0006 本发明主要是解决现有技术所存在的技术问题；提供了一种基于最小二乘的多视点视频编码视点合成预测方法。 0007 本发明的上述技术问题主要是通过下述技术方案得以解决的： 0008 一种基于最小二乘的多视点视频编码视点合成预测方法，其特征在。

13、于，包括以下步骤：说明书CN 102790895 A 2/5页 5 0009 步骤1，通过三维变换找到虚拟视点帧的当前像素点在参考视点帧中的对应像素； 0010 步骤2，将步骤1得到的参考视点帧中的对应像素及其邻域的八个像素，作为虚拟视点帧的当前像素的预测像素； 0011 步骤3，利用编码器中当前帧之前的重建帧及其虚拟视点帧，采用最小二乘法训练求得预测系数； 0012 步骤4，根据步骤3得到预测系数，将预测像素的像素值通过线性估计来得到当前像素的像素值， 0013 步骤5，对于每个像素重复执行步骤1至步骤4，最终得到虚拟视点帧； 0014 步骤6，将步骤5生成的虚拟视点帧，加入。

14、到参考帧列表，编码器根据参考帧列表对当前视点待编码帧进行编码。 0015 在上述的一种基于最小二乘的多视点视频编码视点合成预测方法，步骤1中，找到虚拟视点帧中的当前像素在参考视点帧中的对应像素的步骤采用以下步骤实现， 0016 对于虚拟视点帧中的当前像素其在参考视点帧中的对应像素通过式一和式二来获取： 0017 u,v,wR(c)A -1 (c)x,y,1Dc,t,x,y+T(c)式一 0018 x,y,zA(c)R -1 (c)u,v,w-T(c)式二 0019 式一和式二中，A，R和T分别表示内参矩阵，旋转矩阵和相机的平移矢量；c和t分别表示参考视点标号与视点内时域上的序号；D为深。

15、度值；x，y,1是虚拟视点帧中的像素坐标，x，y,z是参考视点帧中的像素坐标，u,v,w指的是世界坐标。 0020 在上述的一种基于最小二乘的多视点视频编码视点合成预测方法，步骤2中，将步骤1得到的参考视点帧中的对应像素及其周围像素，作为虚拟视点帧的当前像素的预测像素，选取方式如下： 0021 虚拟视点帧的当前像素的预测像素为步骤1中获得的与其邻域的N个像素。 0022 在上述的一种基于最小二乘的多视点视频编码视点合成预测方法，所述步骤3 中，利用先前已解码的帧及其虚拟视点帧，采用最小二乘法训练求得预测系数，具体采用以下步骤实现， 0023 步骤3.1：将先前已解码的帧作为训练样本，训。

16、练窗口的选择如下： 0024 W(T 1 ,T 1 )-T 1 ,T 1 -T 1 ,T 1 式三 0025 其中T1是空间窗口的大小；W(T 1 ,T 1 )表示训练窗口； 0026 步骤3.2：设在训练窗口中有M个样本，将窗口中的所有样本写成M1向量定义训练样本在其虚拟视点帧中的对应像素和它的N个相邻像素为1（N+1）的向量，则训练样本产生一个大小为M（N+1）的协方差矩阵C，于是，预测系数由式四和五获得： 0027 式四 0028 式五 0029 其中C M(N+1) 表示所有训练样本及其预测像素所组成的矩阵；和表示训练样本像素；C T 表示C M(N+1) 的转置。 0030 在。

17、上述的一种基于最小二乘的多视点视频编码视点合成预测方法，所述步骤4 中，根据步骤3得到预测系数，将预测像素的像素值通过线性估计来得到当前像素的像素说明书CN 102790895 A 3/5页 6 值，对于每个像素执行相同的操作，最终得到虚拟视点帧，采用以下步骤实现： 0031 在得到预测系数后，对于虚拟视点帧中的当前像素，它的像素值利用其在参考视点帧中的对应像素及该像素的邻域像素线性估计得来，如式六所示： 0032 式六 0033 其中为虚拟视点帧中的像素坐标x，y，1，表示对应像素及该像素的邻域像素的坐标。 0034 在上述的一种基于最小二乘的多视点视频编码视点合成预测方法，将步骤。

18、5生成的虚拟视点帧，加入到参考帧列表采用如下方式实现： 0035 对于P视点锚定帧，只使用LIST_0用于预测，直接在列表末尾增加虚拟视点帧，对于P视点锚定帧，只使用LIST_0预测，直接将虚拟视点帧放至参考帧列表末尾；对于P视点非锚定帧，LIST_0和LIST_1都用于层次B帧预测，因此用虚拟视点帧替换LIST_0中的第一个后向时域参考帧，以及LIST_1中的第一个前向时域参考帧，对于B视点的锚定帧，直接将虚拟视点帧加至LIST_0和LIST_1的末尾；对于B视点的非锚定帧，参考帧列表的管理方式和P视点的相同。 0036 因此，本发明具有如下优点：1、在合成虚拟视点进行预测时不仅。

19、利用了视间信息，还利用了时域信息，使得合成的视点对视点间光照的差异、深度信息的误差更加鲁棒；2、合成的视点更接近于当前视点，使得VSP技术能大幅度降低多视点视频编码码率。附图说明 0037 图1是本发明的方法流程示意图。具体实施方式 0038 下面通过实施例，并结合附图，对本发明的技术方案作进一步具体的说明。 0039 实施例： 0040 本发明技术方案可采用如下步骤进行。为便于实施参考起见，结合附图和实施例详细说明发明技术方案。本发明实施例提供基于最小二乘的视点合成预测多视点视频编码方法，采用MVC参考软件JMVC6.0作为编码器，选取分辨率为1024768大小的多视点标准测试。

20、序列“ballet”和“breakdancers”的第0、1、2视点进行本算法的测试，GOP（图像组）设置为8，QP（量化步长）分别为22,27,32,37，以编码第2视点中的第3帧为例，说明编码当前视点待编码帧时的步骤，流程图见图1： 0041 步骤1，通过三维变换找到第3帧的虚拟视点帧的当前像素在参考视点0的第 3帧中的对应像素 0042 u,v,wR(c)A -1 (c)x,y,1Dc,t,x,y+T(c) 0043 （1） 0044 x,y,zA(c)R -1 (c)u,v,w-T(c) 0045 （2） 0046 公式1和公式2中，A，R和T分别表示内参矩阵，旋转矩阵和相机的平移。

21、矢量；c和 t分别表示参考视点标号与视点内时域上的序号；D为深度值；x，y,1是虚拟视点帧中的像素的坐标，x，y,z是参考视点帧中的像素的坐标，u,v,w指的是世界坐说明书CN 102790895 A 4/5页 7 标。 0047 步骤2，将步骤1得到的参考视点帧中的对应像素及其周围像素，作为虚拟视点帧的当前像素的预测像素；实施例将步骤1得到的参考视点0的第3帧中的对应像素及其周围像素，作为虚拟视点帧的当前像素的预测像素。 0048 步骤3，利用先前已解码的帧及其虚拟视点帧，采用最小二乘法训练求得预测系数。为便于实施参考起见，提供具体步骤如下： 0049 步骤3.1：将先前已解码。

22、的帧作为训练样本，训练窗口的选择如下： 0050 W(T 1 ,T 1 )-T 1 ,T 1 -T 1 ,T 1 (3) 0051 其中T1是空间窗口的大小，在本申请中，T1设为3。那么训练窗口的大小为77。另外，由于先前已解码帧的虚拟视点帧已经被获取，对于一个训练样本，它的预测像素为虚拟帧中对应位置像素及其周围像素； 0052 步骤3.2：设在训练窗口中有M个样本，将窗口中的所有样本写成M1向量把训练样本在其虚拟视点帧中的对应像素和它的N个相邻像素写成1（N+1）的向量，这样所有的训练样本就可以产生一个大小为M（N+1）的协方差矩阵C，此处，M=49，N=9，于是，预测系数可以由公。

23、式4和公式5求得： 0053 0054 0055 步骤4，根据步骤3得到预测系数，将预测像素的像素值通过线性估计来得到当前像素的像素值，对于每个像素执行相同的操作，最终得到虚拟视点帧。为便于实施参考起见，提供具体步骤如下： 0056 步骤4.1：在得到预测系数后，对于虚拟视点帧中的当前像素，它的像素值利用其在参考视点帧中的对应像素及该像素的邻域像素线性估计得来，如公式6所示。 0057 0058 其中为虚拟视点帧中的像素坐标x，y，1，表示对应像素及该像素的邻域像素的坐标； 0059 步骤5，将步骤4生成的虚拟视点帧，加入到参考帧列表。为便于实施参考起见，提供步骤具体如下： 0060。

24、步骤5.1：对于第2视点中的第3帧，LIST_0和LIST_1都用于层次B帧编码，因此用虚拟视点帧替换LIST_0中的第一个后向时域参考帧，以及LIST_1中的第一个前向时域参考帧，根据参考帧列表对当前视点待编码帧进行编码。 0061 为说明本发明所取得的技术效果起见，对分辨率为1024768大小的“ballet”和 “breakdancers”多视点序列的第0、1、2视点进行编码测试，测试平台为JMVC6.0，每个视点的编码帧数为49帧，GOP（图像组）设置为8，QP（量化步长）分别为22,27,32,37，分别将本发明提出的方法、传统的基于视点合成预测的多视点视频编码方法4与MVC标准编码方法进行了比较，编码的码率节省结果下表所示，从中可以看出本发明具有更佳的压缩效率。 0062 说明书CN 102790895 A 5/5页 8 0063 本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。说明书CN 102790895 A 1/1页 9 图1 说明书附图CN 102790895 A 。

摘要
申请专利号：	CN201210266945.9	申请日：	2012.07.30
公开号：	CN102790895A	公开日：	2012.11.21
当前法律状态：	授权	有效性：	有权
法律详情：	专利权人的姓名或者名称、地址的变更IPC(主分类):H04N 13/00变更事项:专利权人变更前:中电科安（北京）科技股份有限公司变更后:中电科安科技股份有限公司变更事项:地址变更前:100102 北京市朝阳区广顺北大街33号院1号楼一单元7层808室变更后:100102 北京市朝阳区广顺北大街33号院1号楼一单元7层808室\|\|\|专利权人的姓名或者名称、地址的变更IPC(主分类):H04N 13/00变更事项:专利权人变更前:中电科安（北京）科技有限公司变更后:中电科安（北京）科技股份有限公司变更事项:地址变更前:100102 北京市朝阳区广顺北大街33号院1号楼1单元7层808室变更后:100102 北京市朝阳区广顺北大街33号院1号楼一单元7层808室\|\|\|专利权的转移IPC(主分类):H04N 13/00登记生效日:20160120变更事项:专利权人变更前权利人:武汉大学变更后权利人:中电科安（北京）科技有限公司变更事项:地址变更前权利人:430072 湖北省武汉市武昌区珞珈山武汉大学变更后权利人:100102 北京市朝阳区广顺北大街33号院1号楼1单元7层808室\|\|\|授权\|\|\|实质审查的生效IPC(主分类):H04N 13/00申请日:20120730\|\|\|公开
IPC分类号：	H04N13/00; H04N7/32	主分类号：	H04N13/00
申请人：	武汉大学
发明人：	胡瑞敏; 胡金晖; 段漭; 龚燕; 王中元
地址：	430072 湖北省武汉市武昌区珞珈山武汉大学
优先权：
专利代理机构：	武汉科皓知识产权代理事务所(特殊普通合伙) 42222	代理人：	鲁力
PDF完整版下载：	PDF下载

内容摘要

本发明涉及一种基于最小二乘的多视点视频编码视点合成预测方法。本发明首先通过三维变换找到虚拟视点帧的当前像素点在参考视点帧中的对应像素；然后，将得到的参考视点帧中的对应像素，作为虚拟视点帧的当前像素的预测像素；其次，利用先前已解码的帧及其虚拟视点帧，采用最小二乘法训练求得预测系数；再次，根据得到预测系数，将预测像素的像素值通过线性估计来得到当前像素的像素值，对于每个像素执行相同的操作，最终得到虚拟视点帧；最后，将生成的虚拟视点帧，加入到参考帧列表，编码器根据参考帧列表对当前视点待编码帧进行编码。本发明同时利用视点内和视点间的信息来增强合成视点的质量，提高了基于视点合成预测的多视点视频编码效率。

权利要求书

1.一种基于最小二乘的多视点视频编码视点合成预测方法，其特征在于，包括以下步骤：步骤1，通过三维变换找到虚拟视点帧的当前像素点在参考视点帧中的对应像素；步骤2，将步骤1得到的参考视点帧中的对应像素及其邻域的八个像素，作为虚拟视点帧的当前像素的预测像素；步骤3，利用编码器中当前帧之前的重建帧及其虚拟视点帧，采用最小二乘法训练求得预测系数；步骤4，根据步骤3得到预测系数，将预测像素的像素值通过线性估计来得到当前像素的像素值，步骤5，对于每个像素重复执行步骤1至步骤4，最终得到虚拟视点帧；步骤6，将步骤5生成的虚拟视点帧，加入到参考帧列表，编码器根据参考帧列表对当前视点待编码帧进行编码。2.根据权利要求1所述的一种基于最小二乘的多视点视频编码视点合成预测方法，其特征在于，步骤1中，找到虚拟视点帧中的当前像素在参考视点帧中的对应像素的步骤采用以下步骤实现，对于虚拟视点帧中的当前像素其在参考视点帧中的对应像素通过式一和式二来获取：[u,v,w]＝R(c)·A-1(c)·[x,y,1]·D[c,t,x,y]+T(c)[x′，y′，z']＝A(c′)·R-1(c')·{[u,v,w]-T(c′)}式二式一和式二中，A，R和T分别表示内参矩阵，旋转矩阵和相机的平移矢量；c和t分别表示参考视点标号与视点内时域上的序号；D为深度值；[x，y,1]是虚拟视点帧中的像素坐标，[x′，y',z']是参考视点帧中的像素坐标，[u,v,w]指的是世界坐标。3.根据权利要求1所述的一种基于最小二乘的多视点视频编码合成预测方法，其特征在于，步骤2中，将步骤1得到的参考视点帧中的对应像素及其周围像素，作为虚拟视点帧的当前像素的预测像素，选取方式如下：虚拟视点帧的当前像素的预测像素为步骤1中获得的与其邻域的N个像素。4.根据权利要求1所述的一种基于最小二乘的多视点视频编码视点合成预测方法，其特征在于，所述步骤3中，利用先前已解码的帧及其虚拟视点帧，采用最小二乘法训练求得预测系数，具体采用以下步骤实现，步骤3.1：将先前已解码的帧作为训练样本，训练窗口的选择如下：W(T1,T1)＝[-T1,T1]×[-T1,T1]式三其中T1是空间窗口的大小；W(T1,T1)表示训练窗口；步骤3.2：设在训练窗口中有M个样本，将窗口中的所有样本写成M×1向量定义训练样本在其虚拟视点帧中的对应像素和它的N个相邻像素为1×（N+1）的向量，则训练样本产生一个大小为M×（N+1）的协方差矩阵C，于是，预测系数由式四和五获得： α → = arg min α → MSE = arg min α → | | y → M × 1 - C M × ( N + 1 ) α → ( N + 1 ) × 1 | | 2 ]]>式四 α → = ( C T C ) - 1 C T y → ]]>式五其中CM×(N+1)表示所有训练样本及其预测像素所组成的矩阵；和表示训练样本像素；CT表示CM×(N+1)的转置。5.根据权利要求1所述的一种基于最小二乘的多视点视频编码视点合成预测方法，其特征在于，所述步骤4中，根据步骤3得到预测系数，将预测像素的像素值通过线性估计来得到当前像素的像素值，对于每个像素执行相同的操作，最终得到虚拟视点帧，采用以下步骤实现：在得到预测系数后，对于虚拟视点帧中的当前像素，它的像素值利用其在参考视点帧中的对应像素及该像素的邻域像素线性估计得来，如式六所示： P syn ( n → 1 ) = Σ k = 1 N + 1 α k P ref ( m → k ) ]]>式六其中为虚拟视点帧中的像素坐标[x，y,1]，表示对应像素及该像素的邻域像素的坐标。6.根据权利要求1所述的一种基于最小二乘的多视点视频编码视点合成预测方法，其特征在于，将步骤5生成的虚拟视点帧，加入到参考帧列表采用如下方式实现：对于P视点锚定帧，只使用LIST_0用于预测，直接在列表末尾增加虚拟视点帧，对于P视点锚定帧，只使用LIST_0预测，直接将虚拟视点帧放至参考帧列表末尾；对于P视点非锚定帧，LIST_0和LIST_1都用于层次B帧预测，因此用虚拟视点帧替换LIST_0中的第一个后向时域参考帧，以及LIST_1中的第一个前向时域参考帧，对于B视点的锚定帧，直接将虚拟视点帧加至LIST_0和LIST_1的末尾；对于B视点的非锚定帧，参考帧列表的管理方式和P视点的相同。

说明书

一种基于最小二乘的多视点视频编码视点合成预测方法

技术领域

本发明涉及一种多视点视频编码视点合成预测方法，尤其是涉及一种
基于最小二乘的多视点视频编码视点合成预测方法。

背景技术

第一代3D显示终端是基于左右格式的，它只提供两路视频流，分别用
于左右眼。这意味着基于这种立体终端要求观看者佩戴特殊眼镜坐在一个
较为狭窄的范围内观看。虽然，当前的立体显示系统能够提供高质量的3D
视频，但在观看上的这些限制影响了观看时的舒适与自然。近来，深度图
研究的进步带动了一种新的3D显示终端的发展，即自由视点电视。

自由视点电视在不同方向显示不同的立体视频流，它可以为用户提供
对于场景的自由视点选择，而且用户不需要配戴眼镜。为了提供一个宽阔
的观赏视角和视点过渡，这种显示需要使用更多数目的视频流。深度图信
息将有助于合成中间视点以到达视点无缝过渡的目的。然而，多台摄像机
的拍摄导致了数据量的显著增加，需要对多路视频流进行压缩，一个直接
的方法是利用最新的多视点视频编码国际标准（MVC）来压缩不同的纹理视
点。然而，一方面，在MVC中使用的平移运动模型不足以消除由于不同摄像
机拍出的物体的位置不同产生的视点间冗余。另一方面，这种方法忽略了
纹理图和对应的深度图之间的关系。

因此，在2006年，Martinian等人，首次提出深度辅助的视间预测方法，
称为基于视点合成预测（VSP）的多视点视频编码，以提高视间预测效率[1]。
这种方法的基本思想是通过三维变换来创建当前视点的一个虚拟视点，在
预测的过程中可以作为附加的参考视点。与视差预测相比，VSP可很好地补
偿不同视点间的几何差异。2008年，Oh等利用VSP的技术来压缩多视深度数
据[2]。此外，在2009年，Sehoon等提出了基于VSP的率失真优化模型[3]。
为改变视差矢量的预测，在2010年，Iyer等通过基于VSP的后向变换，提出
了一种基于三维变换的视差矢量预测方法[4]。在2011年，Shinya等利用VSP
来完成后向运动估计和视差估计[5]。

然而，现有的VSP技术仅仅使用了相邻的视点间信息去合成虚拟视
点，由于深度信息的不准确，不同相机的异质性，和对象的非朗伯反射，
虚拟视点的质量和预测能力是有限的。因此，现有的VSP技术很难大幅度降
低码率，而在VSP技术中，虚拟视点不是被用于显示的，而只是用于预测。

发明内容

本发明主要是解决现有技术所存在的技术问题；提供了一种基于最小
二乘的多视点视频编码视点合成预测方法。

本发明的上述技术问题主要是通过下述技术方案得以解决的：

一种基于最小二乘的多视点视频编码视点合成预测方法，其特征在于，
包括以下步骤：

步骤1，通过三维变换找到虚拟视点帧的当前像素点在参考视点帧中的
对应像素；

步骤2，将步骤1得到的参考视点帧中的对应像素及其邻域的八个像素，
作为虚拟视点帧的当前像素的预测像素；

步骤3，利用编码器中当前帧之前的重建帧及其虚拟视点帧，采用最小
二乘法训练求得预测系数；

步骤4，根据步骤3得到预测系数，将预测像素的像素值通过线性估计
来得到当前像素的像素值，

步骤5，对于每个像素重复执行步骤1至步骤4，最终得到虚拟视点帧；

步骤6，将步骤5生成的虚拟视点帧，加入到参考帧列表，编码器根据
参考帧列表对当前视点待编码帧进行编码。

在上述的一种基于最小二乘的多视点视频编码视点合成预测方法，步
骤1中，找到虚拟视点帧中的当前像素在参考视点帧中的对应像素的步骤
采用以下步骤实现，

对于虚拟视点帧中的当前像素其在参考视点帧中的对应像素
通过式一和式二来获取：

[u,v,w]＝R(c)·A-1(c)·[x,y,1]·D[c,t,x,y]+T(c)式一

[x',y',z']＝A(c')·R-1(c')·{[u,v,w]-T(c′)}式二

式一和式二中，A，R和T分别表示内参矩阵，旋转矩阵和相机的平移
矢量；c和t分别表示参考视点标号与视点内时域上的序号；D为深度值；
[x，y,1]是虚拟视点帧中的像素坐标，[x′，y',z']是参考视点帧中的像素坐标，
[u,v,w]指的是世界坐标。

在上述的一种基于最小二乘的多视点视频编码视点合成预测方法，步
骤2中，将步骤1得到的参考视点帧中的对应像素及其周围像素，作为虚
拟视点帧的当前像素的预测像素，选取方式如下：

虚拟视点帧的当前像素的预测像素为步骤1中获得的与其邻域的
N个像素。

在上述的一种基于最小二乘的多视点视频编码视点合成预测方法，所
述步骤3中，利用先前已解码的帧及其虚拟视点帧，采用最小二乘法训练
求得预测系数，具体采用以下步骤实现，

步骤3.1：将先前已解码的帧作为训练样本，训练窗口的选择如下：

W(T1,T1)＝[-T1,T1]×[-T1,T1]式三

其中T1是空间窗口的大小；W(T1,T1)表示训练窗口；

步骤3.2：设在训练窗口中有M个样本，将窗口中的所有样本写成M×1向
量定义训练样本在其虚拟视点帧中的对应像素和它的N个相邻像素为1×
（N+1）的向量，则训练样本产生一个大小为M×（N+1）的协方差矩阵C，
于是，预测系数由式四和五获得：

α → = arg min α → MSE = arg min α → | | y → M × 1 - C M × ( N + 1 ) α → ( N + 1 ) × 1 | | 2 ]]>式四

α → = ( C T C ) - 1 C T y → ]]>式五

其中CM×(N+1)表示所有训练样本及其预测像素所组成的矩阵；和表示
训练样本像素；CT表示CM×(N+1)的转置。

在上述的一种基于最小二乘的多视点视频编码视点合成预测方法，所
述步骤4中，根据步骤3得到预测系数，将预测像素的像素值通过线性估
计来得到当前像素的像素值，对于每个像素执行相同的操作，最终得到虚
拟视点帧，采用以下步骤实现：

在得到预测系数后，对于虚拟视点帧中的当前像素，它的像素值利用
其在参考视点帧中的对应像素及该像素的邻域像素线性估计得来，如式六
所示：

P syn ( n → 1 ) = Σ k = 1 N + 1 α k P ref ( m → k ) ]]>式六

其中为虚拟视点帧中的像素坐标[x，y，1]，表示对应像素及该像素
的邻域像素的坐标。

在上述的一种基于最小二乘的多视点视频编码视点合成预测方法，将
步骤5生成的虚拟视点帧，加入到参考帧列表采用如下方式实现：

对于P视点锚定帧，只使用LIST_0用于预测，直接在列表末尾增加虚
拟视点帧，对于P视点锚定帧，只使用LIST_0预测，直接将虚拟视点帧放
至参考帧列表末尾；对于P视点非锚定帧，LIST_0和LIST_1都用于层次B
帧预测，因此用虚拟视点帧替换LIST_0中的第一个后向时域参考帧，以及
LIST_1中的第一个前向时域参考帧，对于B视点的锚定帧，直接将虚拟视
点帧加至LIST_0和LIST_1的末尾；对于B视点的非锚定帧，参考帧列表
的管理方式和P视点的相同。

因此，本发明具有如下优点：1、在合成虚拟视点进行预测时不仅利用
了视间信息，还利用了时域信息，使得合成的视点对视点间光照的差异、
深度信息的误差更加鲁棒；2、合成的视点更接近于当前视点，使得VSP技
术能大幅度降低多视点视频编码码率。

附图说明

图1是本发明的方法流程示意图。

具体实施方式

下面通过实施例，并结合附图，对本发明的技术方案作进一步具体的
说明。

实施例：

本发明技术方案可采用如下步骤进行。为便于实施参考起见，结合附
图和实施例详细说明发明技术方案。本发明实施例提供基于最小二乘的视
点合成预测多视点视频编码方法，采用MVC参考软件JMVC6.0作为编码器，
选取分辨率为1024×768大小的多视点标准测试序列“ballet”和
“breakdancers”的第0、1、2视点进行本算法的测试，GOP（图像组）设
置为8，QP（量化步长）分别为22,27,32,37，以编码第2视点中的第3帧
为例，说明编码当前视点待编码帧时的步骤，流程图见图1：

步骤1，通过三维变换找到第3帧的虚拟视点帧的当前像素在参考
视点0的第3帧中的对应像素

[u,v,w]＝R(c)·A-1(c)·[x,y,1]·D[c,t,x,y]+T(c)

（1）

[x',y',z']＝A(c')·R-1(c')·{[u,v,w]-T(c′)}

（2）

公式1和公式2中，A，R和T分别表示内参矩阵，旋转矩阵和相机的
平移矢量；c和t分别表示参考视点标号与视点内时域上的序号；D为深度
值；[x，y,1]是虚拟视点帧中的像素的坐标，[x′，y',z']是参考视点帧中的像
素的坐标，[u,v,w]指的是世界坐标。

步骤2，将步骤1得到的参考视点帧中的对应像素及其周围像素，作为
虚拟视点帧的当前像素的预测像素；实施例将步骤1得到的参考视点0的
第3帧中的对应像素及其周围像素，作为虚拟视点帧的当前像素的预测像
素。

步骤3，利用先前已解码的帧及其虚拟视点帧，采用最小二乘法训练求
得预测系数。为便于实施参考起见，提供具体步骤如下：

步骤3.1：将先前已解码的帧作为训练样本，训练窗口的选择如下：

W(T1,T1)＝[-T1,T1]×[-T1,T1](3)

其中T1是空间窗口的大小，在本申请中，T1设为3。那么训练窗口的
大小为7×7。另外，由于先前已解码帧的虚拟视点帧已经被获取，对于一
个训练样本，它的预测像素为虚拟帧中对应位置像素及其周围像素；

步骤3.2：设在训练窗口中有M个样本，将窗口中的所有样本写成M×1
向量把训练样本在其虚拟视点帧中的对应像素和它的N个相邻像素写成1
×（N+1）的向量，这样所有的训练样本就可以产生一个大小为M×（N+1）
的协方差矩阵C，此处，M=49，N=9，于是，预测系数可以由公式4和公式5
求得：

α → = arg min α → MSE = arg min α → | | y → M × 1 - C M × ( N + 1 ) α → ( N + 1 ) × 1 | | 2 - - - ( 4 ) ]]>

α → = ( C T C ) - 1 C T y → - - - ( 5 ) ]]>

步骤4，根据步骤3得到预测系数，将预测像素的像素值通过线性估计
来得到当前像素的像素值，对于每个像素执行相同的操作，最终得到虚拟
视点帧。为便于实施参考起见，提供具体步骤如下：

步骤4.1：在得到预测系数后，对于虚拟视点帧中的当前像素，它的像
素值利用其在参考视点帧中的对应像素及该像素的邻域像素线性估计得
来，如公式6所示。

P syn ( n → 1 ) = Σ k = 1 N + 1 α k P ref ( m → k ) - - - ( 6 ) ]]>

其中为虚拟视点帧中的像素坐标[x，y，1]，表示对应像素及该像素
的邻域像素的坐标；

步骤5，将步骤4生成的虚拟视点帧，加入到参考帧列表。为便于实施
参考起见，提供步骤具体如下：

步骤5.1：对于第2视点中的第3帧，LIST_0和LIST_1都用于层次B
帧编码，因此用虚拟视点帧替换LIST_0中的第一个后向时域参考帧，以及
LIST_1中的第一个前向时域参考帧，根据参考帧列表对当前视点待编码帧
进行编码。

为说明本发明所取得的技术效果起见，对分辨率为1024×768大小的
“ballet”和“breakdancers”多视点序列的第0、1、2视点进行编码测
试，测试平台为JMVC6.0，每个视点的编码帧数为49帧，GOP（图像组）设
置为8，QP（量化步长）分别为22,27,32,37，分别将本发明提出的方法、
传统的基于视点合成预测的多视点视频编码方法[4]与MVC标准编码方法进
行了比较，编码的码率节省结果下表所示，从中可以看出本发明具有更佳
的压缩效率。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明
所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或
补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权
利要求书所定义的范围。