单视图的三维重建方法、系统、设备及存储介质.pdf

上传人：jo****n 文档编号：14526287 上传时间：2024-05-19 格式：PDF 页数：25 大小：3.37MB

收藏版权申诉举报下载

第1页 / 共25页

第2页 / 共25页

第3页 / 共25页

下载文档到电脑，查找使用更方便

30 金币

下载文档

文档描述：

《单视图的三维重建方法、系统、设备及存储介质.pdf》由会员分享，可在线阅读，更多相关《单视图的三维重建方法、系统、设备及存储介质.pdf（25页完成版）》请在专利查询网上搜索。

1、(19)国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 202410001553.2(22)申请日 2024.01.02(71)申请人中南大学地址 410083 湖南省长沙市岳麓区麓山南路932号(72)发明人黄芳熊文晶李祖德张昊(74)专利代理机构广州嘉权专利商标事务所有限公司 44205专利代理师王本晋(51)Int.Cl.G06T 17/00(2006.01)G06N 3/0464(2023.01)G06T 7/50(2017.01)G06T 7/80(2017.01)(54)发明名称一种单视图的三维重建方法、系统、设备及存储介质(57)。

2、摘要本发明公开了一种单视图的三维重建方法、系统、设备及存储介质，包括获取由相机拍摄的单视图图像；通过深度学习提取单视图图像中的相机参数值和预测的深度值，进而利用相机参数值反向投影构建出一个估计的三维体素，从这个三维体素中提取一个初始三维特征，再根据初始三维特征重建成一个更加接近与真实体素的最终三维体素。不仅仅忽略了对三维体素数据库的前置依赖，实现了能基于单视图图像的三维重建；而且先估计一个三维体素，再优化得到更加接近与真实体素的最终三维体素，能提升重建最终三维体素的准确度。权利要求书3页说明书16页附图5页CN 117496075 A2024.02.02CN 117496075 A1.一种。

3、单视图的三维重建方法，其特征在于，所述单视图的三维重建方法包括：获取由相机拍摄的单视图图像；将所述单视图图像输入第一卷积神经网络模型，得到所述第一卷积神经网络模型预测的相机参数和深度图；根据所述单视图图像、所述相机参数和所述深度图进行反向投影，得到初始三维体素；将所述初始三维体素输入第二卷积神经网络模型进行特征提取，得到所述第二卷积神经网络模型预测的三维特征；将所述三维特征输入第三卷积神经网络模型，得到所述第三卷积神经网络模型对所述单视图图像进行三维体素重建的最终三维体素；根据所述最终三维体素建模得到所述单视图图像的三维预测模型。2.根据权利要求1所述的一种单视图的三维重建方法，其特征在于，所。

4、述第一卷积神经网络模型的训练过程包括：获取单视图训练图像，并构建相机参数预测模型；将所述单视图训练图像输入至相机参数预测模型，得到所述相机参数预测模型预测的第一相机参数和第一深度图；计算所述第一相机参数与预设的真实相机参数之间的第一损失以及所述第一深度图与真实深度图之间的第二损失；根据所述第一损失和所述第二损失组合得到第三损失；根据所述第三损失对所述相机参数预测模型进行反向优化，得到优化完成的所述相机参数预测模型，并将所述优化完成的所述相机参数预测模型作为所述第一卷积神经网络模型。3.根据权利要求2所述的一种单视图的三维重建方法，其特征在于，所述第二卷积神经网络模型的训练过程包括：将所述单视图。

5、训练图像输入至所述第一卷积神经网络模型中，得到所述第一卷积神经网络模型预测的第二相机参数和第二深度图；将所述单视图训练图像、所述第二相机参数和所述第二深度图进行反向投影，得到第一初始三维体素；构建三维卷积神经网络模型；将所述第一初始三维体素输入至所述三维卷积神经网络模型中，得到所述三维卷积神经网络模型输出的第一三维特征；将所述单视图训练图像对应的真实三维体素输入至所述三维卷积神经网络模型中，得到所述三维卷积神经网络模型输出的第二三维特征；分别计算所述第一三维特征的三元损失、所述第二三维特征的三元损失以及所述第一三维特征和所述第二三维特征之间的跨领域三元损失，并结合所述第一三维特征的三元损失、所。

6、述第二三维特征的三元损失和所述跨领域三元损失，得到三元总损失；根据所述三元总损失对所述三维卷积神经网络模型进行反向优化，得到优化完成的所述三维卷积神经网络模型，并将优化完成的所述三维卷积神经网络模型作为所述第二卷积神经网络模型。4.根据权利要求3所述的一种单视图的三维重建方法，其特征在于，所述第三卷积神经权利要求书1/3 页2CN 117496075 A2网络模型的训练过程包括：将所述第一初始三维体素输入至所述第二卷积神经网络模型中，得到所述第二卷积神经网络模型输出的三维预测特征；构建三维体素重建模型；将所述三维预测特征输入至所述三维体素重建模型中，得到所述三维体素重建模型输出的第一最终三维体。

7、素；根据所述第一最终三维体素和所述真实三维体素采用如下公式进行损失计算，得到第一三维损失：，其中，为第一三维损失，为体素的分辨率，为第一最终三维体素的第个体素单元格的预测概率值，为真实三维体素的第个体素单元格的真实值，为预设的重建损失权重值；根据所述第一三维损失对所述三维体素重建模型进行反向优化，得到优化完成的所述三维体素重建模型，并将所述优化完成的所述三维体素重建模型作为所述第三卷积神经网络模型。5.根据权利要求3所述的一种单视图的三维重建方法，其特征在于，所述分别计算所述第一三维特征的三元损失、所述第二三维特征的三元损失以及所述第一三维特征和所述第二三维特征之间的跨领域三元损失，包括：。

8、采用如下公式计算所述第一三维特征的三元损失：，其中，为距离计算函数，为距离计算函数的参数，为距离计算函数的参数，为第一三维特征的三元损失，为由构成的三元组个数，为第一三维特征中随机选取的一个特征锚点，为在第一三维特征中和锚点属于同一类别的特征，为在第一三维特征中和锚点属于不同类别的特征，为预设第一边界值；采用如下公式计算所述第二三维特征的三元损失：，其中，为第二三维特征的三元损失，为第二三维特征中随机选取的一个特征锚点，为在第二三维特征中和锚点属于同一类别的特征，为在第二三维特征中和锚点属于不同类别的特征；采用如下公式计算所述第二三维特征之间的跨领域三元损失：，其中，为第二三维特征之间的跨领域。

9、三元损失，为预设第二边界值。6.根据权利要求5所述的一种单视图的三维重建方法，其特征在于，采用如下公式计算权利要求书2/3 页3CN 117496075 A3所述三元总损失：，其中，为三元总损失，为第一预设权重值，为第二预设权重值，为第三预设权重值。7.根据权利要求1所述的一种单视图的三维重建方法，其特征在于，所述根据所述单视图图像、所述相机参数和所述深度图进行反向投影，得到初始三维体素，包括：获取所述单视图图像中每个像素的像素坐标；根据所述单视图图像中每个像素的像素坐标、所述单视图图像、所述相机参数和所述深度图进行反向投影，得到预测三维坐标；根据所述预测三维坐标通过点云体素化进行体素转化，得。

10、到所述初始三维体素。8.一种单视图的三维重建系统，其特征在于，所述单视图的三维重建系统包括：数据获取模块，用于获取由相机拍摄的单视图图像；相机参数和深度值预测模块，用于将所述单视图图像输入第一卷积神经网络模型，得到所述第一卷积神经网络模型预测的相机参数和深度图；反向投影模块，用于根据所述单视图图像、所述相机参数和所述深度图进行反向投影，得到初始三维体素；特征提取模块，用于将所述初始三维体素输入第二卷积神经网络模型进行特征提取，得到所述第二卷积神经网络模型预测的三维特征；三维体素重建模块，用于将所述三维特征输入第三卷积神经网络模型，得到所述第三卷积神经网络模型对所述单视图图像进行三维体素重建的最。

11、终三维体素；建模模块，用于根据所述最终三维体素建模得到所述单视图图像的三维预测模型。9.一种单视图的三维重建设备，其特征在于，包括至少一个控制处理器和用于与所述至少一个控制处理器通信连接的存储器；所述存储器存储有可被所述至少一个控制处理器执行的指令，所述指令被所述至少一个控制处理器执行，以使所述至少一个控制处理器能够执行如权利要求1至7任一项所述的一种单视图的三维重建方法。10.一种计算机可读存储介质，其特征在于：所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如权利要求1至7任一项所述的一种单视图的三维重建方法。权利要求书3/3 页4CN 117496075。

12、 A4一种单视图的三维重建方法、系统、设备及存储介质技术领域0001本发明涉及三维重建相关技术领域，尤其是涉及一种单视图的三维重建方法、系统、设备及存储介质。背景技术0002三维重建是计算机领域的一个重要研究方向。利用计算机重建出物体的三维模型，已经成为众多领域进行深入研究前不可或缺的一部分；在医疗领域中，利用三维模型诊断身体状况；在历史文化领域中，将文物进行立体重建，共科学研究及游客参观。除此之外，在游戏开发、工业设计、航天航海等领域，三维重建技术具有重要的应用前景。单视角图像是日常中最容易获得且不需要额外进行数据处理，相比于多视角视图来说，如何从单视图重建对应的三维模型有更大的研究和实用价。

13、值。三维模型的表示形式有三种：体素模型、网格模型和点云模型。体素是三维空间中的正方体，相当于三维空间中的像素；网格是由多个三角形组成的多面体结构，可以表示复杂物体的表面形状；点云是坐标系中点的集合，包含了三维坐标、颜色、分类值等信息。而根据输入的图像，又可以分为单视图重建与多视图重建。0003目前的三维重建方法分为主动式三维重建与被动式三维重建。主动式三维重建如结构光法、TOF飞行时间发等已经在工业CT、数字化城市、文物修复等工程中得到一定的应用，但其时常受到光、距离局限等因素干扰，不仅计算量大还受限于整体数据采集设备的精密性和收集条件的好坏，例如三维扫描设备在采集目标对象信息时要求被采集物体。

14、在一定的背景、光照和角度下保持一段时间的相对稳定性。而利用相机运动和几何原理的被动式三维重建方法往往被约束与复杂的相机标定和立体匹配，并且计算量较大，重建过程较为复杂，如明暗恢复结构法、运动恢复结构法和多视图立体匹配等。被动式传统三维重建方法需要的条件比较简单，不像主动式三维重建那样依赖硬件，主要靠视觉算法完成，其需要图像序列或多视角图像作为输入，由于单视图信息太少，这种方法很难适用于单视图的三维重建，而且目前的跨领域检索在三维体素重建中的应用需要基于一个提前定义好的预测的最终三维体素数据库。0004综上，目前的三维重建方法通常需要图像序列或多视角图像作为输入，由于单视图的信息量较少，所以针对。

15、单视图的三维图像的重建较为复杂，而且重建的效果不佳。发明内容0005本发明旨在至少解决现有技术中存在的技术问题。为此，本发明提出一种单视图的三维重建方法、系统、设备及存储介质，能够忽略对三维体素数据库的前置依赖，提升了重建最终三维体素的准确度。0006本发明的第一方面，提供了一种单视图的三维重建方法，包括如下步骤：获取由相机拍摄的单视图图像；将所述单视图图像输入第一卷积神经网络模型，得到所述第一卷积神经网络模型说明书1/16 页5CN 117496075 A5预测的相机参数和深度图；根据所述单视图图像、所述相机参数和所述深度图进行反向投影，得到初始三维体素；将所述初始三维体素输入第二卷积神经网。

16、络模型进行特征提取，得到所述第二卷积神经网络模型预测的三维特征；将所述三维特征输入第三卷积神经网络模型，得到所述第三卷积神经网络模型对所述单视图图像进行三维体素重建的最终三维体素；根据所述最终三维体素建模得到所述单视图图像的三维预测模型。0007根据本发明实施例的控制方法，至少具有如下有益效果：本方法通过深度学习提取单视图图像中的相机参数值和预测的深度值，进而利用相机参数值反向投影构建出一个估计的三维体素，然后从这个三维体素中提取一个初始三维特征，最后再根据初始三维特征重建成一个更加接近与真实体素的最终三维体素。本方法利用到了相机参数值这一关键信息反向投影构建出一个估计的三维体素，进而利用这一。

17、个估计的三维体素重建出了最终三维体素，不仅仅忽略了对三维体素数据库的前置依赖，实现了能基于单视图图像的三维重建；而且先估计一个三维体素，再优化得到更加接近与真实体素的最终三维体素，能提升重建最终三维体素的准确度。0008根据本发明的一些实施例，所述第一卷积神经网络模型的训练过程包括：获取单视图训练图像，并构建相机参数预测模型；将所述单视图训练图像输入至相机参数预测模型，得到所述相机参数预测模型预测的第一相机参数和第一深度图；计算所述第一相机参数与预设的真实相机参数之间的第一损失以及所述第一深度图与真实深度图之间的第二损失；根据所述第一损失和所述第二损失组合得到第三损失；根据所述第三损失对所述相。

18、机参数预测模型进行反向优化，得到优化完成的所述相机参数预测模型，并将所述优化完成的所述相机参数预测模型作为所述第一卷积神经网络模型。0009根据本发明的一些实施例，所述第二卷积神经网络模型的训练过程包括：将所述单视图训练图像输入至所述第一卷积神经网络模型中，得到所述第一卷积神经网络模型预测的第二相机参数和第二深度图；将所述单视图训练图像、所述第二相机参数和所述第二深度图进行反向投影，得到第一初始三维体素；构建三维卷积神经网络模型；将所述第一初始三维体素输入至所述三维卷积神经网络模型中，得到所述三维卷积神经网络模型输出的第一三维特征；将所述单视图训练图像对应的真实三维体素输入至所述三维卷积神经网。

19、络模型中，得到所述三维卷积神经网络模型输出的第二三维特征；分别计算所述第一三维特征的三元损失、所述第二三维特征的三元损失以及所述第一三维特征和所述第二三维特征之间的跨领域三元损失，并结合所述第一三维特征的三元损失、所述第二三维特征的三元损失和所述跨领域三元损失，得到三元总损失；说明书2/16 页6CN 117496075 A6根据所述三元总损失对所述三维卷积神经网络模型进行反向优化，得到优化完成的所述三维卷积神经网络模型，并将优化完成的所述三维卷积神经网络模型作为所述第二卷积神经网络模型。0010根据本发明的一些实施例，所述第三卷积神经网络模型的训练过程包括：将所述第一初始三维体素输入至所述第。

20、二卷积神经网络模型中，得到所述第二卷积神经网络模型输出的三维预测特征；构建三维体素重建模型；将所述三维预测特征输入至所述三维体素重建模型中，得到所述三维体素重建模型输出的第一最终三维体素；根据所述第一最终三维体素和所述真实三维体素采用如下公式进行损失计算，得到第一三维损失：，0011其中，为第一三维损失，为体素的分辨率，为第一最终三维体素的第个体素单元格的预测概率值，为真实三维体素的第个体素单元格的真实值，为预设的重建损失权重值；0012根据所述第一三维损失对所述三维体素重建模型进行反向优化，得到优化完成的所述三维体素重建模型，并将所述优化完成的所述三维体素重建模型作为所述第三卷积神经网络。

21、模型。0013根据本发明的一些实施例，所述分别计算所述第一三维特征的三元损失、所述第二三维特征的三元损失以及所述第一三维特征和所述第二三维特征之间的跨领域三元损失，包括：采用如下公式计算所述第一三维特征的三元损失：，0014，0015其中，为距离计算函数，为距离计算函数的参数，为距离计算函数的参数，为第一三维特征的三元损失，为由构成的三元组个数，为第一三维特征中随机选取的一个特征锚点，为在第一三维特征中和锚点属于同一类别的特征，为在第一三维特征中和锚点属于不同类别的特征，为预设第一边界值；0016采用如下公式计算所述第二三维特征的三元损失：，0017其中，为第二三维特征的三元损失，为第二三维特。

22、征中随机选取的一个特征锚点，为在第二三维特征中和锚点属于同一类别的特征，为在第二三维特征中和锚点属于不同类别的特征；0018采用如下公式计算所述第二三维特征之间的跨领域三元损失：说明书3/16 页7CN 117496075 A7，0019其中，为第二三维特征之间的跨领域三元损失，为预设第二边界值。0020根据本发明的一些实施例，采用如下公式计算所述三元总损失：，0021其中，为三元总损失，为第一预设权重值，为第二预设权重值，为第三预设权重值。0022根据本发明的一些实施例，所述根据所述单视图图像、所述相机参数和所述深度图进行反向投影，得到初始三维体素，包括：获取所述单视图图像中每个像素的像素坐。

23、标；根据所述单视图图像中每个像素的像素坐标、所述单视图图像、所述相机参数和所述深度图进行反向投影，得到预测三维坐标；根据所述预测三维坐标通过点云体素化进行体素转化，得到所述初始三维体素。0023本发明的第二方面，提供一种单视图的三维重建系统，所述单视图的三维重建系统包括：数据获取模块，用于获取由相机拍摄的单视图图像；相机参数和深度值预测模块，用于将所述单视图图像输入第一卷积神经网络模型，得到所述第一卷积神经网络模型预测的相机参数和深度图；反向投影模块，用于根据所述单视图图像、所述相机参数和所述深度图进行反向投影，得到初始三维体素；特征提取模块，用于将所述初始三维体素输入第二卷积神经网络模型进行。

24、特征提取，得到所述第二卷积神经网络模型预测的三维特征；三维体素重建模块，用于将所述三维特征输入第三卷积神经网络模型，得到所述第三卷积神经网络模型对所述单视图图像进行三维体素重建的最终三维体素；建模模块，用于根据所述最终三维体素建模得到所述单视图图像的三维预测模型。0024本系统通过深度学习提取单视图图像中的相机参数值和预测的深度值，进而利用相机参数值反向投影构建出一个估计的三维体素，然后从这个三维体素中提取一个初始三维特征，最后再根据初始三维特征重建成一个更加接近与真实体素的最终三维体素。本方法利用到了相机参数值这一关键信息反向投影构建出一个估计的三维体素，进而利用这一个估计的三维体素重建出了。

25、最终三维体素，不仅仅忽略了对三维体素数据库的前置依赖，实现了能基于单视图图像的三维重建；而且先估计一个三维体素，再优化得到更加接近与真实体素的最终三维体素，能提升重建最终三维体素的准确度。0025本发明的第三方面，提供了一种单视图的三维重建电子设备，包括至少一个控制处理器和用于与所述至少一个控制处理器通信连接的存储器；所述存储器存储有可被所述至少一个控制处理器执行的指令，所述指令被所述至少一个控制处理器执行，以使所述至少一个控制处理器能够执行上述的单视图的三维重建方法。0026本发明的第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于。

26、使计算机执行上述的单视图的三维说明书4/16 页8CN 117496075 A8重建方法。0027需要注意的是，本发明的第二方面至第四方面与现有技术之间的有益效果与上述的一种单视图的三维重建系统与现有技术之间的有益效果相同，此处不再细述。0028本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。附图说明0029本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：图1是本发明一实施例的一种单视图的三维重建方法的流程图；图2是本发明实施例提供的一种单视图的三维重建方法的步骤S102的第一卷积神经网络模型的。

27、训练过程示意图；图3是本发明实施例提供的一种单视图的三维重建方法的步骤S104的第二卷积神经网络模型的训练过程示意图；图4是本发明实施例提供的一种单视图的三维重建方法的步骤S105的第三卷积神经网络模型的训练过程示意图；图5是本发明实施例提供的一种单视图的三维重建方法的步骤S103的根据单视图图像、相机参数和深度图进行反向投影得到初始三维体素的流程图；图6是本发明实施例提供的一种单视图的三维重建方法的第一卷积神经网络模型训练流程图；图7是本发明实施例提供的一种单视图的三维重建方法的第二卷积神经网络模型训练流程图；图8是本发明实施例提供的一种单视图的三维重建方法的第三卷积神经网络模型训练流程图；。

28、图9是本发明实施例提供的一种单视图的三维重建方法的整体训练流程图；图10是本发明一实施例的一种单视图的三维重建系统的结构示意图。具体实施方式0030下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。0031在本发明的描述中，如果有描述到第一、第二等只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。0032在本发明的描述中，需要理解的是，涉及到方。

29、位描述，例如上、下等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。0033本发明的描述中，需要说明的是，除非另有明确的限定，设置、安装、连接等词语应说明书5/16 页9CN 117496075 A9做广义理解，所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。0034三维重建是计算机领域的一个重要研究方向。利用计算机重建出物体的三维模型，已经成为众多领域进行深入研究前不可或缺的一部分；在医疗领域中，利用三维模型诊断身。

30、体状况；在历史文化领域中，将文物进行立体重建，共科学研究及游客参观。除此之外，在游戏开发、工业设计、航天航海等领域，三维重建技术具有重要的应用前景。单视角图像是日常中最容易获得且不需要额外进行数据处理，相比于多视角视图来说，如何从单视图重建对应的三维模型有更大的研究和实用价值。三维模型的表示形式有三种：体素模型、网格模型和点云模型。体素是三维空间中的正方体，相当于三维空间中的像素；网格是由多个三角形组成的多面体结构，可以表示复杂物体的表面形状；点云是坐标系中点的集合，包含了三维坐标、颜色、分类值等信息。而根据输入的图像，又可以分为单视图重建与多视图重建。0035目前的三维重建方法分为主动式三维。

31、重建与被动式三维重建。主动式三维重建如结构光法、TOF飞行时间发等已经在工业CT、数字化城市、文物修复等工程中得到一定的应用，但其时常受到光、距离局限等因素干扰，不仅计算量大还受限于整体数据采集设备的精密性和收集条件的好坏，例如三维扫描设备在采集目标对象信息时要求被采集物体在一定的背景、光照和角度下保持一段时间的相对稳定性。而利用相机运动和几何原理的被动式三维重建方法往往被约束与复杂的相机标定和立体匹配，并且计算量较大，重建过程较为复杂，如明暗恢复结构法、运动恢复结构法和多视图立体匹配等。被动式传统三维重建方法需要的条件比较简单，不像主动式三维重建那样依赖硬件，主要靠视觉算法完成，其需要图像序。

32、列或多视角图像作为输入，由于单视图信息太少，这种方法很难适用于单视图的三维重建，而且目前的跨领域检索在三维体素重建中的应用需要基于一个提前定义好的预测的最终三维体素数据库。0036单视角图像，是日常中最容易获得且不需要额外进行数据处理，相比于多视角视图来说，如何从单视图重建对应的三维模型有更大的研究和实用价值。三维模型的表示形式有三种：体素模型、网格模型和点云模型。体素是三维空间中的正方体，相当于三维空间中的像素；网格是由多个三角形组成的多面体结构，可以表示复杂物体的表面形状；点云是坐标系中点的集合，包含了三维坐标、颜色、分类值等信息。而根据输入的图像，又可以分为单视图重建与多视图重建。本申请。

33、属于单视图三维体素重建。0037目前的三维重建方法通常需要图像序列或多视角图像作为输入，由于单视图的信息量较少，所以针对单视图的三维图像的重建较为复杂，而且重建的效果不佳。0038为了解决上述技术缺陷，参照图1，本发明提供了一种单视图的三维重建方法，包括：步骤S101、获取由相机拍摄的单视图图像；步骤S102、将单视图图像输入第一卷积神经网络模型，得到第一卷积神经网络模型预测的相机参数和深度图；步骤S103、根据单视图图像、相机参数和深度图进行反向投影，得到初始三维体素；步骤S104、将初始三维体素输入第二卷积神经网络模型进行特征提取，得到第二说明书6/16 页10CN 117496075 A。

34、10卷积神经网络模型预测的三维特征；步骤S105、将三维特征输入第三卷积神经网络模型，得到第三卷积神经网络模型对单视图图像进行三维体素重建的最终三维体素；步骤S106、根据最终三维体素建模得到单视图图像的三维预测模型。0039需要说明的是，如同像素，体素本身并不含有空间中位置的数据即（它们的坐标），却可以从它们相对于其它体素的位置来推敲，意即它们在构成单一张体积影像的数据结构中的位置。体素用恒定的标量或者向量表示一个立体的区域，体素的边界在于相邻晶格的中间位置。这样，“体素”这个术语仅仅用来表示最邻近的插值，而不用来表示如三次线性、立方等等高次插值，这些情况可以用单元体积分支来表示。体素的数值。

35、可以表示不同的特性。体素可以包含本质上是向量的多个标量数值。在同一个体素位置的密度与流速经过独立通道获取。如曲面法线与颜色这样的一些其它数值可能对直接三维渲染非常有用。0040需要说明的是，本实施例中的相机参数包括相机的内参和相机的外参，其中：相机的内参描述了相机本身的固有属性，包括焦距、像素间距等参数，通常用内参矩阵表示。这些参数决定了相机从三维场景中获取的二维图像的形状和大小，因此是进行图像处理和计算几何变换的重要输入。0041相机的外参描述了相机在三维场景中的位置和朝向，通常用旋转矩阵和平移向量表示。外参描述了相机的位置、方向和观察角度，决定了相机从哪个角度观察场景，因此是进行三维重建和。

36、姿态估计等任务的重要输入。0042简单来说，相机的内参描述了相机的固有属性，影响到拍摄的图像质量；而相机的外参描述了相机在三维空间中的位置和朝向，影响到场景的观察角度和姿态。0043内参和外参在使用的时候需要进行标定，求解里面的参数，一般内参标定一次就可以了，外参可能时不时就需要更新一下，其中，具体的相机参数包括但不限于：分辨率：靶面排列的像元数，用于度量图像内数据量多少的一个参数，通常表示成ppi (每英寸像素Pixel per inch)和dpi (每英寸点)；像素位深：像素深度是指存储每个像素所用的位数，也用它来度量图像的分辨率。常见为8bit、10bit和12bit；像元尺寸：像元尺寸。

37、和像元数（分辨率）共同决定靶面的大小。一般像元尺寸越小，制造难度越大；传感器尺寸：靶面 =像元尺寸*分辨率；曝光时间：为了将光投射到照相感光材料的感光面上，快门要打开的时间。关系到成像有没有拖影；视场角：最边缘的入射光线在镜头中心组成的角度；精度：传感器一个像素表示实际物体的尺寸。0044信噪比：图像中，信号与噪声的比值（有效信号平均灰度值与噪声均方根的比值），信噪比越高越好。0045需要说明的是，本实施例的深度图（depth map）是一种灰度图像其中每个像素点距离相机的距离信息，它是计算机视觉中常用的一种图像表示方式，用于描述场景的三维结构。0046需要说明的是，本实施例采用的反向投影的公。

38、式为：说明书7/16 页11CN 117496075 A11，0047，0048，0049，0050其中，为每个像素对应的预测三维坐标，t为平移矩阵，为旋转矩阵，为单视图图像的像素坐标，为深度值，为预设相机内参矩阵，为相机在u轴方向上的尺度因子，为相机在v轴方向上的尺度因子，为相机主点一，为相机主点二，为相机参数。0051本方法通过深度学习提取单视图图像中的相机参数值和预测的深度值，进而利用相机参数值反向投影构建出一个估计的三维体素，然后从这个三维体素中提取一个初始三维特征，最后再根据初始三维特征重建成一个更加接近与真实体素的最终三维体素。本方法利用到了相机参数值这一关键信息反向投影构建出一个。

39、估计的三维体素，进而利用这一个估计的三维体素重建出了最终三维体素，不仅仅忽略了对三维体素数据库的前置依赖，实现了能基于单视图图像的三维重建；而且先估计一个三维体素，再优化得到更加接近与真实体素的最终三维体素，能提升重建最终三维体素的准确度。参照图2，在一些实施例中，步骤S102的第一卷积神经网络模型的训练过程包括：步骤S201、获取单视图训练图像，并构建相机参数预测模型；步骤S202、将单视图训练图像输入至相机参数预测模型，得到相机参数预测模型预测的第一相机参数和第一深度图；步骤S203、计算第一相机参数与预设的真实相机参数之间的第一损失以及第一深度图与真实深度图之间的第二损失；步骤S204、。

40、根据第一损失和第二损失组合得到第三损失；步骤S205、根据第三损失对相机参数预测模型进行反向优化，得到优化完成的相机参数预测模型，并将优化完成的相机参数预测模型作为第一卷积神经网络模型。0052需要说明的是，在步骤S203和步骤S204中，计算第一相机参数与预设的真实相机参数之间的第一损失以及第一深度图与真实深度图之间的第二损失；根据第一损失和第二损失组合得到第三损失的计算公式为：，0053，0054，说明书8/16 页12CN 117496075 A120055其中，为第一相机参数中的第i个预测的相机参数值，为真实相机参数中的第i个真实相机参数值，为第i个像素的预测的深度值，为第i个像素的真。

41、实深度值，为第一损失，为第二损失，为第三损失。0056本实施例中通过构建相机参数预测模型，并通过第三损失对相机参数预测模型进行反向优化，得到优化完成的相机参数预测模型，将单视图训练图像输入至相机参数预测模型得到相机参数预测模型预测的第一相机参数和第一深度图，通过深度学习的方法实现了对单视图图像中的相机参数值和预测的深度值这两个关键参数的提取。0057参照图3，在一些实施例中，步骤S104的第二卷积神经网络模型的训练过程包括：步骤S301、将单视图训练图像输入至第一卷积神经网络模型中，得到第一卷积神经网络模型预测的第二相机参数和第二深度图；步骤S302、将单视图训练图像、第二相机参数和第二深度图。

42、进行反向投影，得到第一初始三维体素；步骤S303、构建三维卷积神经网络模型；步骤S304、将第一初始三维体素输入至三维卷积神经网络模型中，得到三维卷积神经网络模型输出的第一三维特征；步骤S305、将单视图训练图像对应的真实三维体素输入至三维卷积神经网络模型中，得到三维卷积神经网络模型输出的第二三维特征；步骤S306、分别计算第一三维特征的三元损失、第二三维特征的三元损失以及第一三维特征和第二三维特征之间的跨领域三元损失，并结合第一三维特征的三元损失、第二三维特征的三元损失和跨领域三元损失，得到三元总损失；步骤S307、根据三元总损失对三维卷积神经网络模型进行反向优化，得到优化完成的三维卷积神经。

43、网络模型，并将优化完成的三维卷积神经网络模型作为第二卷积神经网络模型。0058本实施例中将单视图训练图像、第二相机参数和第二深度图进行反向投影得到第一初始三维体素；然后构建三维卷积神经网络模型，并结合各自的三元损失和跨领域三元损失，得到三元总损失；根据三元总损失对三维卷积神经网络模型进行反向优化，得到优化完成的三维卷积神经网络模型，本实施例通过结合各自的三元损失和跨领域三元损失的总损失优化后的三维卷积神经网络模型进行特征提取得到的三维特征，相较于目前的特征提取方法更为准确。0059需要说明的是，步骤S306的分别计算第一三维特征的三元损失、第二三维特征的三元损失以及第一三维特征和第二三维特征之。

44、间的跨领域三元损失，包括：步骤S401、采用如下公式计算第一三维特征的三元损失：，0060，0061其中，为距离计算函数，为距离计算函数的参数，为距离计算函数的参数，为第一三维特征的三元损失，为由构成的三元组个数，为第一三说明书9/16 页13CN 117496075 A13维特征中随机选取的一个特征锚点，为在第一三维特征中和锚点属于同一类别的特征，为在第一三维特征中和锚点属于不同类别的特征，为预设第一边界值；0062需要说明的是，是一个边界值，用于保证当和相同时仍能对这个三元组进行特征距离优化。0063步骤S402、采用如下公式计算第二三维特征的三元损失：，0064其中，为第二三维特征的三元。

45、损失，为第二三维特征中随机选取的一个特征锚点，为在第二三维特征中和锚点属于同一类别的特征，为在第二三维特征中和锚点属于不同类别的特征；0065需要说明的是，是一个边界值，用于保证当和相同时仍能对这个三元组进行特征距离优化。0066步骤S403、采用如下公式计算第二三维特征之间的跨领域三元损失：，0067其中，为第二三维特征之间的跨领域三元损失，为预设第二边界值。0068需要说明的是，是一个边界值，保证当和相同时仍能对这个三元组进行特征距离优化。0069本实施例中通过结合各自的三元损失和跨领域三元损失，提高了损失计算的精准度。0070需要说明的是，步骤S306的结合各自的三元损失和跨领域三元损失。

46、，得到三元总损失，包括：步骤S501、采用如下公式计算三元总损失：，0071其中，为三元总损失，为第一预设权重值，为第二预设权重值，为第三预设权重值。0072本实施例中通过结合各自的三元损失和跨领域三元损失进行三元总损失计算，通过三元总损失对第二卷积神经网络模型进行反向优化，提高了模型优化的准确率。0073参照图4，在一些实施例中，步骤S105的第三卷积神经网络模型的训练过程包括：步骤S601、将第一初始三维体素输入至第二卷积神经网络模型中，得到第二卷积神经网络模型输出的三维预测特征；步骤S602、构建三维体素重建模型；步骤S603、将三维预测特征输入至三维体素重建模型中，得到三维体素重建模型。

47、输出的第一最终三维体素；步骤S604、根据第一最终三维体素和真实三维体素采用如下公式进行损失计算，得到第一三维损失：，说明书10/16 页14CN 117496075 A140074其中，为第一三维损失，为体素的分辨率，为第一最终三维体素的第个体素单元格的预测概率值，为真实三维体素的第个体素单元格的真实值，为预设的重建损失权重值；0075步骤S605、根据第一三维损失对三维体素重建模型进行反向优化，得到优化完成的三维体素重建模型，并将优化完成的三维体素重建模型作为第三卷积神经网络模型。0076本实施例中通过构建三维体素重建模型，通过第二卷积神经网络模型输出的三维预测特征作为输入数据，得到三。

48、维体素重建模型输出的第一最终三维体素，不仅仅忽略了对三维体素数据库的前置依赖，实现了能基于单视图图像的三维重建；而且先估计一个三维体素，再优化得到更加接近与真实体素的最终三维体素，能提升重建最终三维体素的准确度。0077参照图5，在一些实施例中，步骤S103的根据单视图图像、相机参数和深度图进行反向投影，得到初始三维体素，包括：步骤S701、获取单视图图像中每个像素的像素坐标；步骤S702、根据单视图图像中每个像素的像素坐标、单视图图像、相机参数和深度图采用如下公式进行反向投影，得到预测三维坐标：，0078，0079，0080，0081其中，为每个像素对应的预测三维坐标，t为平移矩阵，为旋转矩。

49、阵，为单视图图像的像素坐标，为深度值，为预设相机内参矩阵，为相机在u轴方向上的尺度因子，为相机在v轴方向上的尺度因子，为相机主点一，为相机主点二，为相机参数；0082步骤S703、根据预测三维坐标通过点云体素化进行体素转化，得到初始三维体素。0083本实施例中通过利用相机参数值和深度图进行反向投影构建出一个估计的三维体素，并将其作为后续得到最终三维体素的一个输入数据进行再优化，提升了重建三维体素的准确度。0084具体的，参照图9，其中，为了便于本领域人员理解，以下提供一组最佳实施例：一、相机参数和深度值预测：参照图6，获取由相机拍摄的单视图图像和单视图训练图像；将单视图图像输入第一卷积神经网络。

50、模型，得到第一卷积神经网络模型预测的相说明书11/16 页15CN 117496075 A15机参数和深度图，其中，第一卷积神经网络模型的训练过程为：将单视图训练图像输入至相机参数预测模型，得到相机参数预测模型预测的第一相机参数和第一深度图；计算第一相机参数与预设的真实相机参数之间的第一损失以及第一深度图与真实深度图之间的第二损失；根据第一损失和第二损失组合得到第三损失，其中，计算第一相机参数与预设的真实相机参数之间的第一损失以及第一深度图与真实深度图之间的第二损失；根据第一损失和第二损失组合得到第三损失的计算公式为：，0085，0086，0087其中，为第一相机参数中的第i个预测的相机参数值。

展开阅读全文

内容关键字: 视图三维重建方法系统设备存储介质