影像分类模型建立方法及装置、分类方法、装置及系统.pdf

上传人：柴****2 文档编号：14526231 上传时间：2024-05-19 格式：PDF 页数：27 大小：2.24MB

收藏版权申诉举报下载

第1页 / 共27页

第2页 / 共27页

第3页 / 共27页

下载文档到电脑，查找使用更方便

30 金币

下载文档

文档描述：

《影像分类模型建立方法及装置、分类方法、装置及系统.pdf》由会员分享，可在线阅读，更多相关《影像分类模型建立方法及装置、分类方法、装置及系统.pdf（27页完成版）》请在专利查询网上搜索。

1、(19)国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 202410004749.7(22)申请日 2024.01.03(71)申请人中国科学院深圳先进技术研究院地址 518055 广东省深圳市南山区深圳大学城学苑大道1068号(72)发明人张睿吴红艳蔡云鹏黎慧君(74)专利代理机构北京三友知识产权代理有限公司 11127专利代理师刘飞许曼(51)Int.Cl.G06V 10/764(2022.01)G16B 30/10(2019.01)G16B 40/30(2019.01)G06N 3/042(2023.01)G06N 3/045(2023.。

2、01)G06N 3/0464(2023.01)G06N 3/08(2023.01)G06V 10/44(2022.01)G06V 10/82(2022.01)G06F 18/23(2023.01)G06F 18/25(2023.01)(54)发明名称影像分类模型建立方法及装置、分类方法、装置及系统(57)摘要本说明书涉及医疗辅助检查技术领域，提供了一种影像分类模型建立方法及装置、分类方法、装置及系统。该方法包括：根据单细胞转录组测序标准数据集、第一医学影像数据集及其对应的第一Bulk转录组测序数据集建立并训练第一神经网络模型；基于第二医学影像数据集，根据第一神经网络模型中的特征权重参数进行迁移。

3、学习，建立第二训练样本集，以建立并训练得到影像分类模型，以用于预测医学影像数据中目标影像标志物的数量、种类及概率值。通过本说明书实施例，可为医学影像匹配合适的基因组数据，并将医学影像及其对应的基因组数据共同用于获取医学影像中影像标志物的分类识别信息，从而为医务人员提供更丰富完善的影像检查参考信息。权利要求书3页说明书16页附图7页CN 117496279 A2024.02.02CN 117496279 A1.一种影像分类模型建立方法，其特征在于，所述方法包括：接收单细胞转录组测序标准数据集、第一医学影像数据集及其对应的第一Bulk转录组测序数据集，以及第二医学影像数据集；根据所述第一Bul。

4、k转录组测序数据集及单细胞转录组测序标准数据集生成第一Bulk单细胞转录组测序数据；基于所述第一Bulk单细胞转录组测序数据，对所述第一Bulk转录组测序数据集进行自监督聚类，得到聚类结果；根据所述第一医学影像数据集、第一Bulk单细胞转录组测序数据以及所述聚类结果建立第一训练样本集；利用第一训练样本集训练第一神经网络，得到第一神经网络模型；根据所述第一神经网络模型中的特征权重参数进行迁移学习，确定所述第二医学影像数据集对应的第二Bulk单细胞转录组测序数据；根据所述第二医学影像数据集及第二Bulk单细胞转录组测序数据建立第二训练样本集；利用第二训练样本集训练第二神经网络，得到第二神经网络模型。

5、，将训练完成的第二神经网络模型作为影像分类模型，以用于预测医学影像数据中目标影像标志物的数量、种类及概率值。2.根据权利要求1所述的方法，其特征在于，根据第一Bulk转录组测序数据集及单细胞转录组测序标准数据集生成第一Bulk单细胞转录组测序数据，包括：将所述第一Bulk转录组测序数据集输入至预训练的自适应反卷积模型中，得到目标转录组特征；其中，所述自适应反卷积模型基于所述单细胞转录组测序标准数据集及第二Bulk转录组测序数据集训练得到；根据所述目标转录组特征生成第一Bulk单细胞转录组测序数据。3.根据权利要求2所述的方法，其特征在于，所述目标转录组特征包括细胞类型信息以及不同细胞类型之间的。

6、比例信息。4.根据权利要求1所述的方法，其特征在于，基于所述第一Bulk单细胞转录组测序数据，对所述第一Bulk转录组测序数据集进行自监督聚类，得到聚类结果，包括：根据所述第一Bulk单细胞转录组测序数据建立对应的图网络；利用所述图网络对所述第一Bulk转录组测序数据集进行自监督聚类，得到聚类结果。5.根据权利要求1所述的方法，其特征在于，根据所述第一医学影像数据集、第一Bulk单细胞转录组测序数据以及所述聚类结果建立第一训练样本集，包括：以所述第一医学影像数据集、第一Bulk单细胞转录组测序数据及聚类结果为输入，以所述第一医学影像数据集对应的影像标志物作为目标输出，建立第一训练样本集。6.根。

7、据权利要求1所述的方法，其特征在于，根据所述第一神经网络模型中的特征权重参数进行迁移学习，确定所述第二医学影像数据集对应的第二Bulk单细胞转录组测序数据，包括：利用所述特征权重参数，建立所述第一医学影像数据集与第一Bulk单细胞转录组测序数据之间的迁移映射函数；根据所述迁移映射函数，确定所述第二医学影像数据集对应的第二Bulk单细胞转录组权利要求书1/3 页2CN 117496279 A2测序数据。7.根据权利要求5所述的方法，其特征在于，根据所述第二医学影像数据集及第二Bulk单细胞转录组测序数据建立第二训练样本集，包括：以所述第二医学影像数据集、第二Bulk单细胞转录组测序数据为输入，以。

8、所述第二医学影像数据集对应的影像标志物作为目标输出，建立第二训练样本集。8.根据权利要求6所述的方法，其特征在于，第二医学影像数据集对应的影像标志物为所述第一医学影像数据集对应的影像标志物的子集。9.一种影像分类方法，其特征在于，所述方法包括：接收待分类的医学影像数据；将所述待分类的医学影像数据输入至利用权利要求18任一项所述方法训练得到的影像分类模型中，以得到所述待分类的医学影像数据对应的医学影像分类结果；其中，所述医学影像分类结果包括所述待分类的医学影像数据中存在目标影像标志物的数量、种类及概率值。10.一种影像分类模型建立装置，其特征在于，所述装置包括：接收模块，用于接收单细胞转录组测序。

9、标准数据集、第一医学影像数据集及其对应的第一Bulk转录组测序数据集，以及第二医学影像数据集；生成模块，用于根据所述第一Bulk转录组测序数据集及单细胞转录组测序标准数据集生成第一Bulk单细胞转录组测序数据；聚类模块，用于基于所述第一Bulk单细胞转录组测序数据，对所述第一Bulk转录组测序数据集进行自监督聚类，得到聚类结果；第一样本建立模块，用于根据所述第一医学影像数据集、第一Bulk单细胞转录组测序数据以及所述聚类结果建立第一训练样本集；训练模块，用于利用第一训练样本集训练第一神经网络，得到第一神经网络模型；迁移模块，用于根据所述第一神经网络模型中的特征权重参数进行迁移学习，确定所述第二。

10、医学影像数据集对应的第二Bulk单细胞转录组测序数据；第二样本建立模块，用于根据所述第二医学影像数据集及第二Bulk单细胞转录组测序数据建立第二训练样本集；建模模块，用于利用第二训练样本集训练第二神经网络，得到第二神经网络模型，将训练完成的第二神经网络模型作为影像分类模型，以用于预测医学影像数据中目标影像标志物的数量、种类及概率值。11.一种影像分类装置，其特征在于，所述装置包括：获取模块，用于接收待分类的医学影像数据；分类模块，用于将所述待分类的医学影像数据输入至利用权利要求18任一项所述方法训练得到的影像分类模型中，以得到所述待分类的医学影像数据对应的医学影像分类结果；其中，所述医学影像分。

11、类结果包括所述待分类的医学影像数据中存在目标影像标志物的数量、种类及概率值。12.一种影像分类系统，其特征在于，所述系统包括：影像分类器、医学影像成像设备及显示器；所述影像分类器分别与所述医学影像成像设备及显示器连接，用于根据所述医学影像权利要求书2/3 页3CN 117496279 A3成像设备生成的医学影像执行如权利要求9所述的方法，以进行影像分类，得到当前医学影像中影像标志物的数量、种类及概率值；所述显示器用于显示所述医学影像成像设备生成的医学影像及影像分类器的影像分类结果。13.一种计算机设备，包括存储器、处理器、以及存储在所述存储器上的计算机程序，其特征在于，所述计算机程序被所述处理。

12、器运行时，执行根据权利要求19任意一项所述方法的指令。14.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被计算机设备的处理器运行时，执行根据权利要求19任意一项所述方法的指令。权利要求书3/3 页4CN 117496279 A4影像分类模型建立方法及装置、分类方法、装置及系统技术领域0001本说明书涉及医疗辅助检查技术领域，尤其是涉及一种影像分类模型建立方法及装置、分类方法、装置及系统。背景技术0002影像检查是一种让医生查看患者身体内部状况的辅助医疗手段，从原理上来说，影像检查通过发射不同形式的能量（比如X光、声波、放射性微粒或者磁场）并使其穿过人的身体，基于身体的组。

13、织对能量模式的改变得到医学影像，以用于展示身体内部结构以及功能情况，随着人工智能技术的发展，目前人工智能技术能够根据医学影像自动进行分类识别，以实现对医学影像的自动筛查检测，但是常规的利用人工智能进行医学影像分类仅仅利用医学影像建立影像标志物标签进行有监督模型训练，未考虑到肿瘤细胞的高度异质性及基因组数据与影像标志物的内在关联性，导致医学影像存在分类难度大、分类精度低的问题，因此亟需一种影像分类模型建立方法，建立起有效的影像分类模型，该影像分类模型能够为医学影像匹配合适的肿瘤细胞基因组数据，并将医学影像及其对应的基因组数据共同用于获取医学影像中影像标志物的分类识别信息，以降低医学影像的分类难度。

14、以及提高对医学影像中影像标志物的分类精度，从而为医务人员提供更丰富完善的影像检查参考信息。发明内容0003鉴于目前医学影像的影像标志物的分类识别仅基于单维度的图像特征实现，而忽略了医学影像与基因组数据的内在联系，导致判断医学影像中影像标志物的数量、种类及概率值存在误差，提出了本方案以便克服上述问题或者至少部分地解决上述问题。0004一方面，本说明书的一些实施例的目的在于提供一种影像分类模型建立方法，所述方法包括：接收单细胞转录组测序标准数据集、第一医学影像数据集及其对应的第一Bulk转录组测序数据集，以及第二医学影像数据集；根据所述第一Bulk转录组测序数据集及单细胞转录组测序标准数据集生成第。

15、一Bulk单细胞转录组测序数据；基于所述第一Bulk单细胞转录组测序数据，对所述第一Bulk转录组测序数据集进行自监督聚类，得到聚类结果；根据所述第一医学影像数据集、第一Bulk单细胞转录组测序数据以及所述聚类结果建立第一训练样本集；利用第一训练样本集训练第一神经网络，得到第一神经网络模型；根据所述第一神经网络模型中的特征权重参数进行迁移学习，确定所述第二医学影像数据集对应的第二Bulk单细胞转录组测序数据；根据所述第二医学影像数据集及第二Bulk单细胞转录组测序数据建立第二训练说明书1/16 页5CN 117496279 A5样本集；利用第二训练样本集训练第二神经网络，得到第二神经网络模型，。

16、将训练完成的第二神经网络模型作为影像分类模型，以用于预测医学影像数据中目标影像标志物的数量、种类及概率值。0005进一步地，根据第一Bulk转录组测序数据集及单细胞转录组测序标准数据集生成第一Bulk单细胞转录组测序数据，包括：将所述第一Bulk转录组测序数据集输入至预训练的自适应反卷积模型中，得到目标转录组特征；其中，所述自适应反卷积模型基于所述单细胞转录组测序标准数据集及第二Bulk转录组测序数据集训练得到；根据所述目标转录组特征生成第一Bulk单细胞转录组测序数据。0006进一步地，所述目标转录组特征包括细胞类型信息以及不同细胞类型之间的比例信息。0007进一步地，基于所述第一Bulk单。

17、细胞转录组测序数据，对所述第一Bulk转录组测序数据集进行自监督聚类，得到聚类结果，包括：根据所述第一Bulk单细胞转录组测序数据建立对应的图网络；利用所述图网络对所述第一Bulk转录组测序数据集进行自监督聚类，得到聚类结果。0008进一步地，根据所述第一医学影像数据集、第一Bulk单细胞转录组测序数据以及所述聚类结果建立第一训练样本集，包括：以所述第一医学影像数据集、第一Bulk单细胞转录组测序数据及聚类结果为输入，以所述第一医学影像数据集对应的影像标志物作为目标输出，建立第一训练样本集。0009进一步地，根据所述第一神经网络模型中的特征权重参数进行迁移学习，确定所述第二医学影像数据集对应的。

18、第二Bulk单细胞转录组测序数据，包括：利用所述特征权重参数，建立所述第一医学影像数据集与第一Bulk单细胞转录组测序数据之间的迁移映射函数；根据所述迁移映射函数，确定所述第二医学影像数据集对应的第二Bulk单细胞转录组测序数据。0010进一步地，根据所述第二医学影像数据集及第二Bulk单细胞转录组测序数据建立第二训练样本集，包括：以所述第二医学影像数据集、第二Bulk单细胞转录组测序数据为输入，以所述第二医学影像数据集对应的影像标志物作为目标输出，建立第二训练样本集。0011进一步地，第二医学影像数据集对应的影像标志物为所述第一医学影像数据集对应的影像标志物的子集。0012另一方面，本说明书。

19、的一些实施例还提供一种影像分类模型建立装置，所述装置包括：接收模块，用于接收单细胞转录组测序标准数据集、第一医学影像数据集及其对应的第一Bulk转录组测序数据集，以及第二医学影像数据集；生成模块，用于根据所述第一Bulk转录组测序数据集及单细胞转录组测序标准数据集生成第一Bulk单细胞转录组测序数据；说明书2/16 页6CN 117496279 A6聚类模块，用于基于所述第一Bulk单细胞转录组测序数据，对所述第一Bulk转录组测序数据集进行自监督聚类，得到聚类结果；第一样本建立模块，用于根据所述第一医学影像数据集、第一Bulk单细胞转录组测序数据以及所述聚类结果建立第一训练样本集；训练模块，。

20、用于利用第一训练样本集训练第一神经网络，得到第一神经网络模型；迁移模块，用于根据所述第一神经网络模型中的特征权重参数进行迁移学习，确定所述第二医学影像数据集对应的第二Bulk单细胞转录组测序数据；第二样本建立模块，用于根据所述第二医学影像数据集及第二Bulk单细胞转录组测序数据建立第二训练样本集；建模模块，用于利用第二训练样本集训练第二神经网络，得到第二神经网络模型，将训练完成的第二神经网络模型作为影像分类模型，以用于预测医学影像数据中目标影像标志物的数量、种类及概率值。0013基于同一发明构思，本说明书的一些实施例的目的在于提供一种影像分类方法，所述方法包括：接收待分类的医学影像数据；将所述。

21、待分类的医学影像数据输入至利用前述任一实施例所述方法训练得到的影像分类模型中，以得到所述待分类的医学影像数据对应的医学影像分类结果；其中，所述医学影像分类结果包括所述待分类的医学影像数据中存在目标影像标志物的数量、种类及概率值。0014基于同一发明构思，另一方面，本说明书的一些实施例还提供一种影像分类装置，所述装置包括：获取模块，用于接收待分类的医学影像数据；分类模块，用于将所述待分类的医学影像数据输入至利用前述任一实施例所述方法训练得到的影像分类模型中，以得到所述待分类的医学影像数据对应的医学影像分类结果；其中，所述医学影像分类结果包括所述待分类的医学影像数据中存在目标影像标志物的数量、种类。

22、及概率值。0015另一方面，本说明书的一些实施例还提供了一种影像分类系统，所述系统包括：影像分类器、医学影像成像设备及显示器；所述影像分类器分别与所述医学影像成像设备及显示器连接，用于根据所述医学影像成像设备生成的医学影像执行如前述任一实施例所述的影像分类方法，以进行影像分类，得到当前医学影像中影像标志物的数量、种类及概率值；所述显示器用于显示所述医学影像成像设备生成的医学影像及影像分类器的影像分类结果。0016另一方面，本说明书的一些实施例还提供了一种计算机设备，包括存储器、处理器、以及存储在所述存储器上的计算机程序，所述计算机程序被所述处理器运行时，执行上述方法的指令。0017另一方面，本。

23、说明书的一些实施例还提供了一种计算机存储介质，其上存储有计算机程序，所述计算机程序被计算机设备的处理器运行时，执行上述方法的指令。0018本说明书的一些实施例提供的一个或者多个技术方案，至少具有如下的技术效说明书3/16 页7CN 117496279 A7果：本说明书的实施例首先自动接收单细胞转录组测序标准数据集、第一医学影像数据集及其对应的第一Bulk转录组测序数据集，以及第二医学影像数据集，根据单细胞转录组测序标准数据集和第一Bulk转录组测序数据集生成第一Bulk单细胞转录组测序数据，以预测第一Bulk中的单细胞基因表达及构成信息，之后利用第一Bulk单细胞转录组测序数据提高聚类精度，对。

24、第一Bulk转录组测序数据集进行自监督聚类，得到聚类结果，将第一医学影像数据集、第一Bulk单细胞转录组测序数据以及聚类结果均用于构建第一训练样本集，从多个维度构建第一神经网络模型的输入，利用第一训练样本集训练得到第一神经网络模型，在此基础上，根据第一神经网络模型的特征权重参数进行迁移学习，得到第二医学影像数据集对应的第二Bulk单细胞转录组测序数据，从而根据第二医学影像数据集及第二Bulk单细胞转录组测序数据建立第二训练样本集，建立了第二医学影像数据集与第二Bulk单细胞转录组测序数据的内在联系，以训练第二神经网络，得到第二神经网络模型，以提高医学影像数据中第二医学影像数据集对应的影像标志物。

25、的数量、种类及概率值的预测精度。0019上述说明仅是本说明书的一些实施例技术方案的概述，为了能够更清楚了解本说明书的一些实施例的技术手段，而可依照说明书的内容予以实施，并且为了让本说明书的一些实施例的上述和其它目的、特征和优点能够更明显易懂，以下特举本说明书的一些实施例的具体实施方式。附图说明0020为了更清楚地说明本说明书的一些实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。在附图中：图1示出了本说。

26、明书一些实施例中一种影像分类模型建立方法的实施系统示意图；图2示出了本说明书一些实施例中一种影像分类模型建立方法的流程图；图3为本说明书一些实施例中生成第一Bulk单细胞转录组测序数据的步骤示意图；图4为本说明书一些实施例中自监督聚类的步骤示意图；图5为本说明书一些实施例中根据特征权重参数进行迁移学习的步骤示意图；图6示出了本说明书一些实施例中一种影像分类方法的流程图；图7为本说明书一些实施例中一种影像分类系统的结构示意图；图8为本说明书一些实施例中一种影像分类模型建立装置的结构示意图；图9为本说明书一些实施例中一种影像分类装置的结构示意图；图10为本说明书一些实施例中提供的计算机设备结构示意。

27、图。0021【附图标记说明】101、终端；102、服务器；701、影像分类器；说明书4/16 页8CN 117496279 A8702、医学影像成像设备；703、显示器；801、接收模块；802、生成模块；803、聚类模块；804、第一样本建立模块；805、训练模块；806、迁移模块；807、第二样本建立模块；808、建模模块；901、获取模块；902、分类模块；1002、计算机设备；1004、处理器；1006、存储器；1008、驱动机构；1010、输入/输出接口；1012、输入设备；1014、输出设备；1016、呈现设备；1018、图形用户接口；1020、网络接口；1022、通信链路；102。

28、4、通信总线。具体实施方式0022为了使本技术领域的人员更好地理解本说明书中的技术方案，下面将结合本说明书的一些实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的一些实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本说明书保护的范围。0023需要说明的是，本文的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本文的实施例能够以除了在这里。

29、图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、装置、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。需要说明的是，本申请技术方案中对数据的获取、存储、使用、处理等均符合相关法律法规的相关规定。说明书5/16 页9CN 117496279 A90024如图1所示为本发明实施例一种影像分类模型建立方法的实施系统示意图，可以包括：终端101以及服务器102，终端101和服务器102之间通过网络进行通信，网络可以包括局域网(。

30、Local Area Network，简称为LAN)、广域网(Wide Area Network，简称为WAN)、因特网或其组合，并连接至网站、用户设备(例如计算设备)和后端系统。工作人员可以通过终端101向服务器102发送影像分类模型建立请求，服务器102接收到影像分类模型建立请求后，调用数据库中的单细胞转录组测序标准数据集、第一医学影像数据集及其对应的第一Bulk转录组测序数据集，以及第二医学影像数据集进行计算处理，得到建模结果，并将建模结果发送给终端101，以使工作人员根据建模结果处理业务。0025在本说明书实施例中，所述服务器102可以是独立的物理服务器，也可以是多个物理服务器构成的服。

31、务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络（CDN,Content Delivery Network）、以及大数据和人工智能平台等基础云计算服务的云服务器。0026在一个可选的实施例中，终端101可以包括但不限于自助终端设备、台式计算机、平板电脑、笔记本电脑、智能可穿戴设备等类型的电子设备。可选的，电子设备上运行的操作系统可以包括但不限于安卓系统、IOS系统、Linux、Windows等。当然，所述终端101并不限于上述具有一定实体的电子设备，其还可以为运行于上述电子设备中的软件。0027此外，需。

32、要说明的是，图1所示的仅仅是本公开提供的一种应用环境，在实际应用中，还可以包括多个终端101，本说明书不做限制。0028图2是本发明实施例提供的一种影像分类模型建立方法的流程图，本说明书提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的系统或装置产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行。具体的如图2所示，应用与上述的服务器侧，所述方法可以包括：S201：接收单细胞转录组测序标准数据集、第一医学影像数据集及其对应的第一Bulk转录组。

33、测序数据集，以及第二医学影像数据集；S202：根据所述第一Bulk转录组测序数据集及单细胞转录组测序标准数据集生成第一Bulk单细胞转录组测序数据；S203：基于所述第一Bulk单细胞转录组测序数据，对所述第一Bulk转录组测序数据集进行自监督聚类，得到聚类结果；S204：根据所述第一医学影像数据集、第一Bulk单细胞转录组测序数据以及所述聚类结果建立第一训练样本集；S205：利用第一训练样本集训练第一神经网络，得到第一神经网络模型；S206：根据所述第一神经网络模型中的特征权重参数进行迁移学习，确定所述第二医学影像数据集对应的第二Bulk单细胞转录组测序数据；S207：根据所述第二医学影像数。

34、据集及第二Bulk单细胞转录组测序数据建立第二训练样本集；S208：利用第二训练样本集训练第二神经网络，得到第二神经网络模型，将训练完成的第二神经网络模型作为影像分类模型，以用于预测医学影像数据中目标影像标志物的说明书6/16 页10CN 117496279 A10数量、种类及概率值。0029本说明书的实施例首先自动接收单细胞转录组测序标准数据集、第一医学影像数据集及其对应的第一Bulk转录组测序数据集，以及第二医学影像数据集，根据单细胞转录组测序标准数据集和第一Bulk转录组测序数据集生成第一Bulk单细胞转录组测序数据，以预测第一Bulk中的单细胞基因表达及构成信息，之后利用第一Bulk单。

35、细胞转录组测序数据提高聚类精度，对第一Bulk转录组测序数据集进行自监督聚类，得到聚类结果，将第一医学影像数据集、第一Bulk单细胞转录组测序数据以及聚类结果均用于构建第一训练样本集，从多个维度构建第一神经网络模型的输入，利用第一训练样本集训练得到第一神经网络模型，在此基础上，根据第一神经网络模型的特征权重参数进行迁移学习，得到第二医学影像数据集对应的第二Bulk单细胞转录组测序数据，从而根据第二医学影像数据集及第二Bulk单细胞转录组测序数据建立第二训练样本集，建立了第二医学影像数据集与第二Bulk单细胞转录组测序数据的内在联系，以训练第二神经网络，得到第二神经网络模型，以提高医学影像数据中。

36、第二医学影像数据集对应的影像标志物的数量、种类及概率值的预测精度。0030可以理解为，一些实施例中，单细胞转录组测序（Single cell RNA sequencing）是指在单细胞水平上对 RNA 进行高通量测序和分析的新技术，不同于常规组织或细胞群测序得到的结果（只是大量细胞平均表达水平），单测序能够深入挖掘特异性的信息。目前，单细胞测序已广泛应用于肿瘤异质性、免疫微环境、神经科异质性、免疫微环境神经科、胚胎发育细胞分化等领域的研究，而Bulk转录组测序数据是测量所有细胞的总RNA（mRNA），代表每个基因的总表达量，同种细胞会由于其所处的生理状态出现差异表达，因此相比于单细胞转录组测序。

37、数据，Bulk转录组测序数据无法捕获这种差异表达。0031进一步地，一些实施例中，医学影像是指为了医疗或医学研究，对人体或人体某部分，以非侵入方式取得内部组织影像的技术与处理过程，医学影像数据集可以为包括CT影像数据、PET影像数据、NMRI影像数据中的一种或多种，单细胞转录组测序标准数据集包括大量历史已有的患者单细胞转录组测序数据，此处的标准可以理解为数据量大、数据可靠性高，经过相关的去重、去残、数据标准化处理，第一医学影像数据集及其对应的第一Bulk转录组测序数据集中的对应关系是指对当前第一医学影像数据所表示的内部组织进行Bulk转录组测序，将得到对应的第一Bulk转录组测序数据，该对应关。

38、系以内部组织为基础得到，但并不专门针对同一患者的内部组织，在实际影像检查场景中，第二医学影像数据集通常为不具有对应的Bulk转录组测序数据和单细胞转录组测序数据的医学影像数据合集，在前期模型训练中，第二医学影像数据集则可以具有对应的Bulk转录组测序数据和单细胞转录组测序数据的医学影像数据合集，以用于模型的迭代验证和测试，通过分析单细胞转录组测序标准数据集、第一医学影像数据集及其对应的第一Bulk转录组测序数据集之间潜在的图像与基因组之间的联系，可以预测得到第二医学影像数据集对应的基因组信息，以通过第二医学影像数据集及其对应的基因组信息建立并训练第二神经网络模型。0032需要说明的是，一些实施。

39、例中，第二神经网络模型是用于预测医学影像数据中目标影像标志物的数量、种类及概率值，具体而言，任意医学影像数据均可以包括零个、一个或多个目标影像标志物及对应的种类及概率值信息，尽管输出的结果可以显示疑似目标影像标志物的存在、位置和大小，但由于最终的影像分类模型本身输出的结果是具有概率值的可能性评估结果，因此模型本身输出的结果并不能用作直接的疾病诊断，也不能证明任说明书7/16 页11CN 117496279 A11何病因，而是一种可供参考的辅助检查信息，而非诊断性检查，医务人员具体进行肿瘤诊断还是需要进行穿刺活检病理检查，并借助体格检查和化验等检查手段，在大多数情况下，活检等生化类检查是确诊癌症。

40、的唯一方法，测量血液中肿瘤标志物（某些肿瘤分泌到血液中的物质）的水平，也可以作为支持或推翻癌症诊断的额外证据。0033参照附图3，在一些实施例中，根据第一Bulk转录组测序数据集及单细胞转录组测序标准数据集生成第一Bulk单细胞转录组测序数据，可以包括：S301：将所述第一Bulk转录组测序数据集输入至预训练的自适应反卷积模型中，得到目标转录组特征；其中，所述自适应反卷积模型基于所述单细胞转录组测序标准数据集及第二Bulk转录组测序数据集训练得到；S302：根据所述目标转录组特征生成第一Bulk单细胞转录组测序数据。0034可以理解为，一些实施例中，所述目标转录组特征包括细胞类型信息以及不同细。

41、胞类型之间的比例信息，研究表明，每个肿瘤细胞都是独一无二的，肿瘤细胞的基因特征在肿瘤细胞之间（体细胞突变）和肿瘤微环境内（其他细胞类型浸润）具有高度异质性，本说明书实施例中的第一Bulk转录组测序数据集被用作解决第一医学影像数据集增强时存在中和肿瘤细胞异质性的问题，具体而言，首先利用如下步骤建立自适应反卷积模型，以用于预测第一Bulk转录组测序数据集的细胞类型信息以及不同细胞类型之间的比例信息：步骤a：根据所述第一Bulk转录组测序数据集的数据类型，从单细胞转录组测序标准数据集中匹配的单细胞转录组测序标准数据子集；数据类型用于确定指定的单细胞类型；所述单细胞转录组测序标准数据子集表示为基于细胞。

42、类型和转录组测序表达量的细胞类型参考矩阵；对于所述第一Bulk转录组测序数据集，其基因表达信息表示为基于转录组测序表达量的一维向量（为方便后续表述，记作xb）；步骤b：对匹配得到的单细胞转录组测序标准数据子集进行预处理，以得到转录组测序平均表达矩阵；该转录组测序平均表达矩阵的横纵方向分别表示细胞类型和转录组测序平均表达量；步骤c：建立生成对抗网络，所述生成对抗网络包括生成器网络和判别器网络；所述生成器网络用于提取输入数据中的特征，并基于输入数据生成伪Bulk数据；所述判别器网络用于对生成器网络生成的伪Bulk数据进行判断，并进行反向调节训练；其中，所述输入数据为单细胞转录组测序标准数据子集；步。

43、骤d：当所述生成对抗网络的损失函数的结果收敛时，训练结束。0035可以理解为，一些实施例中，预处理基于RSVD 算法对高维表达数据进行降维，可以利用基于图的聚类算法PhenoGraph对降维后的单细胞数据进行聚类，需要说明的是，PhenoGraph为现有开源的单细胞聚类算法，使用其他的单细胞聚类算法也没问题的，这一步的目的是为了尽可能的对细胞类型准确分簇，从而提取簇心特征，从而得到每个细胞类别的平均细胞基因表达向量作为该细胞类型的基因表示，通过多个单细胞融合聚类与簇心特征提取（反映簇内细胞表达量均值），从而弱化各簇细胞类型中的细胞异质性信息，在细胞类型参考矩阵中表征样本之间的肿瘤同质性信息。0。

44、036在一些实施例中，在得到转录组测序平均表达矩阵以及一维向量xb后，现有的反卷积方法是对线性方程利用最小二乘法进行求解，但这种方式通常假定第一Bulk内每种细胞类型的转录组测序表达量与参照的单细胞转录组测序标准数据子集说明书8/16 页12CN 117496279 A12是相同的，然而，实际Bulk样本由于采样偏差往往与参考单细胞数据集的细胞类型分布存在一定差异，此外，恒定的无法满足肿瘤环境的异质性要求，即单细胞转录组测序标准数据子集中单细胞的多样性可能不满足第一Bulk内细胞类型的种类多样性要求，而本申请构建的自适应反卷积模型能够自适应地校正Bulk内的细胞类型分布差异，并针对不同Bulk。

45、样本（即第一Bulk转录组测序数据集）对细胞类型参考矩阵进行微调，从而得到更精准的Bulk样本的细胞类型表达矩阵。0037具体而言，本说明书实施例采用基于生成对抗网络的采样器，将当作隐层表达向量输入生成器中，自适应地采样细胞类型表达矩阵和细胞类型比例向量，由于Bulk样本本身没有对应的单细胞转录组测序数据信息作为监督，本发明在训练过程中，利用生成器通过采样部分单细胞基因表达数据并进行加和作为伪Bulk数据，然后将采样的单细胞比例和表达矩阵作为监督信号，指导伪Bulk数据的分解过程。需要说明的是，单细胞转录组测序表达可以理解为一种基因表达。0038进一步地，一些实施例中，为了保持数值稳定性，本发。

46、明通过预测伪Bulk细胞类型表达矩阵与整体表达矩阵的差异，同时利用如下损失函数使得预测分布趋近于真实分布：（1）其中，代表损失函数，D代表判别器，G代表生成器，E代表数学期望，代表单细胞比例，代表单细胞基因表达矩阵，是生成对抗网络的约定符号，指真实数据的分布，代表伪Bulk数据，代表细胞类型的基因表达矩阵，代表细胞类型比例生成器，代表细胞类型表达差值矩阵生成器，该差值矩阵与平均矩阵相加即可得到该Bulk对应的细胞类型表达矩阵。需要说明的是，判别器D中的逗号代表判别器接受两个输入，就是反卷积后的细胞类型比例和细胞类型基因表达，实际在判别器内部是将两个输入投影到相同维度再拼接。0039进一步地，一。

47、些实施例中，为了生成的细胞类型比例和表达矩阵符合原Bulk分布，从而实现反映同质性信息的细胞类型参考矩阵和反映异质性信息的Bulk数据信息融合，需要在上述损失函数的基础上引入如下重构目标函数：（2）其中，代表目标函数，代表细胞类型比例生成器，代表细胞类型表达差值矩阵生成器，代表细胞类型的基因表达矩阵，代表伪Bulk数据。在生成模型训练收敛后，只需要输入真实的Bulk样本（即第一Bulk转录组测序数据集），即可生成对应的细胞类型表达矩阵和细胞比例向量。0040进一步地，一些实施例中，在根据所述目标转录组特征生成第一Bulk单细胞转录组测序数据时，尽管Bulk反卷积能够分解出Bulk组织的不同细胞。

48、类型和比例，但仍然无法获取到更细粒度的单细胞数据。为了解决这个问题，本发明采用条件生成模型，学习在给定细胞类型表达向量的条件下，生成符合该细胞类型的细胞样本，从而模拟得到单细胞基因说明书9/16 页13CN 117496279 A13表达数据，为了进一步学习到解耦合的隐空间表示，便于后续分析细胞表达的共有模式，本发明基于解耦合表示的 VAE模型来设计条件生成器。具体地，模型将优化如下的变分下界目标函数：（3）其中，为变分下界目标函数，和分别为变分自编码器模型的编码器和解码器的参数，为通过单个Bulk向量解码得到的单细胞基因表达矩阵，为细胞类型的基因表达矩阵，z为模型隐层（瓶颈层）学习到的压缩。

49、代码，即隐向量，为给定隐变量产生真实数据样本的概率（概率解码器），为KL散度,为估计的后验概率函数（概率编码器），为拉格朗日乘子超参数，为一个数学约束，为各向同性高斯分布。参数可以控制隐向量各分量的独立程度，从而实现隐向量的解耦合。0041在训练好自编码器后，只需要输入采样的隐向量和对应的细胞类型表示，即可通过解码器模拟生成对应比例的单细胞数据，其表示通过单个Bulk向量解码得到的单细胞基因表达矩阵。0042参照附图4，在一些实施例中，基于所述第一Bulk单细胞转录组测序数据，对所述第一Bulk转录组测序数据集进行自监督聚类，得到聚类结果，可以包括：S401：根据所述第一Bulk单细胞转录组。

50、测序数据建立对应的图网络；S402：利用所述图网络对所述第一Bulk转录组测序数据集进行自监督聚类，得到聚类结果。0043可以理解为，一些实施例中，传统的图卷积算法采用估计的阶次进行卷积，使得节点的表示过平滑或者欠平滑，影响节点聚类的性能，因此根据所述第一Bulk单细胞转录组测序数据建立对应的图网络，以提高后续聚类效果，具体而言，利用如下公式构建根据第一Bulk单细胞转录组测序数据的相似度图网络：（4）其中，为图网络，为拉普拉斯矩阵，为图网络的转置，为第个属性图节点，为第个属性图节点，f（）为输出方法，为图邻接矩阵的边集合。0044进一步地，一些实施例中，X为基因特征矩阵，可根据下式分解为。

展开阅读全文

内容关键字: 影像分类模型建立方法装置系统