分类方法、装置、电子设备及计算机可读存储介质.pdf

上传人:v**** 文档编号:10612692 上传时间:2021-06-25 格式:PDF 页数:19 大小:740.67KB
收藏 版权申诉 举报 下载
分类方法、装置、电子设备及计算机可读存储介质.pdf_第1页
第1页 / 共19页
分类方法、装置、电子设备及计算机可读存储介质.pdf_第2页
第2页 / 共19页
分类方法、装置、电子设备及计算机可读存储介质.pdf_第3页
第3页 / 共19页
文档描述:

《分类方法、装置、电子设备及计算机可读存储介质.pdf》由会员分享,可在线阅读,更多相关《分类方法、装置、电子设备及计算机可读存储介质.pdf(19页完成版)》请在专利查询网上搜索。

1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202010272033.7 (22)申请日 2020.04.08 (71)申请人 中国医学科学院肿瘤医院 地址 100021 北京市朝阳区潘家园南里17 号 (72)发明人 郑闪孙丰龙马建辉陈灿灿 郭蕾郭强邱亭林杜君 (74)专利代理机构 北京超凡宏宇专利代理事务 所(特殊普通合伙) 11463 代理人 蒋姗 (51)Int.Cl. G06K 9/62(2006.01) (54)发明名称 分类方法、 装置、 电子设备及计算机可读存 储介质 (57)摘要 本发明涉及一种分类方法、。

2、 装置、 电子设备 及计算机可读存储介质, 该方法通过将多个病理 图像切片输入预先训练好的二分类网络模型, 根 据二分类网络模型的输出为每个病理图像切片 添加样本标签; 对多个病理图像切片进行置信度 特征提取, 并根据所提取的置信度特征及置信度 特征阈值将多个病理图像切片分为高置信度数 据集及低置信度数据集; 将高置信度数据集中样 本标签表征为正样本的病理图像切片加入到第 一正样本集, 将高置信度数据集中样本标签表征 为负样本的病理图像切片加入到第一负样本集; 确定低置信度数据集为第一难样本集。 经过上述 过程, 可以将多个病理图像切片由二分类转变成 三分类, 可以提高最后得到的正负样本的准确。

3、 度。 权利要求书3页 说明书12页 附图3页 CN 111461243 A 2020.07.28 CN 111461243 A 1.一种分类方法, 用于对由病理图像拆分得到的多个病理图像切片进行分类, 其特征 在于, 所述方法包括: 将所述多个病理图像切片输入预先训练好的二分类网络模型, 根据所述二分类网络模 型的输出为每个病理图像切片添加用于表征为正样本或者为负样本的样本标签; 对所述多个病理图像切片进行置信度特征提取, 并根据所提取的置信度特征及预先设 置好的置信度特征阈值将所述多个病理图像切片分为高置信度数据集及低置信度数据集; 将所述高置信度数据集中所述样本标签表征为所述正样本的病理。

4、图像切片加入到第 一正样本集, 将所述高置信度数据集中所述样本标签表征为所述负样本的病理图像切片加 入到第一负样本集; 确定所述低置信度数据集为第一难样本集。 2.根据权利要求1所述的方法, 其特征在于, 所述置信度特征包括连通域最大直径、 连 通域数量、 连通域平均面积、 连通域面积的峰度, 所述置信度特征阈值包括连通域最大直径 第一阈值、 连通域最大直径第二阈值、 连通域数量阈值、 连通域平均面积阈值、 连通域面积 的峰度阈值, 所述最大直径第一阈值小于所述最大直径第二阈值; 所述根据所提取的置信 度特征及预先设置好的置信度特征阈值将所述多个病理图像切片分为高置信度数据集及 低置信度数据集。

5、, 包括: 将所述连通域最大直径小于所述最大直径第一阈值的病理图像切片加入到第一高置 信度数据集; 将所述连通域最大直径大于所述最大直径第二阈值的病理图像切片加入到第一低置 信度数据集; 将所述连通域最大直径位于所述最大直径第一阈值与所述最大直径第二阈值之间的 病理图像切片加入到第二低置信度数据集; 将所述第一低置信度数据集中, 所述连通域数量小于所述连通域数量阈值的病理图像 切片加入到第二高置信度数据集, 其余病理图像切片加入到第三低置信度数据集; 将所述第二低置信度数据集及所述第三低置信度数据集中, 所述连通域平均面积小于 所述连通域平均面积阈值的病理图像切片加入到第三高置信度数据集, 其。

6、余病理图像切片 加入到第四低置信度数据集; 将所述第四低置信度数据集中, 所述连通域面积的峰度小于所述连通域面积的峰度阈 值的病理图像切片加入到第四高置信度数据集, 其余病理图像切片加入到第五低置信度数 据集; 将所述第一高置信度数据集、 所述第二高置信度数据集、 所述第三高置信度数据集及 所述第四高置信度数据集确定为所述高置信度数据集, 将所述第五低置信度数据集确定为 所述低置信度数据集。 3.根据权利要求1所述的方法, 其特征在于, 所述方法还包括: 将所述第一难样本集输入到预先训练好的相对危险度的二叉树, 将所述第一难样本集 分为高置信度数据子集及低置信度数据子集; 将所述高置信度数据子。

7、集中所述样本标签表征为所述正样本的病理图像切片加入到 第二正样本集, 将所述高置信度数据子集中所述样本标签表征为所述负样本的病理图像切 片加入到第二负样本集; 确定所述低置信度数据子集为第二难样本集。 4.根据权利要求3所述的方法, 其特征在于, 所述将所述第一难样本集输入到预先训练 权利要求书 1/3 页 2 CN 111461243 A 2 好的相对危险度的二叉树之前, 所述方法还包括: 获取用于训练所述相对危险度的二叉树的基础难样本, 所述基础难样本中的每个病理 图像切片预先输入所述二分类网络模型进行分类, 且每个病理图像切片包括用于表征分类 正确以及分类错误的分类标签; 基于公式RRp。

8、/q, p(wr_low+1)/low, q(wr_high+1)/high, 确定所述基础难样本 的相对危险度, 其中, RR为所述相对危险度, low为所述基础难样本所包括的待划分低置信 度数据子集中的样本总数, high为所述基础难样本所包括的待划分高置信度数据子集中的 样本总数, low与high之和为所述基础难样本所包括的样本总数, wr_low为低置信度数据子 集中分类错误的病理图像切片个数, wr_high为高置信度数据子集中分类错误的病理图像 切片个数; 将所述相对危险度确定为分类回归树的特征选择函数, 得到所述相对危险度的二叉 树; 通过所述基础难样本训练所述相对危险度的二叉。

9、树至收敛。 5.一种分类装置, 用于对由病理图像拆分得到的多个病理图像切片进行分类, 其特征 在于, 所述装置包括: 第一输入模块, 用于将所述多个病理图像切片输入预先训练好的二分类网络模型, 根 据所述二分类网络模型的输出为每个病理图像切片添加用于表征为正样本或者为负样本 的样本标签; 提取模块, 用于对所述多个病理图像切片进行置信度特征提取, 并根据所提取的置信 度特征及预先设置好的置信度特征阈值将所述多个病理图像切片分为高置信度数据集及 低置信度数据集; 分类模块, 用于将所述高置信度数据集中所述样本标签表征为所述正样本的病理图像 切片加入到第一正样本集, 将所述高置信度数据集中所述样本。

10、标签表征为所述负样本的病 理图像切片加入到第一负样本集; 确定所述低置信度数据集为第一难样本集。 6.根据权利要求5所述的装置, 其特征在于, 所述置信度特征包括连通域最大直径、 连 通域数量、 连通域平均面积、 连通域面积的峰度, 所述置信度特征阈值包括连通域最大直径 第一阈值、 连通域最大直径第二阈值、 连通域数量阈值、 连通域平均面积阈值、 连通域面积 的峰度阈值, 所述最大直径第一阈值小于所述最大直径第二阈值; 所述提取模块, 用于将所述连通域最大直径小于所述最大直径第一阈值的病理图像切 片加入到第一高置信度数据集; 将所述连通域最大直径大于所述最大直径第二阈值的病理 图像切片加入到第。

11、一低置信度数据集; 将所述连通域最大直径位于所述最大直径第一阈值 与所述最大直径第二阈值之间的病理图像切片加入到第二低置信度数据集; 将所述第一低 置信度数据集中, 所述连通域数量小于所述连通域数量阈值的病理图像切片加入到第二高 置信度数据集, 其余病理图像切片加入到第三低置信度数据集; 将所述第二低置信度数据 集及所述第三低置信度数据集中, 所述连通域平均面积小于所述连通域平均面积阈值的病 理图像切片加入到第三高置信度数据集, 其余病理图像切片加入到第四低置信度数据集; 将所述第四低置信度数据集中, 所述连通域面积的峰度小于所述连通域面积的峰度阈值的 病理图像切片加入到第四高置信度数据集, 。

12、其余病理图像切片加入到第五低置信度数据 集; 将所述第一高置信度数据集、 所述第二高置信度数据集、 所述第三高置信度数据集及所 权利要求书 2/3 页 3 CN 111461243 A 3 述第四高置信度数据集确定为所述高置信度数据集, 将所述第五低置信度数据集确定为所 述低置信度数据集。 7.根据权利要求5所述的装置, 其特征在于, 所述装置还包括: 第二输入模块, 用于将所述第一难样本集输入到预先训练好的相对危险度的二叉树, 将所述第一难样本集分为高置信度数据子集及低置信度数据子集; 所述分类模块, 还用于将所述高置信度数据子集中所述样本标签表征为所述正样本的 病理图像切片加入到第二正样本。

13、集, 将所述高置信度数据子集中所述样本标签表征为所述 负样本的病理图像切片加入到第二负样本集; 确定所述低置信度数据子集为第二难样本 集。 8.根据权利要求7所述的装置, 其特征在于, 所述装置还包括: 获取模块, 用于获取用于训练所述相对危险度的二叉树的基础难样本, 所述基础难样 本中的每个病理图像切片预先输入所述二分类网络模型进行分类, 且每个病理图像切片包 括用于表征分类正确以及分类错误的分类标签; 确定模块, 用于基于公式RRp/q, p(wr_low+1)/low, q(wr_high+1)/high, 确定所 述基础难样本的相对危险度, 其中, RR为所述相对危险度, low为所述。

14、基础难样本所包括的 待划分低置信度数据子集中的样本总数, high为所述基础难样本所包括的待划分高置信度 数据子集中的样本总数, low与high之和为所述基础难样本所包括的样本总数, wr_low为低 置信度数据子集中分类错误的病理图像切片个数, wr_high为高置信度数据子集中分类错 误的病理图像切片个数; 所述确定模块, 用于将所述相对危险度确定为分类回归树的特征选择函数, 得到所述 相对危险度的二叉树; 训练模块, 用于通过所述基础难样本训练所述相对危险度的二叉树至收敛。 9.一种电子设备, 其特征在于, 包括: 存储器和处理器, 所述存储器和所述处理器连接; 所述存储器用于存储程序。

15、; 所述处理器调用存储于所述存储器中的程序, 以执行如权利要求1-4中任一项所述的 方法。 10.一种计算机可读存储介质, 其特征在于, 其上存储有计算机程序, 所述计算机程序 被计算机运行时执行如权利要求1-4中任一项所述的方法。 权利要求书 3/3 页 4 CN 111461243 A 4 分类方法、 装置、 电子设备及计算机可读存储介质 技术领域 0001 本申请属于图像处理领域, 具体涉及一种分类方法、 装置、 电子设备及计算机可读 存储介质。 背景技术 0002 目前对于医学病理图像的分类问题, 一般来说是类似良性/恶性的二分类问题, 即 将样本分成正样本和负样本。 其中, 对于分类。

16、的准确性的评价多数靠灵敏度、 特异性等指标 来衡量。 由于医学病理图像通常较大, 在通过分类模型对医学病理图像进行分类处理时, 通 常需要将医学病理图像切分成固定大小的病理图像切片, 比如256256大小, 然后将切分 后的切片输入分类模型中进行训练或者分类, 这一定程度会在医学病理图像中引入噪音。 噪音的引入会导致最后得到的切片的分类结果不准确。 发明内容 0003 有鉴于此, 本申请的目的在于提供一种分类方法、 装置、 电子设备及计算机可读存 储介质, 有利于提高分类结果的准确性。 0004 本申请的实施例是这样实现的: 0005 第一方面, 本申请实施例提供一种分类方法, 用于对由病理图。

17、像拆分得到的多个 病理图像切片进行分类, 所述方法包括: 将所述多个病理图像切片输入预先训练好的二分 类网络模型, 根据所述二分类网络模型的输出为每个病理图像切片添加用于表征为正样本 或者为负样本的样本标签; 对所述多个病理图像切片进行置信度特征提取, 并根据所提取 的置信度特征及预先设置好的置信度特征阈值将所述多个病理图像切片分为高置信度数 据集及低置信度数据集; 将所述高置信度数据集中所述样本标签表征为所述正样本的病理 图像切片加入到第一正样本集, 将所述高置信度数据集中所述样本标签表征为所述负样本 的病理图像切片加入到第一负样本集; 确定所述低置信度数据集为第一难样本集。 经过上 述过程。

18、, 可以将多个病理图像切片由二分类转变成三分类, 一类为第一正样本集, 一类为第 一负样本集, 一类为第一难样本集。 其中, 由于第一正样本集以及第一负样本集的置信度 高, 因此, 可以认为第一正样本集以及第一负样本集中的样本的分类准确度相对现有技术 中的二分类得到提高, 此外, 由于相较于现有技术而言, 筛选出了第一难样本集, 相较于现 有技术中直接通过二分类模型将难样本粗略分为正负样本的情况, 减少了正负样本中由于 难样本导致的分类错误的样本数量, 可以提高最后得到的正负样本的准确度。 0006 结合第一方面实施例, 在一种可能的实施方式中, 所述置信度特征包括连通域最 大直径、 连通域数。

19、量、 连通域平均面积、 连通域面积的峰度, 所述置信度特征阈值包括连通 域最大直径第一阈值、 连通域最大直径第二阈值、 连通域数量阈值、 连通域平均面积阈值、 连通域面积的峰度阈值, 所述最大直径第一阈值小于所述最大直径第二阈值; 所述根据所 提取的置信度特征及预先设置好的置信度特征阈值将所述多个病理图像切片分为高置信 度数据集及低置信度数据集, 包括: 将所述连通域最大直径小于所述最大直径第一阈值的 说明书 1/12 页 5 CN 111461243 A 5 病理图像切片加入到第一高置信度数据集; 将所述连通域最大直径大于所述最大直径第二 阈值的病理图像切片加入到第一低置信度数据集; 将所述。

20、连通域最大直径位于所述最大直 径第一阈值与所述最大直径第二阈值之间的病理图像切片加入到第二低置信度数据集; 将 所述第一低置信度数据集中, 所述连通域数量小于所述连通域数量阈值的病理图像切片加 入到第二高置信度数据集, 其余病理图像切片加入到第三低置信度数据集; 将所述第二低 置信度数据集及所述第三低置信度数据集中, 所述连通域平均面积小于所述连通域平均面 积阈值的病理图像切片加入到第三高置信度数据集, 其余病理图像切片加入到第四低置信 度数据集; 将所述第四低置信度数据集中, 所述连通域面积的峰度小于所述连通域面积的 峰度阈值的病理图像切片加入到第四高置信度数据集, 其余病理图像切片加入到第。

21、五低置 信度数据集; 将所述第一高置信度数据集、 所述第二高置信度数据集、 所述第三高置信度数 据集及所述第四高置信度数据集确定为所述高置信度数据集, 将所述第五低置信度数据集 确定为所述低置信度数据集。 0007 结合第一方面实施例, 在一种可能的实施方式中, 所述方法还包括: 将所述第一难 样本集输入到预先训练好的相对危险度的二叉树, 将所述第一难样本集分为高置信度数据 子集及低置信度数据子集; 将所述高置信度数据子集中所述样本标签表征为所述正样本的 病理图像切片加入到第二正样本集, 将所述高置信度数据子集中所述样本标签表征为所述 负样本的病理图像切片加入到第二负样本集; 确定所述低置信度。

22、数据子集为第二难样本 集。 通过上述过程, 即可以针对第一难样本集进行进一步地三分类, 得到第二负样本集、 第 二正样本集以及第二难样本集。 其中, 可以只将第二难样本集中的样本交由人工进行核验, 从而可以减轻核验人员的工作量。 0008 结合第一方面实施例, 在一种可能的实施方式中, 所述将所述第一难样本集输入 到预先训练好的相对危险度的二叉树之前, 所述方法还包括: 获取用于训练所述相对危险 度的二叉树的基础难样本, 所述基础难样本中的每个病理图像切片预先输入所述二分类网 络模型进行分类, 且每个病理图像切片包括用于表征分类正确以及分类错误的分类标签; 基于公式RRp/q, p(wr_lo。

23、w+1)/low, q(wr_high+1)/high, 确定所述基础难样本的相 对危险度, 其中, RR为所述相对危险度, low为所述基础难样本所包括的待划分低置信度数 据子集中的样本总数, high为所述基础难样本所包括的待划分高置信度数据子集中的样本 总数, low与high之和为所述基础难样本所包括的样本总数, wr_low为低置信度数据子集中 分类错误的病理图像切片个数, wr_high为高置信度数据子集中分类错误的病理图像切片 个数; 将所述相对危险度确定为分类回归树的特征选择函数, 得到所述相对危险度的二叉 树; 通过所述基础难样本训练所述相对危险度的二叉树至收敛。 0009 。

24、第二方面, 本申请实施例提供一种分类装置, 用于对由病理图像拆分得到的多个 病理图像切片进行分类, 所述装置包括: 第一输入模块、 提取模块、 分类模块。 第一输入模 块, 用于将所述多个病理图像切片输入预先训练好的二分类网络模型, 根据所述二分类网 络模型的输出为每个病理图像切片添加用于表征为正样本或者为负样本的样本标签; 提取 模块, 用于对所述多个病理图像切片进行置信度特征提取, 并根据所提取的置信度特征及 预先设置好的置信度特征阈值将所述多个病理图像切片分为高置信度数据集及低置信度 数据集; 分类模块, 用于将所述高置信度数据集中所述样本标签表征为所述正样本的病理 图像切片加入到第一正。

25、样本集, 将所述高置信度数据集中所述样本标签表征为所述负样本 说明书 2/12 页 6 CN 111461243 A 6 的病理图像切片加入到第一负样本集; 确定所述低置信度数据集为第一难样本集。 0010 结合第二方面实施例, 在一种可能的实施方式中, 所述置信度特征包括连通域最 大直径、 连通域数量、 连通域平均面积、 连通域面积的峰度, 所述置信度特征阈值包括连通 域最大直径第一阈值、 连通域最大直径第二阈值、 连通域数量阈值、 连通域平均面积阈值、 连通域面积的峰度阈值, 所述最大直径第一阈值小于所述最大直径第二阈值; 所述提取模 块, 用于将所述连通域最大直径小于所述最大直径第一阈值。

26、的病理图像切片加入到第一高 置信度数据集; 将所述连通域最大直径大于所述最大直径第二阈值的病理图像切片加入到 第一低置信度数据集; 将所述连通域最大直径位于所述最大直径第一阈值与所述最大直径 第二阈值之间的病理图像切片加入到第二低置信度数据集; 将所述第一低置信度数据集 中, 所述连通域数量小于所述连通域数量阈值的病理图像切片加入到第二高置信度数据 集, 其余病理图像切片加入到第三低置信度数据集; 将所述第二低置信度数据集及所述第 三低置信度数据集中, 所述连通域平均面积小于所述连通域平均面积阈值的病理图像切片 加入到第三高置信度数据集, 其余病理图像切片加入到第四低置信度数据集; 将所述第四。

27、 低置信度数据集中, 所述连通域面积的峰度小于所述连通域面积的峰度阈值的病理图像切 片加入到第四高置信度数据集, 其余病理图像切片加入到第五低置信度数据集; 将所述第 一高置信度数据集、 所述第二高置信度数据集、 所述第三高置信度数据集及所述第四高置 信度数据集确定为所述高置信度数据集, 将所述第五低置信度数据集确定为所述低置信度 数据集。 0011 结合第二方面实施例, 在一种可能的实施方式中, 所述装置还包括: 第二输入模 块, 用于将所述第一难样本集输入到预先训练好的相对危险度的二叉树, 将所述第一难样 本集分为高置信度数据子集及低置信度数据子集; 所述分类模块, 还用于将所述高置信度 。

28、数据子集中所述样本标签表征为所述正样本的病理图像切片加入到第二正样本集, 将所述 高置信度数据子集中所述样本标签表征为所述负样本的病理图像切片加入到第二负样本 集; 确定所述低置信度数据子集为第二难样本集。 0012 结合第二方面实施例, 在一种可能的实施方式中, 所述装置还包括: 获取模块, 用 于获取用于训练所述相对危险度的二叉树的基础难样本, 所述基础难样本中的每个病理图 像切片预先输入所述二分类网络模型进行分类, 且每个病理图像切片包括用于表征分类正 确以及分类错误的分类标签; 确定模块, 用于基于公式RRp/q, p(wr_low+1)/low, q (wr_high+1)/high。

29、, 确定所述基础难样本的相对危险度, 其中, RR为所述相对危险度, low为 所述基础难样本所包括的待划分低置信度数据子集中的样本总数, high为所述基础难样本 所包括的待划分高置信度数据子集中的样本总数, low与high之和为所述基础难样本所包 括的样本总数, wr_low为低置信度数据子集中分类错误的病理图像切片个数, wr_high为高 置信度数据子集中分类错误的病理图像切片个数; 所述确定模块, 用于将所述相对危险度 确定为分类回归树的特征选择函数, 得到所述相对危险度的二叉树; 训练模块, 用于通过所 述基础难样本训练所述相对危险度的二叉树至收敛。 0013 第三方面, 本申请。

30、实施例还提供一种电子设备, 包括: 存储器和处理器, 所述存储 器和所述处理器连接; 所述存储器用于存储程序; 所述处理器调用存储于所述存储器中的 程序, 以执行上述第一方面实施例和/或结合第一方面实施例的任一种可能的实施方式提 供的方法。 说明书 3/12 页 7 CN 111461243 A 7 0014 第四方面, 本申请实施例还提供一种非易失性计算机可读取存储介质(以下简称 计算机可读存储介质), 其上存储有计算机程序, 所述计算机程序被计算机运行时执行上述 第一方面实施例和/或结合第一方面实施例的任一种可能的实施方式提供的方法。 0015 本申请的其他特征和优点将在随后的说明书阐述,。

31、 并且, 部分地从说明书中变得 显而易见, 或者通过实施本申请实施例而了解。 本申请的目的和其他优点可通过在所写的 说明书以及附图中所特别指出的结构来实现和获得。 附图说明 0016 为了更清楚地说明本申请实施例或现有技术中的技术方案, 下面将对实施例中所 需要使用的附图作简单地介绍, 显而易见地, 下面描述中的附图仅仅是本申请的一些实施 例, 对于本领域普通技术人员来讲, 在不付出创造性劳动的前提下, 还可以根据这些附图获 得其他的附图。 通过附图所示, 本申请的上述及其它目的、 特征和优势将更加清晰。 在全部 附图中相同的附图标记指示相同的部分。 并未刻意按实际尺寸等比例缩放绘制附图, 重。

32、点 在于示出本申请的主旨。 0017 图1示出了本申请实施例提供的分类方法的流程图之一。 0018 图2示出了本申请实施例提供的将病理图像切片分为高置信度数据集及低置信度 数据集的示意图。 0019 图3示出了本申请实施例提供的分类方法的流程图之二。 0020 图4示出了本申请实施例提供的分类装置的结构框图。 0021 图5示出了本申请实施例提供的电子设备的结构示意图。 0022 图标: 100-电子设备; 110-处理器; 120-存储器; 400-分类装置; 410-第一输入模 块; 420-提取模块; 430-分类模块。 具体实施方式 0023 下面将结合本申请实施例中的附图, 对本申请。

33、实施例中的技术方案进行描述。 0024 应注意到: 相似的标号和字母在下面的附图中表示类似项, 因此, 一旦某一项在一 个附图中被定义, 则在随后的附图中不需要对其进行进一步定义和解释。 同时, 在本申请的 描述中诸如 “第一” 、“第二” 等之类的关系术语仅仅用来将一个实体或者操作与另一个实体 或操作区分开来, 而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或 者顺序。 而且, 术语 “包括” 或者其任何其他变体意在涵盖非排他性的包含, 从而使得包括一 系列要素的过程、 方法、 物品或者设备不仅包括那些要素, 而且还包括没有明确列出的其他 要素, 或者是还包括为这种过程、 方法。

34、、 物品或者设备所固有的要素。 在没有更多限制的情 况下, 由语句 “包括一个” 限定的要素, 并不排除在包括所述要素的过程、 方法、 物品或 者设备中还存在另外的相同要素。 0025 再者, 本申请中术语 “和/或” , 仅仅是一种描述关联对象的关联关系, 表示可以存 在三种关系, 例如, A和/或B, 可以表示: 单独存在A, 同时存在A和B, 单独存在B这三种情况。 0026 此外, 针对现有技术中对病理图像切片进行分类时存在的分类结果不准确的问 题, 是申请人在经过实践并仔细研究后得出的结果, 因此, 上述缺陷的发现过程以及在下文 中本申请实施例针对上述缺陷所提出的解决方案, 都应该是。

35、申请人在本申请过程中对本申 说明书 4/12 页 8 CN 111461243 A 8 请做出的贡献。 0027 为了解决上述问题, 本申请实施例提供一种分类方法、 装置、 电子设备及计算机可 读存储介质, 有利于提高分类结果的准确性。 0028 该技术可采用相应的软件、 硬件以及软硬结合的方式实现。 以下对本申请实施例 进行详细介绍。 0029 下面将针对本申请所提供的分类方法进行介绍。 0030 请参阅图1, 本申请实施例提供一种应用于电子设备的分类方法。 下面将结合图1 对其所包含的步骤进行说明。 0031 步骤S110: 将所述多个病理图像切片输入预先训练好的二分类网络模型, 根据所 。

36、述二分类网络模型的输出为每个病理图像切片添加用于表征为正样本或者为负样本的样 本标签。 0032 一般而言, 原始病理图像的尺寸较大, 需要对原始病理图像进行切割处理, 从而得 到多个病理图像切片, 病理图像切片的大小通常为256256。 其中, 切割的方法可以采用随 机切割法。 值得指出的是, 得到的每个病理图像切片均携带有其在原始病理图像中的坐标 信息。 0033 由于对病理图像切片进行分类时一般都是基于热概率图进行分类, 因此, 在得到 病理图像切片后, 需要先将病理图像切片转换成概率热图, 过程如下。 0034 先将病理图像切片输入深度神经网络模型, 例如UNET、 RENET等进行模。

37、型训练, 待 模型被训练至收敛后, 获取模型的训练参数。 在得到训练参数后, 再把病理图像切片及训练 参数输入深度神经网络模型, 从而使得深度神经网络模型可以输出各个病理图像切片对应 的概率。 0035 在得到各个病理图像切片的概率后, 将各个病理图像切片的概率值乘以255后, 转 变成8位图的像素值, 并按照各个病理图像切片在原始病理图像中的坐标信息将各个病理 图像切片进行还原拼接, 从而生成与原始病理图像对应的概率热图。 0036 在得到概率热图后, 可以将概率热图所包括的每个病理图像切片输入预先训练好 的二分类模型进行正负样本分类。 其中, 正样本表征为阳性的有癌病理图像切片, 负样本表。

38、 征为阴性的无癌病理图像切片。 0037 其中, 训练二分类模型的过程如下。 0038 针对现有的概率热图, 可以对概率热图进行特征提取, 以便基于提取的特征训练 二分类网络模型。 0039 其中, 可以通过python包的skimage.measure进行特征提取, 提取的特征包括但不 限于: 连通域的数量、 连通域面积占病理图像切片总面积的比例、 最大连通域的面积、 所有 连通域中最大面积连通域的主轴、 所有概率大于0.9的像素的个数、 所有连通域中最大的面 积、 所有连通域的平均面积、 所有连通域面积的方差、 所有连通域面积的偏度、 所有连通域 面积的峰度、 所有连通域中最大的周长、 所。

39、有连通域的平均周长、 所有连通域周长的方差、 所有连通域中周长的偏度、 所有连通域周长的峰度、 所有连通域的最大的偏心率(偏心率是 焦距(焦点之间的距离)与主轴长度之比)、 所有连通域的平均偏心率、 所有连通域的偏心率 的方差、 所有连通域的偏心率的偏度、 所有连通域的偏心率的峰度、 所有连通域中extent (连通区域中的像素与外界矩形的像素的比率)的最大值、 所有连通域的extent的平均值、 说明书 5/12 页 9 CN 111461243 A 9 所有连通域的extent的方差、 所有连通域的extent的偏度、 所有连通域的extent的偏度、 所 有连通域中solidity(区域。

40、中像素与凸包图像像素的比率)的最大值、 所有连通域中 solidity的平均值、 所有连通域中solidity的方差、 所有连通域中solidity的偏度、 所有连 通域中solidity的峰度。 0040 在进行特征提取后, 将提取到的特征输入基础神经网络模型(例如随机森林、 支持 向量机等)进行训练, 待模型收敛后, 即得到二分类网络模型。 0041 步骤S120: 对所述多个病理图像切片进行置信度特征提取, 并根据所提取的置信 度特征及预先设置好的置信度特征阈值将所述多个病理图像切片分为高置信度数据集及 低置信度数据集。 0042 在将概率热图所包括的多个病理图像切片分为正样本以及负样本。

41、后, 由于形成概 率热图的过程会引入噪声, 因此, 极有可能导致正样本与负样本的分类存在大量的错误。 0043 为了缓解这个问题, 在本申请实施例中, 通过对已进行二分类的多个病理图像切 片进行置信度特征提取, 从而基于置信度特征判断上述二分类的可信度, 将已经进行过二 分类的多个病理图像切片分为高置信度数据集及低置信度数据集。 其中, 置信度特征用于 表征病理图像切片在进行二分类后, 得到的样本标签(正样本或者为负样本)结果的可信 度。 0044 可选的, 置信度特征包括但不限于连通域最大直径、 连通域数量、 连通域平均面 积、 连通域面积的峰度。 0045 此外, 值得指出的是, 电子设备。

42、预先获取与各个置信度特征对应的置信度特征阈 值, 该阈值可以由工作人员通过人为经验得到并保存在电子设备内。 0046 其中, 当置信度特征包括连通域最大直径、 连通域数量、 连通域平均面积、 连通域 面积的峰度这五种特征时, 与连通域最大直径对应的置信度特征阈值包括连通域最大直径 第一阈值b以及连通域最大直径第二阈值a, 其中, ba; 与连通域数量对应的置信度特征阈 值为连通域数量阈值c; 与连通域平均面积对应的置信度特征阈值为连通域平均面积阈值 d; 与连通域面积的峰度对应的置信度特征阈值为连通域面积的峰度阈值e。 0047 其中, 请参看图2, 将多个病理图像切片分为高置信度数据集及低置。

43、信度数据集的 过程如下。 0048 对于连通域最大直径特征, 针对每个病理图像切片, 先将连通域最大直径小于b(b 的具体大小可以根据实际情况设置, 例如在一种实施方式下, b为0.1132cm)的病理图像切 片加入到第一高置信度数据集, 然后将连通域最大直径大于a(a的具体大小可以根据实际 情况设置, 例如在一种实施方式下, a为1个)的病理图像切片加入到第一低置信度数据集。 针对连通域最大直径位于b与a之间的病理图像切片, 加入到第二低置信度数据集。 0049 在通过连通域最大直径特征初步将病理图像切片分为第一高置信度数据集、 第一 低置信度数据集以及第二低置信度数据集后, 针对第一低置信。

44、度数据集, 将其所包括的病 理图像切片中, 连通域数量小于c(c的具体大小可以根据实际情况设置, 例如在一种实施方 式下, c为400)的病理图像切片加入到第二高置信度数据集, 将第一低置信度数据集所包括 的其余病理图像切片加入到第三低置信度数据集。 至此, 得到的置信度数据集分别为: 第一 高置信度数据集、 第二高置信度数据集、 第二低置信度数据集以及第三低置信度数据集。 0050 针对第二低置信度数据集以及第三低置信度数据集, 将其进行合并, 得到合并后 说明书 6/12 页 10 CN 111461243 A 10 的低置信度数据集。 针对合并后的低置信度数据集, 将其所包括的病理图像切。

45、片中, 连通域 平均面积小于d(d的具体大小可以根据实际情况设置, 例如在一种实施方式下, d为1.1个像 素)的病理图像切片加入到第三高置信度数据集, 将合并后的低置信度数据集所包括的其 余病理图像切片加入到第四低置信度数据集。 至此, 可以得到的置信度数据集分别为: 第一 高置信度数据集、 第二高置信度数据集、 第三高置信度数据集、 第四低置信度数据集。 0051 针对第四低置信度数据集, 将其所包括的病理图像切片中, 连通域面积的峰度小 于e(e的具体大小可以根据实际情况设置, 例如在一种实施方式下, e为0)的病理图像切片 加入到第四高置信度数据集, 将第四低置信度数据集所包括的其余病。

46、理图像切片加入到第 五低置信度数据集。 至此, 得到的置信度数据集分别为: 第一高置信度数据集、 第二高置信 度数据集、 第三高置信度数据集、 第四高置信度数据集以及第五低置信度数据集。 0052 在得到第一高置信度数据集、 第二高置信度数据集、 第三高置信度数据集、 第四高 置信度数据集以及第五低置信度数据集的基础上, 将第一高置信度数据集、 第二高置信度 数据集、 第三高置信度数据集及第四高置信度数据集进行合并, 并确定合并后的数据集为 高置信度数据集, 将第五低置信度数据集确定为低置信度数据集。 0053 其中, 高置信度数据集中的样本即可以认为是在经过二分类后, 分类正确的样本 (分类。

47、可信度高), 低置信度数据集中的样本即可以认为是在经过二分类后, 可能存在分类 错误的样本(分类可信度低)。 0054 步骤S130: 将所述高置信度数据集中所述样本标签表征为所述正样本的病理图像 切片加入到第一正样本集, 将所述高置信度数据集中所述样本标签表征为所述负样本的病 理图像切片加入到第一负样本集; 确定所述低置信度数据集为第一难样本集。 0055 由于高置信度数据集中的样本的分类结果可信度高, 因此, 针对高置信度数据集 中的样本, 可以将其所包括的在进行二分类时被分类为正样本的病理图像切片加入到第一 正样本集, 将其所包括的在进行二分类时被分类为负样本的病理图像切片加入到第一负样。

48、 本集。 0056 针对低置信度数据集中的样本, 由于其分类结果可信度低, 即低置信度数据集中 的样本是容易被二分类模型分类错误的样本, 因此, 可以将低置信度数据集确定为第一难 样本集, 低置信度数据集中所包括的样本即为难样本。 0057 经过上述过程, 可以将多个病理图像切片由二分类转变成三分类, 一类为第一正 样本集, 一类为第一负样本集, 一类为第一难样本集。 其中, 由于第一正样本集以及第一负 样本集的置信度高, 因此, 可以认为第一正样本集以及第一负样本集中的样本的分类准确 度相对现有技术中的二分类得到提高, 此外, 由于相较于现有技术而言, 筛选出了第一难样 本集, 相较于现有技。

49、术中直接通过二分类模型将难样本粗略分为正负样本的情况, 减少了 正负样本中由于难样本导致的分类错误的样本数量, 可以提高最后得到的正负样本的准确 度。 此外, 由于第一难样本集被二分类模型进行分类后得到的分类结果的置信度低, 因此, 可以将第一难样本集中的样本交由人工进行分析, 相较于现有技术中由于分类结果不准确 需要对大量的样本进行人工核查的方案, 可以减轻人工核查的工作量。 0058 此外, 在得到第一难样本集后, 在一种可选的实施方式中, 还可以针对第一难样本 集进行进一步的分类处理, 得到更为精确的分类结果。 在这种实施方式下, 请参看图3, 上述 方法还可以包括: 说明书 7/12 。

50、页 11 CN 111461243 A 11 0059 步骤S140: 将所述第一难样本集输入到预先训练好的相对危险度的二叉树, 将所 述第一难样本集分为高置信度数据子集及低置信度数据子集。 0060 其中, 一般而言, 相对危险度(relative risk, RR)是指两组进行比对的样本集中, 其中一组样本集的危险度(累积发病率)与另一组样本集的危险度之比。 对应于本申请实施 例中, 用于表征由第一难样本集进一步确定出的低置信度数据子集中分类错误的病理图像 切片概率与高置信度数据子集中分类错误的病理图像切片概率之比。 0061 下面将针对训练相对危险度的二叉树的过程进行介绍。 0062 电。

展开阅读全文
内容关键字: 分类 方法 装置 电子设备 计算机 可读 存储 介质
关于本文
本文标题:分类方法、装置、电子设备及计算机可读存储介质.pdf
链接地址:https://www.zhuanlichaxun.net/pdf/10612692.html
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1