数据分类方法、装置、终端设备及可读存储介质.pdf
《数据分类方法、装置、终端设备及可读存储介质.pdf》由会员分享,可在线阅读,更多相关《数据分类方法、装置、终端设备及可读存储介质.pdf(19页完成版)》请在专利查询网上搜索。
1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 201911150175.X (22)申请日 2019.11.21 (71)申请人 中国科学院深圳先进技术研究院 地址 518000 广东省深圳市南山区深圳大 学城学苑大道1068号 (72)发明人 董师周乔宇王亚立 (74)专利代理机构 深圳中一联合知识产权代理 有限公司 44414 代理人 刘艳 (51)Int.Cl. G06K 9/62(2006.01) (54)发明名称 数据分类方法、 装置、 终端设备及可读存储 介质 (57)摘要 本申请适用于机器学习技术领域, 提供了。
2、一 种数据分类方法、 装置、 终端设备及可读存储介 质, 该数据分类方法, 包括: 先接收待分类数据, 然后将待分类数据输入训练后的分类模型, 得到 待分类数据的至少一个数据标签。 其中, 分类模 型是根据间距焦点损失函数训练得到的, 间距焦 点损失函数用于根据样本数据的预测标签、 样本 数据的预设标签的间隔距离, 表示样本数据的预 测标签、 样本数据的预设标签之间的差距。 在对 样本数据进行分类训练时, 可以无需考虑样本的 数量, 只需根据样本数据的预测标签、 样本数据 的预设标签之间的差距确定分类的边界, 使得数 据不平衡的情况能够有效减少, 训练后的分类模 型能够更加准确地对待分类数据进。
3、行标签分类。 权利要求书2页 说明书11页 附图5页 CN 110929785 A 2020.03.27 CN 110929785 A 1.一种数据分类方法, 其特征在于, 包括: 接收待分类数据; 将所述待分类数据输入所述训练后的分类模型, 得到所述待分类数据的至少一个数据 标签, 其中, 所述分类模型是根据间距焦点损失函数训练得到的, 所述间距焦点损失函数用 于根据样本数据的预测标签、 所述样本数据的预设标签的间隔距离, 表示所述样本数据的 预测标签、 所述样本数据的预设标签之间的差距。 2.根据权利要求1所述的方法, 其特征在于, 所述训练后的分类模型的训练方式为: 从预设数据库中获取至。
4、少一个所述样本数据, 其中, 每个所述样本数据包括至少一个 预设的标签; 通过预设分类模型, 获取每个所述样本数据的预测标签; 获取所述样本数据的预测标签和所述样本数据的预设标签之间的间隔距离; 根据所述间隔距离, 通过所述间距焦点损失函数, 计算最大间距焦点损失值, 其中, 所 述最大间距焦点损失值用于指示所述样本数据的预测标签、 所述样本数据的预设标签之间 差距的最大值; 根据所述最大间距焦点损失值训练所述预设分类模型, 获取训练后的分类模型。 3.根据权利要求2所述的方法, 其特征在于, 所述预测标签包括N个分类, 其中, N为大于 1的整数; 相应的, 所述获取所述样本数据的预测标签和。
5、所述样本数据的预设标签之间的间隔距 离, 包括: 根据所述样本数据第i类预测标签的值、 所述样本数据第i类预设标签的值, 获取所述 样本数据的第i类预测标签、 第i类预设标签之间的间隔距离, 其中, i为大于或等于1且小于 或等于N的整数。 4.根据权利要求3所述的方法, 其特征在于, 所述根据所述样本数据第i类预测标签的 值、 所述样本数据第i类预设标签的值, 获取所述样本数据的第i类预测标签、 第i类预设标 签之间的间隔距离, 包括: 将所述第i类预设标签的值减去所述第i类预测标签的值, 获取所述样本数据的第i类 预测标签、 第i类预设标签之间的绝对距离; 将所述绝对距离与预设缩放系数相乘。
6、, 得到所述样本数据的第i类预测标签、 第i类预 设标签之间的间隔距离。 5.根据权利要求3或4所述的方法, 其特征在于, 所述根据所述间隔距离, 通过所述间距 焦点损失函数, 计算获取最大间距焦点损失值, 包括: 根据所述间隔距离、 所述第i类预测标签的值以及所述第i类预设标签的值, 调整所述 第i类预测标签值的取值范围, 得到范围调整后的第i类预测标签值; 根据所述范围调整后的第i类预测标签值、 所述间距焦点损失函数, 得到所述最大间距 焦点损失值。 6.根据权利要求5所述的方法, 其特征在于, 所述根据所述间隔距离、 所述第i类预测标 签的值以及所述第i类预设标签的值, 调整所述第i类预。
7、测标签值的取值范围, 得到范围调 整后的第i类预测标签值, 包括: 将所述第i类预设标签值乘以二再减一, 获取映射后的第i类预设标签值; 权利要求书 1/2 页 2 CN 110929785 A 2 将所述第i类预测标签值减去所述间隔距离与所述映射后的第i类预设标签值的乘积, 获取映射后的第i类预测标签值; 将所述映射后的第i类预测标签值乘以预设范围缩放系数, 获取所述范围调整后的第i 类预测标签值。 7.根据权利要求5所述的方法, 其特征在于, 所述根据所述范围调整后的第i类预测标 签值、 所述间距焦点损失函数, 得到所述最大间距焦点损失值, 包括: 对所述范围调整后的第i类预测标签值进行二。
8、分类, 获取二分类后的第i类预测标签 值; 根据所述二分类后的第i类预测标签值、 所述间距焦点损失函数, 获取所述最大间距焦 点损失值。 8.一种数据分类装置, 其特征在于, 包括: 接收模块, 用于接收待分类数据; 分类模块, 用于将所述待分类数据输入所述训练后的分类模型, 得到所述待分类数据 的至少一个数据标签, 其中, 所述分类模型是根据间距焦点损失函数训练得到的, 所述间距 焦点损失函数用于根据样本数据的预测标签、 所述样本数据的预设标签的间隔距离, 表示 所述样本数据的预测标签、 所述样本数据的预设标签之间的差距。 9.一种终端设备, 包括存储器、 处理器以及存储在所述存储器中并可在。
9、所述处理器上 运行的计算机程序, 其特征在于, 所述处理器执行所述计算机程序时实现如权利要求1至7 任一项所述的方法。 10.一种计算机可读存储介质, 所述计算机可读存储介质存储有计算机程序, 其特征在 于, 所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。 权利要求书 2/2 页 3 CN 110929785 A 3 数据分类方法、 装置、 终端设备及可读存储介质 技术领域 0001 本申请属于机器学习技术领域, 尤其涉及一种数据分类方法、 装置、 终端设备及可 读存储介质。 背景技术 0002 多标签分类是机器学习的基础研究任务之一, 其目的在于预测每个样本数据中出 现的。
10、多个类别标签, 在训练分类模型时, 由于每个样本数据中类别标签的种类和数量都不 固定, 因此会导致样本数据的预测标签中, 出现个别类别标签的数据量与其他类别标签的 数据量差别很大, 发生数据不均衡的情况, 进而使得机器学习模型的准确度降低。 0003 现有技术中, 在改善数据不均衡的情况时, 可以使用卷积神经网络提取样本数据 的特征, 然后通过全连接层对特征进行线性组合, 再通过sigmoid函数生成分类概率, 然后 将焦点损失函数作为损失函数进行反向传播, 训练分类模型, 然后通过训练后的分类模型 进行分类。 0004 但是, 根据现有技术训练分类模型时, 由于样本数据中每个类别的数量不同,。
11、 对于 数量较少的类别, 无法提取的足够的样本数据特征, 仅依靠焦点损失函数中的权重进行调 节, 会导致无法准确获得分类的边界的情况, 因此依然会造成一定程度的数据不平衡, 影响 标签分类的准确率。 发明内容 0005 本申请实施例提供了数据分类方法、 装置、 终端设备及可读存储介质, 以改善现有 技术中仅依靠焦点损失函数中的权重进行调节, 导致无法准确获得分类的边界的情况, 造 成一定程度的数据不平衡, 影响标签分类的准确率的问题。 0006 第一方面, 本申请实施例提供了一种数据分类方法, 包括: 0007 先接收待分类数据, 然后将待分类数据输入训练后的分类模型, 得到待分类数据 的至少。
12、一个数据标签。 其中, 分类模型是根据间距焦点损失函数训练得到的, 间距焦点损失 函数用于根据样本数据的预测标签、 样本数据的预设标签的间隔距离, 表示样本数据的预 测标签、 样本数据的预设标签之间的差距。 0008 一些实现方式中, 训练后的分类模型的训练方式为: 先从预设数据库中获取至少 一个样本数据, 其中, 每个样本数据包括至少一个预设的标签。 然后通过预设分类模型, 获 取每个样本数据的预测标签。 再获取样本数据的预测标签和样本数据的预设标签之间的间 隔距离。 再根据间隔距离, 通过间距焦点损失函数, 计算最大间距焦点损失值, 其中, 最大间 距焦点损失值用于指示样本数据的预测标签、。
13、 样本数据的预设标签之间差距的最大值。 最 后, 根据最大间距焦点损失值训练预设分类模型, 获取训练后的分类模型。 0009 需要说明的是, 预测标签包括N个分类, 其中, N为大于1的整数。 0010 相应的, 获取样本数据的预测标签和样本数据的预设标签之间的间隔距离, 包括: 根据样本数据第i类预测标签的值、 样本数据第i类预设标签的值, 获取样本数据的第i类预 说明书 1/11 页 4 CN 110929785 A 4 测标签、 第i类预设标签之间的间隔距离, 其中, i为大于或等于1且小于或等于N的整数。 0011 还有一些实现方式中, 根据样本数据第i类预测标签的值、 样本数据第i类。
14、预设标 签的值, 获取样本数据的第i类预测标签、 第i类预设标签之间的间隔距离, 可以先将第i类 预设标签的值减去第i类预测标签的值, 获取样本数据的第i类预测标签、 第i类预设标签之 间的绝对距离。 再将绝对距离与预设缩放系数相乘, 得到样本数据的第i类预测标签、 第i类 预设标签之间的间隔距离。 0012 可选地, 根据间隔距离, 通过间距焦点损失函数, 计算获取最大间距焦点损失值, 可以先根据间隔距离、 第i类预测标签的值以及第i类预设标签的值, 调整第i类预测标签值 的取值范围, 得到范围调整后的第i类预测标签值。 再根据范围调整后的第i类预测标签值、 间距焦点损失函数, 得到最大间距。
15、焦点损失值。 0013 还有一些实现方式中, 根据间隔距离、 第i类预测标签的值以及第i类预设标签的 值, 调整第i类预测标签值的取值范围, 得到范围调整后的第i类预测标签值, 包括: 先将第i 类预设标签值乘以二再减一, 获取映射后的第i类预设标签值。 再将第i类预测标签值减去 间隔距离与映射后的第i类预设标签值的乘积, 获取映射后的第i类预测标签值。 最后将映 射后的第i类预测标签值乘以预设范围缩放系数, 获取范围调整后的第i类预测标签值。 0014 可选地, 根据范围调整后的第i类预测标签值、 间距焦点损失函数, 得到最大间距 焦点损失值, 包括: 先对范围调整后的第i类预测标签值进行二。
16、分类, 获取二分类后的第i类 预测标签值。 然后根据二分类后的第i类预测标签值、 间距焦点损失函数, 获取最大间距焦 点损失值。 0015 一些实现方式中, 该数据分类方法的执行主体为具有图像处理能力的终端。 示例 性的, 该终端可以是实体终端, 如台式电脑、 服务器、 笔记本电脑、 平板电脑等, 也可是虚拟 终端, 如云端服务器、 云计算等。 应理解, 以上执行主体仅为实例, 并非限制必须是以上终 端。 0016 第二方面, 本申请实施例提供了一种数据分类装置, 包括: 接收模块, 用于接收待 分类数据。 分类模块, 用于将待分类数据输入训练后的分类模型, 得到待分类数据的至少一 个数据标签。
17、, 其中, 分类模型是根据间距焦点损失函数训练得到的, 间距焦点损失函数用于 根据样本数据的预测标签、 样本数据的预设标签的间隔距离, 表示样本数据的预测标签、 样 本数据的预设标签之间的差距。 0017 一些实现方式中, 该装置还包括训练模块, 用于根据以下步骤得到训练后的分类 模型: 先从预设数据库中获取至少一个样本数据, 其中, 每个样本数据包括至少一个预设的 标签。 然后通过预设分类模型, 获取每个样本数据的预测标签。 再获取样本数据的预测标签 和样本数据的预设标签之间的间隔距离。 再根据间隔距离, 通过间距焦点损失函数, 计算最 大间距焦点损失值, 其中, 最大间距焦点损失值用于指示。
18、样本数据的预测标签、 样本数据的 预设标签之间差距的最大值。 最后, 根据最大间距焦点损失值训练预设分类模型, 获取训练 后的分类模型。 0018 需要说明的是, 预测标签包括N个分类, 其中, N为大于1的整数。 0019 相应的, 训练模块, 具体用于根据样本数据第i类预测标签的值、 样本数据第i类预 设标签的值, 获取样本数据的第i类预测标签、 第i类预设标签之间的间隔距离, 其中, i为大 于或等于1且小于或等于N的整数。 说明书 2/11 页 5 CN 110929785 A 5 0020 还有一些实现方式中, 训练模块, 具体用于先将第i类预设标签的值减去第i类预 测标签的值, 获。
19、取样本数据的第i类预测标签、 第i类预设标签之间的绝对距离。 再将绝对距 离与预设缩放系数相乘, 得到样本数据的第i类预测标签、 第i类预设标签之间的间隔距离。 0021 可选地, 训练模块, 具体用于先根据间隔距离、 第i类预测标签的值以及第i类预设 标签的值, 调整第i类预测标签值的取值范围, 得到范围调整后的第i类预测标签值。 再根据 范围调整后的第i类预测标签值、 间距焦点损失函数, 得到最大间距焦点损失值。 0022 还有一些实现方式中, 训练模块, 具体用于先将第i类预设标签值乘以二再减一, 获取映射后的第i类预设标签值。 再将第i类预测标签值减去间隔距离与映射后的第i类预 设标签。
20、值的乘积, 获取映射后的第i类预测标签值。 最后将映射后的第i类预测标签值乘以 预设范围缩放系数, 获取范围调整后的第i类预测标签值。 0023 可选地, 训练模块, 具体用于先对范围调整后的第i类预测标签值进行二分类, 获 取二分类后的第i类预测标签值。 然后根据二分类后的第i类预测标签值、 间距焦点损失函 数, 获取最大间距焦点损失值。 0024 第三方面, 本申请实施例提供了一种终端设备, 包括: 存储器、 处理器以及存储在 存储器中并可在处理器上运行的计算机程序, 处理器执行计算机程序时实现如第一方面所 提供的方法。 0025 第四方面, 本申请实施例提供了一种计算机可读存储介质, 计。
21、算机可读存储介质 存储有计算机程序, 该计算机程序被处理器执行时实现如如第一方面所提供的方法。 0026 第五方面, 本申请实施例提供了一种计算机程序产品, 当计算机程序产品在终端 设备上运行时, 使得终端设备执行上述第一方面所提供的方法。 0027 可以理解的是, 上述第二方面至第五方面的有益效果可以参见上述第一方面中的 相关描述, 在此不再赘述。 0028 本申请实施例与现有技术相比存在的有益效果是: 通过训练后的分类模型对接收 到的待分类数据进行分类, 得到待分类数据的至少一个数据标签。 其中, 训练后的分类模型 是预设分类模型根据间距焦点损失函数训练得到的。 由于间距焦点损失函数可以根。
22、据样本 数据的预测标签、 样本数据的预设标签的间隔距离, 来表示样本数据的预测标签、 样本数据 的预设标签之间的差距。 因此通过间距焦点损失函数训练预设分类模型, 在对样本数据进 行分类训练时, 可以无需考虑样本的数量, 只需根据样本数据的预测标签、 样本数据的预设 标签之间的差距确定分类的边界, 使得数据不平衡的情况能够有效减少, 训练后的分类模 型能够更加准确地对待分类数据进行标签分类。 附图说明 0029 为了更清楚地说明本申请实施例中的技术方案, 下面将对实施例或现有技术描述 中所需要使用的附图作简单地介绍, 显而易见地, 下面描述中的附图仅仅是本申请的一些 实施例, 对于本领域普通技。
23、术人员来讲, 在不付出创造性劳动性的前提下, 还可以根据这些 附图获得其他的附图。 0030 图1是本申请一实施例提供的数据分类方法的应用场景示意图; 0031 图2是本申请一实施例提供的数据分类方法的流程示意图; 0032 图3是本申请另一实施例提供的数据分类方法的流程示意图; 说明书 3/11 页 6 CN 110929785 A 6 0033 图4是本申请一实施例提供的数据分类方法中样本数据标签的示意图; 0034 图5是本申请另一实施例提供的数据分类方法的流程示意图; 0035 图6是本申请另一实施例提供的数据分类方法的流程示意图; 0036 图7是本申请另一实施例提供的数据分类方法的。
24、流程示意图; 0037 图8是本申请另一实施例提供的数据分类方法的流程示意图; 0038 图9是本申请一实施例提供的数据分类装置的结构示意图; 0039 图10是本申请另一实施例提供的数据分类装置的结构示意图; 0040 图11是本申请实施例提供的终端设备的结构示意图。 具体实施方式 0041 以下描述中, 为了说明而不是为了限定, 提出了诸如特定系统结构、 技术之类的具 体细节, 以便透彻理解本申请实施例。 然而, 本领域的技术人员应当清楚, 在没有这些具体 细节的其它实施例中也可以实现本申请。 在其它情况中, 省略对众所周知的系统、 装置、 电 路以及方法的详细说明, 以免不必要的细节妨碍。
25、本申请的描述。 0042 在本申请说明书中描述的参考 “一个实施例” 或 “一些实施例” 等意味着在本申请 的一个或多个实施例中包括结合该实施例描述的特定特征、 结构或特点。 由此, 在本说明书 中的不同之处出现的语句 “在一个实现方式中” 、“在一些实现方式中” 、“在其他一些实现方 式中” 、“在另外一些实现方式中” 等不是必然都参考相同的实施例, 而是意味着 “一个或多 个但不是所有的实施例” , 除非是以其他方式另外特别强调。 术语 “包括” 、“包含” 、“具有” 及 它们的变形都意味着 “包括但不限于” , 除非是以其他方式另外特别强调。 0043 本申请实施例提供的数据分类方法可。
26、以应用于手机、 平板电脑、 可穿戴设备、 车载 设备、 增强现实(augmented reality, AR)/虚拟现实(virtual reality, VR)设备、 笔记本电 脑、 超级移动个人计算机(ultra-mobile personal computer, UMPC)、 上网本、 个人数字助 理(personal digital assistant, PDA)、 安防摄像头、 监控摄像头等终端设备上, 本申请实 施例对终端设备的具体类型不作任何限制。 0044 图1示出了本申请提供的数据分类方法的应用场景示意图。 参考图1, 在该场景中, 包括图像获取设备11、 服务器12和数据库。
27、13, 图像获取设备11和服务器12之间通信连接, 服 务器12和数据库13之间通信连接, 通信连接的方式可以为有线网络或无线网络, 其中, 无线 网络可以包括无线局域网(Wireless LocalareaNetworks, WLAN)(如Wi-Fi网络), 蓝牙, Zigbee, 移动通信网络, 近距离无线通信技术(Near Field Communication, NFC), 红外技术 (Infrared, IR)等通信的解决方案。 有线网络可以包括光纤网络、 远程通信网络、 内联网等, 如局域网(Local Area Network, LAN)、 广域网(Wide Area Netwo。
28、rk, WAN)、 城域网 (Metropolitan Area Network, MAN)、 公共电话交换网(Public Switched Telephone Network, PSTN)等。 无线网络和有线网络的类型在此不做限制。 0045 仅作为示例而非限定, 图像获取设备11可以包括平板电脑111、 笔记本电脑112、 台 式电脑113、 智能手机114、 数码相机115、 监控摄像头116等, 获取图像的方式可以是通过摄 像头拍摄实时图像, 也可以是调用存储在图像获取设备11中的图像, 或者是通过图像获取 设备11访问存储有图像的服务器、 数据库等, 并将图像转发给服务器12。 0。
29、046 例如, 当图像获取设备11为智能手机114、 数码相机115或监控摄像头116等具有拍 说明书 4/11 页 7 CN 110929785 A 7 照功能的设备时, 可以通过摄像头拍摄实时图像并发送给服务器12。 0047 当图像获取设备11为平板电脑111、 笔记本电脑112、 台式电脑113等时, 可以将存 储在其中的图像发送给服务器12, 此时, 图像获取设备11和服务器12可以是分离的两个设 备, 即服务器12为云服务器、 机架式服务器、 机柜式服务器、 刀片服务器等; 或者, 图像获取 设备11和服务器12也可以是同一个设备, 如服务器12可以是在台式电脑113上运行的虚拟 。
30、服务器, 在此不做限制。 0048 同理, 数据库13可以和服务器12在同一设备上实现, 也可以在不同设备上实现, 其 实现方式是本领域技术人员的惯用手段, 在此不做赘述。 0049 图2示出了本申请一实施例提供的数据分类方法的流程示意图, 作为示例而非限 定, 该方法可以应用于上述场景中的终端设备, 如平板电脑111、 笔记本电脑112、 台式电脑 113、 智能手机114、 数码相机115或监控摄像头116等。 0050 请参阅图2, 该数据分类方法包括: 0051 S21、 接收待分类数据。 0052 需要说明的是, 在本申请中, 均以图片作为待分类数据进行描述, 但是待分类数据 的类型。
31、不局限于此, 例如, 待分类数据还可以是视频、 文本、 音频等其他形式的数据, 此时, 需要根据数据的类型做相应的调整, 调整的方法为本领域技术人员的惯用手段, 在此不做 赘述。 0053 S22、 将待分类数据输入训练后的分类模型, 得到待分类数据的至少一个数据标 签。 0054 其中, 分类模型是根据间距焦点损失函数训练得到的, 间距焦点损失函数用于根 据样本数据的预测标签、 样本数据的预设标签的间隔距离, 表示样本数据的预测标签、 样本 数据的预设标签之间的差距。 0055 需要说明的是, 样本数据的预测标签、 样本数据的预设标签之间的差距小, 则说明 该类别容易区分, 分类的边界可以(。
32、即间隔距离)离得较近; 反之, 则说明该类别难以区分, 需要将分类的边界设置的更远, 降低区分的难度。 0056 在本实现方式中, 通过训练后的分类模型对接收到的待分类数据进行分类, 得到 待分类数据的至少一个数据标签。 其中, 训练后的分类模型是预设分类模型根据间距焦点 损失函数训练得到的。 由于间距焦点损失函数可以根据样本数据的预测标签、 样本数据的 预设标签的间隔距离, 来表示样本数据的预测标签、 样本数据的预设标签之间的差距。 因此 通过间距焦点损失函数训练预设分类模型, 在对样本数据进行分类训练时, 可以无需考虑 样本的数量, 只需根据样本数据的预测标签、 样本数据的预设标签之间的差。
33、距确定分类的 边界, 使得数据不平衡的情况能够有效减少, 训练后的分类模型能够更加准确地对待分类 数据进行标签分类。 0057 请参阅图2, 在该数据分类方法的另一实施例中, 训练后的分类模型的训练方式 为: 0058 S31、 从预设数据库中获取至少一个样本数据。 0059 其中, 每个样本数据包括至少一个预设的标签。 0060 一些实现方式中, 预设数据库中存储有多个样本数据, 以及每个样本数据对应的 至少一个类别的预设的标签, 例如, 当样本数据为图片时, 若图片中同时存在猫和狗, 则该 说明书 5/11 页 8 CN 110929785 A 8 样本数据对应的预设的标签有两个, 分别为。
34、 “猫” 和 “狗” 。 0061 预设的标签可以通过包含N个元素的向量表示, 其中, N是标签类别的数量, N为大 于1的整数, 每个元素的取值范围为0,1。 0062 仅作为示例而非限制, 请参照图4, 图4中示出了样本数据标签的示意图, 设样本数 据中的标签种类共有4种, 分别为方形、 圆形、 三角形、 菱形, 在图4中, 存在方形15、 圆形16, 三角形17, 则样本数据预设的标签向量y可以表示为y1,1,1,0。 0063 其中, 第一个元素的值为1, 则表示在样本数据中, 存在第一个类别的标签(即方形 15的标签)的概率为100; 第二个元素的值为1, 则表示在样本数据中, 存在。
35、第二个类别的 标签(即圆形16的标签)的概率为100,; 第三个元素的值为1, 则表示在样本数据中, 存在 第三个类别的标签(即三角形17的标签)的概率为100; 第四个元素的值为0, 则表示在样 本数据中, 存在第四个类别的标签(即菱形的标签)的概率为0。 0064 S32、 通过预设分类模型, 获取每个样本数据的预测标签。 0065 一些实施方式中, 预测标签也可以通过包含N个元素的向量表示, 一般来说, 对于 同一批样本数据, 标签类别的数量是一定的, 即预测的标签中也包含了N个类别的标签, 可 参考S31中的示例以及图4, 样本数据的预测标签向量可以用表示, 其 中, 第一个元素的值为。
36、0.9, 则表示在样本数据中, 存在第一个类别的标签(即方形15的标 签)的概率为90; 第二个元素的值为0.7, 则表示在样本数据中, 存在第二个类别的标签 (即圆形16的标签)的概率为70,; 第三个元素的值为0.6, 则表示在样本数据中, 存在第三 个类别的标签(即三角形17的标签)的概率为60; 第四个元素的值为0, 则表示在样本数据 中, 存在第四个类别的标签(即菱形的标签)的概率为80。 0066 S33、 获取样本数据的预测标签和样本数据的预设标签之间的间隔距离。 0067 参考S32和S31中给出的样本数据的预测标签向量以及样本数据预设的标签向量, 由于是通过预设分类模型分类得。
37、到的预测结果, 和y之间存在一定的差异, 这个差异即为 样本数据的预测标签和样本数据的预设标签之间的间隔距离。 0068一些实施方式中, 可根据样本数据第i类预测标签的值样本数据第i类预设标 签的值yi, 获取样本数据的第i类预测标签、 第i类预设标签之间的间隔距离, 其中, i为大于 或等于1且小于或等于N的整数。 0069 参考图5, 获取样本数据的第i类预测标签、 第i类预设标签之间的间隔距离的方法 可包括: 0070 S331、 将第i类预设标签的值减去第i类预测标签的值, 获取样本数据的第i类预测 标签、 第i类预设标签之间的绝对距离。 0071仅作为示例而非限制, 参照S31和S3。
38、2中的 和y, 第1类预设标签的值y1为1, 第一类 预测标签的值为0.9, 则样本数据的第1类预测标签、 第1类预设标签之间的绝对距离为 0072 S332、 将绝对距离与预设缩放系数相乘, 得到样本数据的第i类预测标签、 第i类预 设标签之间的间隔距离。 0073一些实施方式中, 预设缩放系数可以用 表示, 则间隔距离 说明书 6/11 页 9 CN 110929785 A 9 0074由于和y中的元素的取值范围为0,1, 所以绝对距离的范围也在0, 1之间。 需要说明的是, 第i类的绝对距离越小, 则表示第i类越容易被区分出来, 第i类的绝 对距离越大, 则表示第i类越难以被区分出来。 。
39、0075 但是, 绝对距离在0,1之间时, 由于取值范围较窄, 难以得到有效地体现该类别 容易区分的程度, 因此, 将绝对距离放大 倍, 扩大绝对距离, 更容易判断该类别是否容易区 分, 例如, 参考S31和S32中的示例, y1,1,1,0,再未缩放时, 第 二个类别的绝对距离为0.3, 第三个类别的绝对距离为0.4, 二者接近取值范围的中点0.5, 表示二者介于容易区分和难以区分之间, 可以将 设置为4, 然后以上绝对距离进行缩放, 第 二个类别的绝对距离从0.3放大为1.2, 第三个类别的绝对距离从0.4放大为1.6, 二者与取 值范围的中点2的距离也被放大了四倍, 使得二者距离取值范围。
40、的中点更远, 更容易判断该 类别是否容易区分。 0076 在上述实施方式中, 通过放大样本数据的第i类预测标签、 第i类预设标签之间的 绝对距离, 并将放大后的绝对距离作为样本数据的第i类预测标签、 第i类预设标签之间的 间隔距离, 放大了样本数据的预测标签、 样本数据的预设标签之间的差距, 使得决策边界更 加清晰, 获取样本数据的预测标签时, 更加准确。 同时, 由于绝对距离是将第i类预设标签的 值减去第i类预测标签的值得到的, 对于每一次训练, 第i类的绝对距离会根据第i类预测标 签的值自适应变化, 使得得到的间隔距离更加准确, 进而使该类别的预测标签预测更加准 确, 提高了分类模型的预测。
41、效果。 0077 S34、 根据间隔距离, 通过间距焦点损失函数, 计算最大间距焦点损失值。 0078 其中, 最大间距焦点损失值用于指示样本数据的预测标签、 样本数据的预设标签 之间差距的最大值。 0079 参考图6, 可以通过以下方式计算最大间距焦点损失值。 0080 S341、 根据间隔距离、 第i类预测标签的值以及第i类预设标签的值, 调整第i类预 测标签值的取值范围, 得到范围调整后的第i类预测标签值。 0081 一些实施方式中, 使用间距距离、 第i类预测标签的值以及第i类预设标签的值调 整第i类预测标签值的取值范围, 可以在S33的基础上, 调整预测标签值的输出曲线的变化 曲率,。
42、 使得范围调整后的第i类预测标签的值的决策边界更加清晰, 提高了分类模型的预测 效果。 0082 参考图7, 根据间隔距离、 第i类预测标签的值以及第i类预设标签的值, 调整第i类 预测标签值的取值范围, 得到范围调整后的第i类预测标签值, 可以包括: 0083 S3411、 将第i类预设标签值乘以二再减一, 获取映射后的第i类预设标签值。 0084 S3412、 将第i类预测标签值减去间隔距离与映射后的第i类预设标签值的乘积, 获 取映射后的第i类预测标签值。 0085 S3413、 将映射后的第i类预测标签值乘以预设范围缩放系数, 获取范围调整后的 第i类预测标签值。 0086 一些实施方。
43、式中, 可以将S3411、 S3412、 S3413中的步骤, 用公式进行表示, 即范围 调整后的第i类预测标签值的计算方式为: 0087 说明书 7/11 页 10 CN 110929785 A 10 0088 其中, s为尺度缩放因子。 0089仅作为示例而非限制, 参考S31、 S32中的示例, 和yi的取值范围均为0,1,s的 值可以设置为10, 则的取值范围为-10mi,10+10mi。 0090相对于在预测标签的种类数量相同时, 预测标签值输出曲线的变化曲率更 大, 不同类别预测标签值的差距更大, 使得第i类预测标签的决策边界更加清晰。 0091 S342、 根据范围调整后的第i类。
44、预测标签值、 间距焦点损失函数, 得到最大间距焦 点损失值。 0092 其中, 得到最大间距焦点损失值的方式可以通过以下步骤: 0093 S3421、 对范围调整后的第i类预测标签值进行二分类, 获取二分类后的第i类预测 标签值。 0094 由于范围调整后的第i类预测标签值的决策边界已经十分清晰了, 因此, 需要对范 围调整后的第i类预测标签值进行二分类, 来确定样本数据中每个类型的标签是否存在。 0095 二分类的方式有多种, 如使用Sigmoid函数、 Logistic回归等方式。 0096仅作为示例而非限制, 使用Sigmoid函数计算时, 二分类后的第i类预测标签值 可以用以下公式表示。
45、: 0097 0098 S3422、 根据二分类后的第i类预测标签值、 间距焦点损失函数, 获取最大间距焦点 损失值。 0099 一些实施方式中, 间距焦点损失函数为: 0100 0101将作为(即)代入公式, 得到最大间距焦点损失函数: 0102 0103 其中, wi0表示样本数据中不存在第i个类别的预测标签时对应损失函数的权重; wi1表示一个样本数据中存在第i个类别的预测标签时对应损失函数的权重, 其计算方式为: 0104 0105 0106 和 均为预设的参数, 一些实施方式中, 0.5, 2, 但不以此为限。 0107 最后, 通过最大间距焦点损失函数, 计算得到每个类别的最大焦点。
46、损失值。 0108 S35、 根据最大间距焦点损失值训练预设分类模型, 获取训练后的分类模型。 0109 需要说明的是, 可以使用最大间距焦点损失值进行反向传播, 多次迭代, 反复训练 预设分类模型, 最终得到训练后的分类模型, 具体的训练方法在此不做限制。 说明书 8/11 页 11 CN 110929785 A 11 0110 在此, 以图片自动分类模型的训练为例, 说明本申请提供的数据分类方法的应用 场景。 0111 首先, 先收集大量的图像样本, 作为样本数据, 可以用Dxi,yi|i1,2, 3.N来表示。 其中xi是图像样本, yi是图像样本对应的多个类别标签。 0112 然后, 。
47、确定机器学习的分类模型, 在此, 可以使用卷积神经网络f, 其中 是该模型 的参数。 0113 接着, 将B个图像样本输入卷积神经网络f, 并根据以下公式更新卷积神经网络的 参数 : 0114 0115 其中, L即为本申请中提供的最大焦点损失函数计算的得到的最大焦点损失值。 0116 然后, 将上一步迭代T次, 直到模型收敛或L小于预设阈值, 即可得到训练后的分类 模型 0117最后, 将待预测图像x输入训练后的分类模型输出待预测图像的多类别标签 向量 0118 应理解, 上述实施例中各步骤的序号的大小并不意味着执行顺序的先后, 各过程 的执行顺序应以其功能和内在逻辑确定, 而不应对本申请实。
48、施例的实施过程构成任何限 定。 0119 对应于上文实施例所述的数据分类方法, 图9示出了本申请一实施例提供的数据 分类装置的结构示意图, 为了便于说明, 仅示出了与本申请实施例相关的部分。 0120 参照图9, 该装置包括: 接收模块51, 用于接收待分类数据。 分类模块52, 用于将待 分类数据输入训练后的分类模型, 得到待分类数据的至少一个数据标签, 其中, 分类模型是 根据间距焦点损失函数训练得到的, 间距焦点损失函数用于根据样本数据的预测标签、 样 本数据的预设标签的间隔距离, 表示样本数据的预测标签、 样本数据的预设标签之间的差 距。 0121 一些实现方式中, 参照图10, 该装。
49、置还包括训练模块53, 用于根据以下步骤得到训 练后的分类模型: 先从预设数据库中获取至少一个样本数据, 其中, 每个样本数据包括至少 一个预设的标签。 然后通过预设分类模型, 获取每个样本数据的预测标签。 再获取样本数据 的预测标签和样本数据的预设标签之间的间隔距离。 再根据间隔距离, 通过间距焦点损失 函数, 计算最大间距焦点损失值, 其中, 最大间距焦点损失值用于指示样本数据的预测标 签、 样本数据的预设标签之间差距的最大值。 最后, 根据最大间距焦点损失值训练预设分类 模型, 获取训练后的分类模型。 0122 需要说明的是, 预测标签包括N个分类, 其中, N为大于1的整数。 0123。
50、 相应的, 训练模块53, 具体用于根据样本数据第i类预测标签的值、 样本数据第i类 预设标签的值, 获取样本数据的第i类预测标签、 第i类预设标签之间的间隔距离, 其中, i为 大于或等于1且小于或等于N的整数。 0124 还有一些实现方式中, 训练模块53, 具体用于先将第i类预设标签的值减去第i类 说明书 9/11 页 12 CN 110929785 A 12 预测标签的值, 获取样本数据的第i类预测标签、 第i类预设标签之间的绝对距离。 再将绝对 距离与预设缩放系数相乘, 得到样本数据的第i类预测标签、 第i类预设标签之间的间隔距 离。 0125 可选地, 训练模块53, 具体用于先根。
- 内容关键字: 数据 分类 方法 装置 终端设备 可读 存储 介质
能有效保证吸嘴袋质量的焊嘴机.pdf
市政工程用围栏.pdf
高浓度有机废气高效吸收精馏装置.pdf
摆动结构及出水装置.pdf
绝缘环保气体柜.pdf
用于氧化锌生产用的干燥机.pdf
弹出式卫星相机及分离装置.pdf
汽车充电桩电源线地下自动回收装置.pdf
皮带输送机.pdf
有利于促进SBS效应的布里渊光纤激光器.pdf
PDC钻头装卸辅助器.pdf
手套夹取码沓机构.pdf
吸附滤芯的功能恢复设备.pdf
自动化打磨装置.pdf
防爆型振动电机的加固机构.pdf
茶叶加工的烘干装置.pdf
多功能起重机.pdf
建筑材料单体燃烧性能检测辅助安装的装置.pdf
生态微景观演示用教具.pdf
频域知识继承的遥感基础模型轻量化方法.pdf
精制棉漂白滤水装置.pdf
复合型空壳平衡重消失模模具.pdf
铣口自动检测的全自动双激光打标机.pdf
韧性增强型钴锆树脂复合材料的制备方法及应用.pdf
基于设计校核一体化的紧固连接正向设计方法.pdf
气流疏导件及动力电池.pdf
小模数齿轮精度的视觉检测方法及系统.pdf
2,4,5-三氟苯乙酸的合成方法.pdf
船载油污收集组件及垃圾收集装置.pdf
大豆分级筛选设备.pdf
多轴分布式驱动车辆路面行驶条件识别方法、装置及设备.pdf
Java系统消息推送方法、装置、设备及介质.pdf
一种连续化生产丁二酰丁二酸二甲酯的方法.pdf
一种聚乙烯导热改性材料.pdf
一种醋酸甲羟孕酮的制备方法及制备系统.pdf
取代的氨基吡喃衍生物的晶型.pdf
热塑性纤维素与脂肪族共聚酯共混物及制备方法.pdf
一种表面改性的CeOsub2/sub纳米材料及产品.pdf
一种食用醋翻糟机构.pdf
一种土壤稳定剂及其制备方法.pdf
一种新型环保的建筑材料用环氧胶黏剂.pdf
一种PET茶色高温胶带.pdf
一种三甲基铝的制备方法.pdf
一种超低VOC水性金属效果塑胶漆及其制备方法.pdf
一类乙基化吡嗪并喹喔啉衍生物及其制备方法.pdf
一种环保阻燃涂覆材料及其制备方法.pdf
强化地板基材制造用改性胶黏剂.pdf
一种亚苄基樟脑磺酸的制备方法.pdf
用于控制与醇化合物的双功能催化剂烯烃聚合反应的方法.pdf
检测猪流感病毒H3N2的引物、分子信标探针及试剂盒.pdf
一种艾滋病免疫功能重建不全检测试剂盒.pdf