1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 201910302147.9 (22)申请日 2019.04.16 (71)申请人 北京潼荔科技有限公司 地址 100080 北京市海淀区善缘街1号7层 2-718 (72)发明人 贾泽周哲吴肇瑜 (51)Int.Cl. G06K 9/00(2006.01) G06K 9/62(2006.01) (54)发明名称 基于边缘计算的场景自适应目标识别人工 智能方法及系统 (57)摘要 本发明公开了一种基于边缘计算的场景自 适应目标识别人工智能方法及系统。 基于边缘计 算的场景自适应目
2、标识别人工智能方法包括: 使 用大规模的数据集对模型进行预训练; 获取视频 中目标的追踪序列; 对追踪序列进行特征提取, 得到数据特征; 根据数据特征, 生成一系列微调 训练用的三元组; 根据生成的一系列三元组, 对 模型进行微调训练。 权利要求书1页 说明书5页 附图3页 CN 111291606 A 2020.06.16 CN 111291606 A 1.一种人工智能方法, 其特征在于, 包括: 使用大规模的数据集对模型进行预训练; 获取视频中目标的追踪序列; 对所述追踪序列进行特征提取, 得到数据特征; 根据所述数据特征, 生成一系列微调训练用的三元组; 根据所生成的一系列三元组, 对模
3、型进行微调训练。 2.根据权利要求1所述的人工智能方法, 其特征在于, 所述追踪序列是视频中同一个目 标的所有视频帧中的外接框序列。 3.根据权利要求1所述的人工智能方法, 其特征在于, 所述目标是人脸。 4.根据权利要求1所述的人工智能方法, 其特征在于, 所述目标是视频中的运动物体。 5.根据权利要求4所述的人工智能方法, 其特征在于, 所述运动物体是行人或其身体的 一部分。 6.根据权利要求1所述的人工智能方法, 其特征在于, 所述根据所述数据特征, 生成一 系列微调训练用的三元组包括: 在追踪序列中选定一个目标作为锚点样本; 在与锚点样本同一个目标的追踪序列中找出数据特征中特征向量与锚
4、点样本距离最 远的目标, 作为正样本; 在锚点样本所在的同一帧画面中找到特征向量与锚点样本距离最近的目标, 作为负样 本; 所述锚点样本图片、 正样本图片、 负样本图片形成一组三元组。 7.一种人工智能系统, 其特征在于, 包括: 云服务器, 用于使用大规模的数据集进行模型的预训练, 得到预训练好的模型; 边缘服务器, 用于目标识别和对预训练好的模型进行微调; 边缘设备, 用于实时目标检测和对齐以及目标追踪, 并将采集的目标的数据传输到与 之相连的边缘服务器上。 8.根据权利要求7所述的人工智能系统, 其特征在于, 所述边缘服务器是分布式的, 每 个分布式边缘服务器负责一个或多个场景的目标识别
5、并对预训练好的模型进行微调。 权利要求书 1/1 页 2 CN 111291606 A 2 基于边缘计算的场景自适应目标识别人工智能方法及系统 技术领域 0001 本发明涉及边缘计算技术, 具体而言涉及一种基于边缘计算的场景自适应目标识 别人工智能方法及人工智能系统。 背景技术 0002 近年来, 基于深度学习技术的目标识别算法层出不穷, 并且广泛应用于人脸识别、 行人重识别等领域。 以人脸识别为例, 从较老的FaceNet到较新的InsightFace等, 基于公开 数据集进行训练 (如MegaFace) 和测试 (如LFW) 的人脸识别算法性能在不断提高, 早已超过 人类的水平。 然而,
6、这些基于公开数据集进行训练和测试的人脸识别模型往往在实际使用 过程中会存在着不同程度的精度下降。 这通常是因为实际部署场景的光照条件、 模糊程度、 镜头角度等条件和公开的训练集相差较大而人脸识别的鲁棒性不足导致的。 同理, 行人重 识别等其他目标识别应用也会面临同样的问题。 为了提升实际场景下目标识别的精度, 较 常见的做法是静态地采集部署场景中的真实目标数据, 标注后对模型进行调优训练, 这种 方法会导致诸多问题, 如数据的采集和标注相对困难, 需要较多的人力物力, 而且收集公共 场景的数据会涉及隐私安全的问题。 发明内容 0003 因此, 本发明提供了一种基于边缘计算的自适应目标识别人工智
7、能方法和人工智 能系统, 它能够自动地从摄像头实时采集的实际场景视频中提取目标和生成训练数据对模 型进行微调, 而不需要人为参与, 我们称之为在线学习。 0004 本发明提供的一种基于边缘计算的自适应目标识别人工智能方法, 包括: 使用大规模的数据集对模型进行预训练; 获取视频中目标的追踪序列; 对所述追踪序列进行特征提取, 得到数据特征; 根据所述数据特征, 生成一系列微调训练用的三元组; 根据所生成的一系列三元组, 对模型进行微调训练。 0005 在一种可选方式中, 所述追踪序列是指视频中同一个目标的所有视频帧中的外接 框序列。 0006 这里所描述的目标指视频中的运动物体, 包括: 例如
8、人脸、 行人或其身体的一部 分。 0007 根据所述数据特征, 生成一系列微调训练用的三元组包括: 在追踪序列中选定一个目标作为锚点样本; 在与锚点样本同一个目标的追踪序列中找出数据特征中特征向量与锚点样本距离最 远的目标, 作为正样本; 在锚点样本所在的同一帧画面中找到数据特征中特征向量与锚点样本距离最近的目 标, 作为负样本; 说明书 1/5 页 3 CN 111291606 A 3 所述锚点样本图片、 正样本图片、 负样本图片形成一组三元组。 0008 本发明实施例还提供一种基于边缘计算的自适应目标识别人工智能系统, 包括: 云服务器; 边缘服务器; 边缘设备。 其中: 所述云服务器,
9、用于使用大规模的数据集进行模型的预训练, 得到预训练好的模型通 过网络传输给边缘服务器; 所述边缘服务器, 用于目标识别和在线的模型微调, 边缘服务器 是分布式的, 每个边缘服务器负责一个或多个场景的目标识别和对预训练好的模型进行微 调; 所述边缘设备, 用于实时目标检测和对齐以及目标追踪, 并将采集的目标的数据传输到 与之相连的边缘服务器上。 0009 本发明实施例还提供了一种资源调度方法, 用于所述边缘服务器层的目标识别和 在线的模型微调功能的资源调度, 以达到更低的网络延迟和更高的微调效率。 0010 该系统可以适用于多种基于特征提取-比对原理的目标识别应用, 而且通过优化 设计的边缘计
10、算技术, 可以达到较低的识别延迟, 数据在本地产生和使用的过程也可以较 好地保护隐私。 附图说明 0011 为了更清楚地说明本发明实施例的技术方案, 下面将对本发明实施例中所需要使 用的附图作简单地介绍, 对于本领域普通技术人员来讲, 在不付出创造性劳动的前提下, 还 可以根据这些附图获得其他的附图。 0012 图1是根据本发明实施例的人工智能方法的流程图。 0013 图2是根据本发明实施例的三元组生成方法示意图。 0014 图3是根据本发明实施例的人工智能系统的架构示意图。 0015 图4是根据本发明实施例的资源调度方法示意图。 具体实施方式 0016 下面将详细描述本发明的各个方面的特征和
11、示例性实施例, 为了使本发明的目 的、 技术方案及优点更加清楚明白, 以下结合附图及实施例, 对本发明进行进一步详细描 述。 应理解, 此处所描述的具体实施例仅被配置为解释本发明, 并不被配置为限定本发明。 对于本领域技术人员来说, 本发明可以在不需要这些具体细节中的一些细节的情况下实 施。 下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。 0017 需要说明的是, 在本文中, 诸如第一和第二等之类的关系术语仅仅用来将一个实 体或者操作与另一个实体或操作区分开来, 而不一定要求或者暗示这些实体或操作之间存 在任何这种实际的关系或者顺序。 而且, 术语 “包括” 、“包
12、含” 或者其任何其他变体意在涵盖 非排他性的包含, 从而使得包括一系列要素的过程、 方法、 物品或者设备不仅包括那些要 素, 而且还包括没有明确列出的其他要素, 或者是还包括为这种过程、 方法、 物品或者设备 所固有的要素。 在没有更多限制的情况下, 由语句 “包括” 限定的要素, 并不排除在包括 所述要素的过程、 方法、 物品或者设备中还存在另外的相同要素。 0018 下面参考附图描述本发明的具体实施例。 0019 首先介绍一下目标识别原理: 在目标识别算法中, 神经网络学习一种映射的能力, 可以将输入的目标 (例如人脸、 行人或其身体的一部分的截取图) 映射成高维空间内的向 说明书 2/5
13、 页 4 CN 111291606 A 4 量, 通过比对输出的向量间的距离 (欧式距离、 角度距离等等, 根据算法决定) 来判断输入的 目标是否属于同一个目标。 以较常见的人脸识别为例, 在训练的时候通常是在网络后面接 一个基于Softmax的损失函数, 如常用的Angular-Softmax函数, 将人脸识别训练视为一个 大型的分类任务, 在分类训练的过程中学习一种有效的映射。 也有不基于分类, 而直接基于 尺度学习的损失函数, 如Triplet-Loss函数, 直接通过生成的三元对的训练让相同目标的 人脸在欧式空间内的映射向量距离更近, 而不同目标的人脸距离更远。 与人脸识别的流程 类似
14、, 其他的目标识别应用也可以基于 “特征提取-比对” 这一方式。 实际使用过程中, 事先 建立一个数据库, 存放需要进行比对的目标物体图片, 并预先使用训练好的神经网络提取 特征向量, 当输入待查询目标时, 提取特征向量并与数据库中的目标物体特征向量比对, 计 算距离。 当数据库中存在某个目标物体的特征向量与带查询目标物体的特征向量距离小于 一定的阈值时认为二者是同一个目标, 并输出ID (身份) 信息, 否则查询失败。 0020 基于公开数据集进行训练和测试的人脸识别模型往往在实际使用过程中会存在 着不同程度的精度下降。 这通常是因为实际部署场景的光照条件、 模糊程度、 镜头角度等条 件和公
15、开的训练集相差较大, 而人脸识别的鲁棒性不足导致的。 同理, 行人重识别等其他目 标识别应用也会面临同样的问题。 为了提升实际场景下目标识别的精度, 较常见的做法是 静态地采集部署场景中的目标的数据, 标注后对模型进行调优训练, 这种方法会导致诸多 问题, 如数据的采集和标注相对困难, 需要较多的人力物力, 而且收集公共场景的数据会涉 及隐私安全的问题。 所以, 本发明实施例提出了基于边缘计算的自适应目标识别人工智能 方法、 人工智能系统及资源调度方法。 0021 图1是根据本发明实施例的人工智能方法的流程图。 如图1所示, 该人工智能方法 包括: 步骤S101, 使用大规模的数据集对模型进行
16、预训练; 步骤S102, 获取视频中目标的追 踪序列; 步骤S103, 对追踪序列进行特征提取, 得到数据特征; 步骤S104, 根据数据特征, 生 成微调训练用的三元组; 步骤S105, 根据三元组, 对模型进行微调训练。 0022 本发明实施例的目标是在目标 (例如人脸、 人体或其身体的一部分) 识别运行过程 中自动地使用各自场景的目标物体的数据对模型进行模型微调。 为了避免人为标注数据, 本发明实施例提出了一种无监督的数据生成和训练的流程。 在软件抽象层面上, 本发明实 施例把整套系统分为5个模块来实现。 在与步骤S101对应的模块中, 使用大规模公开数据集 对模型进行预训练。 在与步骤
17、S102对应的模块中, 从本地摄像头采集的视频序列中检测到 的目标, 并通过追踪算法生成不同目标物体的追踪序列。 本发明实施例中, 追踪序列可以理 解为视频中同一个目标的所有视频帧中的外接框序列。 在与步骤S103对应的模块中, 将目 标物体的追踪序列输入模型, 抽取特征向量并识别出ID信息。 在与步骤S104对应的模块中, 根据目标物体追踪序列提取的特征生成微调训练用的三元组, 在与步骤S105对应的模块 中, 使用三元组进行模型微调训练。 0023 图2是根据本发明实施例的三元组生成方法示意图。 如图2所示, 生成微调训练用 的三元组的方法包括: 步骤S201, 在追踪序列中选定一个目标作
18、为锚点样本; 步骤S202, 在 与锚点样本同一个目标的追踪序列中找出数据特征中特征向量与锚点样本最远的目标, 作 为正样本; 步骤S203, 在锚点样本所在的同一帧画面中找到数据特征中特征向量与锚点样 本最近的目标, 作为负样本; 所述锚点样本图片、 正样本图片、 负样本图片形成一组三元组。 0024 类似FaceNet中使用标注的数据集生成三元组来进行模型训练, 本发明实施例无 说明书 3/5 页 5 CN 111291606 A 5 监督地从实际场景视频中生成三元组来进行模型微调。 所谓三元组, 是指这样的一组三张 的包含目标物体的图片: 锚点样本是任意的目标物体图片, 正样本和锚点样本
19、属于同一个 ID, 负样本和锚点样本属于不同的ID, 训练的时候使用Triplet-Loss来拉近锚点样本和正 样本之间输出特征向量的距离, 而增大锚点样本和负样本之间的特征向量距离。 如图2所 示, 本发明实施例利用视频的时间和空间上的连续性, 认为不同帧之间通过追踪得到的目 标序列属于同一个ID, 而相同帧中不同位置的目标属于不同的ID。 通过这两个先验, 本发明 实施例可以从目标序列中生成许多的三元对。 为了提高效率, 在选定一个锚点样本后, 本发 明实施例在同一个序列中找出特征向量与之最远的目标, 而在同一帧中找出特征向量距离 最近的目标, 形成三元对。 0025 图3是根据本发明实施
20、例的人工智能系统的架构示意图。 如图3所示, 基于边缘计 算的自适应目标识别人工智能系统, 包括云服务器S301、 边缘服务器S302和边缘设备S303。 云服务器S301用于使用大规模的数据集进行模型的预训练, 预训练好的模型通过网络传输 给边缘服务器; 边缘服务器S302用于目标识别和在线的模型微调, 边缘服务器是分布式的, 每个边缘服务器负责一个或多个场景的目标识别和模型的在线微调; 边缘设备S303用于实 时目标检测和对齐以及目标追踪, 并将采集的目标的数据传输到与之相连的边缘服务器 上。 边缘设备例如可以是智能摄像头。 0026 为了高效地部署该无监督自适应目标识别流程, 本发明实施
21、例设计了三层的边缘 计算系统。 如图3所示, 该系统分为三个部分, 第一个部分负责使用大规模的公开数据集进 行模型的预训练, 部署在云端服务器上。 第二部分负责目标识别和在线的模型微调, 部署在 为边缘服务器上。 边缘服务器是分布式的, 每个边缘服务器负责一个或多个场景的目标识 别和模型的在线微调。 预训练好的模型被通过网络发送到每个当地的边缘服务器, 作为初 始化的参数。 在边缘服务器中, 本发明实施例实现了相关调度算法来调度模型的前向和在 线微调的资源占用, 以在保证较低的前向延迟的同时提高微调训练的有效轮数。 第三部分 位于示意图的最底层, 基于智能摄像头进行实时目标检测和对齐以及目标追
22、踪任务, 并将 采集的目标的数据传输到与之相连的边缘服务器上。 0027 图4是根据本发明实施例的资源调度方法示意图。 如图4所示, 该资源调度方法包 括: 步骤S401, 获取目标识别任务; 步骤S402, 获取边缘服务器资源占用情况, 包括目标识别 任务和微调训练任务; 步骤S403, 判断边缘服务器是否繁忙; 步骤S404, 如果边缘服务器繁 忙, 则调小微调训练的批次 (batch) ; 步骤S405, 如果边缘服务器不繁忙, 则调大微调训练的 批次 (batch) 。 该资源调度方法, 用于所述边缘服务器的目标识别和在线的模型微调功能的 资源调度, 以达到更低的网络延迟和更高的微调效
23、率。 0028 考虑到在GPU服务器中, 硬件资源是有限的, 模型的微调会占用许多计算资源。 本 发明实施例需要首先保证较低的识别延迟, 再寻求更高的微调效率。 为了达到这个目的, 本 发明实施例设计了资源调度策略 (Context aware) , 如图4所示, 微调训练和目标识别前向 运算属于两个不同的进程, 占用同一个GPU硬件资源。 由于实际场景中的目标数量通常随着 时间变化而发生改变, 当目标多的时候, 边缘服务器调小微调训练的批次 (batch) , 尽可能 地将资源分配给目标识别计算, 当目标少的时候, 就可以调大微调训练的批次 (batch) , 将 资源尽可能分配给微调训练。
24、 通过动态的调度, 在保证低识别延迟的同时增加微调训练效 率。 说明书 4/5 页 6 CN 111291606 A 6 0029 本发明实施例通过GPU服务器和智能摄像头来验证系统的有效性。 本发明实施例 使用MobileNet、 SphereFace、 ResNet50三个常用的人脸识别网络进行验证, 三个网络通过 基于角度的的损失函数, 使用pytorch深度学习框架在公开的大型数据集进行训练, 并且在 LFW数据集上达到很高的识别精度。 系统的微调训练也是使用pytorch框架来实现。 为了实 验的可重复性考虑, 本发明实施例使用实际采集的多个场景的视频代替实时场景视频作为 输入, 并
25、且人工标注了一段视频作为测试集。 实验证明在一段时间的无监督学习之后, 人脸 识别的准确率根据模型和场景的不同, 有着明显的, 不同程度的提升。 0030 需要明确的是, 本发明并不局限于上文所描述并在图中示出的特定配置和处理。 为了简明起见, 这里省略了对已知方法的详细描述。 在上述实施例中, 描述和示出了若干具 体的步骤作为示例。 但是, 本发明的方法过程并不限于所描述和示出的具体步骤, 本领域的 技术人员可以在领会本发明的精神后, 作出各种改变、 修改和添加, 或者改变步骤之间的顺 序。 0031 以上所述的结构框图中所示的功能块可以实现为硬件、 软件、 固件或者它们的组 合。 当以硬件
26、方式实现时, 其可以例如是电子电路、 专用集成电路 (ASIC) 、 适当的固件、 插 件、 功能卡等等。 当以软件方式实现时, 本发明的元素是被用于执行所需任务的程序或者代 码段。 程序或者代码段可以存储在机器可读介质中, 或者通过载波中携带的数据信号在传 输介质或者通信链路上传送。“机器可读介质” 可以包括能够存储或传输信息的任何介质。 机器可读介质的例子包括电子电路、 半导体存储器设备、 ROM、 闪存、 可擦除ROM (EROM) 、 软 盘、 CD-ROM、 光盘、 硬盘、 光纤介质、 射频 (RF) 链路, 等等。 代码段可以经由诸如因特网、 内联 网等的计算机网络被下载。 003
27、2 还需要说明的是, 本发明中提及的示例性实施例, 基于一系列的步骤或者装置描 述一些方法或系统。 但是, 本发明不局限于上述步骤的顺序, 也就是说, 可以按照实施例中 提及的顺序执行步骤, 也可以不同于实施例中的顺序, 或者若干步骤同时执行。 0033 以上所述, 仅为本发明的具体实施方式, 所属领域的技术人员可以清楚地了解到, 为了描述的方便和简洁, 上述描述的系统、 模块和单元的具体工作过程, 可以参考前述方法 实施例中的对应过程, 在此不再赘述。 应理解, 本发明的保护范围并不局限于此, 任何熟悉 本技术领域的技术人员在本发明揭露的技术范围内, 可轻易想到各种等效的修改或替换, 这些修改或替换都应涵盖在本发明的保护范围之内。 说明书 5/5 页 7 CN 111291606 A 7 图1 图2 说明书附图 1/3 页 8 CN 111291606 A 8 图3 说明书附图 2/3 页 9 CN 111291606 A 9 图4 说明书附图 3/3 页 10 CN 111291606 A 10