基于大脑共识主动性的深度神经网络压缩方法.pdf

上传人:徐敬 文档编号:11047207 上传时间:2021-08-31 格式:PDF 页数:9 大小:574.88KB
收藏 版权申诉 举报 下载
基于大脑共识主动性的深度神经网络压缩方法.pdf_第1页
第1页 / 共9页
基于大脑共识主动性的深度神经网络压缩方法.pdf_第2页
第2页 / 共9页
基于大脑共识主动性的深度神经网络压缩方法.pdf_第3页
第3页 / 共9页
文档描述:

《基于大脑共识主动性的深度神经网络压缩方法.pdf》由会员分享,可在线阅读,更多相关《基于大脑共识主动性的深度神经网络压缩方法.pdf(9页完成版)》请在专利查询网上搜索。

1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 201910885350.3 (22)申请日 2019.09.19 (71)申请人 浙江大学 地址 310058 浙江省杭州市西湖区余杭塘 路866号 (72)发明人 申世博李荣鹏张宏纲赵志峰 (74)专利代理机构 杭州求是专利事务所有限公 司 33200 代理人 邱启旺 (51)Int.Cl. G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于大脑共识主动性的深度神经网络 压缩方法 (57)摘要 本发明提出了一种基于大脑共识主。

2、动性的 深度神经网络压缩方法, 该方法在每一次神经网 络训练的前向过程中, 在卷积层中逐层地筛选部 分重要的通道, 而将其它通道的激活值置零。 这 样, 在误差的反向传播过程中, 生成这些不重要 的通道的卷积核的梯度值为零, 因此不会被更新 或训练。 同时, 将通道效用的更新过程嵌入于误 差的反向传播当中, 并且通过 “共识主动” 方法来 增强它们之间的联系。 每一次网络的迭代更新, 都是有选择地 “训练” 了那些有效通道对应的卷 积核, 因此, 当训练结束的时候, 保留具有高通道 效用的通道, 从而实现通道剪枝和深度神经网络 压缩。 该方法大大简化了现有深度神经网络压缩 方法的一般流程, 具。

3、有很高的效率。 权利要求书2页 说明书5页 附图1页 CN 110689113 A 2020.01.14 CN 110689113 A 1.一种基于大脑共识主动性的深度神经网络压缩方法, 其特征在于, 具体包括以下步 骤: (1)在深度神经网络训练的每一次前向过程中, 对于每一层的通道, 按照初始化通道效 用值由高到低对通道进行排列, 再根据设定的剪枝率, 保留该剪枝率下的通道效用值对 应的通道激活值, 并将该层其余通道的通道激活值置零。 所述为每一层神经网络的通道 在深度神经网络训练过程中对于深度神经网络误差重要程度的长期评价值, 其中l表示层 的索引, k表示该层的通道索引。 (2)在深度。

4、神经网络训练的反向传播过程中, 确定规范化显著性评价具体为: (2.1)在深度神经网络训练的反向传播过程中, 将各个通道中所有通道激活值和梯度 相乘, 累加求平均, 确定各个通道的显著性评价 其中, J表示网络的误差函数;表示第l层, 第k个通道, 第m个激活值; M为第l层一个 通道的所有激活值的个数。 (2.2)对通道的显著性评价通过L2范数规范化处理, 得到规范化显著性评价为: 其中, 的取值范围在0到1之间。 (3)通过共识主动性算法, 融合不同通道之间的规范化显著性评价, 考量不同通道之间 的相互作用。 (3.1)通过计算两通道之间规范化显著性评价和的乘积, 再按照迭代次数求平均, 。

5、获得该两通道之间的相关性 其中,表示第l层, 第i个通道和第j个通道之间的相关性, 取值范围01,为两通 道参与深度神经网络训练的迭代次数。 (3.2)将同层其它通道的和(3.1)计算的相关性相乘、 求和到当前通道当中, 得到 融合显著性评价值 (3.3)将通过移动平均的策略累加到步骤1所述初始通道效用值中: 权利要求书 1/2 页 2 CN 110689113 A 2 其中, 表示衰减因子, 取值范围在0到1之间, n为通道参与深度神经网络的迭代次数。 (4)循环进行步骤3, 更新所有通道的通道效用值直至深度神经网络收敛。 (5)当深度神经网络收敛之后, 根据通道效用值逐层将通道进行排列, 。

6、根据预先 设定的剪枝率, 剪除该剪枝率下通道效用值对应的通道及生成它们的卷积核, 实现模型压 缩和加速。 权利要求书 2/2 页 3 CN 110689113 A 3 一种基于大脑共识主动性的深度神经网络压缩方法 技术领域 0001 本发明涉及人工智能和神经网络计算领域, 更具体地, 涉及一种基于大脑共识主 动性的深度神经网络压缩方法。 背景技术 0002 这些年来, 深度神经网络的发展引发了人工智能领域的巨大变革。 一般认为, 深度 神经网络的性能取决于其深度。 然而, 很深的神经网络往往会带来计算量和存储量的巨大 开销。 为了让深度神经网络可以应用于一些低功率设备, 比如手机当中, 降低其。

7、复杂度是很 有必要的。 在许多模型压缩算法中, 通道剪枝是一种特别针对于深度神经网络的卷积层设 计的压缩算法。 0003 通道剪枝指的是对深度神经网络的卷积层的通道进行裁剪的模型压缩算法。 通过 不同的策略或者方法, 筛选出对于输入图像表达性能最好的若干通道, 并将剩余通道裁减 掉, 以实现深度神经网络模型的压缩。 一般的通道剪枝算法包括三个基本步骤: 训练好一个 冗余的神经网络; 根据某种规则对它进行裁剪; 再训练裁剪后的神经网络, 来恢复模型性 能。 这个过程是十分冗余的, 并且目前的通道剪枝算法关注的都是各个通道自身的显著性 或者重要性, 从而忽略了它们之间的内在联系。 发明内容 000。

8、4 针对现有技术存在的问题, 本发明提出了一种基于大脑共识主动性的深度神经网 络压缩方法, 同时进行深度神经网络训练和剪枝的模型压缩方法, 通过共识主动性从一层 的所有通道当中选择出协同性最好, 表达性最强的若干个通道, 剪除其余通道, 从而实现网 络压缩。 0005 本发明是通过如下技术方案实现的: 一种基于大脑共识主动性的深度神经网络压 缩方法, 具体包括以下步骤: 0006 (1)在深度神经网络训练的每一次前向过程中, 对于每一层的通道, 按照初始化通 道效用值由高到低对通道进行排列, 再根据设定的剪枝率, 保留该剪枝率下的通道效用 值对应的通道激活值, 并将该层其余通道的通道激活值置零。

9、。 所述为每一层神经网络的 通道在深度神经网络训练过程中对于深度神经网络误差重要程度的长期评价值, 其中l表 示层的索引, k表示该层的通道索引。 0007(2)在深度神经网络训练的反向传播过程中, 确定规范化显著性评价具体为: 0008 (2.1)在深度神经网络训练的反向传播过程中, 将各个通道中所有通道激活值和 梯度相乘, 累加求平均, 确定各个通道的显著性评价 0009 说明书 1/5 页 4 CN 110689113 A 4 0010其中, J表示网络的误差函数;表示第l层, 第k个通道, 第m个激活值; M为第l层 一个通道的所有激活值的个数。 0011(2.2)对通道的显著性评价通。

10、过L2范数规范化处理, 得到规范化显著性评价 为: 0012 0013其中, 的取值范围在0到1之间。 0014 (3)通过共识主动性算法, 融合不同通道之间的规范化显著性评价, 考量不同通道 之间的相互作用。 0015(3.1)通过计算两通道之间规范化显著性评价和的乘积, 再按照迭代次数求 平均, 获得该两通道之间的相关性 0016 0017其中, 表示第l层, 第i个通道和第j个通道之间的相关性, 取值范围01,为 两通道参与深度神经网络训练的迭代次数。 0018(3.2)将同层其它通道的和(3.1)计算的相关性相乘、 求和到当前通道当中, 得到融合显著性评价值 0019 0020(3.3。

11、)将通过移动平均的策略累加到步骤1所述初始通道效用值中: 0021 0022 其中, 表示衰减因子, 取值范围在0到1之间, n为通道参与深度神经网络的迭代次 数。 0023(4)循环进行步骤3, 更新所有通道的通道效用值直至深度神经网络收敛。 0024(5)当深度神经网络收敛之后, 根据通道效用值逐层将通道进行排列, 根据 预先设定的剪枝率, 剪除该剪枝率下通道效用值对应的通道及生成它们的卷积核, 实现模 型压缩和加速。 0025 与现有技术相比, 本发明具有如下有益效果: 在深度神经网络训练的过程中, 有选 择性的标识和训练那些对于输入图像表达能力强的通道, 将深度神经网络的学习过程和剪 。

12、枝过程结合, 大大简化了传统神经网络剪枝算法的流程, 提高了压缩算法的效率; 通过引入 大脑中神经元之间的共识主动现象, 考虑了神经网络同一层神经元之间的内在联系, 使得 剪枝之后的神经网络同样具有很高的准确性, 性能超过了现有的算法。 该压缩方法具有实 说明书 2/5 页 5 CN 110689113 A 5 现简单, 效率高, 压缩后的模型准确率高的特点。 附图说明 0026 图1为本发明方法的流程图。 具体实施方式 0027 如图1所示, 为本发明一种基于大脑共识主动性的深度神经网络压缩方法, 具体包 括以下步骤: 0028(1)通道效用为每一层神经网络的通道在深度神经网络训练过程中对于。

13、深度神 经网络误差重要程度的长期评价值, 其中, l表示层的索引, k表示该层的通道索引。 那些具 有很高的通道效用值的通道对于神经网络模型来说是比较重要的, 如果剪除它们, 会对训 练误差造成比较大的影响, 从而降低模型性能。 因此在深度神经网络训练的每一次前向过 程中, 对于每一层的通道, 按照初始化通道效用值的高低对通道进行排列, 再根据设定的 剪枝率, 保留该剪枝率下的通道效用值对应的通道激活值, 并将该层其余通道的通道激活 值置零。 所述剪枝率为要剪除的通道占全部通道的比例, 它的取值范围是0到1之间, 综合考 虑深度神经网络的性能损失和压缩收益来确定。 0029(2)在深度神经网络。

14、训练的反向传播过程中, 得到规范化显著性评价具体为: 0030 (2.1)在深度神经网络训练的反向传播过程中, 将各个通道中所有通道激活值和 梯度相乘, 累加求平均, 确定各个通道的显著性评价 0031 0032其中, J表示网络的误差函数;表示第l层, 第k个通道, 第m个激活值; M为第l层 一个通道的所有激活值的个数。 0033(2.2)对通道的显著性评价通过L2范数规范化处理, 得到规范化显著性评价 为: 0034 0035其中, 的取值范围在0到1之间。 0036 (3)通过共识主动性算法, 融合不同通道之间的规范化显著性评价, 考量不同通道 之间的相互作用, 可以实现协同选取有效通。

15、道的效果, 有利于提高压缩后的神经网络的准 确性。 0037(3.1)通过计算两通道之间规范化显著性评价和的乘积, 再按照迭代次数求 平均, 获得该两通道之间的相关性 说明书 3/5 页 6 CN 110689113 A 6 0038 0039其中, 表示第l层, 第i个通道和第j个通道之间的相关性, 取值范围01,为 两通道参与深度神经网络训练的迭代次数。 0040(3.2)将同层其它通道的和(3.1)计算的相关性相乘、 求和到当前通道当中, 得到融合显著性评价值 0041 0042融合后的显著性评价值考虑了同层其它通道对于当前通道的影响, 是共识主动 性算法的核心。 0043(3.3)将通。

16、过移动平均的策略累加到步骤1所述初始通道效用值中: 0044 0045 其中, 表示衰减因子, 取值范围在0到1之间, n为通道参与深度神经网络的迭代次 数。 衰减因子的作用在于, 对于每一个通道效用值, 都会随着迭代次数的增加而不断衰减; 在一次如(3.3)的更新过程中, 如果某通道的通道效用值的增加量(公式(5)的最后一项)小 于其衰减量(衰减因子导致), 该通道效用值会降低, 那么在进行下一次训练迭代(如步骤1) 的过程中, 该通道可能不会参与训练(激活值被置零), 从而实现通道 “筛选” 的作用。 0046(4)循环进行步骤3, 更新所有通道的通道效用值进而不断地进行有效通道 的选择,。

17、 直到深度神经网络收敛。 0047(5)当深度神经网络收敛之后, 根据通道效用值逐层将通道进行排列, 根据 预先设定的剪枝率, 剪除该剪枝率下通道效用值对应的通道及生成它们的卷积核, 实现模 型压缩和加速。 该方法在深度神经网络训练的过程中, 不断计算和更新每个通道的通道效 用值, 即在神经网络的训练过程中就获得了网络剪枝依赖的标准。 这样, 在神经网络训练结 束之际就直接可以进行网络剪枝, 大大简化了一般剪枝方法的流程, 具有很高的效率。 0048 实施例 0049 下面给出该方法的一个实施例。 以压缩VGG-16深度神经网络为例, 它包含有13个 卷积层, 各个层的通道数量分别为64,64。

18、,128,128,256,256,256,512,512,512,512,512, 512。 0050 1.给定输入数据集或输入图片z0; 每一层的剪枝率pl0.5,1l13即每一层 压缩一半的通道; 初始化模型convl,1l13; 衰减常数 0.8和训练的最大迭代次数 lmax。 由于本方法旨在压缩深度神经网络中的卷积层参数, 记号 “conv” 仅表示卷积层。 0051 2.初始化神经网络训练的迭代次数i0, 每一层的通道效用值ul0,1l 13, 每一层的相关性矩阵Rl0,1l13。 0052 3.当迭代次数i小于最大迭代步数Imax的时候, 该方法进行神经网络的训练。 在执 行一次神。

19、经网络的前向过程中, 具体地, 逐层地进行以下步骤: 说明书 4/5 页 7 CN 110689113 A 7 0053 (3.1)计算得到每一层的输出通道激活值zlconvl(zl-1)。 0054 (3.2)初始化一个二值化掩模ml0, 该掩模的作用是指示被选择的通道。 0055 (3.3)首先, 将ul进行从高到低的顺序排列。 对于当前层的所有输出通道(用Cl表示 其数量), 该方法保留最高通道效用对应的Cl(1-pl)0.5Cl个通道的激活值, 具体的, 将这 些通道对应位置的掩模值置1即 0056 (3.4)将通道掩模和通道激活值按通道相乘zlzlml, 结果输入到下一层。 0057。

20、 4.计算最终神经网络输出的误差J。 0058 5.执行神经网络的一次反向传播过程, 具体地, 逐层进行以下步骤。 0059(5.1)计算得到每一层通道的通道梯度 0060 (5.2)计算由公式(1)和公式(2)描述的显著性评价并规范化。 0061(5.3)计算和更新公式(3)出现的计数器: 如果否则保持 不变。 0062 (5.4)根据公式(3)更新相关矩阵Rl。 0063 (5.5)使用公式(4)更新通道的重要性评估 lRl l。 0064 (5.6)更新公式(5)中描述的通道效用ul ul+(1- ) l。 0065 6.当达到最大训练步长或者神经网络收敛之后, 根据每一层的通道效用ul。

21、, 逐层 剪枝小的一半(每一层的剪枝率为0.5)通道效用对应的通道和生成该通道的卷积核。 再把 剩余的参数拷贝到一个更紧致的模型当中, 这样就实现了神经网络的训练和剪枝。 0066 下表给出该方法在不同剪枝率(或称压缩率)的情况下, 能达到的准确率及和其它 方法的对比。 如表格所示, 在浮点运算数即FLOPs压缩35左右时, 该方法仍可以达到 93.78的准确性, 这个结果超过了一般的基于范数剪枝方法; 当压缩率达到49.6的时 候, 该方法仍可以维持93.68的准确性, 同样超过了结构化贝叶斯剪枝方法, 后者只有 92.50; 当压缩率达到75.2, 该方法只有1.28的准确率损失即可以达到92.72的压 缩后神经网络的识别准确性。 因此, 本发明压缩方法可以直接将一个冗余的、 无智能的神经 网络转化为一个紧致的、 表达能力丰富的神经网络。 0067 不同方法的准确率比较 0068 说明书 5/5 页 8 CN 110689113 A 8 图1 说明书附图 1/1 页 9 CN 110689113 A 9 。

展开阅读全文
内容关键字: 基于 大脑 共识 主动性 深度 神经网络 压缩 方法
关于本文
本文标题:基于大脑共识主动性的深度神经网络压缩方法.pdf
链接地址:https://www.zhuanlichaxun.net/pdf/11047207.html
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1