GPU带宽性能的检测方法、系统及相关装置.pdf

上传人:狗** 文档编号:10895369 上传时间:2021-08-26 格式:PDF 页数:9 大小:394.78KB
收藏 版权申诉 举报 下载
GPU带宽性能的检测方法、系统及相关装置.pdf_第1页
第1页 / 共9页
GPU带宽性能的检测方法、系统及相关装置.pdf_第2页
第2页 / 共9页
GPU带宽性能的检测方法、系统及相关装置.pdf_第3页
第3页 / 共9页
文档描述:

《GPU带宽性能的检测方法、系统及相关装置.pdf》由会员分享,可在线阅读,更多相关《GPU带宽性能的检测方法、系统及相关装置.pdf(9页完成版)》请在专利查询网上搜索。

1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 201911082349.3 (22)申请日 2019.11.07 (71)申请人 浪潮 (北京) 电子信息产业有限公司 地址 100085 北京市海淀区上地信息路2号 2-1号C栋1层 (72)发明人 辛永欣 (74)专利代理机构 北京集佳知识产权代理有限 公司 11227 代理人 高勇 (51)Int.Cl. H04L 12/26(2006.01) (54)发明名称 一种GPU带宽性能的检测方法、 系统及相关 装置 (57)摘要 本申请提供一种GPU带宽性能的检测方法, 包括。

2、: 获取GPU间的拓扑结构和GPU间的P2P带宽 测试结果; 根据所述拓扑结构和所述P2P带宽测 试结果建立映射表; 将所述映射表中各带宽数据 与对应的预设性能数据比对, 得到检测结果; 其 中, 不同的拓扑结构对应不同的预设性能数据。 本申请通过批量对GPU进行P2P带宽测试, 适用于 实际的GPU带宽性能测试和产线GPU服务器的GPU 带宽性能测试, 能够有效提高测试效率和测试准 确率。 本申请还提供一种GPU带宽性能的检测系 统、 计算机可读存储介质和一种GPU带宽性能的 检测终端, 具有上述有益效果。 权利要求书1页 说明书6页 附图1页 CN 110891000 A 2020.03.。

3、17 CN 110891000 A 1.一种GPU带宽性能的检测方法, 其特征在于, 包括: 获取GPU间的拓扑结构和GPU间的P2P带宽测试结果; 根据所述拓扑结构和所述P2P带宽测试结果建立映射表; 将所述映射表中各带宽数据与对应的预设性能数据比对, 得到检测结果; 其中, 不同的拓扑结构对应不同的预设性能数据。 2.根据权利要求1所述的检测方法, 其特征在于, 获取GPU间的拓扑结构和GPU间的P2P 带宽测试结果之前, 还包括: 调用cuda内置的samples测试GPU间的P2P带宽, 得到所述P2P带宽测试结果。 3.根据权利要求1所述的检测方法, 其特征在于, 将所述映射表中各带。

4、宽数据与预设性 能数据比对, 得到检测结果包括: 若所述带宽数据小于预设性能数据, 对应的检测结果为Fail; 若所述带宽数据不小于预设性能数据, 对应的检测结果为Pass。 4.根据权利要求1所述的检测方法, 其特征在于, 当所述带宽数据小于对应的预设性能 数据时, 还包括: 检测不满足对应预设性能数据的GPU对应的风扇是否故障; 若否, 对不满足对应预设性能数据的GPU执行性能检测。 5.根据权利要求1所述的检测方法, 其特征在于, 根据所述拓扑结构和所述P2P带宽测 试结果建立映射表包括: 根据所述拓扑结构和所述P2P带宽测试结果建立矩阵格式文件或映射表格。 6.一种GPU带宽性能的检测。

5、系统, 其特征在于, 包括: 数据获取模块, 用于获取GPU间的拓扑结构和GPU间的P2P带宽测试结果; 映射模块, 用于根据所述拓扑结构和所述P2P带宽测试结果建立映射表; 性能检测模块, 用于将所述映射表中各带宽数据与对应的预设性能数据比对, 得到检 测结果; 其中, 不同的拓扑结构对应不同的预设性能数据。 7.根据权利要求6所述的检测系统, 其特征在于, 还包括: 带宽测试模块, 用于调用cuda内置的samples测试GPU间的P2P带宽, 得到所述P2P带宽 测试结果。 8.根据权利要求6所述的检测系统, 其特征在于, 还包括: 故障检测模块, 用于当所述带宽数据小于对应的预设性能数。

6、据时, 检测不满足对应预 设性能数据的GPU对应的风扇是否故障; 若否, 对不满足对应预设性能数据的GPU执行性能 检测。 9.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序被 处理器执行时实现如权利要求1-5任一项所述的检测方法的步骤。 10.一种GPU带宽性能的检测终端, 其特征在于, 包括存储器和处理器, 所述存储器中存 有计算机程序, 所述处理器调用所述存储器中的计算机程序时实现如权利要求1-5任一项 所述的检测方法的步骤。 权利要求书 1/1 页 2 CN 110891000 A 2 一种GPU带宽性能的检测方法、 系统及相关装置 技术领域 0001 。

7、本申请涉及电子设备领域, 特别涉及一种GPU带宽性能的检测方法、 系统及相关装 置。 背景技术 0002 一直以来, GPU和CPU间的数据传输速度都是一项技术瓶颈, 因为GPU的显存能够快 速而少量的读写数据, 而CPU使用内存读写则大量而慢速, 因此, CPU的传输带宽大于GPU。 0003 Nvidia开发了一个全新的互联构架nvlink。 NVLink将对高性能计算、 数据分析、 以 及机器学习等领域产生巨大影响, 也为建造每秒百亿亿次计算的超级电脑铺平了道路。 0004 NVIDIA NVLink将采用相同配置的服务器性能提高31。 此产品可极大提高带宽 并减少延迟, 即使更大型的深。

8、度学习工作负载不断增加, 也能实现性能扩展。 0005 NVLink实现了很大的进步, 可以在单个服务器中支持八个GPU, 并且可提升性能, 使之超越PCIe。 但是, 要将深度学习性能提升到一个更高水平, 将需要使用GPU架构, 该架构 在一台服务器上支持更多的GPU以及GPU之间的全带宽连接。 0006 现阶段都是测试人员对带宽测试的性能指标一一核对, 尤其当GPU卡是16或者更 多的时候, 不仅测试效率低, 而且测试结果准确程度不高, 难以满足测试需求。 发明内容 0007 本申请的目的是提供一种GPU带宽性能的检测方法、 系统、 计算机可读存储介质和 一种GPU带宽性能的检测终端, 能。

9、够提高带宽测试效率。 0008 为解决上述技术问题, 本申请提供一种GPU带宽性能的检测方法, 具体技术方案如 下: 0009 获取GPU间的拓扑结构和GPU间的P2P带宽测试结果; 0010 根据所述拓扑结构和所述P2P带宽测试结果建立映射表; 0011 将所述映射表中各带宽数据与对应的预设性能数据比对, 得到检测结果; 0012 其中, 不同的拓扑结构对应不同的预设性能数据。 0013 其中, 获取GPU间的拓扑结构和GPU间的P2P带宽测试结果之前, 还包括: 0014 调用cuda内置的samples测试GPU间的P2P带宽, 得到所述P2P带宽测试结果。 0015 其中, 将所述映射。

10、表中各带宽数据与预设性能数据比对, 得到检测结果包括: 0016 若所述带宽数据小于预设性能数据, 对应的检测结果为Fail; 0017 若所述带宽数据不小于预设性能数据, 对应的检测结果为Pass。 0018 其中, 当所述带宽数据小于对应的预设性能数据时, 还包括: 0019 检测不满足对应预设性能数据的GPU对应的风扇是否故障; 0020 若否, 对不满足对应预设性能数据的GPU执行性能检测。 0021 其中, 根据所述拓扑结构和所述P2P带宽测试结果建立映射表包括: 0022 根据所述拓扑结构和所述P2P带宽测试结果建立矩阵格式文件或映射表格。 说明书 1/6 页 3 CN 11089。

11、1000 A 3 0023 本申请还提供一种GPU带宽性能的检测系统, 包括: 0024 数据获取模块, 用于获取GPU间的拓扑结构和GPU间的P2P带宽测试结果; 0025 映射模块, 用于根据所述拓扑结构和所述P2P带宽测试结果建立映射表; 0026 性能检测模块, 用于将所述映射表中各带宽数据与对应的预设性能数据比对, 得 到检测结果; 0027 其中, 不同的拓扑结构对应不同的预设性能数据。 0028 其中, 还包括: 0029 带宽测试模块, 用于调用cuda内置的samples测试GPU间的P2P带宽, 得到所述P2P 带宽测试结果。 0030 其中, 还包括: 0031 故障检测。

12、模块, 用于当所述带宽数据小于对应的预设性能数据时, 检测不满足对 应预设性能数据的GPU对应的风扇是否故障; 若否, 对不满足对应预设性能数据的GPU执行 性能检测。 0032 本申请还提供一种计算机可读存储介质, 其上存储有计算机程序, 所述计算机程 序被处理器执行时实现如上所述的方法的步骤。 0033 本申请还提供一种GPU带宽性能的检测终端, 包括存储器和处理器, 所述存储器中 存有计算机程序, 所述处理器调用所述存储器中的计算机程序时实现如上所述的方法的步 骤。 0034 本申请提供一种GPU带宽性能的检测方法, 包括: 获取GPU间的拓扑结构和GPU间的 P2P带宽测试结果; 根据。

13、所述拓扑结构和所述P2P带宽测试结果建立映射表; 将所述映射表 中各带宽数据与对应的预设性能数据比对, 得到检测结果; 其中, 不同的拓扑结构对应不同 的预设性能数据。 0035 本申请通过批量对GPU进行P2P带宽测试, 适用于实际的GPU带宽性能测试和产线 GPU服务器的GPU带宽性能测试, 能够有效提高测试效率和测试准确率。 本申请还提供一种 GPU带宽性能的检测系统、 计算机可读存储介质和一种GPU带宽性能的检测终端, 具有上述 有益效果, 此处不再赘述。 附图说明 0036 为了更清楚地说明本申请实施例或现有技术中的技术方案, 下面将对实施例或现 有技术描述中所需要使用的附图作简单地。

14、介绍, 显而易见地, 下面描述中的附图仅仅是本 申请的实施例, 对于本领域普通技术人员来讲, 在不付出创造性劳动的前提下, 还可以根据 提供的附图获得其他的附图。 0037 图1为本申请实施例所提供的一种GPU带宽性能的检测方法的流程图; 0038 图2为本申请实施例所提供的一种GPU带宽性能的检测系统结构示意图。 具体实施方式 0039 为使本申请实施例的目的、 技术方案和优点更加清楚, 下面将结合本申请实施例 中的附图, 对本申请实施例中的技术方案进行清楚、 完整地描述, 显然, 所描述的实施例是 本申请一部分实施例, 而不是全部的实施例。 基于本申请中的实施例, 本领域普通技术人员 说明。

15、书 2/6 页 4 CN 110891000 A 4 在没有做出创造性劳动前提下所获得的所有其他实施例, 都属于本申请保护的范围。 0040 请参考图1, 图1为本申请实施例所提供的一种GPU带宽性能的检测方法的流程图, 该检测方法包括: 0041 S101: 获取GPU间的拓扑结构和GPU间的P2P带宽测试结果; 0042 S102: 根据所述拓扑结构和所述P2P带宽测试结果建立映射表; 0043 S103: 将所述映射表中各带宽数据与对应的预设性能数据比对, 得到检测结果; 0044 步骤S101中需要分别对拓扑结构和P2P带宽测试结果进行处理。 P2P带宽测试结果 指两两GPU之间的P2。

16、P带宽测试结果。 当然, 容易理解的是, 在此之前还需要对两两GPU之间 的P2P进行带宽测试。 在此对于如何获取GPU间的P2P带宽测试结果不作限定, 为了避免测试 人员一一测试, 可以通过调用cuda内置的samples测试GPU间的P2P带宽, 得到P2P带宽测试 结果, 提高P2P带宽测试结果的测试效率。 CUDA(Compute Unified Device Architecture), 是英伟达公司推出的一种基于新的并行编程模型和指令集架构的通用计算架构, 它能利用 英伟达GPU的并行计算引擎, 比CPU更高效的解决许多复杂计算任务。 当然也可以采用其他 带宽测试方法, 在此不作更。

17、多限定。 0045 步骤S101中还需要获取欧拓扑结构, 这里的拓扑结构主要指的是GPU之间的连接 关系, 例如NVLINKE V2.0、 NVLINKE V1.0和SYS等等。 当然实际的拓扑结构中还可以包含GPU 与其他组件的连接关系。 0046 此后S102需要根据拓扑结构和P2P带宽测试结果建立映射表。 建立映射表的目的 是将实际的带宽测试结果与相应的连接关系一一对应。 在此对于如何建立拓扑结构和P2P 带宽测试结果之间的映射表不作限定, 具体的可以采用矩阵格式文件或者映射表格等形 式, 行和列表示GPU的ID号。 假设采用映射表格形式, 若存在N个GPU, 行、 列均按GPU0、 G。

18、PU1 GPUN的顺序排列, 第0行0列是X, 即行、 列均为GPU0对应的单元格为X, 表示是GPU0本身, 第0 行1列的单元格NV1表示GPU0与GPU1间是用NVLINKE V1.0连接, 第0行2列是NV2表示GPU0和 GPU2间是用NVLINKE V2.0连接, 依此类推。 之后将实际的P2P带宽测试结果与GPU的拓扑结 构一一对应, 即写入各单元格中, 使得最后得到的映射表中可以确定任意两个GPU之间的连 接关系以及对应的P2P带宽测试结果。 0047 建立映射表后, 映射表中的数据均为实际测试所得数据, 为了检测GPU之间的连接 性能, 需要与对应的预设性能数据相比对。 通常。

19、预设性能数据由本领域技术人员经过大量 的数据测试或者根据实际经验得到, 也可以为根据理论计算值与耗损系数之间的关系计算 得到, 在此不作具体限定。 0048 优选的, 预设性能数据可以调用相关的结果判定库实现, 结果判定库中包含对各 种GPU拓扑结构测试的P2P带宽数据。 0049 需要注意的是, 不同的GPU之间采用的拓扑结构不同, 即连接方式不同, 例如存在 NVLINKE V2.0、 NVLINKE V1.0和SYS等连接方式, 而不同的拓扑结构对应不同的预设性能数 据。 因此, 在将映射表中的数据与对应的预设性能数据相比对时, 应先判断GPU之间的实际 连接方式, 根据实际连接方式确定。

20、对应的预设性能数据, 再将映射表中的P2P带宽测试结果 与预设性能数据相比对, 得到检测结果, 确定连接性能。 0050 若映射表中的P2P带宽测试结果不满足预设性能数据, 则说明该GPU对之间的连接 存在异常。 若映射表中的P2P带宽测试结果满足预设性能数据, 则说明该GPU对之间的连接 说明书 3/6 页 5 CN 110891000 A 5 正常。 0051 举例而言, 若带宽数据小于预设性能数据, 对应的检测结果为Fail, 若带宽数据不 小于预设性能数据, 对应的检测结果为Pass, 则最终得到的检测结果中利用Fail和Pass表 现了任意GPU对之间的连接性能和测试结果。 0052。

21、 本申请实施例通过批量对GPU进行P2P带宽测试, 适用于实际的GPU带宽性能测试 和产线GPU服务器的GPU带宽性能测试, 能够有效提高测试效率和测试准确率。 0053 基于上述实施例, 作为优选的实施例, 当所述带宽数据小于对应的预设性能数据 时, 还可以包括: 0054 检测不满足对应预设性能数据的GPU对应的风扇是否故障; 0055 若否, 对不满足对应预设性能数据的GPU执行性能检测。 0056 当带宽数据小于对应的预设性能数据时, 此时可以先判断GPU的风扇是否故障。 因 为存在由于风扇转速低导致GPU散热受影响从而影响GPU的运行性能的可能, 因此可以先排 除外界因素对于GPU的。

22、影响。 排除外界因素影响后, 确定带宽数据不满足对应的预设性能数 据是由于GPU自身因素造成, 则此时可以对着两个GPU进行检测, 确定是否为GPU原因。 若是, 则可以选择更换GPU或执行其他修复操作, 以保证GPU集群的高效运行。 0057 下文以具体的实施方式对本申请提供的一种GPU带宽性能的检测方法进行描述: 0058 假设此时已经执行完S101和S102, 此后可以根据拓扑结构和P2P带宽测试结果建 立矩阵形式的映射表。 0059 将映射表中GPU序号和对应的P2P带宽数据存入列表中, 列表用于存放GPU拓扑结 构。 之后对列表进行处理, 存入字典, 字典中包含Key和value。 。

23、字典的key是GPU的列表号, value是性能测试数据列表。 0060 根据得到的P2P带宽测试结果, 则提取的数据存入格式如下, 需要注意的是, 下列 数据仅用于表现一种优选的数据存入格式及映射表形式: 0061 GPU0:746.18,48.39,96.51,48.40,17.50,18.40,18.52, 96.48, 0062 GPU1:48.39,749.76,48.40,96.50,18.40,18.42,96.48, 18.10, 0063 GPU2:96.51,48.39,747.61,96.51,18.49,48.39,17.90, 18.24, 0064 GPU3:48.。

24、39,96.49,96.49,748.32,48.41,17.28,18.55, 18.24, 0065 GPU4:18.10,18.75,18.44,48.39,750.48,96.51,96.49, 48.39, 0066 GPU5:18.73,18.73,48.39,18.79,96.46,752.65,48.39, 96.46, 0067 GPU6:18.74,96.48,18.52,18.55,96.30,48.35,749.76, 48.33, 0068 GPU7:96.45,18.51,18.24,17.93,48.38,96.28,48.40, 744.76 说明书 4/6 页。

25、 6 CN 110891000 A 6 0069 此后需要查找结果判定库, 结果判定库里包含对各种GPU拓扑结构测试的P2P带宽 数据。 0070 遍历带宽的性能数据, 同时读取存放GPU拓扑结构的列表, 根据GPU间的连接情况, 判断这个指标值是否合理。 传入的参数是GPU拓扑结构的字典和带宽测试值的字典, 两个字 典的key是相同的, 遍历GPU结构字典, 同时去查看带宽测试值的字典该key对应的value。 0071 最后输出检测结果, 对实际测试性能数据与判定库里的预设性能数据进行比对 后, 若都正常, 则返回P2P测试Pass, 否则返回Fail并标注具体哪一对GPU之间的P2P带宽。

26、数 据异常。 当然也可能存在不支持当前GPU连接关系的预设性能数据, 此时可以返回Check。 0072 下面对本申请实施例提供的一种GPU带宽性能的检测系统进行介绍, 下文描述的 检测系统与上文描述的一种GPU带宽性能的检测方法可相互对应参照。 0073 参见图2, 图2为本申请实施例所提供的一种GPU带宽性能的检测系统结构示意图 本申请还提供一种GPU带宽性能的检测系统, 包括: 0074 数据获取模块100, 用于获取GPU间的拓扑结构和GPU间的P2P带宽测试结果; 0075 映射模块200, 用于根据所述拓扑结构和所述P2P带宽测试结果建立映射表; 0076 性能检测模块300, 用。

27、于将所述映射表中各带宽数据与对应的预设性能数据比对, 得到检测结果; 0077 其中, 不同的拓扑结构对应不同的预设性能数据。 0078 基于上述实施例, 作为优选的实施例, 该检测系统还可以包括: 0079 带宽测试模块, 用于调用cuda内置的samples测试GPU间的P2P带宽, 得到所述P2P 带宽测试结果。 0080 其中, 所述性能检测模块300具体为用于若所述带宽数据小于预设性能数据, 对应 的检测结果为Fail; 若所述带宽数据不小于预设性能数据, 对应的检测结果为Pass的模块。 0081 基于上述实施例, 作为优选的实施例, 该检测系统还可以包括: 0082 故障检测模块。

28、, 用于当所述带宽数据小于对应的预设性能数据时, 检测不满足对 应预设性能数据的GPU对应的风扇是否故障; 若否, 对不满足对应预设性能数据的GPU执行 性能检测。 0083 基于上述实施例, 作为优选的实施例, 上文映射模块200具体可以为用于根据所述 拓扑结构和所述P2P带宽测试结果建立矩阵格式文件或映射表格的模块。 0084 本申请还提供了一种计算机可读存储介质, 其上存有计算机程序, 该计算机程序 被执行时可以实现上述实施例所提供的步骤。 该存储介质可以包括: U盘、 移动硬盘、 只读存 储器(Read-Only Memory, ROM)、 随机存取存储器(Random Access 。

29、Memory, RAM)、 磁碟或者 光盘等各种可以存储程序代码的介质。 0085 本申请还提供了一种GPU带宽性能的检测终端, 可以包括存储器和处理器, 所述存 储器中存有计算机程序, 所述处理器调用所述存储器中的计算机程序时, 可以实现上述实 施例所提供的步骤。 当然所述GPU带宽性能的检测终端还可以包括各种网络接口, 电源等组 件。 0086 说明书中各个实施例采用递进的方式描述, 每个实施例重点说明的都是与其他实 施例的不同之处, 各个实施例之间相同相似部分互相参见即可。 对于实施例提供的系统而 言, 由于其与实施例提供的方法相对应, 所以描述的比较简单, 相关之处参见方法部分说明 说。

30、明书 5/6 页 7 CN 110891000 A 7 即可。 0087 本文中应用了具体个例对本申请的原理及实施方式进行了阐述, 以上实施例的说 明只是用于帮助理解本申请的方法及其核心思想。 应当指出, 对于本技术领域的普通技术 人员来说, 在不脱离本申请原理的前提下, 还可以对本申请进行若干改进和修饰, 这些改进 和修饰也落入本申请权利要求的保护范围内。 0088 还需要说明的是, 在本说明书中, 诸如第一和第二等之类的关系术语仅仅用来将 一个实体或者操作与另一个实体或操作区分开来, 而不一定要求或者暗示这些实体或操作 之间存在任何这种实际的关系或者顺序。 而且, 术语 “包括” 、“包含” 或者其任何其他变体意 在涵盖非排他性的包含, 从而使得包括一系列要素的过程、 方法、 物品或者设备不仅包括那 些要素, 而且还包括没有明确列出的其他要素, 或者是还包括为这种过程、 方法、 物品或者 设备所固有的要素。 在没有更多限制的情况下, 由语句 “包括一个” 限定的要素, 并不排 除在包括所述要素的过程、 方法、 物品或者设备中还存在另外的相同要素。 说明书 6/6 页 8 CN 110891000 A 8 图1 图2 说明书附图 1/1 页 9 CN 110891000 A 9 。

展开阅读全文
内容关键字: GPU 带宽 性能 检测 方法 系统 相关 装置
关于本文
本文标题:GPU带宽性能的检测方法、系统及相关装置.pdf
链接地址:https://www.zhuanlichaxun.net/pdf/10895369.html
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1