《控制多核环境中的功率消耗.pdf》由会员分享,可在线阅读,更多相关《控制多核环境中的功率消耗.pdf(12页完整版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 104185827 A (43)申请公布日 2014.12.03 C N 1 0 4 1 8 5 8 2 7 A (21)申请号 201280072139.6 (22)申请日 2012.03.31 G06F 1/32(2006.01) (71)申请人英特尔公司 地址美国加利福尼亚州 (72)发明人 A.K.库马尔 (74)专利代理机构中国专利代理(香港)有限公 司 72001 代理人张凌苗 姜甜 (54) 发明名称 控制多核环境中的功率消耗 (57) 摘要 在多核环境中实现对第一核的频率的调制的 系统和方法包括用以确定指派给第一核的功率限 制的逻辑、用以确定第一核的停。
2、滞计数的逻辑以 及用以至少基于指派给第一核的功率限制和第一 核的停滞计数调制第一核的频率的逻辑。第一核 被包括在多核计算机环境中的插槽的第一分片 中。 (85)PCT国际申请进入国家阶段日 2014.09.30 (86)PCT国际申请的申请数据 PCT/US2012/031751 2012.03.31 (87)PCT国际申请的公布数据 WO2013/147906 EN 2013.10.03 (51)Int.Cl. 权利要求书2页 说明书4页 附图5页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书2页 说明书4页 附图5页 (10)申请公布号 CN 104185827 。
3、A CN 104185827 A 1/2页 2 1. 一种设备,包括: 用以确定指派给第一核的功率限制的逻辑; 用以确定第一核的停滞计数的逻辑;以及 用以至少基于指派给第一核的所述功率限制和第一核的所述停滞计数对第一核的频 率进行调制的逻辑,其中第一核要包括在多核计算机环境中的插槽的第一分片中。 2. 如权利要求1所述的设备,还包括: 用以确定第一核的估计的功率需求的逻辑,其中进一步基于第一核的所述估计的功率 需求来调制第一核的频率。 3. 如权利要求2所述的设备,其中,所述功率限制由与所述插槽相关联的功率控制单 元(PCU)指派给第一核。 4. 如权利要求1所述的设备,其中用以调制第一核的频。
4、率的逻辑与和所述插槽相关 联的锁相环(PLL)相耦合。 5. 如权利要求4所述的设备,其中,所述插槽被配置为包括第一分片和第二分片,并 且其中第一分片和第二分片与所述PLL相关联。 6. 如权利要求5所述的设备,其中独立于与第二分片相关联的频率而调制第一核的 频率。 7. 如权利要求1至6中任一项所述的设备,其中第一分片包括第一核和第二核,并且 其中独立于与第二核相关联的频率而调制第一核的频率。 8. 如权利要求3所述的设备,还包括用以确定由所述PCU指派给第一核的热限制的逻 辑。 9. 如权利要求8所述的设备,其中基于所述热限制调制第一核的频率。 10. 如权利要求2所述的设备,其中当所述停。
5、滞计数高于阈值且所述估计的功率需求 小于所述功率限制时,第一核的频率被降低。 11. 如权利要求2所述的设备,其中与核停滞比成比例地调制第一核的频率。 12. 如权利要求1至11中任一项所述的设备,其中在所述功率限制的界限内调制第一 核的频率。 13. 如权利要求2所述的设备,其中由与第一核相关联的核本地功率单元(CLPU)的核 能量监视器来确定第一核的所述估计的功率需求。 14. 一种计算机实施的方法,包括: 调制多核环境的第一分片中的核的频率,所述调制至少基于所述核的估计的功率需 求、指派给所述核的功率限制和所述核的停滞计数、至少独立于其它分片中的核而进行,其 中第一分片和所述其它分片与插。
6、槽的锁相环(PLL)相关联。 15. 如权利要求14所述的方法,还包括: 确定所述核的所述估计的功率需求; 确定指派给所述核的所述功率限制;以及 确定所述核的所述停滞计数。 16. 如权利要求15所述的方法,其中调制第一分片中的所述核的频率包括:当核停滞 的数目高于阈值且所述估计的功率需求小于所述功率限制时,降低所述核的频率。 17. 如权利要求15所述的方法,其中与核停滞比成比例地调制所述核的频率。 权 利 要 求 书CN 104185827 A 2/2页 3 18. 如权利要求17所述的方法,其中在所述功率限制的界限内调制所述核的频率。 19. 如权利要求14所述的方法,其中由与所述核相关。
7、联的核本地功率单元(CLPU)的 核能量监视器来确定所述核的所述估计的功率需求。 20. 如权利要求14所述的方法,其中与第一分片中的其它核独立地调制第一分片中 的所述核的频率。 21. 如权利要求14所述的方法,其中当所述停滞计数高于阈值且所述估计的功率需 求小于所述功率限制时,第一分片中的所述核的频率被降低。 22. 如权利要求14至21中任一项所述的方法,其中与核停滞比成比例地调制所述核 的频率。 23. 如权利要求14至21中任一项所述的方法,其中在所述功率限制的界限内调制所 述核的频率。 24. 一种系统,包括: 锁相环(PLL),其被配置为与多核环境中的时钟信号相关联; 插槽,其与。
8、所述PLL相耦合并被配置为包括多个分片,至少一个所述分片包括第一核 和第二核,其中第一核被配置为包括用以执行以下处理的逻辑: 确定指派给第一核的功率限制; 确定第一核的停滞计数;以及 至少基于指派给第一核的所述功率限制和第一核的所述停滞计数、独立于与第一核没 有关联的分片的频率而对第一核的频率进行调制。 25. 如权利要求24所述的系统,其中,第一核被进一步配置为包括用以确定第一核的 估计的功率需求的逻辑。 26. 如权利要求25所述的系统,其中,基于第一核的所述估计的功率需求调制第一核 的频率。 27. 如权利要求25所述的系统,其中,基于指派给第一核的所述功率限制与第一核的 所述估计的功率。
9、需求之间的比较来调制第一核的频率。 28. 如权利要求24至27中任一项所述的系统,其中与第二核的频率独立地调制第一 核的频率。 权 利 要 求 书CN 104185827 A 1/4页 4 控制多核环境中的功率消耗 背景技术 0001 高性能计算(HPC)和超级计算环境可能需要多个核的集成。然而,这些环境中的 功率消耗可能是很大的。 附图说明 0002 通过阅读以下说明书和所附权利要求以及通过参考下列附图,本发明的实施例的 各种益处对于本领域技术人员将变得清楚,在附图中: 图1是示出根据一些实施例的示例计算机系统的框图; 图2是示出根据一些实施例的多核处理器的示例的框图; 图3是示出根据一些。
10、实施例的插槽功率控制单元(PCU)的示例的框图; 图4是示出根据一些实施例的可用于控制核的频率的核本地功率单元(CLPU)的示例 的框图;以及 图5是根据一些实施例的调制分片(tile)中的核的频率的示例方法的流程图。 具体实施方式 0003 实施例可以涉及在多核环境中实现对第一核的频率的调制的设备,其中该设备可 以包括用以确定指派给第一核的功率限制的逻辑、用以确定第一核的停滞计数的逻辑以及 用以至少基于指派给第一核的功率限制和第一核的停滞计数调制第一核的频率的逻辑。第 一核可被包括在多核计算机环境中的插槽的第一分片中。 0004 实施例可以涉及其中锁相环(PLL)被配置为与多核环境中的时钟信。
11、号相关联的系 统。该系统可以包括与PLL相耦合且被配置为包括多个分片的插槽。分片中的至少一个可 以包括第一核和第二核。第一核可被配置为包括用以确定指派给第一核的功率限制、确定 第一核的停滞计数以及用以至少基于指派给第一核的功率限制和第一核的停滞计数调制 第一核的频率的逻辑。可以独立于与第一核无关联的分片的频率而执行对第一核的频率的 调制。 0005 实施例可以涉及计算机实施的方法,该计算机实施的方法提供对多核环境的第一 分片中的核的频率的调制,该调制至少基于核的估计的功率需求、指派给核的功率限制和 核的停滞计数、至少独立于其它分片中的核而进行。第一分片和其它分片可以与插槽的锁 相环(PLL)相。
12、关联。 0006 转到图1,根据一些实施例示出了图示示例计算机系统100的框图。计算机系统 100可以包括中央处理单元(CPU)105、图形和存储控制器中心(GMCH)110和输入/输出控 制器中心(ICH)125。GMCH 110可经由总线107被耦合到CPU 105。ICH 125可经由总线 122被耦合到GMCH 110。GMCH 110还可被耦合到存储装置115和显示装置120。ICH 125 可被耦合到I/O装置130。GMCH 110可以包括图形系统200(未示出)。虽然CPU 105、GMCH 110和ICH 125可被示出为分离的部件,但是这些部件中的两个或更多的功能可被组合。。
13、可 使用电源150来向计算机系统100提供功率。电源150可以是电池或外部功率源。 说 明 书CN 104185827 A 2/4页 5 0007 对于某些实施例,CPU 105可以是多核处理器。例如,多核处理器可以基于加利福 尼亚州圣克拉拉市的英特尔公司的集成众核(MIC)架构,并且可以被实施为PCI Express (快速外围部件互连)卡。计算机系统100还可以包括许多其它部件;然而,为了简明起见, 未示出它们。对于某些实施例,计算机系统100可以是服务器计算机系统。 0008 转到图2,根据一些实施例示出了图示示例多核处理器的框图。多核处理器200可 以包括多个核240、242、250、。
14、252、260、262、270和272以及多个分片205、215、225和235。每 个分片可以包括两个核。例如,分片205可以包括核240和242。应注意的是,多核处理器 200中的分片和核的数目可以更多得多。例如,可以有五十(50)个核被包括在二十五(25) 个分片中。核240-272和分片205-235可以与插槽相关联。 0009 通常,多核处理器200可被实施为具有为所有分片205-235和核240-272提供共 同的参考信号并且因此提供相同频率的单个锁相环(PLL)280。这可以将所有的核240-272 限制到单个频率并且因此限制到单个性能(P)状态。克服该限制的一个可能的解决方案是。
15、 每个核或分片实施一个PLL。这可以能够使得将分片205的核240置于一种P状态(例如, P0)中而将分片215的核250置于不同的P状态(例如,P1)中。然而,该解决方案在存在 设计或功率约束时可能是不实际的。 0010 转到图3,根据一些实施例示出了图示示例插槽功率控制单元(PCU)的框图。PCU 305可被配置为指派功率限制310,插槽中的每个分片都可被指派该功率限制310。PCU 305 还可以向分片指派热限制315。PCU 305还可包括插槽计量器325,其可被配置为接收来自 每个分片的功率估计320。对于一些实施例,指派给分片的功率限制310可以与该分片的功 率估计320成比例。P。
16、CU 305可与插槽功率限制(也称为运行平均功率限制(RAPL)330相 关联。 0011 PCU 305可以基于RAPL 330周期性地(例如每几毫秒)重新评估分片功率限制 310。PCU 305可被配置为比较从分片接收的功率估计320与指派的功率限制310。对于一 些实施例,当功率估计320小于功率限制310时,PCU 305可以减小功率限制310。对于一 些实施例,当功率估计320在预定范围内接近功率限制310时,PCU 305可以增大功率限制 310。 0012 转到图4,根据一些实施例示出了可被用来控制核的频率的核本地功率单元的图。 由于运行在各个核上的工作负载可以是不同的,因此能够。
17、针对每个核或分片独立于相同插 槽中的其它核或分片在使用相同的PLL用于该插槽的同时控制P状态可能是有益的。在该 示例中,核本地功率单元(CLP U)400可与核240(图3)相关联,并且CLPU 401可以与核242 (图3)相关联。 0013 CLPU 400可以包括核能量监视器405。对于某些实施例,功率估计320(在图3 中示出)可由CLPU 400的核能量监视器405以及CLPU 401的核能量监视器(未示出)来确 定。 CLPU 400可以包括性能/节流(P/T)选择逻辑410。P/T选择逻辑410可被配置为控 制核240的功率消耗。这可以包括将核240置于不同的性能(P)状态或节流。
18、(T)状态中。 0014 P/T选择逻辑410可被配置为修改核240可在其处工作的时钟速率或频率。P/T选 择逻辑410还可以控制用于核240的电压工作点。例如,当被置于P0状态中时,核240可 以工作在相对较高频的高性能水平并且可以具有更多的功率消耗;当被置于P1状态中时, 核240的频率和性能可以较低并且功率消耗可以较少;当被置于T或节流状态中时,可通过 说 明 书CN 104185827 A 3/4页 6 调制频率对核240进行节流并且功率消耗可以处于其最低点。使核240工作在低频水平还 可以降低与核240相关联的热负载以及冷却需求。 0015 核能量监视器405可被配置为接收来自核24。
19、0的活动计数器407以确定核能量 420。活动计数器407可以包括有关核240被置于CO状态中的次数、收回的指令的数目、核 停滞的数目等的信息。 0016 P/T选择逻辑410可被配置为接收有关来自核能量监视器405的核能量420、来自 核240的核停滞计数409、来自PCU 305的热限制315以及来自PCU 305的功率限制310的 信息。对于一些实施例,当功率估计320被确定为大于指派的功率限制310时,CLPU 400 可以使具有较高核停滞的核的频率被调制。可以使用阈值来确定核停滞计数409是否处于 可影响核240的频率的调制的水平。例如,当核停滞时,其可能不执行任何指令。这样,将 核。
20、的频率调制到较低频率可能不影响其性能但是可以减小其功率消耗。频率的调制可以与 核停滞比(例如,停滞对比未停滞)成比例并且可以由功率限制来限界。可以通过核时钟调 制模块420来执行对核的频率的调制。核时钟调制模块410可与核时钟选通控制415相耦 合。核时钟选通控制415可与PLL 280(在图2中示出)相耦合。通过基于估计的功率320 和功率限制310调制插槽中的核的频率,可以优化各个核的性能和功率消耗。对于某些实 施例,对核的频率的调制可以进一步基于指派的热限制315。例如,当确定核的温度在所指 派的热限制315附近时,P/T选择逻辑410可以降低核的频率。P/T选择逻辑410还可以接 收用。
21、户需求490和操作系统(OS)需求495并使用这些需求来确定如何调制频率。 0017 转到图5,根据一些实施例示出了图示由核本地功率单元(CLPU)执行的过程的示 例流程图。该过程可以对应于CLPU 400管理核240的功率消耗。在框505处,CLPU可以 确定指派给核的功率限制。功率限制可由PCU 305(在图4中示出)指派。在框510处,可 以确定核所需要的估计功率。估计的功率需求可由核能量监视器405(在图4和5中示出) 确定。在所示的框515处,将功率限制与估计的功率需求相比较以确定由PCU 305指派给 核的功率是否适当。例如,当估计的功率需求比PCU 305指派的功率限制小得多时,。
22、功率限 制可被减小。在框520处,可以确定核停滞的数目。在框525处,可以基于估计的功率需求 与功率限制之间的比较结果并基于核停滞的数目来调制核的频率。例如,当核停滞的数目 高于预定阈值且估计的功率需求小于功率限制时,可以降低频率。虽然未在图5中示出,但 是也可以基于由PCU 305指派给核的热限制来调制核的频率。 0018 各种实施例可以通过使用硬件元件、软件元件或二者的组合来实现。硬件元件 的示例可以包括处理器、微处理器、电路、电路元件(例如,晶体管、电阻器、电容器、电感器 等等)、集成电路、专用集成电路(ASIC)、可编程逻辑器件(PLD)、数字信号处理器(DSP)、现 场可编程门阵列(。
23、FPGA)、逻辑门、寄存器、半导体器件、芯片、微芯片、芯片组等等。软件的 示例可以包括软件部件、程序、应用、计算机程序、应用程序、系统程序、机器程序、操作系 统软件、中间件、固件、软件模块、例程、子例程、功能、方法、过程、软件接口、应用程序接口 (API)、指令集、计算代码、计算机代码、代码段、计算机代码段、字、值、符号或其任何组合。 确定是否通过使用硬件元件和/或软件元件来实现实施例可以根据任何数目的因素而变 化,所述因素诸如所期望的计算速率、功率水平、耐热性、处理循环预算、输入数据率、输出 数据率、存储器资源、数据总线速度以及其它设计或性能约束。 0019 至少一个实施例的一个或多个方面可。
24、以通过存储在机器可读介质上的代表性指 说 明 书CN 104185827 A 4/4页 7 令来实现,所述指令代表处理器内的各种逻辑,其当由机器读取时使机器构建用以执行本 文描述的技术的逻辑。这样的表示称为“IP 核”,可以被存储在有形、机器可读介质上并且 被供应给各种消费者或制造机构以加载到实际制成逻辑或处理器的构建机器中。 0020 可能已经给出示例尺寸/模型/值/范围,但是本发明的实施例不限于它们。由于 制造技术(例如光刻)随时间而成熟,因此预期的是可以制造更小尺寸的装置。另外,众所周 知的到集成电路(IC)芯片和其它部件的电力/接地连接可以或可以不在图中示出,这是为 了图示和讨论的简单。
25、,并且以免模糊本发明的实施例的某些方面。此外,布置可以以框图形 式示出,以免模糊本发明的实施例,并且这也鉴于以下事实:关于实现这样的框图布置的详 情高度取决于实施例将被实现在其中的平台,即,这样的详情应当很好地在本领域技术人 员的认知范围内。在具体细节(例如电路)被阐明以便描述本发明的示例实施例的情况下, 对于本领域技术人员应当清楚的是,本发明的实施例可以在没有这些具体细节或具有这些 具体细节的变型的情况下被实行。描述因而应被认为是说明性的而非限制性的。 0021 术语“耦合”可以在本文中被用于指代在所讨论的部件之间的任何类型的关系(直 接或间接),并且可以应用于电、机械、流体、光学、电磁、机。
26、电或其它连接。另外,术语“第 一”、“第二”等可以在本文中仅仅用于便利于讨论,并且不带有任何特定时间或时间先后的 意义,除非另外指明。 0022 本领域技术人员将从前述描述中领会到,本发明的实施例的广泛的技术可以以各 种形式来实现。因此,虽然本发明的实施例已经结合其特定示例而被描述,但是本发明的实 施例的真实范围不应当受此限制,因为在研究附图、说明书和所附权利要求后,其它修改对 于技术实践者而言将变得清楚。 说 明 书CN 104185827 A 1/5页 8 图 1 说 明 书 附 图CN 104185827 A 2/5页 9 图 2 说 明 书 附 图CN 104185827 A 3/5页 10 图 3 说 明 书 附 图CN 104185827 A 10 4/5页 11 图 4 说 明 书 附 图CN 104185827 A 11 5/5页 12 图 5 说 明 书 附 图CN 104185827 A 12 。