异构处理器装置和方法技术领域
本发明总体涉及计算机处理器的领域。更具体地说,本发明涉及异构
处理器装置和方法。
相关技术的描述
异构计算架构提供相比同构架构的独特优势,因为多于一种类型的计
算元件可用于执行计算任务。不同的计算元件(也被称为“处理元件”或
“功能单元”)比其他元件更适用于不同的任务。例如,计算元件A在运
行任务X时比计算元件B快,但是该计算元件A在运行任务V时可能比计
算元件B慢。因此,包含计算元件A和B两者的硬件在运行任务X和V
的组合时比仅包含类型A或类型B的计算元件的硬件更高效。
尽管异构计算架构具有公知的优势,但现实世界中用于CPU核的异构
计算的示例却很少。这些架构要求软件知晓如何将多个任务适当地调度到
每一种CPU核类型(在这种情况下,计算元件是CPU核)。随着硬件演
进以及核类型变化,让软件(例如,操作系统)跟踪可用的不同类型的CPU
核以及如何高效地利用异构性是非常困难的。出于这个原因,在诸如
WindowsTM和Linux之类的主流操作系统中没有核异构性支持,并且在不
久的将来也不大可能有针对该功能的广泛的支持。
附图说明
结合以下附图,从以下具体实施方式中可获得对本发明更好的理解,
其中:
图1A是示出根据本发明的多个实施例的示例性有序流水线和示例性
的寄存器重命名的无序发布/执行流水线的框图;
图1B是示出根据本发明的多个实施例的要包括在处理器中的有序架
构核的示例性实施例和示例性的寄存器重命名的无序发布/执行架构核的框
图;
图2是根据本发明的多个实施例的具有集成的存储器控制器和图形器
件的单核处理器和多核处理器的框图。
图3示出根据本发明的一个实施例的系统的框图;
图4示出根据本发明的实施例的第二系统的框图;
图5示出根据本发明的实施例的第三系统的框图;
图6示出根据本发明的实施例的芯片上系统(SoC)的框图;
图7示出根据本发明的多个实施例的、对照使用软件指令转换器将源
指令集中的二进制指令转换成目标指令集中的二进制指令的框图;
图8示出异构处理器架构的一个实施例。
图9a和9b分别示出包括被隐藏的大型核和被隐藏的小型核的实施例。
图10示出用于将虚拟核映射至物理核的方法的一个实施例。
图11a-b示出具有被隐藏的大型核和多个可见的小型核的系统的一个
实施例。
图12示出用于将虚拟核映射至物理核的方法的一个实施例。
图13a-c示出具有被隐藏的小型核和多个可见的大型核的系统的一个
实施例。
图13d示出用于不同类型的线程的核分配。
图14a-b示出用于智能地向异构处理器组件分配功率的本发明的多个
实施例。
图15a-b是示出根据本发明的多个实施例的通用向量友好指令格式及
其指令模板的框图;
图16a-d是根据本发明的多个实施例的示例性专用向量友好指令格式
的框图;以及
图17是根据本发明的一个实施例的寄存器架构的框图。
具体实施方式
在下面的描述中,为了进行解释,阐述了众多具体细节以便提供对以
下描述的本发明的多个实施例的透彻理解。然而,对本领域技术人员显而
易见的是,可以在没有这些具体细节中的一些细节的情况下实施本发明的
各实施例。在其他实例中,公知的结构和设备以框图形式示出,以避免使
本发明的多个实施例的基本原理模糊。
示例性处理器架构和数据类型
图1A是示出根据本发明的多个实施例的示例性有序流水线和示例性
的寄存器重命名的无序发布/执行流水线的框图。图1B是示出根据本发明
的多个实施例的要包括在处理器中的有序架构核的示例性实施例和示例性
的寄存器重命名的无序发布/执行架构核的框图。图1A-B中的实线框示出
了有序流水线和有序核,而可选增加的虚线框示出了寄存器重命名的、无
序发布/执行流水线和核。考虑到有序方面是无序方面的子集,将描述无序
方面。
在图1A中,处理器流水线100包括取出级102、长度解码级104、解
码级106、分配级108、重命名级110、调度(也被称为分派或发布)级112、
寄存器读取/存储器读取级114、执行级116、写回/存储器写入级118、异
常处理级122和提交级124。
图1B示出处理器核190,其包括耦合到执行引擎单元150的前端单元
130,且执行引擎单元和前端单元两者都耦合到存储器单元170。核190可
以是精简指令集计算(RISC)核、复杂指令集计算(CISC)核、超长指令
字(VLIW)核或混合或替代核类型。作为又一选项,核190可以是专用核,
诸如例如,网络或通信核、压缩引擎、协处理器核、通用计算图形处理单
元(GPGPU)核、图形核等。
前端单元130包括耦合到指令高速缓存单元134的分支预测单元132,
该指令高速缓存单元耦合到指令转换后备缓冲器(TLB)136,该指令转换
后备缓冲器耦合到指令取出单元138,指令取出单元耦合到解码单元140。
解码单元140(或解码器)可解码指令,并生成从原始指令解码出的、或以
其他方式反映原始指令的、或从原始指令导出的一个或多个微操作、微代
码进入点、微指令、其他指令或其他控制信号作为输出。解码单元140可
使用各种不同的机制来实现。合适机制的示例包括但不仅限于,查找表、
硬件实现、可编程逻辑阵列(PLA)、微代码只读存储器(ROM)等。在
一个实施例中,核190包括微代码ROM或存储用于某些宏指令的微代码的
其他介质(例如,在解码单元140中或以其他方式在前端单元130内)。
解码单元140耦合至执行引擎单元150中的重命名/分配器单元152。
执行引擎单元150包括耦合到引退单元154和一个或多个调度器单元
的集合156的重命名/分配器单元152。调度器单元156表示任意数量的不
同调度器,包括预留站、中央指令窗等。调度器单元156耦合到物理寄存
器组单元158。物理寄存器组单元158中的每一个表示一个或多个物理寄存
器组,其中不同的物理寄存器组存储一个或多个不同的数据类型,例如,
标量整数、标量浮点、紧缩整数、紧缩浮点、向量整数、向量浮点,状态
(例如,作为要被执行的下一条指令的地址的指令指针)等。在一个实施
例中,物理寄存器组单元158包括向量寄存器单元、写掩码寄存器单元和
标量寄存器单元。这些寄存器单元可以提供架构向量寄存器、向量掩码寄
存器、和通用寄存器。物理寄存器组单元158被引退单元154覆盖,以示
出可实现寄存器重命名和无序执行的各种方式(例如,使用重排序缓冲器
和引退寄存器组;使用未来文件(futurefile)、历史缓冲器、引退寄存器
组;使用寄存器映射和寄存器池等)。引退单元154和物理寄存器组单元
158耦合至执行群集160。执行群集160包括一个或多个执行单元的集合162
以及一个或多个存储器访问单元的集合164。执行单元162可执行多种操作
(例如,移位、加法、减法、乘法),并且可对多种数据类型(例如,标
量浮点、紧缩整数、紧缩浮点、向量整数、向量浮点)执行操作。尽管一
些实施例可以包括专用于特定功能或功能集的多个执行单元,但其他实施
例可包括全部执行所有功能的仅一个执行单元或多个执行单元。调度器单
元156、物理寄存器组单元158、执行群集160被示出为可能是复数个,因
为某些实施例为某些数据/操作类型创建了诸个单独流水线(例如,均具有
各自调度器单元、物理寄存器组单元和/或执行群集的标量整数流水线、标
量浮点/紧缩整数/紧缩浮点/向量整数/向量浮点流水线、和/或存储器访问流
水线,以及在单独的存储器访问流水线的情况下特定实施例被实现为仅仅
该流水线的执行群集具有存储器访问单元164)。还应当理解,在使用分开
的流水线的情况下,这些流水线中的一个或多个可以是无序发布/执行的,
并且其余流水线可以是有序发布/执行的。
存储器访问单元的集合164耦合到存储器单元170,该存储器单元包
括耦合到数据高速缓存单元174的数据TLB单元172,其中,数据高速缓
存单元耦合到第二级(L2)高速缓存单元176。在一个示例性实施例中,
存储器访问单元164可包括加载单元、存储地址单元和存储数据单元,其
中的每一个均耦合至存储器单元170中的数据TLB单元172。指令高速缓
存单元134还耦合到存储器单元170中的第二级(L2)高速缓存单元176。
L2高速缓存单元176耦合到一个或多个其他级的高速缓存,并最终耦合到
主存储器。
作为示例,示例性的寄存器重命名的、无序发布/执行核架构可按如下
方式实现流水线100:1)指令取出138执行取出和长度解码级102和104;
2)解码单元140执行解码级106;3)重命名/分配器单元152执行分配级108
和重命名级110;4)调度器单元156执行调度级112;5)物理寄存器组单元
158和存储器单元170执行寄存器读取/存储器读取级114;执行群集160
执行执行级116;6)存储器单元170和物理寄存器组单元158执行写回/存
储器写入级118;7)各单元可牵涉到异常处理级122;以及8)引退单元154
和物理寄存器组单元158执行提交级124。
核190可支持一个或多个指令集(例如,x86指令集(在更新的版本
中加入了一些扩展);加利福尼亚州桑尼维尔市的MIPS技术公司的MIPS
指令集;加利福尼州桑尼维尔市的ARM控股公司的ARM指令集(具有诸
如NEON之类的可选附加扩展)),其中包括本文中描述的各指令。在一
个实施例中,核190包括用于支持紧缩数据指令集扩展(例如,AVX1、
AVX2和/或先前描述的一些形式的一般向量友好指令格式(U=0和/或
U=1))的逻辑,从而允许由许多多媒体应用使用的操作能够使用紧缩数据
来执行。
应当理解,核可支持多线程操作(执行两个或更多个并行的操作或线
程的集合),并且可以按各种方式来完成该多线程操作,各种方式包括时
分多线程操作、同步多线程操作(其中,单个物理核为物理核正在同步进
行多线程操作的多个线程中的每一个线程提供逻辑核)或其组合(例如,
时分取出和解码以及此后诸如利用超线程技术的同步多线程操作)。
尽管在无序执行的上下文中描述了寄存器重命名,但应当理解,可在
有序架构中使用寄存器重命名。尽管所示出的处理器的实施例还包括分开
的指令和数据高速缓存单元134/174以及共享L2高速缓存单元176,但替
代实施例可以具有用于指令和数据两者的单个内部高速缓存,诸如例如一
级(L1)内部高速缓存或多个级别的内部高速缓存。在一些实施例中,该
系统可包括内部高速缓存和在核和/或处理器外部的外部的高速缓存的组
合。或者,所有高速缓存都可在核和/或处理器的外部。
图2是根据本发明的多个实施例的、可能具有多于一个的核、可能具
有集成存储器控制器、并且可能具有集成图形器件的处理器200的框图。
图2中的实线框示出具有单个核202A、系统代理210、一个或多个总线控
制器单元216的集合的处理器200,而虚线框的可选附加示出具有多个核
202A-N、系统代理单元210中的一个或多个集成存储器控制器单元214的
集合以及专用逻辑208的替代处理器200。
因此,处理器200的不同实现可包括:1)CPU,其中专用逻辑208是
集成图形和/或科学(吞吐量)逻辑(其可包括一个或多个核),并且核202A-N
是一个或多个通用核(例如,通用有序核、通用无序核、这两者的组合);
2)协处理器,其中核202A-N是旨在主要用于图形和/或科学(吞吐量)的
大量专用核;以及3)协处理器,其中核202A-N是大量通用有序核。因此,
处理器200可以是通用处理器、协处理器或专用处理器,该专用处理器诸
如例如,网络或通信处理器、压缩引擎、图形处理器、GPGPU(通用图形
处理单元)、高吞吐量的集成众核(MIC)协处理器(包括30个或更多核)、
嵌入式处理器等。该处理器可以被实现在一个或多个芯片上。处理器200
可以是一个或多个基板的一部分,并且/或者可使用多种工艺技术(诸如,
BiCMOS、CMOS、或NMOS)中的任意技术被实现在一个或多个基板上。
存储器层次结构包括核内的一个或多个层级的高速缓存、一组或一个
或多个共享高速缓存单元206以及耦合至集成存储器控制器单元的集合
214的外部存储器(未示出)。共享高速缓存单元的集合206可包括一个或
多个中级高速缓存,诸如,第二级(L2)、第三级(L3)、第四级(L4)
或其他层级的高速缓存、末级高速缓存(LLC)和/或以上的组合。尽管在
一个实施例中,基于环的互连单元212将集成图形逻辑208、共享高速缓存
单元的集合206以及系统代理单元210/集成存储器控制器单元214互连,
但替代实施例可使用任何数量的公知技术来将此类单元互连。在一个实施
例中,可维护一个或多个高速缓存单元206和核202A-N之间的一致性
(coherency)。
在一些实施例中,一个或多个核202A-N能够进行多线程操作。系统
代理210包括协调和操作核202A-N的那些组件。系统代理单元210可包括
例如功率控制单元(PCU)和显示单元。PCU可以是或可包括调节核202A-N
和集成图形逻辑208的功率状态所需的逻辑和组件。显示单元用于驱动一
个或多个外部连接的显示器。
核202A-N在架构指令集方面可以是同构的或异构的;也就是说,这
些核202A-N中的两个或更多个核可能能够执行相同的指令集,而其他核可
能能够执行该指令集的仅仅子集或不同的指令集。在一个实施例中,核
202A-N是异构的并且包括下述“小型”核和“大型”核两者。
图3-6是示例性计算机架构的框图。本领域已知的对膝上型计算机、
台式机、手持PC、个人数字助理、工程工作站、服务器、网络设备、网络
集线器、交换机、嵌入式处理器、数字信号处理器(DSP)、图形设备、
视频游戏设备、机顶盒、微控制器、蜂窝电话、便携式媒体播放器、手持
设备以及各种其他电子设备的其他系统设计和配置也是合适的。一般地,
能够包含本文中所公开的处理器和/或其他执行逻辑的多个系统和电子设备
通常都是合适的。
现在参考图3,所示出的是根据本发明一个实施例的系统300的框图。
系统300可包括一个或多个处理器310、315,这些处理器耦合到控制器中
枢320。处理器310、315中的每一个可包括下文中参照图8-14所描述的多
个虚拟核。在一个实施例中,控制器中枢320包括图形存储器控制器中枢
(GMCH)390和输入/输出中枢(IOH)350(其可在分开的芯片上);GMCH
390包括存储器和图形控制器,存储器340和协处理器345耦合到该存储器
和图形控制器;IOH350将输入/输出(I/O)设备360耦合到GMCH390。
或者,存储器和图形控制器中的一个或两者可以被集成在处理器内(如本
文中所描述的),存储器340和协处理器345直接耦合到处理器310以及
控制器中枢320,该控制器中枢与IOH350处于单个芯片中。
附加的处理器315的可选性质在图3中通过虚线来表示。每个处理器
310、315可包括本文中描述的处理核中的一个或多个,并且可以是处理器
200的某一版本。
存储器340可以是例如动态随机存取存储器(DRAM)、相变存储器
(PCM)或这两者的组合。对于至少一个实施例,控制器中枢320经由诸
如前端总线(FSB)之类的多分支总线、诸如快速通道互连(QPI)之类的
点对点接口、或者类似的连接395与处理器310、315进行通信。
在一个实施例中,协处理器345是专用处理器,诸如例如,高吞吐量
MIC处理器、网络或通信处理器、压缩引擎、图形处理器、GPGPU、嵌入
式处理器等。在一个实施例中,控制器中枢320可以包括集成图形加速器。
在物理资源310、315之间可以存在包括架构、微架构、热、和功耗特
征等的一系列品质度量方面的各种差异。
在一个实施例中,处理器310执行控制一般类型的数据处理操作的指
令。协处理器指令可嵌入在这些指令中。处理器310将这些协处理器指令
识别为应当由附连的协处理器345执行的类型。因此,处理器310在协处
理器总线或者其他互连上将这些协处理器指令(或者表示协处理器指令的
控制信号)发布到协处理器345。协处理器345接受并执行所接收的协处理
器指令。
现在参考图4,所示为根据本发明的实施例的更具体的第一示例性系
统400的框图。如图4所示,多处理器系统400是点对点互连系统,并且
包括经由点对点互连450耦合的第一处理器470和第二处理器480。处理器
470和480中的每一个都可以是处理器200的某一版本。在本发明的一个实
施例中,处理器470和480分别是处理器310和315,而协处理器438是协
处理器345。在另一实施例中,处理器470和480分别是处理器310和协处
理器345。
处理器470和480被示出为分别包括集成存储器控制器(IMC)单元
472和482。处理器470也包括作为其总线控制器单元的部分的点对点(P-P)
接口476和478;类似地,第二处理器480包括P-P接口486和488。处理
器470、480可以经由使用点对点(P-P)接口电路478、488的P-P接口450
来交换信息。如图4所示,IMC472和482将处理器耦合到各自的存储器,
即存储器432和存储器434,这些存储器可以是本地附连到各自处理器的主
存储器的部分。
处理器470、480可各自经由使用点对点接口电路476、494、486、498
的各个P-P接口452、454与芯片组490交换信息。芯片组490可以可选地
经由高性能接口439与协处理器438交换信息。在一个实施例中,协处理
器438是专用处理器,诸如例如,高吞吐量MIC处理器、网络或通信处理
器、压缩引擎、图形处理器、GPGPU、嵌入式处理器等。
共享高速缓存(未示出)可以被包括在任一处理器之内,或被包括在
两个处理器外部但仍经由P-P互连与这些处理器连接,从而如果将某处理
器置于低功率模式时,可将任一处理器或两个处理器的本地高速缓存信息
存储在该共享高速缓存中。
芯片组490可以经由接口496耦合至第一总线416。在一个实施例中,
第一总线416可以是外围组件互连(PCI)总线或诸如PCI高速总线或另一
第三代I/O互连总线之类的总线,但是本发明的范围不限于此。
如图4所示,各种I/O设备414可连同总线桥418一起耦合到第一总
线416,总线桥418将第一总线416耦合到第二总线420。在一个实施例中,
诸如协处理器、高吞吐量MIC处理器、GPGPU的处理器、加速器(诸如
例如图形加速器或数字信号处理(DSP)单元)、现场可编程门阵列或任
何其他处理器的一个或多个附加处理器415耦合到第一总线416。在一个实
施例中,第二总线420可以是低引脚计数(LPC)总线。各种设备可以被耦合
至第二总线420,在一个实施例中,这些设备包括例如,键盘/鼠标422、通
信设备427以及诸如可包括指令/代码和数据430的盘驱动器或其他大容量
存储设备之类的存储单元428。此外,音频I/O424可以被耦合至第二总线
420。注意,其他架构是可能的。例如,代替图4的点对点架构,系统可以
实现多分支总线或其他这类架构。
现在参考图5,所示为根据本发明的实施例的更具体的第二示例性系
统500的框图。图4和图5中的相同部件用相同附图标记表示,并从图5
中省去了图4中的某些方面,以避免使图5的其他方面变得模糊。
图5示出处理器470、480可分别包括集成存储器和I/O控制逻辑
(“CL”)472和482。因此,CL472、482包括集成存储器控制器单元并包
括I/O控制逻辑。图5示出不仅存储器432、434耦合至CL472、482,而
且I/O设备514也耦合至控制逻辑472、482。传统I/O设备515被耦合至
芯片组490。
现在参考图6,所示出的是根据本发明的实施例的SoC600的框图。
图2中的相似组件具有相同的标号。另外,虚线框是更先进的SoC上的可
选特征。在图6中,互连单元602被耦合至:应用处理器610,其包括一个
或多个核的集合202A-N以及共享高速缓存单元206;系统代理单元210;
总线控制器单元216;集成存储器控制器单元214;一组或一个或多个协处
理器620,其可包括集成图形逻辑、图像处理器、音频处理器和视频处理器;
静态随机存取存储器(SRAM)单元630;直接存储器存取(DMA)单元632;
显示单元640,其以及用于耦合至一个或多个外部显示器。在一个实施例中,
协处理器620包括专用处理器,诸如例如,网络或通信处理器、压缩引擎、
GPGPU、高吞吐量MIC处理器、嵌入式处理器等。
本文公开的机制的各实施例可以被实现在硬件、软件、固件或此类实
现方式的组合中。可将本发明的多个实施例实现为在可编程系统上执行的
计算机程序或程序代码,该可编程系统包括至少一个处理器、存储系统(包
括易失性和非易失性存储器和/或存储元件)、至少一个输入设备以及至少一
个输出设备。
可将程序代码(诸如图4中示出的代码430)应用于输入指令,以执
行本文描述的多个功能并生成输出信息。可以按已知方式将输出信息应用
于一个或多个输出设备。为了本申请的目的,处理系统包括具有诸如例如
数字信号处理器(DSP)、微控制器、专用集成电路(ASIC)或微处理器之类的
处理器的任何系统。
程序代码可以用高级程序化语言或面向对象的编程语言来实现,以便
与处理系统通信。在需要时,也可用汇编语言或机器语言来实现程序代码。
事实上,本文中描述的机制不限于任何特定编程语言的范围。在任何情况
下,该语言可以是编译语言或解释语言。
至少一个实施例的一个或多个方面可由存储在表示处理器中的各种逻
辑的机器可读介质上的表示性指令来实现,当由机器读取这些表示性指令
时,这些指令使该机器制作用于执行本文所述的技术的逻辑。可将被称为
“IP核”的此类表示存储在有形的机器可读介质上,并将其提供给各种客户
或生产设施,以便加载到实际制造该逻辑或处理器的制造机器中。
此类机器可读存储介质可以包括但不限于通过机器或设备制造或形成
的物品的非瞬态的有形安排,其包括存储介质,诸如:硬盘;任何其他类
型的盘,包括软盘、光盘、紧致盘只读存储器(CD-ROM)、紧致盘可重写
(CD-RW)以及磁光盘;半导体器件,例如只读存储器(ROM)、诸如动态随
机存取存储器(DRAM)和静态随机存取存储器(SRAM)之类的随机存取存储
器(RAM)、可擦除可编程只读存储器(EPROM)、闪存、电可擦除可编程只
读存储器(EEPROM);相变存储器(PCM);磁卡或光卡;或适于存储电子
指令的任何其他类型的介质。
相应地,本发明的多个实施例也包括非瞬态的有形机器可读介质,该
介质包含指令或包含定义本文中描述的结构、电路、装置、处理器和/或系
统特征的设计数据(例如,硬件描述语言(HDL))。也将此类实施例称为
程序产品。
在一些情况下,指令转换器可用来将指令从源指令集转换至目标指令
集。例如,指令转换器可变换(例如,使用静态二进制变换、包括动态编译
的动态二进制变换)、变形、仿真指令或以其他方式将指令转换成将由核来
处理的一条或多条其他指令。可在软件、硬件、固件或其组合中实现该指
令转换器。指令转换器可在处理器上、在处理器外、或者部分在处理器上
且部分在处理器外。
图7是根据本发明的多个实施例的对照使用软件指令转换器将源指令
集中的二进制指令转换成目标指令集中的二进制指令的框图。在所示的实
施例中,指令转换器是软件指令转换器,但也可替代地在软件、固件、硬
件或其各种组合中实现该指令转换器。图7示出可使用x86编译器704来
编译利用高级语言702的程序,以生成可由具有至少一个x86指令集核的
处理器716原生地执行的x86二进制代码706。具有至少一个x86指令集核
的处理器716表示能通过兼容地执行或以其他方式处理以下内容来执行与
具有至少一个x86指令集核的英特尔处理器基本相同功能的任何处理器:
1)英特尔x86指令集核的指令集的本质部分,或2)目标为在具有至少一个
x86指令集核的英特尔处理器上运行以取得与具有至少一个x86指令集核
的英特尔处理器基本相同的结果的应用或其他软件的目标代码版本。x86
编译器704表示用于生成x86二进制代码706(例如,目标代码)的编译器,
该二进制代码可通过或不通过附加的链接处理在具有至少一个x86指令集
核的处理器716上被执行。类似地,图7示出可使用替代的指令集编译器
708来编译利用高级语言702的程序,以生成可以由不具有至少一个x86
指令集核的处理器714(例如,具有执行加利福尼亚州桑尼维尔市的MIPS
技术公司的MIPS指令集和/或执行加利福尼亚州桑尼维尔市的ARM控股
公司的ARM指令集的核的处理器)原生地执行的替代指令集二进制代码
710。指令转换器712被用来将x86二进制代码706转换成可以由不具有x86
指令集核的处理器714原生地执行的代码。该被转换的代码不大可能与替
代的指令集二进制代码710相同,因为能够这样做的指令转换器难以制造;
然而,被转换的代码将完成一般操作,并且由来自替代指令集中的指令构
成。因此,指令转换器712通过仿真、模拟或任何其他过程来表示允许不
具有x86指令集处理器或核的处理器或其他电子设备执行x86二进制代码
706的软件、固件、硬件或其组合。
软件透明的异构计算
下文所述的本发明的多个实施例通过对软件隐藏异构性并且将所有知
晓异构性的逻辑和试探法集成在处理器内来克服对异构性的软件支持的缺
乏。然而,在常规CPU中,将任务分配给多个核是由软件(通常由操作系
统)排他性地完成的,在本发明的一个实施例中,该分配被分解为两部分。
软件继续将软件进程调度到处理器所暴露的同构“虚拟核”,同时硬件动态
地选择哪个物理核实现给定的虚拟核。旨在使吞吐量、性能、或其他度量
最大化的软件调度算法继续工作,同时硬件执行另一(透明的)优化层,
其中在每一个虚拟核上运行的进程/线程被定向到最适于在该虚拟核上运行
的工作负荷类型的任一物理核。
本发明的一个实施例包括含有不同类型的计算元件(每种类型呈现不
同的性能和功率特性)的硬件架构。在本文所述的实施例中的一些实施例
中,计算元件是多核处理器内的多个核。然而,可采用不同形式的计算元
件(例如,单个处理器核中的功能单元或加速器)而仍然符合本发明的基
本原理。
通过向软件暴露多个虚拟且同构的计算元件,对软件(例如,操作系
统、应用等)隐藏了硬件的异构性质。因此,该软件就好像其在具有同构
核的处理器上运行那样进行操作。该实施例的处理器硬件包括用于将暴露
给软件的虚拟计算元件中的每一个动态地映射到可用的物理计算元件类型
中的一个或多个的逻辑。硬件动态地选择物理计算元件所借助的特定机制
对该软件是透明的(对该软件是隐藏的)。
通过包括计算元件的异构选择,处理器硬件能够总是在具有非常不同
类型的计算任务的非常不同的操作条件下非常高效地操作。例如,包含小
型功率高效核以及大型高性能核这两者的CPU可用于在功率有限(并且性
能不是关键)的时候以及也在需要高性能(但功率不受限)的其他时候高
效地运行软件。硬件内计算元件的不同组合的选择是基于哪些类型的任务
需要在该系统上运行以及在哪些条件下运行的设计要求。
异构系统可包含不同类型的计算元件,诸如,处理器核、图形处理器
单元(GPU)和固定功能加速器(例如,用于加速诸如排序和循环之类的
常见功能)。在以下阐明的本发明的多个实施例中,异构系统具有不同类
型的处理器核——即,少量高性能核和较大数量的小型功率高效核。然而,
本发明的基本原理可被用于其他类型的计算元件。
图8示出提供软件透明性的异构核系统的一个实施例。处理器硬件包
含多个异构物理核PC0-PC3810。然而,仅同构的虚拟核VC0-VC3806被
暴露给软件。因此,基于软件的调度器804(它可以是操作系统的部分)就
像它在真实的同构多核处理器或多处理器系统中那样调度任务802以在所
暴露的同构虚拟核806中的每一个上执行。当调度器804继续将多个软件
任务调度到多个虚拟核806时,虚拟到物理(V-P)映射逻辑808将每一个
虚拟核806映射到一个或多个合适的物理核810。在一个实施例中,由映射
决定逻辑809响应于一组映射规则820和当前检测到的条件821来执行映
射决定。可在固件、软件、硬件或它们的任意组合中实现映射规则820和
映射决定逻辑809。如果在硬件中实现,则映射规则820和映射决定逻辑
809可被集成为在V-P核映射逻辑808中的处理器芯片上的逻辑。如果在
软件或固件中被指定,则可在芯片被制造和销售之后对映射规则820和映
射决定逻辑809进行编程和重新编程。无论如何实现映射规则820和映射
决定逻辑809,本发明的基本原理保持相同。
下文提供由映射决定逻辑809使用的映射规则和条件的若干特定示例
(例如,基于正被执行的任务的要求和处理器的功率分布而被实现的)。
简单说来,在一个实施例中,映射决定逻辑809实现一种用于根据映射规
则820和当前操作条件821来确定应当如何将各种虚拟核806映射至物理
核810的映射算法。在一个实施例中,映射决定逻辑809配置硬件映射表,
该硬件映射表由V-P核映射逻辑808使用以执行虚拟核和物理核之间的物
理映射。
在图8中所示的特定示例中,虚拟核VC0被映射至物理核PC1,虚拟核
VC1被映射至物理核PC3,虚拟核VC2被映射至物理核PC0,并且虚拟核
VC3被映射至物理核PC2。图8中物理核810的不同尺寸用于暗示每个核
的处理功率的量。因此,物理核PC3是“大型”高性能核;物理核PC0-PC1
是“小型”功率高效核;而物理核PC2提供相对于小型核PC0-PC1更高的
性能但相对于大型核PC3更低的性能。
因此,在图8中,(实现映射规则820并且基于当前条件821的)V-P
核映射逻辑808已确定:被分配给虚拟核VC0和VC2的任务最适合小型核;
被分配给VC1的任务最适合大型的高功率核;而与VC3相关联的任务则介
于前两者之间。该实现允许该系统在不需要软件知晓关于异构性的任何情
况下实现异构性的益处。
如上所述,映射决定逻辑809可鉴于与计算系统相关联的当前检测到
的操作条件821来执行映射。例如,如果计算系统是移动设备,则V-P核
映射逻辑808可取决于该移动设备当前是由电池供电还是被插入插座来以
不同方式执行映射(例如,当由电池供电时,在可能的时候倾向于使用较
小的核)。类似地,如果该移动计算系统的电池水平为低(例如,低于某
个指定阈值),则除非绝对必要否则V-P核映射逻辑808可抑制使用大型
高性能核PC3(其将易于更快地耗尽电池)。作为另一示例,如果该系统
的总功率预算中的大量功率正由另一处理器组件消耗(例如,图形处理单
元正在执行图形密集型操作),则V-P核映射逻辑808可抑制使用大型高
性能核PC3。在这种情况下,当前条件821可指示当前可用于核810的总
功率预算量(例如,总量减去正由其他系统组件消耗的量),并且V-P核
映射逻辑808可相应地执行映射。
虽然图8中示出三种不同的核,但是本发明的一个实施例包括N个小
型核和M个大型核,其中,N>M。可针对多种不同场景来调节具有大型和
小型核的软件透明的异构系统。通过动态地改变在V-P核映射逻辑808中
所实现的试探法,可针对不同设置来优化该系统。三个示例性实施例为:
(1)针对性能进行优化,(2)优化功率预算,以及(3)针对能效进行优
化。例如,如果计算设备被插入交流(AC)插座和/或具有满电池量,则
V-P核映射逻辑808系统可选择(1),从而更频繁地映射至大型高功率核
PC3。相比之下,当不靠交流电和/或电池量低时,V-P核映射逻辑808可
选择(3),从而仅使用小型物理核PC0和PC1。当功率预算被指定时,
V-P核映射逻辑808将选择可能的最高性能选项而同时将系统维持在所指
定的功率预算之内(例如,仅在此类使用匹配于功率预算之内时才利用高
性能核PC3)。
如上所述,由V-P核映射逻辑808实现的、将虚拟核映射到物理核的
试探法也可与像图形处理器(GPU)那样的其他CPU组件协调性能和功率
水平。
可在硬件中实现该试探法,但是,即便其在固件或软件中被实现,相
比操作系统,它也能够与硬件协调得好得多,因为该试探法是由处理器销
售商提供的。例如,该试探法可实时关注(由当前操作条件821所指示的)
GPU功率利用率,并且实时地确定有多少剩余功率可由处理器核810使用。
然后,该试探法基于这些所指定的功率约束,将虚拟核806映射至物理核
810。
如图9a中所示,异构核计算实现的一个实施例(在此被称为“向上异
构”900)由向软件暴露仅小型功率高效核902构成。当应用906需要附加
性能(并且功率预算可用)时,V-P核映射逻辑808透明地使用高性能大
型物理核904以取代小型核来运行。
如图9b中所示,异构核计算实现的另一实施例(在此被称为“向下异
构”910)由向软件暴露仅大型高性能核914构成。当需要省功率(并且性
能对于应用916不是关键的)时,V-P核映射逻辑808透明地使用功率高
效小型物理核912以取代大型核914来运行。
上述透明方式至少有两个明显的优势:
(1)操作系统或应用软件不需要知晓CPU具有异构核(或其他计算
元件)。这意味着旧版本软件(包括操作系统)将继续对所描述的硬件起
作用。类似地,将来的操作系统和软件应用将不需要不断地被更新来反映
硬件的每一版本上的异构性的类型。
(2)由映射决定逻辑809或V-P核映射逻辑808实现的、用于利用异
构性益处的所有试探法被约束在硬件之内或由硬件绑定的软件或固件(即,
由处理器供应商提供的软件或固件)约束。因此,将来的硬件设计可以创
建更积极且新颖的计算元件选择,因为这些改变的完整范围是对软件隐藏
的,并且不要求软件更新。
图10中示出根据本发明的一个实施例的方法。在1001处,基于软件
的调度器将任务调度到虚拟核。如所指出的那样,在一个实施例中,处理
器硬件暴露一组虚拟核供该软件使用。在1002处,硬件确定将被执行的任
务的要求以及计算系统的当前操作条件。例如,某个高性能应用可能需要
高性能核或在高性能核上更高效地执行,而其他应用(例如,媒体应用)
可能不需要高性能核的处理功率。
基于(在1002处所确定的)当前操作条件和/或任务要求,在1003处,
向其分配了任务的虚拟核被映射至处理器中的物理核。例如,如果任务是
需要高性能处理的任务,则它可被映射至高性能核。如上所述,在一些实
现中,物理核的全部或子集可被“隐藏”,使得以对软件透明的方式执行
映射。
在一个实施例中,处理器持续地监测当前的操作条件,并且响应于检
测到的改变而将虚拟核重新映射至物理核。因此,在1004处,如果检测到
操作条件中的改变,则该过程往回循环到1003,在那里,可执行将虚拟核
重新映射至物理核。作为示例,条件的改变可以是移动设备中的电池电力
达到阈值或移动设备被从交流电移动到电池电力。本发明的基本原理可适
用于进行检测,并且响应于操作条件中的各种其他改变而将虚拟核重新映
射至物理核。
使用异构系统改善串行性能
当选择供系统使用的计算元件时,通常存在性能和效率之间的权衡。
例如,较大、较复杂的核(诸如,上述的“大型”核)能实现较高性能,
但是在使用能量方面非常浪费。另一方面,较小的优化核(诸如,上述的
“小型”核)可以能效很高(使每条指令的能量最小化),但是它们的最
大性能受限。类似的权衡对于其他系统组件(包括例如,数据互连、图形
设备和存储器)也存在。
对于高度并行化的工作负荷,最佳设计方法是使用大量的小型功率高
效的计算元件(例如,小型核)。这些元件提供利用最少量的能量来计算
固定数量的指令的能力。由于工作负荷是并行的,因此可通过增加计算元
件(例如,小型核)的数量实现附加的性能而同时保持相同水平的能效(每
条指令的能量保持为低)。然而,如果工作负荷(或其部分)不是并行化
的,则该工作负荷可在至多一个核中运行。在这种情况下,不能够通过使
用更多的核来提高性能;提高性能的唯一方法是以能效为代价来使用更大
功率的(更大的)核。
由于工作负荷不是完全可预测的并且包含代码(并行的和串行的)的
不同混合,因此设计在所有时刻都是最优的单一类型的计算元件是不可能
的。更好的设计选择是使用在不同时刻解决不同工作负荷和系统要求的多
个核的异构组合。在本发明的一个实施例中,当工作负荷是并行化的时候,
小型能量高效核被使用。当工作负荷不是并行化的并且需要性能时,则大
型复杂核被使用。
本发明的一个实施例由基于硬件的处理器架构组成,该架构包含能量
高效的并且向软件暴露的大量小型核。也就是说,使它们对软件可见,使
得基于软件的调度器能够调度任务/线程以供在核上执行。此外,处理器架
构包括提供高性能并且对软件隐藏的(即,基于软件的调度器不能够直接
地在大型核上调度任务/线程)少量大型核。
这些大量的被暴露的小型核允许该软件以高效的方式运行并行代码。
例如,操作系统调度器将检测小型核的数量,然后,并行的应用将能够生
成多个软件线程以供在小型核上并行执行。这些并行的线程可横跨小型核
的全部或其子集而被调度。当有足够数量的活动的软件线程时,该应用非
常高效地运行(针对每条指令具有高性能和低能量),因为全部小型核被
使用。
然而,如果存在并行性受限时的应用阶段(例如,活动线程的数量小
于可用的小型核的数量),则小型核上的应用性能也将受限,因为小型核
中的一些将空闲地等待而不做任何工作。为了补偿小型核性能中的这种损
失,本发明的一个实施例透明地将活动的小型核中的一些与大型核交换。
由于这些大型核性能更高,因此在这些大型核上执行一个或多个线程将改
善该应用的总体性能。在应用的这些非并行或“串行”阶段,将有更少的
核是活动的,但是由于一些大型核被使用,因此这些核作为整体可使用更
多功率并具有更高性能。
图11a-b示出本发明的一个实施例如何在需要时透明地将小型核与大
型核交换。除非另外声明,否则图11a-b中的多个组件执行与上文中参照图
8所描述的对应组件相同的功能。处理器硬件包含多个异构物理核PC0-PC4
1150,它们包括一组小型核PC0-PC3和一个大型核PC4。在该实施例中,
同构虚拟核VC0-VC31106被直接地暴露给软件。因此,基于软件的调度
器1110(它可以是操作系统的一部分)就像它在真实的同构多核处理器或
多处理器系统中那样调度线程1101以在所暴露的同构虚拟核1106中的每
一个上执行。虚拟到物理(V-P)映射逻辑1130根据一组映射规则1140并
基于当前检测到的条件1141将每一个虚拟核1120映射至一个或多个合适
的物理核1150。如上所述,可由映射决定逻辑1109执行映射决定,该逻辑
可在软件、硬件、固件、或它们的任何组合中实现。
如图11a中所示,在虚拟核1106和小型核PC0-PC3之间存在默认的
1:1映射。因此,在该实现中,使小型核PC0-PC3实际上对基于软件的调度
器是可见的。在一个实施例中,在系统具有低利用率(低于指定阈值)和/
或在大多数小型核忙碌(例如,具有高于指定阈值的高处理负荷)时,该
默认映射被维持。例如,在一个实施例中,在该系统具有低利用率(例如,
没有核超过60%活动)或在大多数小型核忙碌(例如,超过70%的总可用
核是超过60%活动的)时,该默认映射被维持。
然而,在一个实施例中,当该系统具有大量空闲核(例如,多于所有
可用核的50%)和一些(一个或多个)重负荷、非常活跃的核时,由映射
决定逻辑1109实现的试探法自动地将映射改变为如图11b中所示。在此,
由调度器1110将仅两个线程1101调度到虚拟核VC1和VC2,并且这些虚
拟核中的至少一个(在该示例中是VC2)具有高于指定阈值的活动。因此,
在该示例中,响应于由映射决定逻辑1109呈现的映射决定,V-P核映射逻
辑1130将虚拟核VC2从小型物理核PC2重新映射至大型物理核PC4。
在图12中说明根据本发明的一个实施例的方法。在1201处,如先前
所述,基于软件的调度器将多个任务/线程调度到多个虚拟核。如所指出的
那样,在一个实施例中,在虚拟核和小型核之间采用默认的1:1映射,进而
将这些小型核暴露给软件。因此,在1202处,该默认映射最初被用于处理
这些任务/线程。如果活动小型核的数量低于阈值(例如,全部核的50%)
并且/或者检测到(在1204处确定)在这些小型核中的至少一个上的负荷高
于阈值,则在1205处虚拟核中的至少一个(例如,具有最高负荷的虚拟核)
被映射至大型物理核。在一个实施例中,V-P核映射逻辑继续监测在这些
核中的每一个上的利用率和负荷。在1206处,如果活动核的数量高于阈值
(例如,全部核的75%)并且/或者检测到在小型核上的负荷低于阈值(指
示该应用的并行部分正在被执行),则在1202处V-P核映射逻辑返回至默
认映射,在该默认映射中每一个虚拟核被映射至小型物理核。
使用异构系统改善能效
随着新的计算设备变得普及和个性化,典型工作负荷的性质和使用率
正在显著地改变。上网本、平板、智能电话和其他客户设备被长时期供电,
但是在短时猝发情况下执行其大多数的重型计算工作。与此同时,随着计
算设备变得更加便携,电池寿命和能效正成为日益重要的关注问题。由具
有不同功率和性能分布的核组成的异构芯片多处理器提供了在保持能量高
效的同时提升可感知的性能的机会。
由全部的高性能核组成的系统将能够实现出众的单线程性能,其将确
保丰富的最终用户体验。然而,此类多处理器将消耗大量功率量来馈给功
率饥饿型核。在此所描述的本发明的一个实施例包括异构处理器,其包括
M个高性能(大型)核、N个能量高效(小型)核和集成图形引擎。小型
核被用于在连续操作的长时期期间提供功率节省,而大型核被用于在活动
的短时和猝发时期期间迅速提升单线程性能。
如图13d中所示,客户使用情形的一个典型示例是在收听音乐1391的
同时浏览网页1392。大多数时候浏览器应用是闲置的;它仅在从最终用户
处接收到开始加载网页或渲染新内容的请求之后才变成活动的。当浏览器
应用变成活动的时候,在其性能要求中有突变峰。另一方面,贯穿压缩音
乐流被解码的期间,媒体播放器应用是连续地活动的,但是CPU活动是低
的。异构系统可通过在网页渲染的短时期期间使用大型核,而使用小型核
在长时期内运行媒体播放器来利用这种类型工作负荷中的多样性以改善明
显的性能。
以下所描述的本发明的多个实施例采用软件透明的方法,以便通过仅
将大型核暴露给软件并隐藏小型核来实现此类异构系统。因此,这避免了
软件知晓异构系统的不期望情形,该软件知晓异构系统要求软件完全知晓
异构资源以在特定时刻针对给定工作负荷来确定最适用的资源。通过将小
型核用于持久的操作,可节省大量功率,这可被重定向到提升图形性能(以
便将游戏从不可玩转换为可玩或者改善游戏质量)(其直接转换为最终用
户感知性能的改善)或增加设备的电池寿命。此外,如果小型核的数量(N)
大于大型核的数量(M),则小型核可提供比大型核更高的多线程性能。
在此类异构系统的透明实现中,当大型核是超线程的而小型核不是超线程
的时候,这可能发生。
图13a-b示出本发明的一个实施例,其中,处理器硬件包含多个异构
物理核PC0-PC51350,这些异构物理核包括一组小型核PC2-PC5以及两个
大型核PC0-PC1。在该实施例中,同构虚拟核VC0-VC31320被直接地暴
露给软件。因此,基于软件的调度器1310(它可以是操作系统的部分)就
像它在真实的同构多核处理器或多处理器系统中那样调度线程1301以在所
暴露的同构虚拟核1320中的每一个上执行。虚拟到物理(V-P)映射逻辑
1330根据一组映射规则1340并基于当前检测到的条件1341,将每一个虚
拟核1320映射至一个或多个合适的物理核1350。除非另外声明,否则图
13a-b中的多个组件执行与上文中参照图8和图11a-b所描述的对应组件相
同的功能。例如,如上所述,可由映射决定逻辑1309执行映射决定,该逻
辑可在软件、硬件、固件、或它们的任何组合中实现。
如图13a中所示,在一个实施例中,由V-P核映射逻辑1330使用的默
认映射将虚拟核1320中的两个映射至大型物理处理器核PC0-PC1中的每一
个。因此,在该实施例中,物理处理器核PC0-PC1中的每一个都能够进行
同时的多线程操作(即,每一个物理处理器核PC0-PC1都能够进行至少2
个线程的超线程操作)。在一个实施例中,在默认映射下,小型处理器核
PC2-PC5是对软件隐藏的,而大型处理器核PC0-PC1是被暴露的。因此,
在默认配置中,软件可“看见”两个超线程的处理器核PC0-PC1,或者由
于核的超线程能力,这两个物理处理器核对于软件就好像是四个或更多处
理器核(例如,如果这些核能够进行2路超线程操作,则软件可看见4个
处理器核,如果能够进行3路超线程操作,则软件可看见6个处理器核,
以此类推)。
如图13b中所示,响应于检测到正被处理的线程类型的改变和/或与计
算系统相关联的其他条件1341,映射决定逻辑1309使V-P核映射逻辑1330
将这些线程从被暴露的大型核PC0-PC1重新映射至被隐藏的小型核
PC2-PC5。在又一实施例中,如图13c中所示,这些线程中的仅两个被从大
型核PC0重新映射至小型核PC2和PC3;其他两个线程保持被映射至大型
核PC1。应当注意,仅出于解释目的而提供这些示例。本发明的基本原理
不限于线程到核的任何特定映射,也不限于大型/小型核的任何特定数目。
本发明的一个实施例在长时期的连续操作(例如,源自图13d中的媒
体重放1390的操作)期间利用小型核PC2-PC5来提供功率节省,而大型核
PC0-PC1用于在短时或潜在的猝发性时期的活动(例如,源自网页浏览1392
或其他交互应用)期间以对软件透明的方式迅速提升单线程性能。
在一个实施例中,由V-P核映射逻辑1330实现的试探法评估各种因素,
以便收敛到在大型和小型核之间迁移的迁移决定,这些因素包括:
(1)活动的物理核的数目。该信息可用于标识多线程的工作负荷。
(2)这些活动的物理核中的每一个上的当前利用率。该信息可指示例
如执行特定线程所需要的处理功率的水平。
(3)在图形引擎上的当前利用率。当存在需要满足的功率和/或热预
算时,该信息是相关的。
(4)将来的图形性能要求的展望。该信息对于预测将来将由图形子系
统消耗的功率(以及因此产生的可用于这些物理核的功率预算量)也是有
关的。
在图13b中所示的特定示例中,映射决定逻辑1309已确定当前正在该
系统上运行的工作负荷是高度多线程化的,因此,将这些线程从大型核
PC0-PC1重新映射至小型核PC2-PC5。映射决定逻辑1309可评估上述因素
中的一个或多个以触发向全部小型核的迁移。例如,映射决定逻辑1309可
评估虽然在图13a中两个大核正被使用但是这些核的处理资源可能不被重
负荷利用(例如,如果这些核中的一个正在处理不需要大型核的处理性能
的音频流或其他类型的线程,则将会是这种情况)的事实。它也可检测例
如图形引擎的当前或预期的利用率是高的并且重新分配到较小的核以节能
(即,将功耗维持在功率或热预算的约束之内)。
以下具体示例说明异构系统如何可以被用于在高能效的同时提升可感
知的性能。然而,应当注意,本发明的基本原理不限于这些特定使用情形:
·多任务场景:该使用情形由计算轻量型核工作负荷和猝发性计算重
量型核工作负荷的混合组成。一个示例是图13d中所示的在收听音乐1401
的同时进行网页浏览1402的这种组合。
由于音乐回放呈现对CPU资源的低需求,因此,它能够不牺牲明显的
性能而在小型核上被运行,同时相比于在大型核上运行仍然节省显著的功
率量。另一方面,大多数时候浏览器应用是闲置的;它仅在从最终用户处
接收到开始加载网页或渲染新内容的请求之后才变成活动的。当浏览器应
用变成活动的时候,在其性能要求中有突变峰。为了保证出众的最终用户
体验,V-P核映射逻辑1330将在用户发起网页加载时利用大型核以使页面
加载时间最小化。
·图形密集型场景:通常,诸如源自3D游戏的工作负荷之类的游戏
工作负荷相比于对GPU的计算需求,呈现对CPU的显著地低的计算需求。
在功率约束操作(例如,其中功率预算被设置在阈值)下,小型高效核可
通过显著地改善可玩游戏的质量来帮助改善最终用户感知的性能。例如,
特定的3D图形密集型游戏可能需要图形引擎以频率X运行来实现每秒30
帧。当使用大型核运行该游戏时,由于功率预算,不能够向该图形引擎分
拨频率X。相反,它将不得不以较低的频率Y运行,从而导致较低质量的
图形和/或较低的帧率。相比之下,如果利用小型核来运行该游戏,则通过
将核功率节省分配给图形引擎,图形频率能从Y被提升到X。
·多线程场景:如果小型核的数量大于大型核的数量(N>M),则小
型核将提供比大型核更高的多线程性能。在此类异构系统的透明实现中,
当大型核是超线程的而小型核不是超线程的时候,这可能发生。
用于智能地对异构组件供电的装置和方法
本发明的一个实施例包括芯片上系统(SoC)架构,在该架构中,该
SoC的所有组件是同时以足够细的粒度并且以针对理想的消费者体验的最
大性能水平被进行功率控制的。在该实施例中,功率预算和/或热预算算法
用于给在当前时刻对于用户体验最关键的那些组件供电。在一个实施例中,
每一个组件在单独可控的功率“平面”内操作。提供给功率平面的频率和
电压可以是独立受控的,以便响应于由功率控制单元(PCU)提供的控制
信号来调节功率。通过单独地控制SoC的每一个组件,使每一个组件按照
功率-性能曲线中的不同操作点来操作。
可由功率控制器取决于旨在用于SoC的使用场景来实现不同的功率管
理算法。例如,如下文中所详述的那样,在台式或膝上型计算机中所使用
的SoC可能需要与用于机顶盒、平板计算机或智能电话中的相同SoC不同
的功率管理算法以提供可接受的用户体验。
在一个实施例中,这些算法是在具有控制寄存器的微控制器中被带外
运行的,以便动态调节各个功率平面。在另一实施例中,这些算法是在操
作系统的上下文中,在主应用处理器上被带内运行的,以便执行功率平面
控制。在该实施例中,可经由图形用户接口使这些功率控制算法对操作系
统可见并可配置。此外,这些组件中的每一个都具有智能,以确定它们当
前需要更多功率/性能并且从带外或带内控制器请求所需的功率/性能。在该
实施例中,该算法可通过判断用户体验要求来运作。
图14a示出根据本发明的一个实施例的SoC1410中的功率控制单元
(PCU)1400,该PCU1400控制若干示例性功率平面的功率/性能,这些
示例性功率平面包括,与主存储器(例如,随机存取存储器)相关联的存
储器平面1404、与芯片互连和/或高速缓存存储器相关联的互连/高速缓存
平面1403、与图形处理单元(GPU)相关联的图形(GFX)平面1402以及
与SoC之内的主处理器或核相关联的处理器/核平面1401。虽然出于说明目
的使用了该特定实现,但是本发明的基本原理不限于功率平面的任何特定
安排。在替代实现中,处理器中的每一个核和/或每个核中的单独功能单元
中的每一个可被实现在分开的功率平面上。
每一个功率平面1401-1404可配置有逻辑和电路,以便(当执行当前
的功率管理算法时)响应于由PCU1400生成的控制信号动态地调节操作电
压和频率。例如,每一个功率平面1401-1404可具有单独可控的电压调节
器模块(VRM)和锁相环(PLL)以分别调节电压和频率。在一个实施例
中,响应于来自PCU1400的控制信号,使用电压/频率组合的预定集合来
调节电压和频率。替代电压/频率缩放或附加于电压/频率缩放,功率平面
1401-1404可使用诸如指令发布扼制、轮停、功率和时钟门控以及发布宽度
减小之类的其他技术来调节功耗。
在一个实施例中,利用基于针对设备(在其中SoC1410被使用)的用
户体验度量的特定功率管理算法1405加载PCU1400。因此,对于不同类
型的设备,用户体验度量(以及因此产生的功率管理算法1405)将是不同
的。作为示例而非限制,如果SoC1410被用于视频游戏控制台中,则PCU
通常可以在用户正在执行视频游戏时将更多功率分配给图形平面1402(并
且减少其他平面的功耗以维持在指定的功率阈值之内)。如果SoC1410被
用于通用计算机系统中,则PCU1400可在用户正在执行通用处理任务(例
如,浏览互联网、执行文字处理等)时将更多功率分配给处理器/核平面
1401,但是如果用户正在执行图形密集型任务,则PCU1400可将更多功率
分配给图形平面1402。如果SoC被用于诸如有线盒或卫星盒之类的机顶盒
中,则PCU1400可在用户正在收看有线/卫星频道时将更多功率分配给通
信接口平面(没有示出)和视频解码器(没有示出)。因此,取决于SoC1410
被使用的设备的类型,可利用基于用户体验度量1405的不同功率管理算法
对相同的SoC编程,以便在减少总功耗的同时使用户体验最大化。
在一个实施例中,PCU1400鉴于指定的功率预算重新分配上述功率平
面1401-1404中的每一个的功率消耗,对于在其中SoC1410被使用的不同
设备,这可能是不同的。例如,诸如平板或智能电话之类的智能设备(其
通常靠电池运行)可能具有比机顶盒或台式计算机系统(其通常靠交流电
运行)相对更低的功率预算。
以下示例说明上述概念的一个实施例。出于本示例的目的,将假定其
中SoC被使用的设备具有2W的总功率预算。它消耗大约1.5W用于以有
保证的时钟速度运行处理器/核平面1401,消耗1.5W用于图形1402,并且
消耗1.75W用于互连/高速缓存平面1403。给定这些数字,则这些系统组
件中的两个或更多同时以满功率操作是不可能的。因此,本实施例中的PCU
1400必须基于在SoC上运行的任务的功率约束和工作负荷特性,智能地将
功率分配给功率平面1401-1404中的每一个。
为了实现该目标,本发明的一个实施例包括连续的功率管理循环,其
在基于当前的工作负荷要求和功率约束,横跨SoC的所有组件来管理功率
分配的PCU1400中运行。PCU1400连续地跟踪热条件、各种活动组件的
功率耗散特性以及正在SoC上运行的当前任务的工作负荷特性。例如,当
软件试图将某部分功率负荷卸载到图形处理器(例如以获取更好的用户体
验)时,PCU1400将会将处理器/核功率平面1401切换到非常低的时钟速
度,并且迅速将图形平面1402提升到执行单元的合适集合以及将适合SoC
1410的能量和功率预算的目标频率。因此,在时间中的该时刻,可从处理
器/核平面1401和其他功率平面中获取大部分的功率预算,并且将其重新分
配到GFX平面1402。
GPU一完成渲染,互连结构和显示引擎就必须以非常高的速率在屏幕
上显示被渲染的数据。随着屏幕分辨率的增加超出HD,这需要许多带宽。
此外,互连自身需要大带宽和低等待时间以获取更平顺的消费者体验。因
此,PCU1400将周期性地提升(例如,增加频率/电压)去往互连平面1403
中的互连的功率以满足这些要求。因此,在这些周期性的刷新时间期间,
PCU将大部分功率预算递送给互连/高速缓存平面1403,同时减少去往其他
平面的功率。
因此,在上述示例中,PCU1400逐计算流地跟踪工作负荷要求,并且
在时间中的任何给定时刻将最大功率递送给对获取最佳用户体验最关键的
功率平面。一个实施例中PCU1400监测针对给定SoC使用的工作负荷要
求,并且开发预测给定工作负荷的行为的试探法。结果,PCU1400横跨SoC
的多个组件分配功率,以便实现改善的性能,同时仍然受功率预算的限制。
在图14a中所示的实施例中,有至少两类对PCU1400的输入:(1)
从功率平面1401-1404中的每一个接收到的请求功率的信号,以及(2)基
于用户体验度量和功率/热约束而选择的当前的功率管理算法。
在一个实施例中,功率平面1401-1404可根据需要从PCU1400请求功
率(例如,进入高性能操作模式)。在该实施例中,PCU1400可基于结合
来自功率平面1401-1404的请求的用户体验度量来实现当前的功率管理算
法以确定如何分配功率。例如,如果服务来自这些平面的功率请求将违反
当前的功率/热预算,则PCU1400将智能地将功率分配给实现最佳用户体
验的组件(即,基于针对在其中SoC被使用的设备的用户体验度量)。
此外,对PCU1400的可选输入可包括当前正被检测到的外部条件
1406,例如,在其中SoC芯片被使用的设备当前正由交流电还是电池供电。
如果由电池供电,则检测到的外部条件1406可指定电池的当前水平。在一
个实施例中,取决于设备通过交流电还是电池供电以及电池的当前水平,
PCU可采用功率/热约束的不同集合(例如,如果靠电池电力供电,则将功
率预算降低到第一阈值,而如果电池水平降到低于指定水平,则将功率预
算降到第二阈值)。
图14b示出根据本发明的一个实施例的方法。在1431处,基于与在其
中SoC将被使用的设备相关联的用户体验度量,特定的功率管理算法被加
载到PCU中。在一个实施例中,PCU包括诸如闪存之类的非易失性存储器,
功率管理算法可被加载到其中,并且随后被更新。在该实施例中,在监测
并评估了在其中PCU被使用的系统的工作负荷要求之后,可对该PCU重
新编程。在一个实施例中,PCU是智能设备,其持续地监测并(基于当前
的用户体验度量)评估设备的工作负荷要求,并且基于检测到的工作负荷,
自动地更新功率管理算法。或者,可使用只读存储器(ROM)设备、专用
集成电路(ASIC)或任何其他类型电路对PCU编程。
返回到图14b,在1432处,一旦已用功率管理算法对PCU编程,则
PCU在时刻t,基于当前的用户体验度量、正在被执行的任务/进程的工作
负荷要求以及功率/热预算(其自身可基于诸如电池电力或交流电之类的当
前条件)来调节去往每一个功率平面的功率。例如,如上文所讨论的那样,
如果设备需要在时刻t为用户显示视频帧序列,则PCU1400可将功率预算
中的很大一部分分配给互连/高速缓存平面1403。
在1433处,时间变量t被增加以指示时间中的新时刻。时间变量t可
被增加任何方便的步长(例如,微妙、毫秒等)。在1434处,作出关于在
时间中的该新时刻是否需要对当前功率分配的改变的确定。例如,在设备
如上文所述显示了一个或多个视频帧之后,GFX平面1402可能需要更多的
功率以执行渲染新视频帧的图形命令。如果需要对功率分配作出改变,则
过程返回到1432,在那里,基于当前的要求,功率被重新分配给每一个功
率平面。如果不需要,则先前的功率分配保留,并且过程往回循环到1433
以再次递增时间变量t。
本文中所描述的多种技术的多个益处中的一个益处在于:单个的SoC
能够容易地被集成以在许多不同的情境和设备(诸如,电话、平板和机顶
盒)中使用,同时仍然维持可接受的用户体验和功率/热约束。
虽然本文中所描述的本发明的多个实施例集中于通过调节频率和电压
来控制功率,但是也可由功率控制器来实现各种其他/附加的技术以控制由
每一个功率平面消耗的功率,这些技术例如,指令发布扼制、轮停、功率
和时钟门控以及发布宽度减小。此外,虽然上文在芯片上系统(SoC)的情
境中描述了多个实施例中的一些,但是也可在各种不同的处理器架构上实
现本发明的基本原理,各种不同的处理器架构例如,具有多个核的处理器
(例如,其中每一个核与不同的功率平面相关联)或具有多个功能单元的
处理器或核(即,其中,每一个功率单元在分开的功率平面中,或者功率
单元的多个组被安排到不同的功率平面中)。例如,可结合图8、9a-b、11a-b
或13a-b中所示的架构中的任何一种(例如,在其中,功率被智能地分配给
不同物理处理器中的每一个)来采用这些功率管理技术。
示例性指令格式
能以不同的格式使本文所述的指令的多个实施例具体化。另外,在下文
中详述示例性系统、架构和流水线。指令的实施例可在此类系统、架构和
及流水线上执行,但是不限于详述的系统、架构和流水线。
向量友好指令格式是适于向量指令(例如,存在专用于向量操作的某
些字段)的指令格式。尽管描述了其中通过向量友好指令格式支持向量和
标量操作两者的实施例,但是替代实施例仅使用通过向量友好指令格式的
向量操作。
图15A-15B是示出根据本发明的实施例的通用向量友好指令格式及其
指令模板的框图。图15A是示出根据本发明的多个实施例的通用向量友好
指令格式及其A类指令模板的框图;而图15B是示出根据本发明的多个实
施例的通用向量友好指令格式及其B类指令模板的框图。具体而言,针对
通用向量友好指令格式1500定义A类和B类指令模板,两者都包括无存
储器访问1505的指令模板和存储器访问1520的指令模板。在向量友好指
令格式的上下文中的术语“通用”是指不束缚于任何特定指令集的指令格
式。
尽管将描述其中向量友好指令格式支持以下情况的本发明的实施例,
但是替代实施例可支持更大、更小、和/或不同的向量操作数尺寸(例如,
256字节向量操作数)与更大、更小或不同的数据元素宽度(例如,168位
(16字节)数据元素宽度):64字节向量操作数长度(或尺寸)与32位
(4字节)或64位(8字节)数据元素宽度(或尺寸)(并且由此,64字
节向量由16个双字尺寸的元素或者替代地8个四字尺寸的元素组成)、64
字节向量操作数长度(或尺寸)与16位(2字节)或8位(1字节)数据
元素宽度(或尺寸)、32字节向量操作数长度(或尺寸)与32位(4字节)、
64位(8字节)、16位(2字节)、或8位(1字节)数据元素宽度(或尺
寸)、以及16字节向量操作数长度(或尺寸)与32位(4字节)、64位
(8字节)、16位(2字节)、或8位(1字节)数据元素宽度(或尺寸)。
图15A中的A类指令模板包括:1)在无存储器访问1505的指令模板
内,示出无存储器访问的完全舍入控制型操作1510的指令模板以及无存储
器访问的数据变换型操作1515的指令模板;以及2)在存储器访问1520的
指令模板内,示出存储器访问的时效性1525的指令模板和存储器访问的非
时效性1530的指令模板。图15B中的B类指令模板包括:1)在无存储器访
问1505的指令模板内,示出无存储器访问的写掩码控制的部分舍入控制型
操作1516的指令模板以及无存储器访问的写掩码控制的vsize型操作1517
的指令模板;以及2)在存储器访问1520的指令模板内,示出存储器访问的
写掩码控制1527的指令模板。
通用向量友好指令格式1500包括以下列出的按照在图15A-15B中示出
的顺序的如下字段。
格式字段1540-该字段中的特定值(指令格式标识符值)唯一地标识
向量友好指令格式,并且由此标识指令在指令流中以向量友好指令格式出
现。由此,该字段对于仅具有通用向量友好指令格式的指令集是不需要的,
在这个意义上该字段是可选的。
基础操作字段1542-其内容区分不同的基础操作。
寄存器索引字段1544-其内容直接或者通过地址生成来指定源或目的
地操作数在寄存器中或者在存储器中的位置。这些字段包括从PxQ(例如,
32x516、16x168、32x1024、64x1024)寄存器组中选择N个寄存器的足够
数量的位。尽管在一个实施例中N可多至三个源和一个目的地寄存器,但
是替代实施例可支持更多或更少的源和目的地寄存器(例如,可支持多至
两个源(其中,这些源中的一个源还用作目的地),可支持多至三个源(其
中,这些源中的一个源还用作目的地),可支持多至两个源和一个目的地)。
修饰符(modifier)字段1546-其内容将指定存储器访问的以通用向量
指令格式出现的指令与不指定存储器访问的以通用向量指令格式出现的指
令区分开;即在无存储器访问1505的指令模板与存储器访问1520的指令
模板之间进行区分。存储器访问操作读取和/或写入到存储器层次结构(在
一些情况下,使用寄存器中的值来指定源和/或目的地地址),而非存储器
访问操作不这样(例如,源和/或目的地是寄存器)。尽管在一个实施例中,
该字段还在三种不同的方式之间选择以执行存储器地址计算,但是替代实
施例可支持更多、更少或不同的方式来执行存储器地址计算。
扩充操作字段1550-其内容区分除基础操作以外还要执行各种不同操
作中的哪一个操作。该字段是针对上下文的。在本发明的一个实施例中,
该字段被划分成类字段1568、α字段1552、以及β字段1554。扩充操作字
段1550允许在单条指令而非2、3或4条指令中执行多组共同的操作。
比例字段1560-其内容允许用于存储器地址生成(例如,用于使用2
比例*索引+基址的地址生成)的索引字段的内容的按比例缩放。
位移字段1562A-其内容用作存储器地址生成的一部分(例如,用于
使用2比例*索引+基址+位移的地址生成)。
位移因数字段1562B(注意,位移字段1562A直接在位移因数字段
1562B上的并置指示使用一个或另一个)-其内容用作地址生成的一部分,
它指定通过存储器访问的尺寸(N)按比例缩放的位移因数,其中N是存
储器访问中的字节数量(例如,用于使用2比例*索引+基址+按比例缩放的
位移的地址生成)。忽略冗余的低阶位,并且因此将位移因数字段的内容
乘以存储器操作数总尺寸(N)以生成在计算有效地址中使用的最终位移。
N的值由处理器硬件在运行时基于完整操作码字段1574(在本文中描述的)
和数据操纵字段1554C确定。位移字段1562A和位移因数字段1562B可以
不用于无存储器访问1505的指令模板,并且/或者不同的实施例可实现两者
中的仅一个或不实现两者中的任一个,在这个意义上,位移字段1562A和
位移因数字段1562B是可选的。
数据元素宽度字段1564-其内容区分将使用多个数据元素宽度中的哪
一个(在一些实施例中用于所有指令,在其他实施例中仅用于指令中的一
些)。如果支持仅一个数据元素宽度,并且/或者使用操作码的某一方面来
支持数据元素宽度,则该字段是不需要的,在这个意义上该字段是可选的。
写掩码字段1570-其内容在每一数据元素位置的基础上控制目的地向
量操作数中的数据元素位置是否反映基础操作和扩充操作的结果。A类指
令模板支持合并-写掩码操作,而B类指令模板支持合并写掩码操作和归零
写掩码操作两者。当合并时,向量掩码允许在执行(由基础操作和扩充操
作指定的)任何操作期间保护目的地中的任何元素集免于更新;在其他实
施例中,保持其中对应掩码位具有0的目的地的每一元素的旧值。相反,
当归零时,向量掩码允许在执行(由基础操作和扩充操作指定的)任何操
作期间,使目的地中的任何元素集归零;在一个实施例中,当对应掩码位
具有0值时,将目的地的元素设置为0。该功能的子集是控制正在被执行的
操作的向量长度的能力(即,从第一个到最后一个被修改的元素的跨度),
然而,被修改的元素不一定要是连续的。由此,写掩码字段1570允许部分
向量操作,这包括加载、存储、算术、逻辑等。尽管描述了其中写掩码字
段1570的内容选择了多个写掩码寄存器中的包含要使用的写掩码的一个写
掩码寄存器(并且由此写掩码字段1570的内容间接地标识了要执行的掩码
操作)的本发明的实施例,但是替代实施例相反或另外允许掩码写字段1570
的内容直接地指定要执行的掩码操作。
立即数字段1572-其内容允许对立即数的指定。该字段在不支持立即
数的通用向量友好格式的实现中不存在,并且在不使用立即数的指令中不
存在,在这个意义上该字段是可选的。
类字段1568-其内容在不同类的指令之间进行区分。参考图15A-B,
该字段的内容在A类和B类指令之间进行选择。在图15A-B中,圆角方形
用于指示专用值存在于字段中(例如,在图15A-B中分别用于类字段1568
的A类1568A和B类1568B)。
A类指令模板
在A类非存储器访问1505的指令模板的情况下,α字段1552被解释
为其内容区分要执行不同扩充操作类型中的哪一种(例如,针对无存储器
访问的舍入型操作1510和无存储器访问的数据变换型操作1515的指令模
板,分别指定舍入1552A.1和数据变换1552A.2)的RS字段1552A,而β
字段1554区分要执行指定类型的操作中的哪一种。在无存储器访问1505
指令模板中,比例字段1560、位移字段1562A以及位移比例字段1562B不
存在。
无存储器访问的指令模板-完全舍入控制型操作
在无存储器访问的完全舍入控制型操作1510的指令模板中,β字段
1554被解释为其内容提供静态舍入的舍入控制字段1554A。尽管在本发明
的所述实施例中,舍入控制字段1554A包括抑制所有浮点异常(SAE)字
段1556和舍入操作控制字段1558,但是替代实施例可支持这两个概念,并
且可将这两个概念都编码成相同的字段,或者仅具有这些概念/字段中的一
个或另一个(例如,可仅具有舍入操作控制字段1558)。
SAE字段1556-其内容区分是否禁用异常事件报告;当SAE字段1556
的内容指示启用抑制时,给定的指令不报告任何种类的浮点异常标志,并
且不唤起任何浮点异常处理程序。
舍入操作控制字段1558-其内容区分执行一组舍入操作中的哪一个
(例如,向上舍入、向下舍入、向零舍入、以及就近舍入)。由此,舍入
操作控制字段1558允许逐指令地改变舍入模式。在其中处理器包括用于指
定舍入模式的控制寄存器的本发明的一个实施例中,舍入操作控制字段
1550的内容覆盖该寄存器值。
无存储器访问的指令模板-数据变换型操作
在无存储器访问的数据变换型操作1515的指令模板中,β字段1554
被解释为数据变换字段1554B,其内容区分要执行多个数据变换中的哪一
个(例如,无数据变换、混合、广播)。
在A类存储器访问1520的指令模板的情况下,α字段1552被解释为
驱逐提示字段1552B,其内容区分要使用驱逐提示中的哪一个(在图16A
中,对于存储器访问时效性1525的指令模板和存储器访问非时效性1530
的指令模板分别指定时效性的1552B.1和非时效性的1552B.2),而β字段
1554被解释为数据操纵字段1554C,其内容区分要执行多个数据操纵操作
(也称为基元(primitive))中的哪一个(例如,无操纵、广播、源的向上
转换以及目的地的向下转换)。存储器访问1520的指令模板包括比例字段
1560,并可选地包括位移字段1562A或位移比例字段1562B。
向量存储器指令使用转换支持来执行来自存储器的向量加载和去往存
储器的向量存储。如同寻常的向量指令,向量存储器指令以数据元素式的
方式往返于存储器传输数据,其中,实际传输的元素由被选为写掩码的向
量掩码的内容规定。
存储器访问的指令模板-时效性的
时效性的数据是可能足够快地被重新使用以从高速缓存操作中受益的
数据。然而,这是提示,且不同的处理器能以不同的方式实现它,包括完
全忽略该提示。
存储器访问的指令模板-非时效性的
非时效性的数据是不可能被足够快地重新使用以从第一级高速缓存中
的高速缓存操作中受益且应当被给予驱逐优先级的数据。然而,这是提示,
且不同的处理器可以不同的方式实现它,包括完全忽略该提示。
B类指令模板
在B类指令模板的情况下,α字段1552被解释为写掩码控制(Z)字
段1552C,其内容区分由写掩码字段1570控制的写掩码操作应当是合并还
是归零。
在B类非存储器访问1505的指令模板的情况下,β字段1554的部分
被解释为RL字段1557A,其内容区分要执行不同扩充操作类型中的哪一种
(例如,针对无存储器访问的写掩码控制部分舍入控制类型操作1516的指
令模板和无存储器访问的写掩码控制VSIZE型操作1517的指令模板,分
别指定舍入1557A.1和向量长度(VSIZE)1557A.2),而β字段1554的其
余部分区分要执行指定类型的操作中的哪一种。在无存储器访问1505指令
模板中,比例字段1560、位移字段1562A以及位移比例字段1562B不存在。
在无存储器访问的写掩码控制的部分舍入控制型操作1510的指令模
板中,β字段1554的其余部分被解释为舍入操作字段1559A,并且禁用异
常事件报告(给定的指令不报告任何种类的浮点异常标志,并且不唤起任
何浮点异常处理程序)。
舍入操作控制字段1559A-就如同舍入操作控制字段1558,其内容区
分一组舍入操作中的哪一个(例如,向上舍入、向下舍入、向零舍入、以
及就近舍入)要执行。由此,舍入操作控制字段1559A允许逐指令地改变
舍入模式。在其中处理器包括用于指定舍入模式的控制寄存器的本发明的
一个实施例中,舍入操作控制字段1550的内容覆盖该寄存器值。
在无存储器访问的写掩码控制VSIZE型操作1517的指令模板中,β字
段1554的其余部分被解释为向量长度字段1559B,其内容区分要执行多个
数据向量长度中的哪一个(例如,168字节、256字节或516字节)。
在B类存储器访问1520的指令模板的情况下,β字段1554的部分被
解释为广播字段1557B,其内容区分是否要执行广播型数据操纵操作,而β
字段1554的其余部分被解释为向量长度字段1559B。存储器访问1520的
指令模板包括比例字段1560,并可选地包括位移字段1562A或位移比例字
段1562B。
针对通用向量友好指令格式1500,示出完整操作码字段1574包括格
式字段1540、基础操作字段1542以及数据元素宽度字段1564。尽管示出
了其中完整操作码字段1574包括所有这些字段的一个实施例,但是在不支
持所有这些字段的实施例中,完整操作码字段1574包括少于所有这些字段
的字段。完整操作码字段1574提供操作码(opcode)。
扩充操作字段1550、数据元素宽度字段1564以及写掩码字段1570允
许以通用向量友好指令格式逐指令地指定这些特征。
写掩码字段和数据元素宽度字段的组合创建类型化的指令,因为它们
允许基于不同的数据元素宽度应用该掩码。
在A类和B类内出现的各种指令模板在不同的情形下是有益的。在本
发明的一些实施例中,不同处理器或者处理器内的不同核可支持仅A类、
仅B类或者可支持两类。举例而言,旨在用于通用计算的高性能通用无序
核可仅支持B类,旨在主要用于图形和/或科学(吞吐量)计算的核可仅支
持A类,并且旨在用于两者的核可支持两者(当然,具有来自两类的模板
和指令的一些混合、但是并非来自两类的所有模板和指令的核在本发明的
范围内)。同样,单一处理器可包括多个核,所有核支持相同的类或者其
中不同的核支持不同的类。举例而言,在具有单独的图形和通用核的处理
器中,旨在主要用于图形和/或科学计算的图形核中的一个核可仅支持A类,
而通用核中的一个或多个可以是具有旨在用于通用计算的、仅支持B类的
无序执行和寄存器重命名的高性能通用核。不具有单独的图形核的另一处
理器可包括既支持A类又支持B类的一个或多个通用有序或无序核。当然,
在本发明的不同实施例中,来自一类的特征也可在其他类中实现。可使以
高级语言撰写的程序成为(例如,恰被及时编译或静态编译)各种不同的
可执行形式,包括:1)仅具有由用于执行的目标处理器支持的类的指令的
形式;或者2)具有使用所有类的指令的不同组合而编写的替代例程且具有
选择这些例程以基于由当前正在执行代码的处理器支持的指令而执行的控
制流代码的形式。
图16A-D是示出根据本发明的多个实施例的示例性专用向量友好指令
格式的框图。图16A-D示出专用向量友好指令格式1600,其指定位置、尺
寸、解释和字段的次序以及那些字段中的一些字段的值,在这个意义上向
量友好指令格式1600是专用的。专用向量友好指令格式1600可用于扩展
x86指令集,并且由此这些字段中的一些与现有x86指令集及其扩展(例如,
AVX)中使用的那些字段类似或相同。该格式保持与具有扩展的现有x86
指令集的前缀编码字段、实操作码字节字段、MODR/M字段、SIB字段、
位移字段、以及立即数字段一致。示出来自图15的、将来自图16的字段
映射到其的字段。
应当理解,虽然出于说明的目的,在通用向量友好指令格式1500的上
下文中参考专用向量友好指令格式1600描述了本发明的多个实施例,但是
本发明不限于专用向量友好指令格式1600,除非另有声明。例如,通用向
量友好指令格式1500构想各种字段的各种可能的尺寸,而专用向量友好指
令格式1600被示出为具有特定尺寸的字段。作为具体示例,尽管在专用向
量友好指令格式1600中,数据元素宽度字段1564被示出为一位的字段,
但是本发明不限于此(也就是说,通用向量友好指令格式1500构想数据元
素宽度字段1564的其他尺寸)。
通用向量友好指令格式1500包括以下按照图16A中示出的顺序列出的
下列字段。
EVEX前缀(字节0-3)1602-以四字节形式进行编码。
格式字段1640(EVEX字节0,位[7:0])-第一字节(EVEX字节0)
是格式字段1640,并且它包含0x62(在本发明的一个实施例中用于区分向
量友好指令格式的唯一值)。
第二-第四字节(EVEX字节1-3)包括提供专用能力的多个位字段。
REX字段1605(EVEX字节1,位[7-5])-由EVEX.R位字段(EVEX
字节1,位[7]–R)、EVEX.X位字段(EVEX字节1,位[6]–X)以及(1557BEX
字节1,位[5]–B)组成。EVEX.R、EVEX.X和EVEX.B位字段提供与对
应VEX位字段相同的功能,并且使用1补码的形式进行编码,即ZMM0
被编码为1611B,ZMM15被编码为0000B。这些指令的其他字段对如在本
领域中已知的寄存器索引的较低三个位(rrr、xxx以及bbb)进行编码,由
此可通过增加EVEX.R、EVEX.X以及EVEX.B来形成Rrrr、Xxxx以及Bbbb。
REX’字段1605-这是REX’字段1510的第一部分,并且是用于对扩展
的32个寄存器集合的较高16个或较低16个寄存器进行编码的EVEX.R’
位字段(EVEX字节1,位[4]–R’)。在本发明的一个实施例中,该位与以
下指示的其他位一起以位反转的格式被存储以(在公知x86的32位模式下)
与实操作码字节是62的BOUND指令进行区分,但是在MODR/M字段(在
下文中描述)中不接受MOD字段中的值11;本发明的替代实施例不以反
转的格式存储该以下其他被指示的位。值1用于对较低16个寄存器进行编
码。换句话说,通过组合EVEX.R’、EVEX.R、以及来自其他字段的其他
RRR来形成R’Rrrr。
操作码映射字段1615(EVEX字节1,位[3:0]–mmmm)–其内容对隐
含的前导操作码字节(0F、0F38、或0F3)进行编码。
数据元素宽度字段1664(EVEX字节2,位[7]–W)-由记号EVEX.W
表示。EVEX.W用于定义数据类型(32位数据元素或64位数据元素)的
粒度(尺寸)。
EVEX.vvvv1620(EVEX字节2,位[6:3]-vvvv)-EVEX.vvvv的作用
可包括如下:1)以反转(1补码)形式被指定并且对具有2个或更多源操
作数的指令有效VEX.vvvv对第一源寄存器操作数进行编码;2)针对某些
向量偏移以1补码形式被指定的VEX.vvvv对目的地寄存器操作数进行编
码;或者3)VEX.vvvv不对任何操作数进行编码,保留该字段。由此,
EVEX.vvvv字段1620对以反转(1补码)的形式存储的第一源寄存器指定
符的4个低阶位进行编码。取决于该指令,附加的不同的EVEX位字段用
于将指定符尺寸扩展到32个寄存器。
EVEX.U1668类字段(EVEX字节2,位[2]-U)-如果EVEX.U=0,
则它指示A类或EVEX.U0;如果EVEX.U=1,则它指示B类或EVEX.U1。
前缀编码字段1625(EVEX字节2,位[1:0]-pp)-提供了用于基础操
作字段的附加位。除了对以EVEX前缀格式的传统SSE指令提供支持以外,
这也具有压缩SIMD前缀的益处(EVEX前缀只需要2位,而不是需要字
节来表达SIMD前缀)。在一个实施例中,为了支持使用以传统格式和以
EVEX前缀格式两者的SIMD前缀(66H、F2H、F3H)的传统SSE指令,
将这些传统SIMD前缀编码为SIMD前缀编码字段;在提供给解码器的PLA
之前,在运行时可被扩展为传统SIMD前缀(因此,PLA可执行传统和EVEX
格式的这些传统指令,而无需修改)。虽然较新的指令可将EVEX前缀编
码字段的内容直接用作操作码扩展,但是为了一致性,某些实施例以类似
的方式扩展,但允许由这些传统SIMD前缀指定不同的含义。替代实施例
可重新设计PLA以支持2位SIMD前缀编码,并且因此不需要扩展。
α字段1652(EVEX字节3,位[7]–EH,也称为EVEX.EH、EVEX.rs、
EVEX.RL、EVEX.写掩码控制、以及EVEX.N;也以α示出)-如先前所
述,该字段是针对上下文的。
β字段1654(EVEX字节3,位[6:4]-SSS,也称为EVEX.s2-0、EVEX.r2-0、
EVEX.rr1、EVEX.LL0、EVEX.LLB;也以βββ示出)-如先前所述,该字
段是针对上下文的。
REX’字段1610-这是REX’字段的其余部分,并且是可用于对扩展的
32个寄存器集合的较高16个或较低16个寄存器进行编码的EVEX.V’位字
段(EVEX字节3,位[3]–V’)。该位以位反转的格式存储。值1用于对较
低16个寄存器进行编码。换句话说,通过组合EVEX.V’、EVEX.vvvv来
形成V’VVVV。
写掩码字段1670(EVEX字节3,位[2:0]-kkk)-其内容指定写掩码寄
存器中的寄存器索引,如先前所述。在本发明的一个实施例中,特定值
EVEX.kkk=000具有暗示没有写掩码用于特定指令的特殊行为(这能以各种
方式实现,包括使用硬连线到所有的写掩码或者绕过掩码硬件的硬件来实
现)。
实操作码字段1630(字节4)也被称为操作码字节。在该字段中指定
操作码的部分。
MODR/M字段1640(字节5)包括MOD字段1642、Reg字段1644
以及R/M字段1646。如先前所述的,MOD字段1642的内容将存储器访问
和非存储器访问操作区分开。Reg字段1644的作用可被归结为两种情形:
对目的地寄存器操作数或源寄存器操作数进行编码;或者被视为操作码扩
展且不用于对任何指令操作数进行编码。R/M字段1646的作用可包括如下:
对引用存储器地址的指令操作数进行编码;或者对目的地寄存器操作数或
源寄存器操作数进行编码。
比例、索引、基址(SIB)字节(字节6)-如先前所述的,比例字段
1650的内容用于存储器地址生成。SIB.xxx1654和SIB.bbb1656-先前已
经针对寄存器索引Xxxx和Bbbb提及了这些字段的内容。
位移字段1662A(字节7-10)-当MOD字段1642包含10时,字节
7-10是位移字段1662A,并且它以与传统32位位移(disp32)相同的方式
工作,以字节粒度工作。
位移因数字段1662B(字节7)-当MOD字段1642包含01时,字节
7是位移因数字段1662B。该字段的位置与以字节粒度工作的传统x86指令
集8位位移(disp8)的位置相同。由于disp8是符号扩展的,因此它仅能
在-168和167字节偏移量之间寻址;在64字节高速缓存行的方面,disp8
使用可被设为仅四个真正有用的值-168、-64、0和64的8位;由于常常需
要更大的范围,所以使用disp32;然而,disp32需要4个字节。与disp8和
disp32对比,位移因数字段1662B是对disp8的重新解释;当使用位移因数
字段1662B时,通过将位移因数字段的内容乘以存储器操作数访问的尺寸
(N)来确定实际位移。该类型的位移被称为disp8*N。这减小了平均指令
长度(单个字节用于位移,但具有大得多的范围)。此类压缩位移基于有
效位移是存储器访问的粒度的倍数的假设,并且由此,不需要对地址偏移
量的冗余低阶位进行编码。换句话说,位移因数字段1662B替代传统x86
指令集的8位位移。由此,以与x86指令集的8位位移相同的方式对位移
因数字段1662B进行编码(因此,在ModRM/SIB编码规则中没有变化),
唯一的例外在于,将disp8超载至disp8*N。换句话说,编码规则或编码长
度中不存在变化,而仅在通过硬件对位移值的解释中存在变化(这需要通
过存储器操作数的尺寸按比例缩放位移量以获得字节式地址偏移量)。
立即数字段1672按先前所述进行操作。
完整操作码字段
图16B是示出根据本发明的一个实施例的、专用向量友好指令格式
1600中构成完整操作码字段1674字段的框图。具体而言,完整操作码字段
1674包括格式字段1640、基础操作字段1642以及数据元素宽度(W)字
段1664。基础操作字段1642包括前缀编码字段1625、操作码映射字段1615
以及实操作码字段1630。
寄存器索引字段
图16C是示出根据本发明的一个实施例的、专用向量友好指令格式
1600中构成寄存器索引字段1644的字段的框图。具体而言,寄存器索引字
段1644包括REX字段1605、REX’字段1610、MODR/M.reg字段1644、
MODR/M.r/m字段1646、VVVV字段1620、xxx字段1654以及bbb字段
1656。
扩充操作字段
图16D是示出根据本发明的一个实施例、专用向量友好指令格式1600
中构成扩充操作字段1650的字段的框图。当类(U)字段1668包含0时,
它表明EVEX.U0(A类1668A);当它包含1时,它表明EVEX.U1(B类
1668B)。当U=0且MOD字段1642包含11(表明无存储器访问操作)时,
α字段1652(EVEX字节3,位[7]–EH)被解释为rs字段1652A。当rs字
段1652A包含1(舍入1652A.1)时,β字段1654(EVEX字节3,位[6:4]–SSS)
被解释为舍入控制字段1654A。舍入控制字段1654A包括一位的SAE字段
1656和两位的舍入操作字段1658。当rs字段1652A包含0(数据变换
1652A.2)时,β字段1654(EVEX字节3,位[6:4]–SSS)被解释为三位的
数据变换字段1654B。当U=0且MOD字段1642包含00、01或10(表明
存储器访问操作)时,α字段1652(EVEX字节3,位[7]–EH)被解释为驱
逐提示(EH)字段1652B且β字段1654(EVEX字节3,位[6:4]–SSS)被
解释为三位数据操纵字段1654C。
当U=1时,α字段1652(EVEX字节3,位[7]–EH)被解释为写掩码
控制(Z)字段1652C。当U=1且MOD字段1642包含11(表明无存储器
访问操作)时,β字段1654的一部分(EVEX字节3,位[4]–S0)被解释为
RL字段1657A;当它包含1(舍入1657A.1)时,β字段1654的其余部分
(EVEX字节3,位[6-5]–S2-1)被解释为舍入操作字段1659A,而当RL
字段1657A包含0(VSIZE1657.A2)时,β字段1654的其余部分(EVEX
字节3,位[6-5]-S2-1)被解释为向量长度字段1659B(EVEX字节3,位
[6-5]–L1-0)。当U=1且MOD字段1642包含00、01或10(表明存储器访
问操作)时,β字段1654(EVEX字节3,位[6:4]–SSS)被解释为向量长度
字段1659B(EVEX字节3,位[6-5]–L1-0)和广播字段1657B(EVEX字节3,
位[4]–B)。
图17是根据本发明的一个实施例的寄存器架构1700的框图。在所示
出的实施例中,有32个516位宽的向量寄存器1710;这些寄存器被引用为
zmm0到zmm31。较低的16个zmm寄存器的较低阶256个位覆盖在寄存
器ymm0-16上。较低的16个zmm寄存器的较低阶168个位(ymm寄存器
的较低阶168个位)覆盖在寄存器xmm0-15上。专用向量友好指令格式1600
按下表所示,对这些覆盖的寄存器组进行操作。
换句话说,向量长度字段1559B在最大长度与一个或多个其他较短长
度(其中,此类较短长度的长度是前一个长度的一半)之间进行选择;不
具有向量长度字段1559B的指令模板对最大向量长度进行操作。此外,在
一个实施例中,专用向量友好指令格式1600的B类指令模板对紧缩或标量
单/双精度浮点数据以及紧缩或标量整数数据进行操作。标量操作是对
zmm/ymm/xmm寄存器中的最低阶数据元素位置执行的操作;取决于本实
施例,较高阶数据元素位置保持与在指令之前相同或者归零。
写掩码寄存器1715-在所示的实施例中,存在8个写掩码寄存器(k0
至k7),每一写掩码寄存器的尺寸是64位。在替代实施例中,写掩码寄存
器1715的尺寸为16位。如先前所述的,在本发明的一个实施例中,向量
掩码寄存器k0不能用作写掩码;当正常指示k0的编码用作写掩码时,它
选择硬连线的写掩码0xFFFF,从而有效地禁用该指令的写掩码操作。
通用寄存器1725——在所示出的实施例中,有十六个64位通用寄存
器,这些寄存器结合现有的x86寻址模式,用于寻址存储器操作数。这些
寄存器通过名称RAX、RBX、RCX、RDX、RBP、RSI、RDI、RSP以及
R8到R15来引用。
标量浮点栈寄存器组(x87栈)1745,在其上面重叠了MMX紧缩整数
平坦寄存器组1750——在所示出的实施例中,x87栈是用于使用x87指令
集扩展来对32/64/80位浮点数据执行标量浮点操作的八元素栈;而将MMX
寄存器用于64位紧缩整数数据执行操作,以及用于为在MMX和XMM寄
存器之间执行的一些操作保存操作数。
本发明的替代实施例可以使用更宽的或更窄的寄存器。另外,本发明
的替代实施例可使用更多、更少或不同的寄存器组和寄存器。
本发明的多个实施例可包括上述各个步骤。可在可被用于使通用或专
用处理器执行这些步骤的机器可执行指令中具体化这些步骤。或者,可由
包含用于执行这些步骤的硬连线逻辑的专用硬件组件,或可由被编程的计
算机组件和自定义硬件组件的任何组合来执行这些步骤。
如本文中所述,指令可以指硬件的具体配置,例如,配置成用于执行
某些操作或具有预定功能的专用集成电路(ASIC),或者被存储在被具体
化在非瞬态计算机可读介质中的存储器中的软件指令。因此,可使用被存
储在一个或多个电子设备(例如,终端站、网络元件等)上并在其上被执
行的代码和数据来执行附图中所示的技术。此类电子设备使用诸如非瞬态
计算机机器可读存储介质(例如,磁盘;光盘;随机存取存储器;只读存
储器;闪存设备;相变存储器)之类的计算机机器可读介质和瞬态计算机
机器可读通信介质(例如,电、光、声或其他形式的传播信号——诸如载
波、红外信号、数字信号等)来(内部地和/或在网络上与其他电子设备之
间进行)存储和传递代码和数据。另外,此类电子设备一般包括耦合至一
个或多个其他组件的一个或多个处理器的集合,所述一个或多个其他组件
例如是一个或多个存储设备(非瞬态机器可读存储介质)、用户输入/输出设
备(例如,键盘、触摸屏和/或显示器)以及网络连接。该组处理器和其他组
件的耦合一般是通过一个或多个总线和桥(也称为总线控制器)实现的。存储
设备和携带网络话务的信号分别表示一个或多个机器可读存储介质和机器
可读通信介质。因此,给定电子设备的存储设备通常存储用于在该电子设
备的一个或多个处理器的集合上执行的代码和/或数据。当然,本发明的实
施例的一个或多个部分可使用软件、固件和/或硬件的不同组合来实现。贯
穿此具体实施方式,为了进行解释,陈述了众多具体细节以提供对本发明
的透彻理解。然而,对本领域技术人员显而易见的是,没有这些具体细节
中的一些细节也可实施本发明。在某些实例中,并不详细描述公知的结构
和功能,以免使本发明的主题模糊。因此,本发明的范围和精神应根据所
附权利要求书来判断。