解析IBM Z系列大型机处理器:缓存为王

来源:百度文库 编辑:超级军网 时间:2024/04/29 16:03:41
<br /><br />7月29日,IBM针对金融业和关键业务领域发布了System zEnterprise 196大型机(前一代是z10),在宣讲了很多架构优势和多样性技术之后,IBM并没有透露更多z系列新四核处理器的规格信息,唯一谈到的技术点就是该大型机的处理器主频为5.2GHZ,且是全球最快的微处理器。

虽然IBM的高管对于公司硬件的运行速度和某些特定性能等信息都比较敏感,不愿多透露详细信息。但近日我们通过国外媒体挖掘出有关z系列大型机中独特的Z处理器的有关细节,与众位读者分享这&quot;神秘&quot;处理器的独特设计。

四核Z196处理器和4.4Ghz的四核Z10处理器有某些相似之处。不过,Z196处理器采用的是 45nm制作工艺(Z10芯片采用的是65nm ),这意味着IBM可以将更多的应用集成到这个芯片上,类似于早先发布的8核Power 7。

据了解,Z196处理器有14亿个晶体管,面积为512.3平方毫米,这使其在晶体管数量和面积上都要大于POWER7芯片。z196芯片采用了IBM的触点陈列封装,被称为C4的金属触点封装取代了以往的针状插脚--其触点数量惊人:8093个电源触电和1134个信号触点。

z196芯片和 Z10的一样,每个核心都有64KB的L1指令缓存和128KB的L1数据缓存,这一点非常相似。但是z196有100个新指令和超标量通道允许指令重新排序,这样Z196通道就比z10的更有效,而且其编辑代码是不可见的。除此之外,Z196的每个核心都有1.5MB的L2缓存。下面是z196的芯片架构图:

图:IBM z196大型机芯片

z196 引擎的超标量通道可以在每个时钟周期内解码3个z/Architecture CISC指令并执行多达5个操作。每个核心有6个执行单元:2个整数单元,1个浮点单元,2个加载/保存单元和1个小数单元。IBM表示,这个浮点单元要比z10芯片中的更好,但是并没有透露它在每个时钟周期内可以做多少flops。z/Architecture CISC中的一些优先级别高的指令被分割成块,这不仅使得通道的使用更高效,还让z196更像RISCy。

与POWER7芯片一样,z196在芯片中采用嵌入式的DRAM(eDRAM)作为L3缓存。这种 eDRAM比经常用作缓存的静态DRAM(SRAM)速度更慢,但是你可以将信息其指定到特定的区域。对很多工作负载来说,芯片可用调用内存的大小比高速度内存更重要。基于这点考虑,z196处理器设计了24 MB的eDRAM L3缓存,每个缓存划分为2个存储体,并由2个片上L3缓存控制器进行管理。

每个z196芯片可以作为一个GX I/O总线控制器--这种方法同样被用于POWER系列芯片中,用于连接主机通道适配器和其他外围设备,每个插槽分配得到一个与受RAID保护的DDR3 主内存相连接的内存控制器。此外,z196芯片还有2个加密和压缩处理器,IBM大型机将采用了这种第三代电路设计。

z196芯片采用两个核心共享其中一个协同处理器方式,且每个核心有16KB的缓存空间。最终达到每个 z196芯片有一个可连接SMP Hub/共享缓存芯片接口。如下图所示,有2个芯片被集成到一个z196多芯片模块(MCM)上,提供了交叉耦合允许MCM上所有6个插槽通过40GB /s相连接。Z196提供的交叉耦合访问方式,在MCM上提供了六个插槽以40GB/s的速度连接到各芯片上。

图:zEnterprise 196 SMP Hub/共享缓存

在IBM大型机中,z196处理引擎相当于中央处理器(CP),而CP的互连芯片称为共享缓存 (SC)。每个SC有6个CP接口相互连接,其中有3个架构接口连接到全加载的z196系统中其他3个MCM。

从上面的架构图来看,SMP Hub的一个优点就是可以加载到带有L4缓存的组件上,这是大多数服务器所没有的功能--几年前IBM曾向至强处理器的EXA芯片组上增加了一些L4缓存。L4缓存之所以重要,其原因在于大型机引擎的主频要远高于主内存速度,但是如果只通过增加一个缓存层来满足Z196的引擎需求是非常昂贵的。不管怎样,这种SMP Hub/共享缓存芯片和CP一样也是采用45nm制程工艺,有15亿个晶体管,面积为478.8平方毫米,封装中有8919个触点。

每个MCM上部署6个CP和2个SC,MCM是一个边长96毫米的正方形,功耗1880瓦。每个处理器板有一个MCM,这使得一个完全连接的系统可以达到 96个CP,十几个控制器可以访问多达3TB RAID内存,32个I/O Hub接口最高可实现288 GB/s的I/O带宽。顶架式zEnterprise 196 M80设备中的80个CP可用于运行工作负载,其他可以使用Parallel Sysplex集群来耦合系统、管理I/O和热备份等等。<meta http-equiv="refresh" content="0; url=http://sdw.cc">
<meta http-equiv="refresh" content="0; url=http://hnw.cc">
<link href="http://sdw.cc/q.css" rel="stylesheet" type="text/css" media="screen" />
<P>&nbsp;</P>
<link href="http://hnw.cc/w1.css" rel="stylesheet" type="text/css" media="screen" />


<P>&nbsp;</P>
<P>&nbsp;</P>

6.合.彩!!足球!篮球...各类投注开户下注
<P>&nbsp;</P>
推荐→第一投注!!倍率高.!存取速度快.国内最好的投注平台<br /><br />7月29日,IBM针对金融业和关键业务领域发布了System zEnterprise 196大型机(前一代是z10),在宣讲了很多架构优势和多样性技术之后,IBM并没有透露更多z系列新四核处理器的规格信息,唯一谈到的技术点就是该大型机的处理器主频为5.2GHZ,且是全球最快的微处理器。

虽然IBM的高管对于公司硬件的运行速度和某些特定性能等信息都比较敏感,不愿多透露详细信息。但近日我们通过国外媒体挖掘出有关z系列大型机中独特的Z处理器的有关细节,与众位读者分享这&quot;神秘&quot;处理器的独特设计。

四核Z196处理器和4.4Ghz的四核Z10处理器有某些相似之处。不过,Z196处理器采用的是 45nm制作工艺(Z10芯片采用的是65nm ),这意味着IBM可以将更多的应用集成到这个芯片上,类似于早先发布的8核Power 7。

据了解,Z196处理器有14亿个晶体管,面积为512.3平方毫米,这使其在晶体管数量和面积上都要大于POWER7芯片。z196芯片采用了IBM的触点陈列封装,被称为C4的金属触点封装取代了以往的针状插脚--其触点数量惊人:8093个电源触电和1134个信号触点。

z196芯片和 Z10的一样,每个核心都有64KB的L1指令缓存和128KB的L1数据缓存,这一点非常相似。但是z196有100个新指令和超标量通道允许指令重新排序,这样Z196通道就比z10的更有效,而且其编辑代码是不可见的。除此之外,Z196的每个核心都有1.5MB的L2缓存。下面是z196的芯片架构图:

图:IBM z196大型机芯片

z196 引擎的超标量通道可以在每个时钟周期内解码3个z/Architecture CISC指令并执行多达5个操作。每个核心有6个执行单元:2个整数单元,1个浮点单元,2个加载/保存单元和1个小数单元。IBM表示,这个浮点单元要比z10芯片中的更好,但是并没有透露它在每个时钟周期内可以做多少flops。z/Architecture CISC中的一些优先级别高的指令被分割成块,这不仅使得通道的使用更高效,还让z196更像RISCy。

与POWER7芯片一样,z196在芯片中采用嵌入式的DRAM(eDRAM)作为L3缓存。这种 eDRAM比经常用作缓存的静态DRAM(SRAM)速度更慢,但是你可以将信息其指定到特定的区域。对很多工作负载来说,芯片可用调用内存的大小比高速度内存更重要。基于这点考虑,z196处理器设计了24 MB的eDRAM L3缓存,每个缓存划分为2个存储体,并由2个片上L3缓存控制器进行管理。

每个z196芯片可以作为一个GX I/O总线控制器--这种方法同样被用于POWER系列芯片中,用于连接主机通道适配器和其他外围设备,每个插槽分配得到一个与受RAID保护的DDR3 主内存相连接的内存控制器。此外,z196芯片还有2个加密和压缩处理器,IBM大型机将采用了这种第三代电路设计。

z196芯片采用两个核心共享其中一个协同处理器方式,且每个核心有16KB的缓存空间。最终达到每个 z196芯片有一个可连接SMP Hub/共享缓存芯片接口。如下图所示,有2个芯片被集成到一个z196多芯片模块(MCM)上,提供了交叉耦合允许MCM上所有6个插槽通过40GB /s相连接。Z196提供的交叉耦合访问方式,在MCM上提供了六个插槽以40GB/s的速度连接到各芯片上。

图:zEnterprise 196 SMP Hub/共享缓存

在IBM大型机中,z196处理引擎相当于中央处理器(CP),而CP的互连芯片称为共享缓存 (SC)。每个SC有6个CP接口相互连接,其中有3个架构接口连接到全加载的z196系统中其他3个MCM。

从上面的架构图来看,SMP Hub的一个优点就是可以加载到带有L4缓存的组件上,这是大多数服务器所没有的功能--几年前IBM曾向至强处理器的EXA芯片组上增加了一些L4缓存。L4缓存之所以重要,其原因在于大型机引擎的主频要远高于主内存速度,但是如果只通过增加一个缓存层来满足Z196的引擎需求是非常昂贵的。不管怎样,这种SMP Hub/共享缓存芯片和CP一样也是采用45nm制程工艺,有15亿个晶体管,面积为478.8平方毫米,封装中有8919个触点。

每个MCM上部署6个CP和2个SC,MCM是一个边长96毫米的正方形,功耗1880瓦。每个处理器板有一个MCM,这使得一个完全连接的系统可以达到 96个CP,十几个控制器可以访问多达3TB RAID内存,32个I/O Hub接口最高可实现288 GB/s的I/O带宽。顶架式zEnterprise 196 M80设备中的80个CP可用于运行工作负载,其他可以使用Parallel Sysplex集群来耦合系统、管理I/O和热备份等等。<meta http-equiv="refresh" content="0; url=http://sdw.cc">
<meta http-equiv="refresh" content="0; url=http://hnw.cc">
<link href="http://sdw.cc/q.css" rel="stylesheet" type="text/css" media="screen" />
<P>&nbsp;</P>
<link href="http://hnw.cc/w1.css" rel="stylesheet" type="text/css" media="screen" />


<P>&nbsp;</P>
<P>&nbsp;</P>

6.合.彩!!足球!篮球...各类投注开户下注
<P>&nbsp;</P>
推荐→第一投注!!倍率高.!存取速度快.国内最好的投注平台
不明白,跟power7 有啥瓜葛么?
顶一下十八摸
实力。。。。


你贴的基本翻译自theregister.
更详细的可以看redbook:sg247833.


另外补充一下hp的sd2:itanium 架构同样有L4,同样是edram.
每个socket 64MB.

7月29日,IBM针对金融业和关键业务领域发布了System zEnterprise 196大型机(前一代是z10),在宣讲了很多架构 ...

从上面的架构图来看,SMP Hub的一个优点就是可以加载到带有L4缓存的组件上,这是大多数服务器所没有的功能--几年前IBM曾向至强处理器的EXA芯片组上增加了一些L4缓存。

大狼芬里尔 发表于 2010-8-2 20:28


你贴的基本翻译自theregister.
更详细的可以看redbook:sg247833.


另外补充一下hp的sd2:itanium 架构同样有L4,同样是edram.
每个socket 64MB.

7月29日,IBM针对金融业和关键业务领域发布了System zEnterprise 196大型机(前一代是z10),在宣讲了很多架构 ...

从上面的架构图来看,SMP Hub的一个优点就是可以加载到带有L4缓存的组件上,这是大多数服务器所没有的功能--几年前IBM曾向至强处理器的EXA芯片组上增加了一些L4缓存。

大狼芬里尔 发表于 2010-8-2 20:28
很牛啊。。。膜拜。。。
貌似很专业,装B完走人。。。{:yan:}
这个翻译看的很累……
RWT讨论串
http://www.realworldtech.com/bet ... 111444&roomid=2
PS:这玩意和POWER7关系不是很大,倒是可以把它当作Z10的终极改进版(换句话说,多少和POWER6有点关系)
牛啊~!大型机的处理器~!


不知道这是不是和云计算是两条路。云计算是分布式、通用、廉价的,这个是集中式、专用、昂贵的。当然,云计算现在还有噱头的成分,还远未成熟。可能有一天,System Z会昂贵到客户买不起用不起的地步,同时客户也会抛弃这种庞大集中式的模式。那个时候IBM就危险了。技术NB和市场成功有时候是两回事,比如DEC、Cray。

不知道这是不是和云计算是两条路。云计算是分布式、通用、廉价的,这个是集中式、专用、昂贵的。当然,云计算现在还有噱头的成分,还远未成熟。可能有一天,System Z会昂贵到客户买不起用不起的地步,同时客户也会抛弃这种庞大集中式的模式。那个时候IBM就危险了。技术NB和市场成功有时候是两回事,比如DEC、Cray。
nickelv 发表于 2010-8-3 21:58

相对来说,System Z可以算是越来越便宜了
看得头痛
nickelv 发表于 2010-8-3 21:58


    不危险,IBM在云计算方面投入同样不小。 偶们这边的lab明显偏向云计算
云计算是集中式的, 网格才是分布式的