SW1的论文

来源:百度文库 编辑:超级军网 时间:2024/04/30 17:52:29


指令级乱序执行技术的论文:单线程中:用无限多资源开发的IPC是7,用大量资源开发的IPC是4

指令级乱序执行技术的论文:单线程中:用无限多资源开发的IPC是7,用大量资源开发的IPC是4
安腾的频率上不去是有原因的


有关核心部分晶体管数量(还有物理寄存器  L1的TLB等等就没列出来)

有关核心部分晶体管数量(还有物理寄存器  L1的TLB等等就没列出来)


SW1只是3发射处理器,SW1的描述可以看出所谓山寨alpha 21264是有点牵强,SW2就不清楚了,也许进步到4发射吧。还有就是issue window的数量比较重要

SW1只是3发射处理器,SW1的描述可以看出所谓山寨alpha 21264是有点牵强,SW2就不清楚了,也许进步到4发射吧。还有就是issue window的数量比较重要
power5的20项GCT是整数发射队列?浮点发射队列FPQ  24项(issue window),寄存器整数浮点各120项,控制寄存器40项,重命名寄存器120项,TLB是1024项(怎么映射不清楚),访存缓冲读写各32项。alpha 21264的物理寄存器是整数两个80项,浮点72项,TLB 128项,访存缓冲读写各32项。龙芯2的TLB是64项数据+16项指令。

看来龙芯的硬件资源需要增加了,资源太少鸟。
花落庭院1 发表于 2013-4-4 16:12
power5的20项GCT是整数发射队列?浮点发射队列FPQ  24项(issue window),寄存器整数浮点各120项,控制寄存器 ...
增加这些可能比较费晶体管。
deam 发表于 2013-4-4 17:54
增加这些可能比较费晶体管。

不需要多少晶体管,SW1的论文已经说了,影响频率 功耗和面积会比较大。设计上复杂,所以工程量很大,需要的高水平设计师比较多
花落庭院1 发表于 2013-4-4 18:19
不需要多少晶体管,SW1的论文已经说了,影响频率 功耗和面积会比较大。设计上复杂,所以工程量很大,需 ...
所以受工艺限制很大。哦那这就和Anandtech的结论一致了。

deam 发表于 2013-4-4 18:30
所以受工艺限制很大。哦那这就和Anandtech的结论一致了。


恩,我这段时间翻了一些资料。INTEL等大厂商的CPU一直在微结构上改进,一边设计多核。龙芯的单核微结构硬件资源没变,就是说微结构基本没有进步,一直忙于设计多核CPU。
deam 发表于 2013-4-4 18:30
所以受工艺限制很大。哦那这就和Anandtech的结论一致了。


恩,我这段时间翻了一些资料。INTEL等大厂商的CPU一直在微结构上改进,一边设计多核。龙芯的单核微结构硬件资源没变,就是说微结构基本没有进步,一直忙于设计多核CPU。
花落庭院1 发表于 2013-4-4 18:42
恩,我这段时间翻了一些资料。INTEL等大厂商的CPU一直在微结构上改进,一边设计多核。龙芯的单核微结构 ...
多核架构也算微架构啊。

deam 发表于 2013-4-4 18:47
多核架构也算微架构啊。


我指传统的单处理器微结构  (看INTEL的架构命名)
deam 发表于 2013-4-4 18:47
多核架构也算微架构啊。


我指传统的单处理器微结构  (看INTEL的架构命名)
看看K8和酷睿的硬件资源:issue window的数量K8也是整数浮点分开,这个不如酷睿的整体issue window (图中的scheduling) 酷睿的整体保留站,就是risc所谓的发射队列,比K8的浮点整数分开复杂,性能更好。
比较重要的硬件资源是:issue window(scheduling)  ROB(Reoder buffer) 和rename registers(酷睿的数量是96,酷睿没有物理寄存器,所以用ROB重命名)
2013-4-5 12:37 上传

deam 发表于 2013-4-5 12:37
补个图

你这个图除了haswell的硬件资源,其它的东西我都给出了,out of order window 就是ROB,in flight loads是load buffer(读缓冲队列)
花落庭院1 发表于 2013-4-5 12:45
你这个图除了haswell的硬件资源,其它的东西我都给出了,out of order window 就是ROB,in flight load ...
allocation queue不知是啥东西。

deam 发表于 2013-4-5 12:49
allocation queue不知是啥东西。


装载微指令的,关键还是issue window(这里的scheduler entries)SNB是54  haswell是60项,都是统一发射队列。GS464的是整数浮点各16项。INTEL的这个东西太大了,从这里硬件资源看P4其实还不错,就是流水线太长,分支错误的硬件开销太大导致效率悲剧
deam 发表于 2013-4-5 12:49
allocation queue不知是啥东西。


装载微指令的,关键还是issue window(这里的scheduler entries)SNB是54  haswell是60项,都是统一发射队列。GS464的是整数浮点各16项。INTEL的这个东西太大了,从这里硬件资源看P4其实还不错,就是流水线太长,分支错误的硬件开销太大导致效率悲剧
power 7处理器的微结构:包括48项统一发射队列(issue queue),80项重命名寄存器,112项GPR  56个CR 40个XER  20个FPSCR  172X2项的FPR,从power 4power5继承和改进。