让我们看看INTEL处理器架构改进下单核SPEC分数进步

来源：百度文库编辑：超级军网时间：2024/04/27 22:32:19

我们可以了解到，单核性能进步包括频率提高和乱序架构效率改进的提高，因为现在频率增加缓慢甚至原地踏步，所以就单独讨论一下乱序架构改进SPEC分数可以提高多少：
以INTEL的酷睿系列分析，单核SPEC性能测试架构改进有两个提高途径，指令并行，就是提高IPC，数据并行（向量指令，增加指令宽度）我给了power 7和SNB的整数SPEC和SPEC rate 2006测试比较图：SNB的整数指令没有向量化，IBM的power 7整数指令向量化，假如SPEC测试向量指令有明显效果，power 7在核心数量跟SNB相同线程数量更大，而且频率占较大优势情况下，分数就不应该落后SNB处理器，所以SPEC测试单核和多核基本可以排除向量指令对分数的影响。我们可以了解到，单核性能进步包括频率提高和乱序架构效率改进的提高，因为现在频率增加缓慢甚至原地踏步，所以就单独讨论一下乱序架构改进SPEC分数可以提高多少：
以INTEL的酷睿系列分析，单核SPEC性能测试架构改进有两个提高途径，指令并行，就是提高IPC，数据并行（向量指令，增加指令宽度）我给了power 7和SNB的整数SPEC和SPEC rate 2006测试比较图：SNB的整数指令没有向量化，IBM的power 7整数指令向量化，假如SPEC测试向量指令有明显效果，power 7在核心数量跟SNB相同线程数量更大，而且频率占较大优势情况下，分数就不应该落后SNB处理器，所以SPEC测试单核和多核基本可以排除向量指令对分数的影响。

那就只有IPC对SPEC的单核测试有影响了，我另外给了两张图，是酷睿处理器的IPC，酷睿和SNB系列理想IPC是2，就是说无论单独测试浮点或者单独测试整数理想IPC都是2，（这个从酷睿IPC的图可以看出，IPC的X轴座标的最大值是2，说明理想最大值是2，IPC不可能超过2了，理由就是CPU每周期只能发射2条浮点或者整数计算指令给两个整数或者浮点计算单元）酷睿的平均IPC是SPEC 2000是1.1，SPEC 2006是0.97.酷睿到SNB经过了两次架构改进，因为SPEC 2000和2006的平均IPC已经到了1，酷睿E 6400的SPEC 2006的单核成绩是多少呢？我查了一下测试环境一样的SPEC网站分数是13分，IPC是1，那么我找了一个SNB双核处理器core i3 2100频率3.1G，算SPEC分数性能增加，SNB达到IPC=2，分数应该是37.8（单核测试可能达到的最高分数）酷睿我找了3G的E6850，没有并行的单核分数是19.6，可以看出SNB就是达到了理想IPC，架构改进也只有提高87%，但是可能吗？显然是不可能的，两代改进不可能87%，那每代改进70%或者40%？这个就更荒唐了。某人过去曾经给过一个两代改进35～38%，这个数据还算靠谱，改进达到38%，就是SPEC 2006平均IPC达到1.4，SPEC 2000平均IPC达到1.5.当然这个平均IPC还可以提高，但是估计代价很大。。。。。。

说完了架构改进，再看看编译器的进步，假如SNB的SPEC 2006的IPC是1.4，

还要补充一点：2007年后，编译器测试没有并行单线程还有一次进步，提升了接近20%，我这里没有算进去，算进去corei3 和酷睿E6850都有一次提升。

那么core i3 2100没有并行的测试分数应该在28.5分左右，如图单核测试并行分数是48.9，并行后提高了72%，这个是后期的编译器并行效果，在看看E6850的，如图并行后分数20.6比没有并行测试分数19.6提高了5%，编译器改进效果巨大，所以这个分数不是架构改进结果，是编译器并行改进后的效果。某人用48.9比20.6的结果反复堆数据说，架构改进突飞猛进，跟编译器改进没有关系。哈哈哈哈，可笑！

说完了架构改进，再看看编译器的进步，假如SNB的SPEC 2006的IPC是1.4，

还要补充一点：2007年后，编译器测试没有并行单线程还有一次进步，提升了接近20%，我这里没有算进去，算进去corei3 和酷睿E6850都有一次提升。

某人有堆数据的毛病，隔几个月反复堆这几个数据，反复说明老胡架构改进言论是胡说八道。今天发这个帖子让大家笑笑。错误很多，有错误也没有关系，反正以后我也不扯CPU这个东西了。这个算扯CPU的最后帖子

在这个帖子里，再扯一下power 8的SPEC 如图：IBM指出single Thread比power 7增加1.6倍，（没有任何说明）如图：P7是2FXU指令 2FPU指令 2LSU指令 1CR指令 1BR指令共8issue.一样可以认为P8有2LSU指令，1CR指令 1BR指令，剩下6条指令会是什么呢？2FXU 2FPU 2LU 6条指令，还是2FXU 4FPU 6条指令，还是4FXU 2FPU 6条指令？LU是什么功能单元？有中文媒体说明这个1.6X single Thread是最大性能，不是综合性能增长。这个是空穴来风吗？是中文媒体无知吗？从IPC角度看，还真不能这么说，因为P8不能照顾到每周期同时处理4条整数和4条浮点指令，甚至有可能就是每周期2条整数和浮点，而1.6X没有指出是整数还是浮点性能增加。就如我上面分析，SNB加上后面那次不并行编译器的进步，平均IPC接近1.7.除非承认P7的平均IPC远不如SNB，IBM这个P8综合性能比P7增加1.6倍才可相信，还有SMT也是挖单处理器IPC潜力的技术，那2X max SMT又是什么?P8的SPEC rate到900～1000分的基础是什么？由于没有P8的架构图，所以只有这样分析猜测，这种猜测也不靠谱。呵呵

当然有英文媒体透露12核P8是3.5G P7性能的2倍，3.55G的P7的SPEC rate，整数是290，浮点是250.这个消息是空穴来风吗？拭目以待

技术贴啊啊啊啊啊啊啊

又看见某宝吹power 8，一如N年前吹power 7，一楼已经看出，神一样的P 7整数SPEC 不如SNB，浮点SPEC比较其实跟SNB相当。再本帖5楼，其实P8只有2个整数运算单元，就是说P8的整数每周期可以执行两个整数指令，IPC最大=2，P8有4个浮点单元，基本就是跟P7一样，是128bit向量单元（扩展），IPC=2。上面说了单核的能力，SPEC rate的测试还受多核架构影响（互联带宽和内存控制器），其实比较P7和SNB的spec rate，SNB和P7的互联影响SPEC rate分数的可能性很小，所以最大同是IPC=2的单核能力的P7 P8 SNB haswell的SPEC rate有巨大差距吗？显然不可能，这是物理不可超越的问题。再分析单核硬件，分支预测效率各家差不多，那其他硬件呢，我给一个图，大概就清楚P 7 P8 SNB haswell的区别：（某宝给出整数1100+，浮点750+，看笑话吧）

IVB的指令分配器是54 ，P8是64（都是整数浮点统一），再看看IVB12核的xeon E5-2697V2(全核睿频3G）3G下的SPEC rate分数，基本可以参考：（浮点350，整数480）

某宝用CPW测试套SPEC rate，查了一下：CPW是测试数据吞吐量的系统性能，测试单一，系统性能测试硬件包括CPU 内存 I/O三方面，SPEC硬件只测试CPU 内存，这个多了I/O的影响可以套SPEC测试吗？我还查了一个IBM的CPW测试图：（我画红线部分就是笑话了）在 P7在3.3G 8核情况下比P 6 5G 8核情况的SPEC rate整数浮点都低不少（查SPEC网站），SPEC分数5G的P6比3.3G的P7高不少，可是CPW 3.3G的P7是47800，5G的P6是41000，P7比P6高不少。这个CPW测试就代表了SPEC测试？还有高端的P7服务器3.8G比低端服务器3.55G的CPW竟然更低？（某宝既然不查CPW是什么就套SPEC是奇观，也许IBM的所谓性能增加3倍就是指这个CPW。IBM也是别出心裁的宣传）

某宝自竖靶子真是欢乐。INTEL和IBM都是大厂家，再技术没有理论突破前，基本就是IPC=2，挖这个2的潜力（当然是挖应用程序的IPC潜力，因为SPEC测试优化已经接近2了，很多应用程序的IPC非常低），我就等着看P8的单CPU的分数1100+和750+，或者900～1000.。。。。（单核能力是没希望了，就指望P7和SNB的互联严重影响了多核能力的发挥，然后P8互联巨NB，然后P8分数就一飞冲天）

某宝自竖靶子真是欢乐。INTEL和IBM都是大厂家，再技术没有理论突破前，基本就是IPC=2，挖这个2的潜力（当然是挖应用程序的IPC潜力，因为SPEC测试优化已经接近2了，很多应用程序的IPC非常低），我就等着看P8的单CPU的分数1100+和750+，或者900～1000.。。。。（单核能力是没希望了，就指望P7和SNB的互联严重影响了多核能力的发挥，然后P8互联巨NB，然后P8分数就一飞冲天）

i3-2100跑2copies 都有76分，然后你能算出跑1 copy只有28.5分……

所以说啥都没用，事实摆在那里都能歪曲成这样……

某人吹的龙芯是个啥分数，悲剧了，就跑来说人家IBM与INTEL不行，我看国内一辈子都不会出现单芯片比这两巨头更强的货色。

某宝自竖靶子真是欢乐。INTEL和IBM都是大厂家，再技术没有理论突破前，基本就是IPC=2，挖这个2的潜力（当然 ...
POWER7 can do up to 6 simple instructions per cycle, and up to 8 FP operations per cycle if running 4 fused multiply-adds.
http://www.theinquirer.net/inqui ... ower7-vs-nehalem-ex

欠打脸的二货

175799033 发表于 2013-12-3 08:57
某人吹的龙芯是个啥分数，悲剧了，就跑来说人家IBM与INTEL不行，我看国内一辈子都不会出现单 ...
呵呵，龙芯的分数差那里了？你就是那个吹KJ 500跟KJ 2000是一代的宝？三宝到齐了。一个数据帝，看不懂数据怎么来的。一个一代帝（KJ2000可以升级）。一个文献google帝。（可惜不知道文献写什么东西）

堕天之翼发表于 2013-12-3 09:12
POWER7 can do up to 6 simple instructions per cycle, and up to 8 FP operations per cycle if runnin ...
http://lt.cjdby.net/thread-1735817-7-1.html
在这个帖子被抽了，还敢发这个帖子？4个浮点乘加操作是执行4个标量浮点指令？4 fused multiply-adds是2个向量浮点指令的东西，加到标量浮点指令上，你能看懂人家说什么吗？

http://lt.cjdby.net/thread-1735817-7-1.html
在这个帖子被抽了，还敢发这个帖子？4个浮点乘加操作是执 ...
4浮点乘加=8浮点操作,8 fp operations per cycle

看得懂么？二货

4 Double precision floating point, The 4 FPU pipelines can each execute double-precision multiply-add operations, accounting for 8 flops/cycle per core. 4 FP units combined into two 128-bit VSX (Vector/Scalar extension) units
1 Vector unit 128-bit VMX/AltiVec (Vector Multimedia Extension)
1 Branch
1 Condition register
1 Decimal floating point unit
http://www.7-cpu.com/cpu/Power7.html

睁大眼睛看看P7究竟有几个FPU，二货

堕天之翼发表于 2013-12-3 10:57
4浮点乘加=8浮点操作,8 fp operations per cycle

看得懂么？二货
一个128bit向量指令是几个浮点乘加？2个是多少？你他妈的嘴巴干净点。一个什么都不懂的玩意，你装什么大神

搞了半天我明白了，某宝以为P7的浮点是标量浮点指令计算结果，不是向量浮点指令计算结果，以为执行标量浮点计算，全部4个浮点单元参与计算，所以是4指令/周期

，果然是高端人才，google万岁。

还有测试SPEC 和SPEC rate标准和方法不同，SPEC有人竟然用rate/2？其实core i3 2100我算最大是37.8左右，当然由于不熟悉SPEC测试，不清楚这种算法是不是科学，但是IPC=2是一个绝对标准，（向量优化除外）。但是SPEC rate的分数我查过SPARC T5的，给一个图：8chip(平均377）比8倍的1chip(369)还高。。。。。这个SPEC rate多chip还有加速问题?

花落庭院发表于 2013-12-3 12:05
还有测试SPEC 和SPEC rate标准和方法不同，SPEC有人竟然用rate/2？其实core i3 2100我算最大是37.8左右， ...

有个哪门子不同，spec rate不就是多copies的spec而已。简单地说就是每个线程各跑一个spec测试集就是rate测试。结果双核CPU跑rate测试能比跑单线程测试快出将近两倍去，少年你很有想法。

花落庭院发表于 2013-12-3 12:05
还有测试SPEC 和SPEC rate标准和方法不同，SPEC有人竟然用rate/2？其实core i3 2100我算最大是37.8左右， ...

deam 发表于 2013-12-3 12:08
有个哪门子不同，spec rate不就是多copies的spec而已。
呵呵，SPARC T58chip平均分数是377.5，单chip 是369是怎么回事？8chip性能是不能线性增加的，怎么分数线性超过了？

花落庭院发表于 2013-12-3 12:13
呵呵，SPARC T58chip平均分数是377.5，单chip 是369是怎么回事？8chip性能是不能线性增加的，怎么分数线 ...
你知不知道但凡测试都存在个误差？光是一组数据拿来对比就开始大呼小叫了，少见多怪。

deam 发表于 2013-12-3 12:14
你知不知道但凡测试都存在个误差？光是一组数据拿来对比就开始大呼小叫了，少见多怪。
还有这样的误差？呵呵，高见

花落庭院发表于 2013-12-3 12:16
还有这样的误差？呵呵，高见

我15年前头一次开始看杂质的系统性能评测文章的时候，当时的PC Computer在评测的时候都会强调凡是测试要三次取平均值，即使这样，两套系统分数差一两个百分点都可以看作是误差。

再说了，你能算出个双核比单核快160%以上，还在乎这百分之一二的差异？

一个双核U开个auto par跑spec测试分数能提高72%……也不知道rate测试干嘛用的。

deam 发表于 2013-12-3 12:19
我15年前头一次开始看杂质的系统性能评测文章的时候，当时的PC Computer在评测的时候都会强调凡是测试 ...
我不懂SPEC 测试和SPEC rate测试区别，我算的是用平均IPC是1算出最大分数是37.8左右（这里有一个问题，就是INTEL没有给出浮点性能的平均IPC，这里会出一些误差）就你给出测试单核并行和多核并行编译器调度和优化是一样的，你说你可以确定什么？你确定单核多核测试标准和方法是一个东西？有IPC=2这个东西，你想翻什么，架构革命？

花落庭院发表于 2013-12-3 12:29
我不懂SPEC 测试和SPEC rate测试区别，我算的是用平均IPC是1算出最大分数是37.8左右（这里有一个问题，就 ...
扯去吧你，谁告诉你spec只对ipc敏感的。拿Power和SNB对比来证明向量扩展在SPEC测试中毫无影响？搞笑不是这么个法子的。

deam 发表于 2013-12-3 12:24
一个双核U开个auto par跑spec测试分数能提高72%……也不知道rate测试干嘛用的。
最大IPC是2，酷睿的平均IPC是1，当然后面酷睿有一个SPEC分数提高（编译器改进），就算酷睿改进编译器分数IPC是1.15，（SNB的是1.15X1.38=1.59）你说你的架构还有多少折腾空间？

deam 发表于 2013-12-3 12:34
扯去吧你，谁告诉你spec只对ipc敏感的。拿Power和SNB对比来证明向量扩展在SPEC测试中毫无影响？搞笑不是 ...
呵呵，原来向量扩展也有影响，原来SPEC 2000分数SNB比酷睿增加38%还有向量的功劳，你早说呀，那除去向量改进，所谓单核的架构改进效果更小了。（有10%吗？）谢谢你

花落庭院发表于 2013-12-3 12:34
最大IPC是2，酷睿的平均IPC是1，当然后面酷睿有一个SPEC分数提高（编译器改进），就算酷睿改进编译器分数 ...
你自己想象出来的“向量扩展对spec分数无影响”不要套到现实中去。

花落庭院发表于 2013-12-3 12:37
呵呵，原来向量扩展也有影响，原来SPEC 2000分数SNB比酷睿增加38%还有向量的功劳，你早说呀，那除去向量 ...
i3 2120的rate分数76，单核心至少也有38。和那个20.6相比，刨去频率差距增幅至少8成。

当然你是拒绝接受这对你来说太过残酷的现实的。

deam 发表于 2013-12-3 12:37
你自己想象出来的“向量扩展对spec分数无影响”不要套到现实中去。
谢谢了，向量有足够NB的编译器浮点性能肯定大幅增加，所以龙芯3B前途无量，而且向量在SPEC测试中还能表现出来，向量可是4倍于标量的计算能力，怎么编译器还才开发向量计算能力的2%？所以SPEC分数的增加不给力

花落庭院发表于 2013-12-3 12:42
谢谢了，向量有足够NB的编译器浮点性能肯定大幅增加，所以龙芯3B前途无量，而且向量在SPEC测试中还能表现 ...
估计在你眼里“有影响”就等于“肯定大幅增加”，如果不是“大幅增加”就是“毫无影响”。所以说和中学语文都没学好的人说话特别费力。

deam 发表于 2013-12-3 12:40
i3 2120的rate分数76，单核心至少也有38。和那个20.6相比，刨去频率差距增幅至少8成。

当然你是拒绝接 ...
我已经告诉你了：我认为rate测试不同于SPEC测试，再2100的分数我给的是28.5左右，（那个帖子我说明了还没包括一次编译器改进的增加）增加算进去在32～33之间。别篡改人家的数据，谢谢

花落庭院发表于 2013-12-3 10:26
呵呵，龙芯的分数差那里了？你就是那个吹KJ 500跟KJ 2000是一代的宝？三宝到齐了。一个数据帝，看不懂数 ...
我什么时候说过KJ500与KJ2000是一代的，你这个宝，不明白我说的是什么吗？？我是说KJ500的东西一样的可以在KJ2000上进行升级，KJ500对KJ2000构不成任何的威胁。

龙芯那屎一样的跑分值，也好与INTEL与IBM比吗？？胡大嘴自己也只能重新开始设计新核了，下次吹的时候好生点。

花落庭院发表于 2013-12-3 12:47
我已经告诉你了：我认为rate测试不同于SPEC测试，再2100的分数我给的是28.5左右，（那个帖子我说明了还没 ...
“你认为”顶个毛用？哦你认为了就是事实了？你这人有心想事成的能力是吧？那你赶紧认为龙芯君临天下一统江湖啊，胡伟武不得拜你为师？

175799033 发表于 2013-12-3 12:48
我什么时候说过KJ500与KJ2000是一代的，你这个宝，不明白我说的是什么吗？？我是说KJ500的东西一样的可以 ...
你不是升级帝？我说错了？改进单核是在这个龙芯架构基础上堆积木，你知道现在龙芯的基础硬件是多少吗？INTEL和IBM一直改进就是重新设计新核？就你这个水平，你还在CD扯淡。。。。。

deam 发表于 2013-12-3 12:49
“你认为”顶个毛用？哦你认为了就是事实了？你这人有心想事成的能力是吧？那你赶紧认为龙芯君临天下一统 ...
你认为顶毛用了？你出的洋相少吗？就你这个脸皮，啧啧。。。。又NX架构不是WR架构了，是CL架构？

让我们看看INTEL处理器架构改进下单核SPEC分数进步 Intel的高端处理器 A15什么的都弱爆了！看看ARM全新架构的64位A50处理器！ Intel下代处理器真身首曝光，科技以换接口为本！！！！ ... intel牛逼了，干嘛F-22不用Intel处理器 Intel处理器被曝“后门”：简直太惊悚 Intel四核心处理器将力战AMD流处理器华为A15架构海思八核处理器曝光 ARM新微架构处理器 cortex- A72 全新龙芯架构完全曝光！追赶Intel Ivy Bridge 华为资助的计算所研制的ARM处理器简介：首款单核4线程64 ... 请问IBM的power处理器是不是比Intel的安腾强?