让我们看看INTEL处理器架构改进下单核SPEC分数进步

来源:百度文库 编辑:超级军网 时间:2024/04/27 22:32:19
我们可以了解到,单核性能进步包括频率提高和乱序架构效率改进的提高,因为现在频率增加缓慢甚至原地踏步,所以就单独讨论一下乱序架构改进SPEC分数可以提高多少:
以INTEL的酷睿系列分析,单核SPEC性能测试架构改进有两个提高途径,指令并行,就是提高IPC,数据并行(向量指令,增加指令宽度)我给了power 7和SNB的整数SPEC和SPEC rate 2006测试比较图:SNB的整数指令没有向量化,IBM的power 7整数指令向量化,假如SPEC测试向量指令有明显效果,power 7在核心数量跟SNB相同线程数量更大,而且频率占较大优势情况下,分数就不应该落后SNB处理器,所以SPEC测试单核和多核基本可以排除向量指令对分数的影响。我们可以了解到,单核性能进步包括频率提高和乱序架构效率改进的提高,因为现在频率增加缓慢甚至原地踏步,所以就单独讨论一下乱序架构改进SPEC分数可以提高多少:
以INTEL的酷睿系列分析,单核SPEC性能测试架构改进有两个提高途径,指令并行,就是提高IPC,数据并行(向量指令,增加指令宽度)我给了power 7和SNB的整数SPEC和SPEC rate 2006测试比较图:SNB的整数指令没有向量化,IBM的power 7整数指令向量化,假如SPEC测试向量指令有明显效果,power 7在核心数量跟SNB相同线程数量更大,而且频率占较大优势情况下,分数就不应该落后SNB处理器,所以SPEC测试单核和多核基本可以排除向量指令对分数的影响。
那就只有IPC对SPEC的单核测试有影响了,我另外给了两张图,是酷睿处理器的IPC,酷睿和SNB系列理想IPC是2,就是说无论单独测试浮点或者单独测试整数理想IPC都是2,(这个从酷睿IPC的图可以看出,IPC的X轴座标的最大值是2,说明理想最大值是2,IPC不可能超过2了,理由就是CPU每周期只能发射2条浮点或者整数计算指令给两个整数或者浮点计算单元)酷睿的平均IPC是SPEC 2000是1.1,SPEC 2006是0.97.酷睿到SNB经过了两次架构改进,因为SPEC 2000和2006的平均IPC已经到了1,酷睿E 6400的SPEC 2006的单核成绩是多少呢?我查了一下测试环境一样的SPEC网站分数是13分,IPC是1,那么我找了一个SNB双核处理器core i3 2100频率3.1G,算SPEC分数性能增加,SNB达到IPC=2,分数应该是37.8(单核测试可能达到的最高分数)酷睿我找了3G的E6850,没有并行的单核分数是19.6,可以看出SNB就是达到了理想IPC,架构改进也只有提高87%,但是可能吗?显然是不可能的,两代改进不可能87%,那每代改进70%或者40%?这个就更荒唐了。某人过去曾经给过一个两代改进35~38%,这个数据还算靠谱,改进达到38%,就是SPEC 2006平均IPC达到1.4,SPEC 2000平均IPC达到1.5.当然这个平均IPC还可以提高,但是估计代价很大。。。。。。


说完了架构改进,再看看编译器的进步,假如SNB的SPEC 2006的IPC是1.4,
还要补充一点:2007年后,编译器测试没有并行单线程还有一次进步,提升了接近20%,我这里没有算进去,算进去corei3  和酷睿E6850都有一次提升。
那么core i3 2100没有并行的测试分数应该在28.5分左右,如图单核测试并行分数是48.9,并行后提高了72%,这个是后期的编译器并行效果,在看看E6850的,如图并行后分数20.6比没有并行测试分数19.6提高了5%,编译器改进效果巨大,所以这个分数不是架构改进结果,是编译器并行改进后的效果。某人用48.9比20.6的结果反复堆数据说,架构改进突飞猛进,跟编译器改进没有关系。哈哈哈哈,可笑!

说完了架构改进,再看看编译器的进步,假如SNB的SPEC 2006的IPC是1.4,
还要补充一点:2007年后,编译器测试没有并行单线程还有一次进步,提升了接近20%,我这里没有算进去,算进去corei3  和酷睿E6850都有一次提升。
那么core i3 2100没有并行的测试分数应该在28.5分左右,如图单核测试并行分数是48.9,并行后提高了72%,这个是后期的编译器并行效果,在看看E6850的,如图并行后分数20.6比没有并行测试分数19.6提高了5%,编译器改进效果巨大,所以这个分数不是架构改进结果,是编译器并行改进后的效果。某人用48.9比20.6的结果反复堆数据说,架构改进突飞猛进,跟编译器改进没有关系。哈哈哈哈,可笑!
某人有堆数据的毛病,隔几个月反复堆这几个数据,反复说明老胡架构改进言论是胡说八道。今天发这个帖子让大家笑笑。错误很多,有错误也没有关系,反正以后我也不扯CPU这个东西了。这个算扯CPU的最后帖子
在这个帖子里,再扯一下power 8的SPEC 如图:IBM指出single Thread比power 7增加1.6倍,(没有任何说明)如图:P7是2FXU指令 2FPU指令 2LSU指令 1CR指令 1BR指令 共8issue.一样可以认为P8有2LSU指令,1CR指令  1BR指令,剩下6条指令会是什么呢?2FXU  2FPU  2LU 6条指令,还是2FXU 4FPU 6条指令,还是4FXU  2FPU 6条指令?LU是什么功能单元?有中文媒体说明这个1.6X single Thread是最大性能,不是综合性能增长。这个是空穴来风吗?是中文媒体无知吗?从IPC角度看,还真不能这么说,因为P8不能照顾到每周期同时处理4条整数和4条浮点指令,甚至有可能就是每周期2条整数和浮点,而1.6X没有指出是整数还是浮点性能增加。就如我上面分析,SNB加上后面那次不并行编译器的进步,平均IPC接近1.7.除非承认P7的平均IPC远不如SNB,IBM这个P8综合性能比P7增加1.6倍才可相信,还有SMT也是挖单处理器IPC潜力的技术,那2X max SMT又是什么?P8的SPEC rate到900~1000分的基础是什么?由于没有P8的架构图,所以只有这样分析猜测,这种猜测也不靠谱。呵呵
当然有英文媒体透露12核P8是3.5G P7性能的2倍,3.55G的P7的SPEC rate,整数是290,浮点是250.这个消息是空穴来风吗?拭目以待
技术贴啊啊啊啊啊啊啊
又看见某宝吹power 8,一如N年前吹power 7,一楼已经看出,神一样的P 7整数SPEC 不如SNB,浮点SPEC比较其实跟SNB相当。再本帖5楼,其实P8只有2个整数运算单元,就是说P8的整数每周期可以执行两个整数指令,IPC最大=2,P8有4个浮点单元,基本就是跟P7一样,是128bit向量单元(扩展),IPC=2。上面说了单核的能力,SPEC  rate的测试还受多核架构影响(互联带宽和内存控制器),其实比较P7和SNB的spec rate,SNB和P7的互联影响SPEC rate分数的可能性很小,所以最大同是IPC=2的单核能力的P7  P8  SNB  haswell的SPEC rate有巨大差距吗?显然不可能,这是物理不可超越的问题。再分析单核硬件,分支预测效率各家差不多,那其他硬件呢,我给一个图,大概就清楚P 7  P8  SNB  haswell的区别:(某宝给出整数1100+,浮点750+,看笑话吧)
IVB的指令分配器是54   ,P8是64(都是整数浮点统一),再看看IVB12核的xeon  E5-2697V2(全核睿频3G)3G下的SPEC rate分数,基本可以参考:(浮点350,整数480)
某宝用CPW测试套SPEC  rate,查了一下:CPW是测试数据吞吐量的系统性能,测试单一,系统性能测试硬件包括CPU  内存  I/O三方面,SPEC硬件只测试CPU  内存,这个多了I/O的影响可以套SPEC测试吗?我还查了一个IBM的CPW测试图:(我画红线部分就是笑话了)在  P7在3.3G  8核情况下比P 6  5G  8核情况的SPEC rate整数浮点都低不少(查SPEC网站),SPEC分数5G的P6比3.3G的P7高不少,可是CPW  3.3G的P7是47800,5G的P6是41000,P7比P6高不少。这个CPW测试就代表了SPEC测试?还有高端的P7服务器3.8G比低端服务器3.55G的CPW竟然更低?(某宝既然不查CPW是什么就套SPEC是奇观,也许IBM的所谓性能增加3倍就是指这个CPW。IBM也是别出心裁的宣传)


某宝自竖靶子真是欢乐。INTEL和IBM都是大厂家,再技术没有理论突破前,基本就是IPC=2,挖这个2的潜力(当然是挖应用程序的IPC潜力,因为SPEC测试优化已经接近2了,很多应用程序的IPC非常低),我就等着看P8的单CPU的分数1100+和750+,或者900~1000.。。。。(单核能力是没希望了,就指望P7和SNB的互联严重影响了多核能力的发挥,然后P8互联巨NB,然后P8分数就一飞冲天)

某宝自竖靶子真是欢乐。INTEL和IBM都是大厂家,再技术没有理论突破前,基本就是IPC=2,挖这个2的潜力(当然是挖应用程序的IPC潜力,因为SPEC测试优化已经接近2了,很多应用程序的IPC非常低),我就等着看P8的单CPU的分数1100+和750+,或者900~1000.。。。。(单核能力是没希望了,就指望P7和SNB的互联严重影响了多核能力的发挥,然后P8互联巨NB,然后P8分数就一飞冲天)
i3-2100跑2copies 都有76分,然后你能算出跑1 copy只有28.5分……

所以说啥都没用,事实摆在那里都能歪曲成这样……
某人吹的龙芯是个啥分数,悲剧了,就跑来说人家IBM与INTEL不行,我看国内一辈子都不会出现单芯片比这两巨头更强的货色。
某宝自竖靶子真是欢乐。INTEL和IBM都是大厂家,再技术没有理论突破前,基本就是IPC=2,挖这个2的潜力(当然 ...
POWER7 can do up to 6 simple instructions per cycle, and up to 8 FP operations per cycle if running 4 fused multiply-adds.
http://www.theinquirer.net/inqui ... ower7-vs-nehalem-ex

欠打脸的二货
175799033 发表于 2013-12-3 08:57
某人吹的龙芯是个啥分数,悲剧了,就跑来说人家IBM与INTEL不行,我看国内一辈子都不会出现单 ...
呵呵,龙芯的分数差那里了?你就是那个吹KJ 500跟KJ 2000是一代的宝?三宝到齐了。一个数据帝,看不懂数据怎么来的。一个一代帝(KJ2000可以升级)。一个文献google帝。(可惜不知道文献写什么东西)
堕天之翼 发表于 2013-12-3 09:12
POWER7 can do up to 6 simple instructions per cycle, and up to 8 FP operations per cycle if runnin ...
http://lt.cjdby.net/thread-1735817-7-1.html
在这个帖子被抽了,还敢发这个帖子?4个浮点乘加操作是执行4个标量浮点指令?4 fused multiply-adds是2个向量浮点指令的东西,加到标量浮点指令上,你能看懂人家说什么吗?
http://lt.cjdby.net/thread-1735817-7-1.html
在这个帖子被抽了,还敢发这个帖子?4个浮点乘加操作是执 ...
4浮点乘加=8浮点操作,8 fp operations per cycle

看得懂么?二货
4 Double precision floating point, The 4 FPU pipelines can each execute double-precision multiply-add operations, accounting for 8 flops/cycle per core. 4 FP units combined into two 128-bit VSX (Vector/Scalar extension) units
1 Vector unit 128-bit VMX/AltiVec (Vector Multimedia Extension)
1 Branch
1 Condition register
1 Decimal floating point unit
http://www.7-cpu.com/cpu/Power7.html

睁大眼睛看看P7究竟有几个FPU,二货
堕天之翼 发表于 2013-12-3 10:57
4浮点乘加=8浮点操作,8 fp operations per cycle

看得懂么?二货
一个128bit向量指令是几个浮点乘加?2个是多少?你他妈的嘴巴干净点。一个什么都不懂的玩意,你装什么大神
搞了半天我明白了,某宝以为P7的浮点是标量浮点指令计算结果,不是向量浮点指令计算结果,以为执行标量浮点计算,全部4个浮点单元参与计算,所以是4指令/周期,果然是高端人才,google万岁。
还有测试SPEC   和SPEC rate标准和方法不同,SPEC有人竟然用rate/2?其实core i3 2100我算最大是37.8左右,当然由于不熟悉SPEC测试,不清楚这种算法是不是科学,但是IPC=2是一个绝对标准,(向量优化除外)。但是SPEC rate的分数我查过SPARC T5的,给一个图:8chip(平均377)比8倍的1chip(369)还高。。。。。这个SPEC  rate多chip还有加速问题?

花落庭院 发表于 2013-12-3 12:05
还有测试SPEC   和SPEC rate标准和方法不同,SPEC有人竟然用rate/2?其实core i3 2100我算最大是37.8左右, ...


有个哪门子不同,spec rate不就是多copies的spec而已。简单地说就是每个线程各跑一个spec测试集就是rate测试。结果双核CPU跑rate测试能比跑单线程测试快出将近两倍去,少年你很有想法。
花落庭院 发表于 2013-12-3 12:05
还有测试SPEC   和SPEC rate标准和方法不同,SPEC有人竟然用rate/2?其实core i3 2100我算最大是37.8左右, ...


有个哪门子不同,spec rate不就是多copies的spec而已。简单地说就是每个线程各跑一个spec测试集就是rate测试。结果双核CPU跑rate测试能比跑单线程测试快出将近两倍去,少年你很有想法。
deam 发表于 2013-12-3 12:08
有个哪门子不同,spec rate不就是多copies的spec而已。
呵呵,SPARC T58chip平均分数是377.5,单chip 是369是怎么回事?8chip性能是不能线性增加的,怎么分数线性超过了?
花落庭院 发表于 2013-12-3 12:13
呵呵,SPARC T58chip平均分数是377.5,单chip 是369是怎么回事?8chip性能是不能线性增加的,怎么分数线 ...
你知不知道但凡测试都存在个误差?光是一组数据拿来对比就开始大呼小叫了,少见多怪。
deam 发表于 2013-12-3 12:14
你知不知道但凡测试都存在个误差?光是一组数据拿来对比就开始大呼小叫了,少见多怪。
还有这样的误差?呵呵,高见
花落庭院 发表于 2013-12-3 12:16
还有这样的误差?呵呵,高见

我15年前头一次开始看杂质的系统性能评测文章的时候,当时的PC Computer在评测的时候都会强调凡是测试要三次取平均值,即使这样,两套系统分数差一两个百分点都可以看作是误差。

再说了,你能算出个双核比单核快160%以上,还在乎这百分之一二的差异?
一个双核U开个auto par跑spec测试分数能提高72%……也不知道rate测试干嘛用的。
deam 发表于 2013-12-3 12:19
我15年前头一次开始看杂质的系统性能评测文章的时候,当时的PC Computer在评测的时候都会强调凡是测试 ...
我不懂SPEC 测试和SPEC rate测试区别,我算的是用平均IPC是1算出最大分数是37.8左右(这里有一个问题,就是INTEL没有给出浮点性能的平均IPC,这里会出一些误差)就你给出测试单核并行和多核并行编译器调度和优化是一样的,你说你可以确定什么?你确定单核 多核测试标准和方法是一个东西?有IPC=2这个东西,你想翻什么,架构革命?
花落庭院 发表于 2013-12-3 12:29
我不懂SPEC 测试和SPEC rate测试区别,我算的是用平均IPC是1算出最大分数是37.8左右(这里有一个问题,就 ...
扯去吧你,谁告诉你spec只对ipc敏感的。拿Power和SNB对比来证明向量扩展在SPEC测试中毫无影响?搞笑不是这么个法子的。
deam 发表于 2013-12-3 12:24
一个双核U开个auto par跑spec测试分数能提高72%……也不知道rate测试干嘛用的。
最大IPC是2,酷睿的平均IPC是1,当然后面酷睿有一个SPEC分数提高(编译器改进),就算酷睿改进编译器分数IPC是1.15,(SNB的是1.15X1.38=1.59)你说你的架构还有多少折腾空间?
deam 发表于 2013-12-3 12:34
扯去吧你,谁告诉你spec只对ipc敏感的。拿Power和SNB对比来证明向量扩展在SPEC测试中毫无影响?搞笑不是 ...
呵呵,原来向量扩展也有影响,原来SPEC 2000分数SNB比酷睿增加38%还有向量的功劳,你早说呀,那除去向量改进,所谓单核的架构改进效果更小了。(有10%吗?)谢谢你
花落庭院 发表于 2013-12-3 12:34
最大IPC是2,酷睿的平均IPC是1,当然后面酷睿有一个SPEC分数提高(编译器改进),就算酷睿改进编译器分数 ...
你自己想象出来的“向量扩展对spec分数无影响”不要套到现实中去。
花落庭院 发表于 2013-12-3 12:37
呵呵,原来向量扩展也有影响,原来SPEC 2000分数SNB比酷睿增加38%还有向量的功劳,你早说呀,那除去向量 ...
i3 2120的rate分数76,单核心至少也有38。和那个20.6相比,刨去频率差距增幅至少8成。

当然你是拒绝接受这对你来说太过残酷的现实的。
deam 发表于 2013-12-3 12:37
你自己想象出来的“向量扩展对spec分数无影响”不要套到现实中去。
谢谢了,向量有足够NB的编译器浮点性能肯定大幅增加,所以龙芯3B前途无量,而且向量在SPEC测试中还能表现出来,向量可是4倍于标量的计算能力,怎么编译器还才开发向量计算能力的2%?所以SPEC分数的增加不给力
花落庭院 发表于 2013-12-3 12:42
谢谢了,向量有足够NB的编译器浮点性能肯定大幅增加,所以龙芯3B前途无量,而且向量在SPEC测试中还能表现 ...
估计在你眼里“有影响”就等于“肯定大幅增加”,如果不是“大幅增加”就是“毫无影响”。所以说和中学语文都没学好的人说话特别费力。
deam 发表于 2013-12-3 12:40
i3 2120的rate分数76,单核心至少也有38。和那个20.6相比,刨去频率差距增幅至少8成。

当然你是拒绝接 ...
我已经告诉你了:我认为rate测试不同于SPEC测试,再2100的分数我给的是28.5左右,(那个帖子我说明了还没包括一次编译器改进的增加)增加算进去在32~33之间。别篡改人家的数据,谢谢
花落庭院 发表于 2013-12-3 10:26
呵呵,龙芯的分数差那里了?你就是那个吹KJ 500跟KJ 2000是一代的宝?三宝到齐了。一个数据帝,看不懂数 ...
我什么时候说过KJ500与KJ2000是一代的,你这个宝,不明白我说的是什么吗??我是说KJ500的东西一样的可以在KJ2000上进行升级,KJ500对KJ2000构不成任何的威胁。

龙芯那屎一样的跑分值,也好与INTEL与IBM比吗??胡大嘴自己也只能重新开始设计新核了,下次吹的时候好生点。
花落庭院 发表于 2013-12-3 12:47
我已经告诉你了:我认为rate测试不同于SPEC测试,再2100的分数我给的是28.5左右,(那个帖子我说明了还没 ...
“你认为”顶个毛用?哦你认为了就是事实了?你这人有心想事成的能力是吧?那你赶紧认为龙芯君临天下一统江湖啊,胡伟武不得拜你为师?
175799033 发表于 2013-12-3 12:48
我什么时候说过KJ500与KJ2000是一代的,你这个宝,不明白我说的是什么吗??我是说KJ500的东西一样的可以 ...
你不是升级帝?我说错了?改进单核是在这个龙芯架构基础上堆积木,你知道现在龙芯的基础硬件是多少吗?INTEL和IBM一直改进就是重新设计新核?就你这个水平,你还在CD扯淡。。。。。
deam 发表于 2013-12-3 12:49
“你认为”顶个毛用?哦你认为了就是事实了?你这人有心想事成的能力是吧?那你赶紧认为龙芯君临天下一统 ...
你认为顶毛用了?你出的洋相少吗?就你这个脸皮,啧啧。。。。又NX架构不是WR架构了,是CL架构?