申威1621处理器性能参数

来源:百度文库 编辑:超级军网 时间:2024/04/28 00:17:32
http://epaper.cio360.net/zgjsjb/html/2016-07/18/content_94647.htm
                                    申威1621            
内核                 第三代"申威64"内核                 

内核数                            16                     

主频                          2.0GHz            
双精度浮点峰值          5120亿次/秒         
整数峰值                2880亿次/秒         
典型运行功耗          90瓦(热设计功耗)      

用途                 HPC与中高端服务器   
http://epaper.cio360.net/zgjsjb/html/2016-07/18/content_94647.htm
                                    申威1621            
内核                 第三代"申威64"内核                 

内核数                            16                     

主频                          2.0GHz            
双精度浮点峰值          5120亿次/秒         
整数峰值                2880亿次/秒         
典型运行功耗          90瓦(热设计功耗)      

用途                 HPC与中高端服务器   


申威1621处理器单核性能相比申威411会有大幅提升,已经不是某人口中低频E3的水平所能比的了

申威1621处理器单核性能相比申威411会有大幅提升,已经不是某人口中低频E3的水平所能比的了
感觉好不严谨,内核那个地方是写错了,还是?另外,楼主从哪里看出来单核性能大幅度提升的?
wlm2012 发表于 2016-7-22 00:49
感觉好不严谨,内核那个地方是写错了,还是?另外,楼主从哪里看出来单核性能大幅度提升的?

主频提升,微结构小改,性能优化,用上了环形总线,内存带宽也会提升,这些措施加起来难道不能大幅度提升单核性能吗
主频提升,微结构小改,性能优化,用上了环形总线,内存带宽也会提升,这些措施加起来难道不能大幅度提 ...
不清楚。。。我还以为你是从原文看出来的。。。这篇报道靠谱么?sw1621今年下半年量产?感觉好晚。
现在看来申威1621单核性能至少不会低于龙3A3000的单核性能了
EKW 发表于 2016-7-22 13:55
现在看来申威1621单核性能至少不会低于龙3A3000的单核性能了
以前有一个关于申威的文档说了
        1600/400是申威64第二代微结构,而1610/410是其衍生版
        26010是第三代申威64微结构,1621/411为其衍生版
跟这篇文档里关于1610和1621所属微结构代数的描述有不一致的地方。

贴吧冲突帖子地址:http://tieba.baidu.com/p/4350166315
本文pdf下载: http://pan.baidu.com/s/1gfjW03h    提取码:wjhd


还有,SW1621单核心性能与龙芯3000的对比要看龙芯3000的频率是多少,如果3000频率1.6,那么1621的单核心性能就要大于或等于3000;如果3000的频率是2.0, 那么1621的单核心频率应该会差于龙芯3000.

不得不说,1621的浮点性能报表,通用处理器里边应该排第一了吧(向量单元浮点性能)

还有,此处应该 @deam

SW64 发表于 2016-7-22 15:07
以前有一个关于申威的文档说了
        1600/400是申威64第二代微结构,而1610/410是其衍生版
        26010是第三代 ...
但那个deam既然说申威1621竟然只有低频E3的水平,但现实却是申威1621已经不是低频E3所能比得了,而且申威1621的TDP只有90W
以前有一个关于申威的文档说了
        1600/400是申威64第二代微结构,而1610/410是其衍生版
        26010是第三代 ...
sw411  1.6g spec2000  swcc   浮点超1500

龙芯3a2000   1G  s2000  gcc  浮点 1100+
      Lcc   1500+

同主频浮点还是龙芯强(╯3╰)
EKW 发表于 2016-7-22 16:00
但那个deam既然说申威1621竟然只有低频E3的水平,但现实却是申威1621已经不是低频E3所能比得了,而且申威 ...
"不是低频E3比的了"——比什么?spec int 2k6?

EKW 发表于 2016-7-22 16:00
但那个deam既然说申威1621竟然只有低频E3的水平,但现实却是申威1621已经不是低频E3所能比得了,而且申威 ...


2.0GHz的SW1621 “各方面性能” 都超过华为2.0GHz/16核心的Hi1610(16核心公版A57)应该没有任何悬念。

我觉得性能(从SPECint_rate2006角度看):
       跟Intel E5-2640 V3(8核心16线程,2.6GHz)/ Intel E5-2620 V4 (8核心16线程,2.1GHz)有一拼
       还不如Intel E5-2640 V4(10核心20线程,2.4GHz)


注意:Intel平台用的是ICC编译器
EKW 发表于 2016-7-22 16:00
但那个deam既然说申威1621竟然只有低频E3的水平,但现实却是申威1621已经不是低频E3所能比得了,而且申威 ...


2.0GHz的SW1621 “各方面性能” 都超过华为2.0GHz/16核心的Hi1610(16核心公版A57)应该没有任何悬念。

我觉得性能(从SPECint_rate2006角度看):
       跟Intel E5-2640 V3(8核心16线程,2.6GHz)/ Intel E5-2620 V4 (8核心16线程,2.1GHz)有一拼
       还不如Intel E5-2640 V4(10核心20线程,2.4GHz)


注意:Intel平台用的是ICC编译器
SW64 发表于 2016-7-22 16:35
2.0GHz的SW1621 “各方面性能” 都超过华为2.0GHz/16核心的Hi1610(16核心公版A57)应该没有任何悬念。
...
为啥你们估分都这么离谱……
deam 发表于 2016-7-22 16:42
为啥你们估分都这么离谱……
估分?

Intel的分数来自于SPEC2006官网;

华为Hi1610的分数来自于公司内部测试(非华为,但是绝对大公司);

SW1621的确是估计的;但是(从单核心角度看)SW411的SPEC2000分数都大于A57,更别说SW1621了,所以SW1621的SPEC06分数在HI1610的基础上增加50分还是算保守的了吧
SW64 发表于 2016-7-22 16:51
估分?

Intel的分数来自于SPEC2006官网;
2640 v3的分数是360,如果1621有这分数,也就是同频性能追上苹果A9,那么spec int 2k跑2600才正常,比ppt里的ipc翻倍……
deam 发表于 2016-7-22 16:42
为啥你们估分都这么离谱……

有啥离谱的啊,申威1621单核性能相比申威411大幅提升难道不是事实吗,申威1621单核性能至少达到A72水平了
EKW 发表于 2016-7-22 16:54
有啥离谱的啊,申威1621单核性能相比申威411大幅提升难道不是事实吗,申威1621单核性能至少达到A72水平 ...
你知道A72才是什么水平吗?
deam 发表于 2016-7-22 16:53
2640 v3的分数是360,如果1621有这分数,也就是同频性能追上苹果A9,那么spec int 2k跑2600才正常,比ppt ...
2640V3 双路base分数 704 (ICC编译器,戴尔PowerEdge机器)
2620V4 双路base分数 636 (ICC编译器,富士通PRIMERGY机器)

华为Hi1610 (2.0G,16核心,A57), 单路接近250,gcc编译器(机器由华为提供); 跟2620V3较为接近

SW1621即使单路只有300分不就跟2620V4和2040V3一致了(SW明显用的是基于gcc定制的编译器,你让Intel也用gcc试试)

SW64 发表于 2016-7-22 17:02
2640V3 双路base分数 704 (ICC编译器,戴尔PowerEdge机器)
2620V4 双路base分数 636 (ICC编译器,富 ...


华为自己报的A72的ipc才6.7/GHZ好不好……

16核2G/300分,那就是10分/GHZ水平,同频接近Apple A9,跑spec 2k int分数起码要有1250/GHZ,1.6GHZ下就得有2000分,比他们ppt的分数翻倍。

哪有这么乱猜的。
SW64 发表于 2016-7-22 17:02
2640V3 双路base分数 704 (ICC编译器,戴尔PowerEdge机器)
2620V4 双路base分数 636 (ICC编译器,富 ...


华为自己报的A72的ipc才6.7/GHZ好不好……

16核2G/300分,那就是10分/GHZ水平,同频接近Apple A9,跑spec 2k int分数起码要有1250/GHZ,1.6GHZ下就得有2000分,比他们ppt的分数翻倍。

哪有这么乱猜的。
deam 发表于 2016-7-22 17:07
华为自己报的A72的ipc才6.7/GHZ好不好……

16核2G/300分,那就是10分/GHZ水平,同频接近Apple A9 ...
此A57非彼A72;你知道原因么?

考虑问题别那么片面好不。还有别啥都扯到Apple,我们对比的是Server的U,最起码是不受功耗限制的U。

一个限制功耗,一个用跟xeon e5-2640V3几乎相同的功耗;你6.7/GHz仅仅是麒麟950而已,不是功耗放开的服务器U
deam 发表于 2016-7-22 17:07
华为自己报的A72的ipc才6.7/GHZ好不好……

16核2G/300分,那就是10分/GHZ水平,同频接近Apple A9 ...
【16核2G/300分,那就是10分/GHZ水平】

你该不会是在用rate的分数推算单线程的吧?!!

很明确地告诉你啊,rate的分数是不能推算单线程分数的,多copies的运行和单核单线程跑一个copy的性能完全不是线性关系,没有规律可循,我们测过,华为测过,Intel测过,无数个第三方测过,结论相同。

SW64 发表于 2016-7-22 15:07
以前有一个关于申威的文档说了
        1600/400是申威64第二代微结构,而1610/410是其衍生版
        26010是第三代 ...


你是mipsel?不要脑补的太厉害呀,什么东西都要测试数据的,没有看见东墙脑补西墙的道理。曾经ibm的p8单线程数据大狼跟deam都能脑补的不要不要的,今天看见anandtech测试3.5g的p8单线程spec06数据,惨不忍睹。。。。。
SW64 发表于 2016-7-22 15:07
以前有一个关于申威的文档说了
        1600/400是申威64第二代微结构,而1610/410是其衍生版
        26010是第三代 ...


你是mipsel?不要脑补的太厉害呀,什么东西都要测试数据的,没有看见东墙脑补西墙的道理。曾经ibm的p8单线程数据大狼跟deam都能脑补的不要不要的,今天看见anandtech测试3.5g的p8单线程spec06数据,惨不忍睹。。。。。
UltramanTaro 发表于 2016-7-22 17:48
【16核2G/300分,那就是10分/GHZ水平】

你该不会是在用rate的分数推算单线程的吧?!!
当然不能直接推算了,我这里都假设多copy对单copy是近线性扩展了,也就是按更有利于对方的假设来推算。
花落庭院 发表于 2016-7-22 17:50
你是mipsel?不要脑补的太厉害呀,什么东西都要测试数据的,没有看见东墙脑补西墙的道理。曾经ibm的p8 ...
我怎么就不记得我们还脑补过P8的单线程性能了?
20核2.7GHZ的A72处理器性能略低于2.6GHZ的Xeon E5-2660 v3又是怎么回事啊,你能解释一下吗
当然不能直接推算了,我这里都假设多copy对单copy是近线性扩展了,也就是按更有利于对方的假设来推算。

怎么推算都不行,你没看见龙芯2000的单copy分数8.9,实际测试gcc单线程能到890分?
我怎么就不记得我们还脑补过P8的单线程性能了?
呵呵。。。。。。。
花落庭院 发表于 2016-7-22 17:50
你是mipsel?不要脑补的太厉害呀,什么东西都要测试数据的,没有看见东墙脑补西墙的道理。曾经ibm的p8 ...
那你给说说2GHZ的申威1621的性能达到1.6GHZ的龙3A3000性能哪里脑补了,申威1621主频提升,微结构小改,性能优化,用上了环形总线,内存带宽提升这些提升单核性能的措施你都无视了吗,还是说SW411的性能落后龙3A2000很多啊
那你给说说2GHZ的申威1621的性能达到1.6GHZ的龙3A3000性能哪里脑补了,申威1621主频提升,微结构小改,性 ...
你还不脑补,看见intel环形总线脑补sw的,单线程性能在总线没有出问题形成堵死机制我还真看不出对单线程性能提升有很大帮助,说什么都没有用,猜测归猜测,想说服人家只有用实际测试数据
花落庭院 发表于 2016-7-22 18:09
你还不脑补,看见intel环形总线脑补sw的,单线程性能在总线没有出问题形成堵死机制我还真看不出对单线程 ...
我怎么脑补了啊,“通过双向环网连接16个64位通用处理器核心”你别告诉我这不是类似于intel环形总线那这是什么啊,提升单线程性能几个百分点就不叫性能提升啊
花落庭院 发表于 2016-7-22 17:50
你是mipsel?不要脑补的太厉害呀,什么东西都要测试数据的,没有看见东墙脑补西墙的道理。曾经ibm的p8 ...
有啥好脑补的,华为Hi1610的SPECint_rate06分数就在我们公司的wiki上;我只是将SW1621的分数在hi1610的分数上增加了50而已;因为根据SW411的SPEC2000分数,SW411单核心也强于A57啊,现在是SW1621了。
我怎么脑补了啊,“通过双向环网连接16个64位通用处理器核心”你别告诉我这不是类似于intel环形总线那这 ...
类似intel就是intel,你的逻辑很强大,是不是完全抄袭intel的总线代码,你有实际测试数据说明总线对1621的单线程性能提升多少?没有就少扯淡
花落庭院 发表于 2016-7-22 18:09
你还不脑补,看见intel环形总线脑补sw的,单线程性能在总线没有出问题形成堵死机制我还真看不出对单线程 ...
如果其他核心不工作,那么环形总线对于单核心性能的确没有影响;

但是如果其它核心跟当前核心数据依赖大的话,环形总线就是能提升单核心性能啊;
有啥好脑补的,华为Hi1610的SPECint_rate06分数就在我们公司的wiki上;我只是将SW1621的分数在hi1610的分 ...
sw411怎么比a57强?sw411是636/ghz,a57是780/ghz,那里强了?
如果其他核心不工作,那么环形总线对于单核心性能的确没有影响;

但是如果其它核心跟当前核心数据依赖 ...

测试单线程性能其他核心做什么工作?这个我真不懂
花落庭院 发表于 2016-7-22 18:22
sw411怎么比a57强?sw411是636/ghz,a57是780/ghz,那里强了?
1) 636并不是精确分数

2) 780这种分数是ARM(华为)给的,实际有跑出来过?
花落庭院 发表于 2016-7-22 18:23
测试单线程性能其他核心做什么工作?这个我真不懂
没有数据依赖就行了。
1) 636并不是精确分数

2) 780这种分数是ARM(华为)给的,实际有跑出来过?
粉sw不是这么粉的。。。。。。无语
花落庭院 发表于 2016-7-22 18:09
你还不脑补,看见intel环形总线脑补sw的,单线程性能在总线没有出问题形成堵死机制我还真看不出对单线程 ...

环形总线怎么和单核性能就没有关系了? 关系大了去了,core出来的所有access request全部走这条总线做coherence update,这个东西做不好可以把核里面的load/store queue全部给你堵死,你就是乱序八百发射,IPC都上不去。
你对环形总线感兴趣的话可以看看Oracle SPARC M7的设计,Hotchips上有公开的介绍,这是目前为止公开的设计里面做得最牛逼的,环形总线 + agent + 与L3 cache的对接,非常漂亮。
去年Purdue在SC上有篇文章,单纯依靠coherence update的改进就可以把单核IPC推上去10%,也是很有意思的东西,可能会进一步革新将来这一块的设计。
好好学习一下业内人士的发言之后再下结论行吗
1) 636并不是精确分数

2) 780这种分数是ARM(华为)给的,实际有跑出来过?

sw1600的江南所ppt测试明确说了编译器是swgcc,测试时间2011年,分数是1.1g,401分
花落庭院 发表于 2016-7-22 18:22
sw411怎么比a57强?sw411是636/ghz,a57是780/ghz,那里强了?
SW411的单线程整数分数已经达到1100分了,还636/ghz呢到底会不会算数啊