ZT 崛起的中国芯 国产龙芯水平究竟如何?

来源:百度文库 编辑:超级军网 时间:2024/04/29 04:59:21
《国产龙芯究竟水平如何》一文发布后,不少朋友对龙芯产生了一些新的问题,也对文章内容提出了一些看法与质疑。本篇《续》旨在解答大家的疑惑,并帮助外界更好的了解龙芯的真实现状。

很多读者提到上篇文章并没有提及龙芯3B的浮点计算表现;只比较整数测试项目,忽略浮点方面的SPEC_fp测试集是对号称特别加强浮点性能的龙芯3B的不公。那么这里就介绍一下龙芯3B的浮点运算实际水平。

目前最新的龙芯3B-1500有8个核心,工作在1.2GHZ,1GHZ下理论双精度浮点运算能力128G Flops。作为对比,i7-4770的理论浮点性能是256G Flops,而早期的i7-980X只有80G Flops。

但需要注意的是上述数据均为理论值。真实的浮点运算应用中它们的表现又是如何呢?计算所公布了龙芯3B 1.2GHZ运行SPEC_fp 2000浮点测试集的成绩,该测试集考察处理器单线程浮点运算能力,我们来和两款较老的CPU对比一下(ARM芯片很难找到这方面成绩故不参与对比):




不幸的是,这里龙芯的差距更大了。单核心性能连i7-2600的十分之一都不到,实在凄惨。2009年古老的Core i5-760都远远胜过现在的龙芯3B。

为什么龙芯的理论数据会和实际表现有如此大的差异呢?我们要知道,处理器的理论浮点运算速度并不能直接反映实际表现。实际程序运行的快慢还与很多因素有关,其中非常重要的一项指标就是内存和缓存性能。内存性能不足,就算理论性能再高也是无济于事的。

那么龙芯的内存性能又是怎样的呢?遗憾的是龙芯3B-1500虽然使用了双通道DDR3 1066内存,但由于访存部分设计水平不佳等原因,实测带宽只有理论值的10%左右—也就是2GB/s的水平。我们对比一下龙芯3B和主流CPU的内存带宽:




其实一些高速SSD的读写性能都要比龙芯的内存更强,实在是讽刺。

SPEC CPU 2000测试集中龙芯的孱弱表现很大程度是因为带宽拖了后腿。我们再看一项服务器常见的基准测试UnixBench 5.1.3中龙芯的表现:




同样不忍直视。在这项为多核心优化的项目中8核心的龙芯3B还不如频率相近的双核赛扬。8核心的Atom C2750与四核心的Xeon E3更是将龙芯远远甩开。服务器应用对内存带宽的要求较高,龙芯的带宽瓶颈更为明显。

现实是残酷的:2008年,筹划中的曙光千万亿次超级计算机本来准备使用龙芯3B为主要处理器,成为第一台国产千万亿次超算;然而后来龙芯3B屡屡推迟发布,到2012年早期版本的3B小规模量产时,曙光项目组发现这些3B空有美好的理论参数,实际表现太差,因此只采购了原计划的30%的数量用于测试和研究。2013年新加坡曾计划使用龙芯3B建造一台超算系统,后来也没了下文。2014年计算所龙芯项目组组长胡伟武公开承认过去数年来龙芯的发展策略失败,间接宣告了龙芯3B将成为历史。

计算所宣称下一代龙芯CPU的访存性能将比现在提升10-20倍,届时龙芯的带宽瓶颈将得到极大缓解。倘若目标达成,未来的龙芯赶上AMD现在的水平还是很有希望的。不过CPU性能问题解决后,MIPS指令集的龙芯还将面临软件生态薄弱、周边硬件支持不足等困境。总之,龙芯在成为世界主流CPU企业之前还有很长的路要走。
《国产龙芯究竟水平如何》一文发布后,不少朋友对龙芯产生了一些新的问题,也对文章内容提出了一些看法与质疑。本篇《续》旨在解答大家的疑惑,并帮助外界更好的了解龙芯的真实现状。

很多读者提到上篇文章并没有提及龙芯3B的浮点计算表现;只比较整数测试项目,忽略浮点方面的SPEC_fp测试集是对号称特别加强浮点性能的龙芯3B的不公。那么这里就介绍一下龙芯3B的浮点运算实际水平。

目前最新的龙芯3B-1500有8个核心,工作在1.2GHZ,1GHZ下理论双精度浮点运算能力128G Flops。作为对比,i7-4770的理论浮点性能是256G Flops,而早期的i7-980X只有80G Flops。

但需要注意的是上述数据均为理论值。真实的浮点运算应用中它们的表现又是如何呢?计算所公布了龙芯3B 1.2GHZ运行SPEC_fp 2000浮点测试集的成绩,该测试集考察处理器单线程浮点运算能力,我们来和两款较老的CPU对比一下(ARM芯片很难找到这方面成绩故不参与对比):




不幸的是,这里龙芯的差距更大了。单核心性能连i7-2600的十分之一都不到,实在凄惨。2009年古老的Core i5-760都远远胜过现在的龙芯3B。

为什么龙芯的理论数据会和实际表现有如此大的差异呢?我们要知道,处理器的理论浮点运算速度并不能直接反映实际表现。实际程序运行的快慢还与很多因素有关,其中非常重要的一项指标就是内存和缓存性能。内存性能不足,就算理论性能再高也是无济于事的。

那么龙芯的内存性能又是怎样的呢?遗憾的是龙芯3B-1500虽然使用了双通道DDR3 1066内存,但由于访存部分设计水平不佳等原因,实测带宽只有理论值的10%左右—也就是2GB/s的水平。我们对比一下龙芯3B和主流CPU的内存带宽:




其实一些高速SSD的读写性能都要比龙芯的内存更强,实在是讽刺。

SPEC CPU 2000测试集中龙芯的孱弱表现很大程度是因为带宽拖了后腿。我们再看一项服务器常见的基准测试UnixBench 5.1.3中龙芯的表现:




同样不忍直视。在这项为多核心优化的项目中8核心的龙芯3B还不如频率相近的双核赛扬。8核心的Atom C2750与四核心的Xeon E3更是将龙芯远远甩开。服务器应用对内存带宽的要求较高,龙芯的带宽瓶颈更为明显。

现实是残酷的:2008年,筹划中的曙光千万亿次超级计算机本来准备使用龙芯3B为主要处理器,成为第一台国产千万亿次超算;然而后来龙芯3B屡屡推迟发布,到2012年早期版本的3B小规模量产时,曙光项目组发现这些3B空有美好的理论参数,实际表现太差,因此只采购了原计划的30%的数量用于测试和研究。2013年新加坡曾计划使用龙芯3B建造一台超算系统,后来也没了下文。2014年计算所龙芯项目组组长胡伟武公开承认过去数年来龙芯的发展策略失败,间接宣告了龙芯3B将成为历史。

计算所宣称下一代龙芯CPU的访存性能将比现在提升10-20倍,届时龙芯的带宽瓶颈将得到极大缓解。倘若目标达成,未来的龙芯赶上AMD现在的水平还是很有希望的。不过CPU性能问题解决后,MIPS指令集的龙芯还将面临软件生态薄弱、周边硬件支持不足等困境。总之,龙芯在成为世界主流CPU企业之前还有很长的路要走。
http://pan.baidu.com/s/1mgtFmD6

网络编辑没节操 自己看论文
饭药一口一口的吃。

duanjichenggong 发表于 2015-4-26 09:42
饭药一口一口的吃。


3B访存有问题

关于内存 差20倍的图表 是数据造假  黑龙芯
这个编辑  脸都被打肿了
但是   辟谣文很少见人转
造谣文到是无限转
论坛里有 转过 曙光的论文  里面写的很清楚
duanjichenggong 发表于 2015-4-26 09:42
饭药一口一口的吃。


3B访存有问题

关于内存 差20倍的图表 是数据造假  黑龙芯
这个编辑  脸都被打肿了
但是   辟谣文很少见人转
造谣文到是无限转
论坛里有 转过 曙光的论文  里面写的很清楚
3B访存有问题

关于内存 差20倍的图表 是数据造假  黑龙芯

曙光的论文是我转的,但里面的数据和中国科学:信息科学里的明显不符,最主要这还是拿同一个软件测的。。。。
看来想了解其实情况很难,这么个民用为主的东西,吸引民间参与,扩大应用和产业化不是更好吗?
3B访存有问题

关于内存 差20倍的图表 是数据造假  黑龙芯

哪儿造假?拿出你的数据
哪儿造假?拿出你的数据


自己下载论文  找 楼上上转的论文

关于内存

那张 差20倍的图表  该网络编辑自己都拿不出出处  还有一帮人 奉旨为圣旨



scybliyu 发表于 2015-4-26 18:45
看来想了解其实情况很难,这么个民用为主的东西,吸引民间参与,扩大应用和产业化不是更好吗?


当年龙芯 倒是开放  结果除了梦兰

没人来做  而且因为梦兰是做家纺的  一起黑梦兰  (领头的就是某想→_→)

现在  有实力  在做龙芯的就是曙光

就像贵州铁路  西气东输 管道建设  页岩气  开放了  资本家不来

周期长 成本高 资金需求大  风险大  技术门槛高    哪里比得上玩金融 互联网公司 来钱快≥﹏≤

某学者  说  除非自由定价  并把沿途地皮 车站 商铺……全部给资本家  否则 不投资~

当然  当龙芯成功了    民间资本是很愿意来的

就如同  把中石化 的 管道私有化  大秦货运  混改  而且第一件事就是 货运铁路每公里 吨 提价0.15元→_→

以为私企如何牛叉
如何为国爱国
too  simple
他们更愿意当买办 组装厂  借混改的东风从国企身上撕块肉

全国一盘棋  政府主导   从两弹一星  到最近的  神舟 北斗 航母  四代机   难度真么大  哪个失败了?
反倒是 市场化  民间资本参与   外资合作  汽车  

日化   集成电路   一个比一个惨 面板   不是国家砸钱   京东方 照样悲剧

那种私企做就会xxxxx  民间参与就会xxxxx
我只能说  ~  呵呵~

华为只是另类  而且   也是政府大力扶持
另外
在tds前途未卜的时候,也没认真参与,不然轮不到大唐
华为在tds领域和他在通讯产业地位完全不相符   看到新闻里还向重庆重邮科还是啥压根没听说过的 单位买tds授权

华为尚且如此  其他的→_→
scybliyu 发表于 2015-4-26 18:45
看来想了解其实情况很难,这么个民用为主的东西,吸引民间参与,扩大应用和产业化不是更好吗?


当年龙芯 倒是开放  结果除了梦兰

没人来做  而且因为梦兰是做家纺的  一起黑梦兰  (领头的就是某想→_→)

现在  有实力  在做龙芯的就是曙光

就像贵州铁路  西气东输 管道建设  页岩气  开放了  资本家不来

周期长 成本高 资金需求大  风险大  技术门槛高    哪里比得上玩金融 互联网公司 来钱快≥﹏≤

某学者  说  除非自由定价  并把沿途地皮 车站 商铺……全部给资本家  否则 不投资~

当然  当龙芯成功了    民间资本是很愿意来的

就如同  把中石化 的 管道私有化  大秦货运  混改  而且第一件事就是 货运铁路每公里 吨 提价0.15元→_→

以为私企如何牛叉
如何为国爱国
too  simple
他们更愿意当买办 组装厂  借混改的东风从国企身上撕块肉

全国一盘棋  政府主导   从两弹一星  到最近的  神舟 北斗 航母  四代机   难度真么大  哪个失败了?
反倒是 市场化  民间资本参与   外资合作  汽车  

日化   集成电路   一个比一个惨 面板   不是国家砸钱   京东方 照样悲剧

那种私企做就会xxxxx  民间参与就会xxxxx
我只能说  ~  呵呵~

华为只是另类  而且   也是政府大力扶持
另外
在tds前途未卜的时候,也没认真参与,不然轮不到大唐
华为在tds领域和他在通讯产业地位完全不相符   看到新闻里还向重庆重邮科还是啥压根没听说过的 单位买tds授权

华为尚且如此  其他的→_→
scxtx 发表于 2015-4-26 21:10
自己下载论文  找 楼上上转的论文

关于内存
那张图出处的确不知道,不过你引用的数据比那张图还差得多。

那张图里起码给了龙芯3B-1500 2GB/s的带宽,你的文章给老构架(GS464,3B是GS464V,基本就是GS464+向量部件)只有0.4GB/s的带宽。只有这幅图的1/5。

你要明白,GS464V还是基于老构架,而不是新构架的GS464E。基于GS464E的机器是否已经流片我不知道,但是显然没有量产,任何第三方评测机构也没有拿到样品。

至于i7的那个,在你引用的论文中很蹊跷地只使用了单通道,而且是DDR3-1333的内存。sandra测试i7 3770在使用双通道DDR3-1600的带宽时,memcpy的带宽一般都是在23GB/s左右,你引用论文中的结果没有别人观察到,也许是大家在测试i7的时候都使用双通道1600?也许你引用的论文的测试本身有问题,这个就不得而知了。

我手头上没有i7 3770,不过有一颗i7 2760QM(移动版二代),2.4Ghz的主频,DDR3-1066的双通道内存,用AIDA64测试,memcpy的结果是15832MB/s,远远超过你论文中的GS464E使用DDR3-1000的结果(7952MB/s)。
那张图出处的确不知道,不过你引用的数据比那张图还差得多。

那张图里起码给了龙芯3B-1500 2GB/s的带 ...
-_-||  那等464e  市场吧≥﹏≤

konming 发表于 2015-4-26 22:35
那张图出处的确不知道,不过你引用的数据比那张图还差得多。

那张图里起码给了龙芯3B-1500 2GB/s的带 ...


论文里有提到的,那是因为当时对比的i7电脑上只有1条内存,所以GS464E也只装了1条,但从效率对比上还是可以看出一些问题的。
当然龙芯3的内存绝对性能肯定没法和主流的机器比的,毕竟只有2个72bit的DDR3控制器(双通道DDR3 ECC内存)。
konming 发表于 2015-4-26 22:35
那张图出处的确不知道,不过你引用的数据比那张图还差得多。

那张图里起码给了龙芯3B-1500 2GB/s的带 ...


论文里有提到的,那是因为当时对比的i7电脑上只有1条内存,所以GS464E也只装了1条,但从效率对比上还是可以看出一些问题的。
当然龙芯3的内存绝对性能肯定没法和主流的机器比的,毕竟只有2个72bit的DDR3控制器(双通道DDR3 ECC内存)。
失落的天堂 发表于 2015-4-26 23:41
论文里有提到的,那是因为当时对比的i7电脑上只有1条内存,所以GS464E也只装了1条,不过不知道为什么后 ...
这就属于扯淡了,i7插两条DDR3-1000的不一样测吗?难道项目组都不会装内存条了?
当年龙芯 倒是开放  结果除了梦兰

没人来做  而且因为梦兰是做家纺的  一起黑梦兰  (领头的就是某 ...
不是国家放弃啊,发展终究还是要普及,没有民间,很难发展。不是让它自生自灭。政策法规也可以配套嘛。比如ip先不收费之类,反正中科院有工资和项目经费呀
konming 发表于 2015-4-26 23:44
这就属于扯淡了,i7插两条DDR3-1000的不一样测吗?难道项目组都不会装内存条了?
你还是不明白,论文的目的是为了对比MMU的效率。之前的龙芯3A的MMU设计有问题,根本没法用双通道内存,正好i7上也只有1条内存,所以三者就都用了单通道内存来对比。
wlm2012 发表于 2015-4-26 11:31
曙光的论文是我转的,但里面的数据和中国科学:信息科学里的明显不符,最主要这还是拿同一个软件测的。。 ...
我不能说曙光作假,因为我不清楚软件测试。但是我去年看过龙芯公司内部的测试数据,龙芯内部不会在内部黑自己,这个论文是胡伟武自己写的。。。。作为设计技术人员,访存瓶颈不可能2012年改进GS464E才发现,其实早知道,但是为什么没有早改进微架构,其中原因。。。。。。其实龙芯可以在2008年开始改进微架构的。。。。。

scybliyu 发表于 2015-4-26 23:56
不是国家放弃啊,发展终究还是要普及,没有民间,很难发展。不是让它自生自灭。政策法规也可以配套嘛。比 ...


说了  有实力的不来≥﹏≤ 会来的没实力   
龙芯和社区关系  也不好  个人开发者 有心也无力
龙芯最近的动作就是出龙芯1开发板  车载北头终端   2j   2K  军用  工控芯片   卖海尔  海信100万+的 芯片

联想 要是会做  推广之路会好很多  但是联想美帝良心  
scybliyu 发表于 2015-4-26 23:56
不是国家放弃啊,发展终究还是要普及,没有民间,很难发展。不是让它自生自灭。政策法规也可以配套嘛。比 ...


说了  有实力的不来≥﹏≤ 会来的没实力   
龙芯和社区关系  也不好  个人开发者 有心也无力
龙芯最近的动作就是出龙芯1开发板  车载北头终端   2j   2K  军用  工控芯片   卖海尔  海信100万+的 芯片

联想 要是会做  推广之路会好很多  但是联想美帝良心  
scxtx 发表于 2015-4-27 08:22
说了  有实力的不来≥﹏≤ 会来的没实力   
龙芯和社区关系  也不好  个人开发者 有心也无力
龙芯最 ...
还是内部消化啊