龙芯最近中了一篇ISSCC,不评论

来源:百度文库 编辑:超级军网 时间:2024/04/29 02:58:48


龙芯最近中了一篇ISSCC
Godson-3B: A 1GHz 40W 8-Core 128GFlops Processor in 65nm CMOS
Weiwu Hu, Ru Wang, Yunji Chen, Baoxi**, Shiqiang Zhong, Xiang Gao, Zichu Qi, Xu Yang

龙芯最近中了一篇ISSCC
Godson-3B: A 1GHz 40W 8-Core 128GFlops Processor in 65nm CMOS
Weiwu Hu, Ru Wang, Yunji Chen, Baoxi**, Shiqiang Zhong, Xiang Gao, Zichu Qi, Xu Yang


http://www.newsmth.net/bbstcon.p ... d=182224&header
水木青华转来的吧,那边评价还不错

The Godson-3B processor is an 8-core processor implemented on 65nm CMOS LP/GP mixed process with 7 layers of Cu metallization. It contains 582.6M transistors within 299.8mm2 area. Its highest frequency of Godson-3B is 1.05GHz. Its peak performance at 1GHz is 128/256GFlops for double/single-precision with 40W power consumption.

其实胡伟武不喜欢到外国发什么论文,但这是中科院的指标,又不得不发

http://www.newsmth.net/bbstcon.p ... d=182224&header
水木青华转来的吧,那边评价还不错

The Godson-3B processor is an 8-core processor implemented on 65nm CMOS LP/GP mixed process with 7 layers of Cu metallization. It contains 582.6M transistors within 299.8mm2 area. Its highest frequency of Godson-3B is 1.05GHz. Its peak performance at 1GHz is 128/256GFlops for double/single-precision with 40W power consumption.

其实胡伟武不喜欢到外国发什么论文,但这是中科院的指标,又不得不发
体系结构的东西要大力发展
靠还真不是靠GPU,我不多说话,面壁去了~
记得有一段时间,网络上盛传龙3出了大篓子,什么缓存一致性的?一转眼16核的3C已经进入物理设计很长时间了!所以:  谎言千遍,就成了真理。人言可畏。
3B的工艺用的是国内么?
恭喜啊,期望龙芯能出成果。也请大家评论下3b的性能水平
坐等几个人及其MJ跳出来,观摩下他们从哪下嘴,也有可能就直接换MJ扮龙芯粉狂叫。
一个时钟周期16次双精度浮点运算?这个少见
一个时钟周期16次双精度浮点运算?这个少见
;P;P只能说是在超算上有点前景,桌面市场还是无法和ARM竞争。
hshbdd 发表于 2010-10-17 09:37

龙3A的测试成绩出来了么?
xmyyc 发表于 2010-10-17 11:16

非常罕见。Power7是8dp,SandyBridge是8dp with AVX,4dp with SSE4,Bulldrozer是4dp per module with SSE4。
一个时钟周期16次双精度浮点运算.这个是好还是坏?
deam 发表于 2010-10-17 11:59
貌似以前传说推土机在AVX下也是8DP,最近没去关注,不知道详细
hswz 发表于 2010-10-17 01:21


    是投了还是中了?
Godson-3B: A 1GHz 40W 8-Core 128GFlops Processor in 65nm CMOS
“Its highest frequency of Godson-3B is 1.05GHz”

频率还是上不去啊
deam 发表于 2010-10-17 11:57


    仔细看过了所有指数
SPEC2000
龙3A 单核 345/289
PIV1.4G    326/263


多核就要看多线程性能
Godson3A at 700MHz
SPEC INT2000rate   13
SPEC FP2000rate    15

Godson3B 是每个核 带 2个256bit的向量处理单元,浮点峰值主要靠向量单元提供。

比较好奇的是Die size , Gs3B:299.8mm^2   .VS.  SPARC64 VIIIfx:400mm^2
Venus 45nm工艺、龙芯65nm工艺 向量单元还多一倍,不知道这么小的面积是咋实现的?莫非狂砍 cache?

多核就要看多线程性能
Godson3A at 700MHz
SPEC INT2000rate   13
SPEC FP2000rate    15

Godson3B 是每个核 带 2个256bit的向量处理单元,浮点峰值主要靠向量单元提供。

比较好奇的是Die size , Gs3B:299.8mm^2   .VS.  SPARC64 VIIIfx:400mm^2
Venus 45nm工艺、龙芯65nm工艺 向量单元还多一倍,不知道这么小的面积是咋实现的?莫非狂砍 cache?
谁详细介绍一下
lgthunders 发表于 2010-10-17 16:18


    这个成绩的来源?怎么感觉很低啊,虽然说SPEC 2000测现在的CPU有些不合适,但是我记得21364的分数和这个差不多哦...
3C就28nm啦,跨越式发展嘛。:D
:)[:a15:]
hahagege 发表于 2010-10-17 02:35

双精度浮点性能跟NVIDIA最新一代的费米相当, 远远优于CELL。

而且还是在65NM, 40瓦情况下取得的,按照每瓦特双精度浮点运算性能,应该算实际第一了吧?

如果能用更好的制程,应该就非常不错了,另外龙3应该是8M的L2 CACHE,跟INTEL的i9这代一样。
楼上的  费米 515Gflops
HPC用的 cell  105Gflops


GPU比不合适的
515Gflops 的 Fermi  是 Tesla  20 GPU ,448个流处理器,它的计算模块M2050/2070单模块225-238W功耗的。

如果文中所述没问题的话,GFlops/W指标,估计确实已经略高过Tesla 20XX了(N的模块上还有内存和别的东西),指标比Cell 确实强了。

GPU比不合适的
515Gflops 的 Fermi  是 Tesla  20 GPU ,448个流处理器,它的计算模块M2050/2070单模块225-238W功耗的。

如果文中所述没问题的话,GFlops/W指标,估计确实已经略高过Tesla 20XX了(N的模块上还有内存和别的东西),指标比Cell 确实强了。

楼上的  费米 515Gflops
HPC用的 cell  105Gflops
lgthunders 发表于 2010-10-18 07:25


废米双精度有512G? 没那么高吧? 我记得CUDA手册上说的是1/8于单精度来着

还有你那双精度512G是怎么算出来的? 菲米单精度1300G flops

跟G80之类老体系不同,肥米没有DUAL-ISSUE的,所以每个CUDA core每周期是2次而不是3次运算

至于精度,单精度运算对我们搞科学计算的基本没意义, 只有双精度才有实际价值,即便是MCS之类最简单的科学计算。
楼上的  费米 515Gflops
HPC用的 cell  105Gflops
lgthunders 发表于 2010-10-18 07:25


废米双精度有512G? 没那么高吧? 我记得CUDA手册上说的是1/8于单精度来着

还有你那双精度512G是怎么算出来的? 菲米单精度1300G flops

跟G80之类老体系不同,肥米没有DUAL-ISSUE的,所以每个CUDA core每周期是2次而不是3次运算

至于精度,单精度运算对我们搞科学计算的基本没意义, 只有双精度才有实际价值,即便是MCS之类最简单的科学计算。
未标题-1.jpg

废米双精度有512G? 没那么高吧? 我记得CUDA手册上说的是1/8于单精度来着

还有你那双精度512G是怎么 ...
60080 发表于 2010-10-18 10:45


1/8是被阉割的游戏卡,用于高性能计算的tesla 单颗GPU   DP peak 515Gflops。
tesla2070.jpg
详见Nvidia 官网。http://cn.nvidia.com/object/product_tesla_C2050_C2070_cn.html982
废米双精度有512G? 没那么高吧? 我记得CUDA手册上说的是1/8于单精度来着

还有你那双精度512G是怎么 ...
60080 发表于 2010-10-18 10:45


1/8是被阉割的游戏卡,用于高性能计算的tesla 单颗GPU   DP peak 515Gflops。
tesla2070.jpg
详见Nvidia 官网。http://cn.nvidia.com/object/product_tesla_C2050_C2070_cn.html982
Godson-3c

godson-3c

godson-3c
弟兄几个。

2

2
冲击世界第一?

3

3
haihun 发表于 2010-10-18 19:25

IBM Blue Wares&Blue Gene/Q笑而不语{:cha:}

话说回来,貌似龙芯首先应当考虑的并非性能,而是产品周期吧


PS:不知道哪里可以找到这论文。先看看他们是怎么处理超长指令字并行的调度与合并问题的(直接关系到效率表现,虽然我是觉得完全不管也是一种办法就是了)

PS:不知道哪里可以找到这论文。先看看他们是怎么处理超长指令字并行的调度与合并问题的(直接关系到效率表现,虽然我是觉得完全不管也是一种办法就是了)
作为微电子专业学生,更关心国内工艺水平
haihun 发表于 2010-10-18 19:25


    刚才突然发觉这个10Pflops基本上是用龙3C的理论峰值(384Gflops)乘以处理器个数(3万个)得来的哦,这样的“速度”似乎没太大意义吧。
用hu.pdf应该在网络上能找到论文。
3B3C玩的是心跳
失落的天堂 发表于 2010-10-19 10:37


    还没造出来的HPC都是说理论峰值吧,数字大,听起来爽
175799023 发表于 2010-10-17 11:53


    一步一步来

饭要一口一口吃