龙芯最近中了一篇ISSCC,不评论

来源：百度文库编辑：超级军网时间：2024/04/29 02:58:48

龙芯最近中了一篇ISSCC
Godson-3B: A 1GHz 40W 8-Core 128GFlops Processor in 65nm CMOS
Weiwu Hu, Ru Wang, Yunji Chen, Baoxi**, Shiqiang Zhong, Xiang Gao, Zichu Qi, Xu Yang

龙芯最近中了一篇ISSCC
Godson-3B: A 1GHz 40W 8-Core 128GFlops Processor in 65nm CMOS
Weiwu Hu, Ru Wang, Yunji Chen, Baoxi**, Shiqiang Zhong, Xiang Gao, Zichu Qi, Xu Yang

http://www.newsmth.net/bbstcon.p ... d=182224&header
水木青华转来的吧，那边评价还不错

The Godson-3B processor is an 8-core processor implemented on 65nm CMOS LP/GP mixed process with 7 layers of Cu metallization. It contains 582.6M transistors within 299.8mm2 area. Its highest frequency of Godson-3B is 1.05GHz. Its peak performance at 1GHz is 128/256GFlops for double/single-precision with 40W power consumption.

其实胡伟武不喜欢到外国发什么论文，但这是中科院的指标，又不得不发

http://www.newsmth.net/bbstcon.p ... d=182224&header
水木青华转来的吧，那边评价还不错

The Godson-3B processor is an 8-core processor implemented on 65nm CMOS LP/GP mixed process with 7 layers of Cu metallization. It contains 582.6M transistors within 299.8mm2 area. Its highest frequency of Godson-3B is 1.05GHz. Its peak performance at 1GHz is 128/256GFlops for double/single-precision with 40W power consumption.

其实胡伟武不喜欢到外国发什么论文，但这是中科院的指标，又不得不发

体系结构的东西要大力发展

靠还真不是靠GPU，我不多说话，面壁去了~

记得有一段时间，网络上盛传龙3出了大篓子，什么缓存一致性的？一转眼16核的3C已经进入物理设计很长时间了！所以：谎言千遍，就成了真理。人言可畏。

3B的工艺用的是国内么？

恭喜啊，期望龙芯能出成果。也请大家评论下3b的性能水平

坐等几个人及其MJ跳出来，观摩下他们从哪下嘴，也有可能就直接换MJ扮龙芯粉狂叫。

一个时钟周期16次双精度浮点运算？这个少见

;P;P只能说是在超算上有点前景，桌面市场还是无法和ARM竞争。

hshbdd 发表于 2010-10-17 09:37

龙3A的测试成绩出来了么？

xmyyc 发表于 2010-10-17 11:16

非常罕见。Power7是8dp，SandyBridge是8dp with AVX，4dp with SSE4，Bulldrozer是4dp per module with SSE4。

一个时钟周期16次双精度浮点运算.这个是好还是坏？

deam 发表于 2010-10-17 11:59

貌似以前传说推土机在AVX下也是8DP，最近没去关注，不知道详细

hswz 发表于 2010-10-17 01:21

是投了还是中了？

Godson-3B: A 1GHz 40W 8-Core 128GFlops Processor in 65nm CMOS

“Its highest frequency of Godson-3B is 1.05GHz”

频率还是上不去啊

deam 发表于 2010-10-17 11:57

仔细看过了所有指数
SPEC2000
龙3A 单核 345/289
PIV1.4G 326/263

多核就要看多线程性能
Godson3A at 700MHz
SPEC INT2000rate 13
SPEC FP2000rate 15

Godson3B 是每个核带 2个256bit的向量处理单元，浮点峰值主要靠向量单元提供。

比较好奇的是Die size ， Gs3B:299.8mm^2 .VS. SPARC64 VIIIfx:400mm^2
Venus 45nm工艺、龙芯65nm工艺向量单元还多一倍，不知道这么小的面积是咋实现的？莫非狂砍 cache？

多核就要看多线程性能
Godson3A at 700MHz
SPEC INT2000rate 13
SPEC FP2000rate 15

Godson3B 是每个核带 2个256bit的向量处理单元，浮点峰值主要靠向量单元提供。

比较好奇的是Die size ， Gs3B:299.8mm^2 .VS. SPARC64 VIIIfx:400mm^2
Venus 45nm工艺、龙芯65nm工艺向量单元还多一倍，不知道这么小的面积是咋实现的？莫非狂砍 cache？

谁详细介绍一下

lgthunders 发表于 2010-10-17 16:18

这个成绩的来源？怎么感觉很低啊，虽然说SPEC 2000测现在的CPU有些不合适，但是我记得21364的分数和这个差不多哦...

3C就28nm啦，跨越式发展嘛。:D

:)[:a15:]

hahagege 发表于 2010-10-17 02:35

双精度浮点性能跟NVIDIA最新一代的费米相当，远远优于CELL。

而且还是在65NM， 40瓦情况下取得的，按照每瓦特双精度浮点运算性能，应该算实际第一了吧？

如果能用更好的制程，应该就非常不错了，另外龙3应该是8M的L2 CACHE，跟INTEL的i9这代一样。

楼上的费米 515Gflops
HPC用的 cell 105Gflops

GPU比不合适的
515Gflops 的 Fermi 是 Tesla 20 GPU ，448个流处理器，它的计算模块M2050/2070单模块225-238W功耗的。

如果文中所述没问题的话，GFlops/W指标，估计确实已经略高过Tesla 20XX了(N的模块上还有内存和别的东西)，指标比Cell 确实强了。

GPU比不合适的
515Gflops 的 Fermi 是 Tesla 20 GPU ，448个流处理器，它的计算模块M2050/2070单模块225-238W功耗的。

如果文中所述没问题的话，GFlops/W指标，估计确实已经略高过Tesla 20XX了(N的模块上还有内存和别的东西)，指标比Cell 确实强了。

楼上的费米 515Gflops
HPC用的 cell 105Gflops
lgthunders 发表于 2010-10-18 07:25

废米双精度有512G？没那么高吧？我记得CUDA手册上说的是1/8于单精度来着

还有你那双精度512G是怎么算出来的？菲米单精度1300G flops

跟G80之类老体系不同，肥米没有DUAL-ISSUE的，所以每个CUDA core每周期是2次而不是3次运算

至于精度，单精度运算对我们搞科学计算的基本没意义，只有双精度才有实际价值，即便是MCS之类最简单的科学计算。

楼上的费米 515Gflops
HPC用的 cell 105Gflops
lgthunders 发表于 2010-10-18 07:25

废米双精度有512G？没那么高吧？我记得CUDA手册上说的是1/8于单精度来着

还有你那双精度512G是怎么 ...
60080 发表于 2010-10-18 10:45

1/8是被阉割的游戏卡，用于高性能计算的tesla 单颗GPU DP peak 515Gflops。

详见Nvidia 官网。http://cn.nvidia.com/object/product_tesla_C2050_C2070_cn.html982

废米双精度有512G？没那么高吧？我记得CUDA手册上说的是1/8于单精度来着

还有你那双精度512G是怎么 ...
60080 发表于 2010-10-18 10:45

1/8是被阉割的游戏卡，用于高性能计算的tesla 单颗GPU DP peak 515Gflops。

详见Nvidia 官网。http://cn.nvidia.com/object/product_tesla_C2050_C2070_cn.html982

Godson-3c

godson-3c

弟兄几个。

冲击世界第一？

haihun 发表于 2010-10-18 19:25

IBM Blue Wares&Blue Gene/Q笑而不语{:cha:}

话说回来，貌似龙芯首先应当考虑的并非性能，而是产品周期吧

PS:不知道哪里可以找到这论文。先看看他们是怎么处理超长指令字并行的调度与合并问题的（直接关系到效率表现，虽然我是觉得完全不管也是一种办法就是了）

PS:不知道哪里可以找到这论文。先看看他们是怎么处理超长指令字并行的调度与合并问题的（直接关系到效率表现，虽然我是觉得完全不管也是一种办法就是了）

作为微电子专业学生，更关心国内工艺水平

haihun 发表于 2010-10-18 19:25

刚才突然发觉这个10Pflops基本上是用龙3C的理论峰值（384Gflops）乘以处理器个数（3万个）得来的哦，这样的“速度”似乎没太大意义吧。

用hu.pdf应该在网络上能找到论文。
3B3C玩的是心跳

失落的天堂发表于 2010-10-19 10:37

还没造出来的HPC都是说理论峰值吧，数字大，听起来爽

175799023 发表于 2010-10-17 11:53

一步一步来

饭要一口一口吃

龙芯最近中了一篇ISSCC,不评论 ISSCC上的龙芯3B 环球时报一篇评论中提到的信息不评论了！最近不郁闷了！国际固态电路会议ISSCC 2013中科院将介绍龙芯3B 8核 32n ... 求助：最近CD论坛中所有的图像都不显示了，求大神帮忙解 ... 最近不上CD了，马来西亚最近不老实了 isscc 2012 最近大家都不关注雪龙了吗？最近很少看到"东方评论"了