ISSCC上的龙芯3B

来源:百度文库 编辑:超级军网 时间:2024/04/27 19:14:06
a 1GHz GS464V needs 2.95μs to solve the1024-point single-precision complex FFT, which is less than 3.67μs needed by2.66H Core i7.a 1GHz GS464V needs 2.95μs to solve the1024-point single-precision complex FFT, which is less than 3.67μs needed by2.66H Core i7.


胡伟武的胸前别着一枚毛主席像章,他本人对毛主席诸多提法也非常认同,其中一条就是“从认识到实践,从实践到认识的螺旋式上升理论”。“很可惜,中国在基础平台的研究却总是半圈半圈地来,我们不是在实践中发现问题,再回到理论,而是在美国人从实践到认识的基础上,跟着他们从认识到认识,只要美国人新出了一个理论,我们就立马着手研究,而不去看看这些理论是不是真的适合中国。”胡伟武说这话时很严肃,显然这并不只是中国芯片的问题,而是产业的“通病 ”。

  “什么是原始创新?不是人家做单核我们就做单核,人家做多核我们就做多核,不是跟风地做云计算、物联网。原如创新必须和实践紧紧结合起来。”胡伟武说,近几年,龙芯也在做这样的转变,那就是在与客户的磨合中不断完善技术。

比如,我们为一个客户做雷达信号处理,他们提出的要求看来非常苛刻,好像达不到,但是等我们做了两年的磨合后,就会发现在这个领域我们的性能要比国外高好几倍,为什么会有这样的技术突破?是因为我们和自己的应用结合在一起了,又在应用的过程中发现了新的问题。”


胡伟武的胸前别着一枚毛主席像章,他本人对毛主席诸多提法也非常认同,其中一条就是“从认识到实践,从实践到认识的螺旋式上升理论”。“很可惜,中国在基础平台的研究却总是半圈半圈地来,我们不是在实践中发现问题,再回到理论,而是在美国人从实践到认识的基础上,跟着他们从认识到认识,只要美国人新出了一个理论,我们就立马着手研究,而不去看看这些理论是不是真的适合中国。”胡伟武说这话时很严肃,显然这并不只是中国芯片的问题,而是产业的“通病 ”。

  “什么是原始创新?不是人家做单核我们就做单核,人家做多核我们就做多核,不是跟风地做云计算、物联网。原如创新必须和实践紧紧结合起来。”胡伟武说,近几年,龙芯也在做这样的转变,那就是在与客户的磨合中不断完善技术。

比如,我们为一个客户做雷达信号处理,他们提出的要求看来非常苛刻,好像达不到,但是等我们做了两年的磨合后,就会发现在这个领域我们的性能要比国外高好几倍,为什么会有这样的技术突破?是因为我们和自己的应用结合在一起了,又在应用的过程中发现了新的问题。”
岂不是又可以媲美I7了。。
低调做人 发表于 2011-3-8 20:56


    不知道
低调做人 发表于 2011-3-8 20:56


4核心1ghz的3a的浮点性能相当于1.8g双核心的K8

3b的理论浮点能力,能不能用上有很大疑问,类似cell当年发布的时候,也是号称理论浮点如何如何。

你看GPU的理论浮点,直接上T,实际运算能用到的效率是多少是另外一码事。
从认识到实践,从实践到认识的螺旋式上升理论
其实就是中国传统的“知行合一”。
maomaobear2 发表于 2011-3-8 21:40
GPU是GPU,龙芯3B是龙芯3B。
123456d 发表于 2011-3-9 13:35


  加了SIMD向量处理器单元,要比理论浮点,就可以参考GPU了
maomaobear2 发表于 2011-3-9 13:41
3B的矩阵乘法效率是peak的93%以上,GPU的你能给我一个链接吗?
maomaobear2 发表于 2011-3-8 21:40

当然你要说,spec rate 我就不说什么了,毕竟二级缓存,800M的HT等有制约在那里!还有频率太低,再计算所这个人力物力,你想它出很好看的数据很难

4核心1ghz的3a的浮点性能相当于1.8g双核心的K8

3b的理论浮点能力,能不能用上有很大疑问,类似cel ...
maomaobear2 发表于 2011-3-8 21:40


多核要看使用环境,要看优化水平,不同环境差异很大。

3A的单核性能,整数性能与AMD XP 1800+(实际1.53G)差不多,浮点性能比INTEL P4 2.0强10%,大至是P4 2.2G-2.4G的水平。
四核全速运行时功耗10W左右,P4 2.4光散热风扇的功耗就要10W吧。

4核心1ghz的3a的浮点性能相当于1.8g双核心的K8

3b的理论浮点能力,能不能用上有很大疑问,类似cel ...
maomaobear2 发表于 2011-3-8 21:40


多核要看使用环境,要看优化水平,不同环境差异很大。

3A的单核性能,整数性能与AMD XP 1800+(实际1.53G)差不多,浮点性能比INTEL P4 2.0强10%,大至是P4 2.2G-2.4G的水平。
四核全速运行时功耗10W左右,P4 2.4光散热风扇的功耗就要10W吧。
hahage 发表于 2011-3-9 15:25


我是查的spec官方网站的数据
123456d 发表于 2011-3-9 13:46

矩阵乘法……GPU最擅长的差不多就是这玩意了

93%或许没有,但也不会差太多就是了
大狼芬里尔 发表于 2011-3-9 17:31
那说说GPU的linpack的效率有多少?
看着还不错
petervivian 发表于 2011-3-9 18:05
应该很不错
现在公认的gpu的理论和实际差很远 神马时候俺的475的转码能力能赶上i7啊
jjyybear 发表于 2011-3-9 20:21

你用的软件不对。
回复 18# deam


    还真不是软件问题 我本来很支持cuda的 但是微型计算机的转码评测让我信心锐减

回复  deam


    还真不是软件问题 我本来很支持cuda的 但是微型计算机的转码评测让我信心锐减
jjyybear 发表于 2011-3-9 20:37


微型计算机……

垃圾杂志。

http://ppbm5.com/Benchmark5.html

根据上面这个网站网友提交的评测结果,GTX480转码的速度是双路Xeon X5680的10倍以上。
回复  deam


    还真不是软件问题 我本来很支持cuda的 但是微型计算机的转码评测让我信心锐减
jjyybear 发表于 2011-3-9 20:37


微型计算机……

垃圾杂志。

http://ppbm5.com/Benchmark5.html

根据上面这个网站网友提交的评测结果,GTX480转码的速度是双路Xeon X5680的10倍以上。
123456d 发表于 2011-3-9 17:41


好像是不到60%,top500上有,中国的两台机器还算高的

所以,我怀疑龙3b的理论浮点,真正跑起来,效率能不能有50%
deam 发表于 2011-3-9 20:43


不能说人家杂志不好

软件发布更新是一步一步来的,早期的软件确实不给力
maomaobear2 发表于 2011-3-10 13:39
linpack测试就是对一组浮点矩阵乘法进行测试。龙芯3B的peak是128GFLOPS,矩阵乘法效率大于93%,你说龙芯3B的linpack测试在带宽足够下会低于50%?
123456d 发表于 2011-3-10 13:53


跑跑才知道,龙3b这种结构很像CELL,CELL的理论和实测很悲剧。也许龙3b优化的更好,效率更高

但是这个东西还是要测试成绩说话。
maomaobear2 发表于 2011-3-10 14:00
BladeCenter QS22/LS21 Cluster, PowerXCell 8i 3.2 Ghz / Opteron DC 1.8 GHz, Voltaire Infiniband
Vendor         IBM
        Rmax1042000          Rpeak1375776
这个是CELL的改进版效率会杯具?
123456d 发表于 2011-3-10 14:06


    那个是cell be
maomaobear2 发表于 2011-3-10 14:09
奥,你的意思是3B是CELL,不是PowerXCell。你太有才,不过我也不知道他们有什么具体区别,只知道后者是前者的浮点加强版

那个是cell be
maomaobear2 发表于 2011-3-10 14:09

可是你知道CELL的矩阵乘法的效率数据吗?
表7 8个SPUs上并行双精度Linpack的性能
  1kx1k matrix
  Number of SPUs   1   2   3   4   5   6   7   8
  SPEsim (GFLOPS)   1.46   2.84   4.15   5.39   6.56   7.66   8.67   9.71
  Hardware (GFLOPS)   1.45   2.81   4.11   5.32   6.46   7.52   8.51   9.46
  Model Accuracy   99.14%   98.82%   99.12%   98.79%   98.52%   98.12%   98.21%   97.45%
  Efficiency   79.23%   76.78%   74.86%   72.68%   70.60%   68.49%   66.43%   64.62%
那个是cell be
maomaobear2 发表于 2011-3-10 14:09

可是你知道CELL的矩阵乘法的效率数据吗?
表7 8个SPUs上并行双精度Linpack的性能
  1kx1k matrix
  Number of SPUs   1   2   3   4   5   6   7   8
  SPEsim (GFLOPS)   1.46   2.84   4.15   5.39   6.56   7.66   8.67   9.71
  Hardware (GFLOPS)   1.45   2.81   4.11   5.32   6.46   7.52   8.51   9.46
  Model Accuracy   99.14%   98.82%   99.12%   98.79%   98.52%   98.12%   98.21%   97.45%
  Efficiency   79.23%   76.78%   74.86%   72.68%   70.60%   68.49%   66.43%   64.62%
额,龙芯就是科学院南路那家么?