ISSCC上的龙芯3B
来源:百度文库 编辑:超级军网 时间:2024/04/27 19:14:06
a 1GHz GS464V needs 2.95μs to solve the1024-point single-precision complex FFT, which is less than 3.67μs needed by2.66H Core i7.a 1GHz GS464V needs 2.95μs to solve the1024-point single-precision complex FFT, which is less than 3.67μs needed by2.66H Core i7.
胡伟武的胸前别着一枚毛主席像章,他本人对毛主席诸多提法也非常认同,其中一条就是“从认识到实践,从实践到认识的螺旋式上升理论”。“很可惜,中国在基础平台的研究却总是半圈半圈地来,我们不是在实践中发现问题,再回到理论,而是在美国人从实践到认识的基础上,跟着他们从认识到认识,只要美国人新出了一个理论,我们就立马着手研究,而不去看看这些理论是不是真的适合中国。”胡伟武说这话时很严肃,显然这并不只是中国芯片的问题,而是产业的“通病 ”。
“什么是原始创新?不是人家做单核我们就做单核,人家做多核我们就做多核,不是跟风地做云计算、物联网。原如创新必须和实践紧紧结合起来。”胡伟武说,近几年,龙芯也在做这样的转变,那就是在与客户的磨合中不断完善技术。
“
比如,我们为一个客户做雷达信号处理,他们提出的要求看来非常苛刻,好像达不到,但是等我们做了两年的磨合后,就会发现在这个领域我们的性能要比国外高好几倍,为什么会有这样的技术突破?是因为我们和自己的应用结合在一起了,又在应用的过程中发现了新的问题。”
“
胡伟武的胸前别着一枚毛主席像章,他本人对毛主席诸多提法也非常认同,其中一条就是“从认识到实践,从实践到认识的螺旋式上升理论”。“很可惜,中国在基础平台的研究却总是半圈半圈地来,我们不是在实践中发现问题,再回到理论,而是在美国人从实践到认识的基础上,跟着他们从认识到认识,只要美国人新出了一个理论,我们就立马着手研究,而不去看看这些理论是不是真的适合中国。”胡伟武说这话时很严肃,显然这并不只是中国芯片的问题,而是产业的“通病 ”。
“什么是原始创新?不是人家做单核我们就做单核,人家做多核我们就做多核,不是跟风地做云计算、物联网。原如创新必须和实践紧紧结合起来。”胡伟武说,近几年,龙芯也在做这样的转变,那就是在与客户的磨合中不断完善技术。
“
比如,我们为一个客户做雷达信号处理,他们提出的要求看来非常苛刻,好像达不到,但是等我们做了两年的磨合后,就会发现在这个领域我们的性能要比国外高好几倍,为什么会有这样的技术突破?是因为我们和自己的应用结合在一起了,又在应用的过程中发现了新的问题。”
“
岂不是又可以媲美I7了。。
低调做人 发表于 2011-3-8 20:56
不知道
不知道
低调做人 发表于 2011-3-8 20:56
4核心1ghz的3a的浮点性能相当于1.8g双核心的K8
3b的理论浮点能力,能不能用上有很大疑问,类似cell当年发布的时候,也是号称理论浮点如何如何。
你看GPU的理论浮点,直接上T,实际运算能用到的效率是多少是另外一码事。
4核心1ghz的3a的浮点性能相当于1.8g双核心的K8
3b的理论浮点能力,能不能用上有很大疑问,类似cell当年发布的时候,也是号称理论浮点如何如何。
你看GPU的理论浮点,直接上T,实际运算能用到的效率是多少是另外一码事。
从认识到实践,从实践到认识的螺旋式上升理论
其实就是中国传统的“知行合一”。
其实就是中国传统的“知行合一”。
maomaobear2 发表于 2011-3-8 21:40
GPU是GPU,龙芯3B是龙芯3B。
GPU是GPU,龙芯3B是龙芯3B。
123456d 发表于 2011-3-9 13:35
加了SIMD向量处理器单元,要比理论浮点,就可以参考GPU了
加了SIMD向量处理器单元,要比理论浮点,就可以参考GPU了
maomaobear2 发表于 2011-3-9 13:41
3B的矩阵乘法效率是peak的93%以上,GPU的你能给我一个链接吗?
3B的矩阵乘法效率是peak的93%以上,GPU的你能给我一个链接吗?
maomaobear2 发表于 2011-3-8 21:40
当然你要说,spec rate 我就不说什么了,毕竟二级缓存,800M的HT等有制约在那里!还有频率太低,再计算所这个人力物力,你想它出很好看的数据很难
当然你要说,spec rate 我就不说什么了,毕竟二级缓存,800M的HT等有制约在那里!还有频率太低,再计算所这个人力物力,你想它出很好看的数据很难
多核要看使用环境,要看优化水平,不同环境差异很大。
3A的单核性能,整数性能与AMD XP 1800+(实际1.53G)差不多,浮点性能比INTEL P4 2.0强10%,大至是P4 2.2G-2.4G的水平。
四核全速运行时功耗10W左右,P4 2.4光散热风扇的功耗就要10W吧。
4核心1ghz的3a的浮点性能相当于1.8g双核心的K8
3b的理论浮点能力,能不能用上有很大疑问,类似cel ...
maomaobear2 发表于 2011-3-8 21:40
多核要看使用环境,要看优化水平,不同环境差异很大。
3A的单核性能,整数性能与AMD XP 1800+(实际1.53G)差不多,浮点性能比INTEL P4 2.0强10%,大至是P4 2.2G-2.4G的水平。
四核全速运行时功耗10W左右,P4 2.4光散热风扇的功耗就要10W吧。
hahage 发表于 2011-3-9 15:25
我是查的spec官方网站的数据
我是查的spec官方网站的数据
123456d 发表于 2011-3-9 13:46
矩阵乘法……GPU最擅长的差不多就是这玩意了
93%或许没有,但也不会差太多就是了
矩阵乘法……GPU最擅长的差不多就是这玩意了
93%或许没有,但也不会差太多就是了
大狼芬里尔 发表于 2011-3-9 17:31
那说说GPU的linpack的效率有多少?
那说说GPU的linpack的效率有多少?
看着还不错
petervivian 发表于 2011-3-9 18:05
应该很不错
应该很不错
现在公认的gpu的理论和实际差很远 神马时候俺的475的转码能力能赶上i7啊
jjyybear 发表于 2011-3-9 20:21
你用的软件不对。
你用的软件不对。
回复 18# deam
还真不是软件问题 我本来很支持cuda的 但是微型计算机的转码评测让我信心锐减
还真不是软件问题 我本来很支持cuda的 但是微型计算机的转码评测让我信心锐减
微型计算机……
垃圾杂志。
http://ppbm5.com/Benchmark5.html
根据上面这个网站网友提交的评测结果,GTX480转码的速度是双路Xeon X5680的10倍以上。
回复 deam
还真不是软件问题 我本来很支持cuda的 但是微型计算机的转码评测让我信心锐减
jjyybear 发表于 2011-3-9 20:37
微型计算机……
垃圾杂志。
http://ppbm5.com/Benchmark5.html
根据上面这个网站网友提交的评测结果,GTX480转码的速度是双路Xeon X5680的10倍以上。
123456d 发表于 2011-3-9 17:41
好像是不到60%,top500上有,中国的两台机器还算高的
所以,我怀疑龙3b的理论浮点,真正跑起来,效率能不能有50%
好像是不到60%,top500上有,中国的两台机器还算高的
所以,我怀疑龙3b的理论浮点,真正跑起来,效率能不能有50%
deam 发表于 2011-3-9 20:43
不能说人家杂志不好
软件发布更新是一步一步来的,早期的软件确实不给力
不能说人家杂志不好
软件发布更新是一步一步来的,早期的软件确实不给力
maomaobear2 发表于 2011-3-10 13:39
linpack测试就是对一组浮点矩阵乘法进行测试。龙芯3B的peak是128GFLOPS,矩阵乘法效率大于93%,你说龙芯3B的linpack测试在带宽足够下会低于50%?
linpack测试就是对一组浮点矩阵乘法进行测试。龙芯3B的peak是128GFLOPS,矩阵乘法效率大于93%,你说龙芯3B的linpack测试在带宽足够下会低于50%?
123456d 发表于 2011-3-10 13:53
跑跑才知道,龙3b这种结构很像CELL,CELL的理论和实测很悲剧。也许龙3b优化的更好,效率更高
但是这个东西还是要测试成绩说话。
跑跑才知道,龙3b这种结构很像CELL,CELL的理论和实测很悲剧。也许龙3b优化的更好,效率更高
但是这个东西还是要测试成绩说话。
maomaobear2 发表于 2011-3-10 14:00
BladeCenter QS22/LS21 Cluster, PowerXCell 8i 3.2 Ghz / Opteron DC 1.8 GHz, Voltaire Infiniband
Vendor IBM
Rmax1042000 Rpeak1375776
这个是CELL的改进版效率会杯具?
BladeCenter QS22/LS21 Cluster, PowerXCell 8i 3.2 Ghz / Opteron DC 1.8 GHz, Voltaire Infiniband
Vendor IBM
Rmax1042000 Rpeak1375776
这个是CELL的改进版效率会杯具?
123456d 发表于 2011-3-10 14:06
那个是cell be
那个是cell be
maomaobear2 发表于 2011-3-10 14:09
奥,你的意思是3B是CELL,不是PowerXCell。你太有才,不过我也不知道他们有什么具体区别,只知道后者是前者的浮点加强版
奥,你的意思是3B是CELL,不是PowerXCell。你太有才,不过我也不知道他们有什么具体区别,只知道后者是前者的浮点加强版
可是你知道CELL的矩阵乘法的效率数据吗?
表7 8个SPUs上并行双精度Linpack的性能
1kx1k matrix
Number of SPUs 1 2 3 4 5 6 7 8
SPEsim (GFLOPS) 1.46 2.84 4.15 5.39 6.56 7.66 8.67 9.71
Hardware (GFLOPS) 1.45 2.81 4.11 5.32 6.46 7.52 8.51 9.46
Model Accuracy 99.14% 98.82% 99.12% 98.79% 98.52% 98.12% 98.21% 97.45%
Efficiency 79.23% 76.78% 74.86% 72.68% 70.60% 68.49% 66.43% 64.62%
那个是cell be
maomaobear2 发表于 2011-3-10 14:09
可是你知道CELL的矩阵乘法的效率数据吗?
表7 8个SPUs上并行双精度Linpack的性能
1kx1k matrix
Number of SPUs 1 2 3 4 5 6 7 8
SPEsim (GFLOPS) 1.46 2.84 4.15 5.39 6.56 7.66 8.67 9.71
Hardware (GFLOPS) 1.45 2.81 4.11 5.32 6.46 7.52 8.51 9.46
Model Accuracy 99.14% 98.82% 99.12% 98.79% 98.52% 98.12% 98.21% 97.45%
Efficiency 79.23% 76.78% 74.86% 72.68% 70.60% 68.49% 66.43% 64.62%
额,龙芯就是科学院南路那家么?