1G的单核GS464V和core i7的3。0G比较1K的FFT性能

来源:百度文库 编辑:超级军网 时间:2024/04/16 17:28:11
1G的GS464V是的单精度1024FFT性能是3G的core i7的5倍。单核的GS464V用时间近3微秒,core i7单核用时0.015毫秒,15微秒1G的GS464V是的单精度1024FFT性能是3G的core i7的5倍。单核的GS464V用时间近3微秒,core i7单核用时0.015毫秒,15微秒
测试结果是怎么出来的?
赶羚羊 发表于 2011-8-21 16:51
测试结果是怎么出来的?
龙芯的结果是上了ISSCC 2011的,也有内部数据,intel的是网上的数据!地址:
http://homepage.virgin.net/roy.l ... sults.htm#anchorV1S
123456d 发表于 2011-8-21 16:54
龙芯的结果是上了ISSCC 2011的,也有内部数据,intel的是网上的数据!地址:
http://homepage.virgin.ne ...
你那结果是怎么看的?

你给出的网页明明显示的是W/SSE,I7 930用时86毫秒。

0.015毫秒是哪里来的数据?
就算是I7在64位模式下,也是54-58毫秒。
赶羚羊 发表于 2011-8-21 17:09
就算是I7在64位模式下,也是54-58毫秒。
我画红线的!
赶羚羊 发表于 2011-8-21 17:07
你那结果是怎么看的?

你给出的网页明明显示的是W/SSE,I7 930用时86毫秒。
你说的是1024X1024的时间,不是1024的
哦,少看了一个K,坐等实际比较结果。
另外你贴的第一个图不是说GS464V用时2.95微秒,而2.66H i7用时3.67微秒吗?
龙芯3B的信号处理确实NB。core i7也是向量核
i7什么时候变成向量核了?你指SSE?
赶羚羊 发表于 2011-8-21 17:40
另外你贴的第一个图不是说GS464V用时2.95微秒,而2.66H i7用时3.67微秒吗?
这个2。66H i7不知道什么意思?但是4核i7就是3.67微秒这个性能!
赶羚羊 发表于 2011-8-21 17:43
i7什么时候变成向量核了?你指SSE?
SIMD处理
赶羚羊 发表于 2011-8-21 17:35
哦,少看了一个K,坐等实际比较结果。
这个就是测试数据比较了
123456d 发表于 2011-8-21 17:46
SIMD处理
按你这个理论,从P2开始都是向量核了。先搞清楚向量核什么意思吧。
123456d 发表于 2011-8-21 17:51
这个就是测试数据比较了
你拿两个完全不同的测试结果,是不是运行的同一个测试程序?(FFTGraf benchmark runs code for single and double precision Fast Fourier Transforms (FFTs) of size 1024 to 1048576 (1K to 1024K) , producing a graph of results. 看清楚了,算完还要画图。先不说计算的算法是否一样。)相关优化到底做了什么?(i7支持的SSE4为什么没有用呢?)

这种比较毫无意义。
赶羚羊 发表于 2011-8-21 17:51
按你这个理论,从P2开始都是向量核了。先搞清楚向量核什么意思吧。
我看成是core i7 2600的核心了@!哈哈哈哈
赶羚羊 发表于 2011-8-21 18:04
你拿两个完全不同的测试结果,是不是运行的同一个测试程序?(FFTGraf benchmark runs code for single a ...
那你说龙芯不是用这个测试程序,还有什么测试程序可以衡量这个1024FFT的测试时间
123456d 发表于 2011-8-21 18:14
那你说龙芯不是用这个测试程序,还有什么测试程序可以衡量这个1024FFT的测试时间
龙芯的测试程序里有“producing a graph of results”吗?既然你有论文全文,不妨贴出来看看。何况FFT有多个实现方法,就算同一方法,不同源代码也有不同效率的问题,不是吗?
赶羚羊 发表于 2011-8-21 18:26
龙芯的测试程序里有“producing a graph of results”吗?既然你有论文全文,不妨贴出来看看。何况FFT有多 ...
我就问:龙芯是用这个测试程序吗?就跟SPEC测试,有很多不同的测试程序?

赶羚羊 发表于 2011-8-21 18:26
龙芯的测试程序里有“producing a graph of results”吗?既然你有论文全文,不妨贴出来看看。何况FFT有多 ...


最近龙芯3号结合一个重要用户的要求进行数字信号处理方面的改进和优化,用户提出的问题比文章中的问题难多了,但我们结合这些问题进行了一年的反复改进和优化,最后各种性能指标都远远超过了美国的同类产品,在国家重大型号中得到应用。
  老胡没吹牛!
赶羚羊 发表于 2011-8-21 18:26
龙芯的测试程序里有“producing a graph of results”吗?既然你有论文全文,不妨贴出来看看。何况FFT有多 ...


最近龙芯3号结合一个重要用户的要求进行数字信号处理方面的改进和优化,用户提出的问题比文章中的问题难多了,但我们结合这些问题进行了一年的反复改进和优化,最后各种性能指标都远远超过了美国的同类产品,在国家重大型号中得到应用。
  老胡没吹牛!
唉龙芯3B+,龙芯的内部标号很乱!{:soso_e140:}
123456d 发表于 2011-8-21 18:40
最近龙芯3号结合一个重要用户的要求进行数字信号处理方面的改进和优化,用户提出的问题比文章中的问题难 ...
笑话,GS464V和Core i7 2600K是同类产品?

PS:比FFT是么?880MHZ的HD6970秒杀一切{:soso_e113:}
大狼芬里尔 发表于 2011-8-29 12:01
笑话,GS464V和Core i7 2600K是同类产品?

PS:比FFT是么?880MHZ的HD6970秒杀一切
AVX不是专门的向量指令?
我还真不知道HD6970的数据!
123456d 发表于 2011-8-29 12:06
AVX不是专门的向量指令?
我还真不知道HD6970的数据!
所以您想说i7内挂类DSP?

知道啥叫指令流水线么?知道内核是怎样定义的么{:wuyu:}
大狼芬里尔 发表于 2011-8-29 12:18
所以您想说i7内挂类DSP?

知道啥叫指令流水线么?知道内核是怎样定义的么
龙芯3B是DSP?
大狼芬里尔 发表于 2011-8-29 12:01
笑话,GS464V和Core i7 2600K是同类产品?

PS:比FFT是么?880MHZ的HD6970秒杀一切
在理论计算能力达到了惊人的单精度浮点2.7TFlops、双精度浮点性能675GFlops水平。
放个数据出来,看看秒杀一切的效率!
123456d 发表于 2011-8-29 12:33
在理论计算能力达到了惊人的单精度浮点2.7TFlops、双精度浮点性能675GFlops水平。
放个数据出来,看看秒 ...
2.7/0.675=4

双精度有单精度1/4的运算能力,您还能要求啥?别忘了丫可是GPU{:soso_e113:}

大狼芬里尔 发表于 2011-8-29 12:41
2.7/0.675=4

双精度有单精度1/4的运算能力,您还能要求啥?别忘了丫可是GPU


能放个complex FFT的性能出来马?我管它的理论性能多少!
大狼芬里尔 发表于 2011-8-29 12:41
2.7/0.675=4

双精度有单精度1/4的运算能力,您还能要求啥?别忘了丫可是GPU


能放个complex FFT的性能出来马?我管它的理论性能多少!
123456d 发表于 2011-8-29 12:20
龙芯3B是DSP?
GS464V当然算是类DSP内核
大狼芬里尔 发表于 2011-8-29 12:45
GS464V当然算是类DSP内核
典型的通用处理器,还类DSP内核

大狼芬里尔 发表于 2011-8-29 12:01
笑话,GS464V和Core i7 2600K是同类产品?

PS:比FFT是么?880MHZ的HD6970秒杀一切


我给你AMD那个显卡的FFT,所谓的秒杀:龙芯的1024点双浮点有近120GFLOPS,
大狼芬里尔 发表于 2011-8-29 12:01
笑话,GS464V和Core i7 2600K是同类产品?

PS:比FFT是么?880MHZ的HD6970秒杀一切


我给你AMD那个显卡的FFT,所谓的秒杀:龙芯的1024点双浮点有近120GFLOPS,
123456d 发表于 2011-8-29 13:00
我给你AMD那个显卡的FFT,所谓的秒杀:龙芯的1024点双浮点有近120GFLOPS,
牛头不对马嘴:256、512、1024指的是指令字长,双精度指的是数据类型;256位指令字长可以支持每周期4个双精度并发操作,以此类推

1024点双浮点……不懂装懂也有个限度不是{:cha:}

大狼芬里尔 发表于 2011-8-29 15:10
牛头不对马嘴:256、512、1024指的是指令字长,双精度指的是数据类型;256位指令字长可以支持每周期4个双 ...


1024点的complex FFT性能,双浮点近120GFLOPS{:soso_e110:}
大狼芬里尔 发表于 2011-8-29 15:10
牛头不对马嘴:256、512、1024指的是指令字长,双精度指的是数据类型;256位指令字长可以支持每周期4个双 ...


1024点的complex FFT性能,双浮点近120GFLOPS{:soso_e110:}

大狼芬里尔 发表于 2011-8-29 15:10
牛头不对马嘴:256、512、1024指的是指令字长,双精度指的是数据类型;256位指令字长可以支持每周期4个双 ...


FFT性能跟1024位双精度有鸟关系?再说现在那个做到1024的SIMD了?
大狼芬里尔 发表于 2011-8-29 15:10
牛头不对马嘴:256、512、1024指的是指令字长,双精度指的是数据类型;256位指令字长可以支持每周期4个双 ...


FFT性能跟1024位双精度有鸟关系?再说现在那个做到1024的SIMD了?
123456d 发表于 2011-8-29 12:48
典型的通用处理器,还类DSP内核
A High-performance Low-power XPU with 512-bit Vector Extension----你把“512-bit Vector Extension”叫做通用处理器?

当然,如果GS464V是“A High-performance Low-power XPU”的名字,那就是另一回事了

大狼芬里尔 发表于 2011-8-29 15:20
A High-performance Low-power XPU with 512-bit Vector Extension----你把“512-bit Vector Extension” ...
你见过3B的结构吗?
123456d 发表于 2011-8-29 15:19
FFT性能跟1024位双精度有鸟关系?再说现在那个做到1024的SIMD了?
我正要问你有虾米关系

如果你的1024点指的是矩阵尺度,那么你拿龙芯1024的成绩和HD6970 256/512的比?

另外,Larrabee是8-16flops/cycle with SSE(512-1024bit SIMD),莫非Larrabee是未来时?成天不懂装懂很有趣么?

大狼芬里尔 发表于 2011-8-29 15:41
我正要问你有虾米关系

如果你的1024点指的是矩阵尺度,那么你拿龙芯1024的成绩和HD6970 256/512的比? ...


没找到HD6970 1024点这个尺度的成绩,估计512点是它1d FFT所有尺度的最高成绩,这个比较有什么不妥?
larrabee是1024bit吗?我没看出你内行在那里,莫名其妙吧你就
大狼芬里尔 发表于 2011-8-29 15:41
我正要问你有虾米关系

如果你的1024点指的是矩阵尺度,那么你拿龙芯1024的成绩和HD6970 256/512的比? ...


没找到HD6970 1024点这个尺度的成绩,估计512点是它1d FFT所有尺度的最高成绩,这个比较有什么不妥?
larrabee是1024bit吗?我没看出你内行在那里,莫名其妙吧你就
大狼芬里尔 发表于 2011-8-29 15:41
我正要问你有虾米关系

如果你的1024点指的是矩阵尺度,那么你拿龙芯1024的成绩和HD6970 256/512的比? ...
自己不是砖家,说别人不懂装懂需要二的勇气!