有懂 GPU的吗?求教

来源:百度文库 编辑:超级军网 时间:2024/04/26 05:03:43
求助下。
看数据, k40的双精度浮点运算能力是 515GFLOP/s
E5 2695 查得不准,有说是   230 Gflop/2
原来印象中,GPU应该比CPU快得多啊?

CPU的运算能力,哪里查呢?求助下。
看数据, k40的双精度浮点运算能力是 515GFLOP/s
E5 2695 查得不准,有说是   230 Gflop/2
原来印象中,GPU应该比CPU快得多啊?

CPU的运算能力,哪里查呢?
现在的intel cpu不用查,可以自己算。时钟频率乘以8就是每个核的浮点计算能力,比如2.6GHz的E5,每核20.8GFlops

再乘以核数就是cpu的浮点计算能力
现在的intel cpu不用查,可以自己算。时钟频率乘以8就是每个核的浮点计算能力,比如2.6GHz的E5,每核20.8GF ...
谢谢,这么算是单精度还是双精度?
GpU每个核的速度和CPu没法比,但就是核数量多。
GpU每个核的速度和CPu没法比,但就是核数量多。
如果按照我的数据看,gpu就没优势了啊,k40要价三万多呢
black5 发表于 2014-5-13 11:28
谢谢,这么算是单精度还是双精度?
cpu双精度和单精度性能数字是一样的
2014-5-13 11:51 上传

xmyyc 发表于 2014-5-13 11:51
cpu双精度和单精度性能数字是一样的
怎么可能呢?
black5 发表于 2014-5-13 11:48
如果按照我的数据看,gpu就没优势了啊,k40要价三万多呢
GPU的单精度会高很多,毕竟很多运算单精度就够了
十一十二 发表于 2014-5-13 11:54
怎么可能呢?
没啥不可能的,cpu里面都是64位浮点计算器,32位也是当64位算的
xmyyc 发表于 2014-5-13 11:56
没啥不可能的,cpu里面都是64位浮点计算器,32位也是当64位算的
gpu里面都是32位计算器,算64位的时候等于算了好几个32位计算
xmyyc 发表于 2014-5-13 11:56
没啥不可能的,cpu里面都是64位浮点计算器,32位也是当64位算的
你学微机原理的时候没有学过inte cpul寄存器那些名字么?
GPU的优势是总线带宽和存储的延时。如果是图形计算这些比峰值能力更重要。
单纯的高性能矩阵运算之类的已经不怎么考虑GPU了,要么直接用CPU,要么上FPGA。
gpu很猛滴。很多个核心并行运算。
十一十二 发表于 2014-5-13 11:59
你学微机原理的时候没有学过inte cpul寄存器那些名字么?
你的微机原理教材太陈旧了吧,二十年了都
xmyyc 发表于 2014-5-13 12:15
你的微机原理教材太陈旧了吧,二十年了都
没必要冷嘲热讽的,我贴的图里一目了然,这种客观事实没必要争辩。
2014-5-13 12:21 上传


K40的双精度浮点运算可以达到1.43TFLOPS
十一十二 发表于 2014-5-13 12:18
没必要冷嘲热讽的,我贴的图里一目了然,这种客观事实没必要争辩。
如果我那是冷嘲热讽,那也是你先用学微机原理之类的话来冷嘲热讽的

至于贴图,你先搞清楚说的是什么东西,贴的是什么东西再说
xmyyc 发表于 2014-5-13 12:34
如果我那是冷嘲热讽,那也是你先用学微机原理之类的话来冷嘲热讽的

至于贴图,你先搞清楚说的是什么东 ...
我不是想冷嘲热讽,你直接说事就好,不想吵架。
现在gpu通用计算实用性不高,软件优化门槛又高。不知道你用什么软件,不过, 买几台amd6核一起运算应该比用计算卡更合适。
kyha123 发表于 2014-5-13 12:41
现在gpu通用计算实用性不高,软件优化门槛又高。不知道你用什么软件,不过, 买几台amd6核一起运算应该比用 ...
CUDA在学术领域已经非常流行了,现在跟进已经算是很晚了。
这行业有个术语叫software designwin ,如果软件已经已经为GPU优化,那毫无疑问只能用GPU,如果用SSE4.2 优化的,那自然应该用CPU。
hillsboro1 发表于 2014-5-13 12:52
这行业有个术语叫software designwin ,如果软件已经已经为GPU优化,那毫无疑问只能用GPU,如果用SSE4.2 优 ...
我最近刚写了一个计算模拟程序,在一台16核intel cpu+2个GPU的机器上算,我把程序搞成了多核并行——2个进程给两个gpu,其他14个进程给cpu。PGI可以同时对gpu和cpu进行优化。但是不知道有多靠谱。
yaoyuan7310 发表于 2014-5-13 13:00
我最近刚写了一个计算模拟程序,在一台16核intel cpu+2个GPU的机器上算,我把程序搞成了多核并行——2个 ...
你买pGI编译器了?
yaoyuan7310 发表于 2014-5-13 13:00
我最近刚写了一个计算模拟程序,在一台16核intel cpu+2个GPU的机器上算,我把程序搞成了多核并行——2个 ...
用过一个计算电磁学软件,GPU版本的速度加速明显,但是那个破驱动太难搞了,nvidia中国那帮fae就是个二传手,把美国的驱动转发给客户,本地化定制根本做不到
hillsboro1 发表于 2014-5-13 13:02
用过一个计算电磁学软件,GPU版本的速度加速明显,但是那个破驱动太难搞了,nvidia中国那帮fae就是个二传 ...
莫非是HFSS?
hillsboro1 发表于 2014-5-13 13:00
你买pGI编译器了?
淘宝上买的,算不算买?20块钱。
十一十二 发表于 2014-5-13 12:48
CUDA在学术领域已经非常流行了,现在跟进已经算是很晚了。
调试啥的都要成本跟人力,黑五老师现在没这个条件嘛
hillsboro1 发表于 2014-5-13 13:02
用过一个计算电磁学软件,GPU版本的速度加速明显,但是那个破驱动太难搞了,nvidia中国那帮fae就是个二传 ...
我就自己写了。pgi可以简化很多cuda的代码问题。
我用的是fortran,感觉代码写起来还是比较简单的。
我是一边看说明书,一边写。当然我的东西比较简单,主要是大量调用fft,所以没怎么写kernel。
gpu算的线程调用cuda的fft库,cpu算的线程调用intel的fft库。考虑到数据传输给gpu的时间的话,有的时候走gpu的线程也没快多少。提高gpu的效率的方法就是减少内存读入读出的次数,尽量把所有的数据一次打到gpu中。但是gpu的缓存还是太小,无法把太多的数据放进去。所以我才用cpu同步做其他的计算。
你查的资料有误

K40的双精度浮点运算可以达到1.43TFLOPS
谢谢!我就觉得不对劲啊
GPU的优势是总线带宽和存储的延时。如果是图形计算这些比峰值能力更重要。
单纯的高性能矩阵运算之类的已 ...
主要就是矩阵计算
现在的intel cpu不用查,可以自己算。时钟频率乘以8就是每个核的浮点计算能力,比如2.6GHz的E5,每核20.8GF ...
这样的话,安腾,e5,e3还有7系间,同频内核数又相同的,计算性能区别不大了?
不考虑缓存和并联数量的话。
我最近刚写了一个计算模拟程序,在一台16核intel cpu+2个GPU的机器上算,我把程序搞成了多核并行——2个 ...
如果确定买gpu了,还要具体想你请教~
现在gpu通用计算实用性不高,软件优化门槛又高。不知道你用什么软件,不过, 买几台amd6核一起运算应该比用 ...
做集群?成本划算吗?
black5 发表于 2014-5-13 13:38
这样的话,安腾,e5,e3还有7系间,同频内核数又相同的,计算性能区别不大了?
不考虑缓存和并联数量的话 ...
不同cpu每个时钟周期浮点操作数是不同的,比如安腾就是4
调试啥的都要成本跟人力,黑五老师现在没这个条件嘛
我不会用,不过如果确实可行的话,老板可以招这方面的人员。他只关心速度。
xmyyc 发表于 2014-5-13 12:34
如果我那是冷嘲热讽,那也是你先用学微机原理之类的话来冷嘲热讽的

至于贴图,你先搞清楚说的是什么东 ...
Haswell架构有两个AVX2浮点单元,每个单元都是256bit,每周期执行4个双精度或8个单精度浮点运算;此外启用FMA时浮点运算能力翻倍,所以整个架构每周期16次双精度浮点运算或32次单精度。
xmyyc 发表于 2014-5-13 11:51
cpu双精度和单精度性能数字是一样的


IDF2012 Intel官方PPT。
黑五老师培养什么物种需要这么大量的计算?
black5 发表于 2014-5-13 13:40
如果确定买gpu了,还要具体想你请教~
别别别。
我只是用,对gpu的参数真心不清楚。因为服务器放在那里没人用,我自己就折腾着玩。
硬件都是人家现成的。
gpu做大规模并行矩阵运算还是很不错的,它的优势就是人海战术。你1个intel cpu顶我10个gpu核,我出1000个gpu核搞死你。
但是你的显存一定要跟上!显存必须大,就像男人一样,越大越好。否则你的数据传输花费的时间远远超过gpu计算节省的时间:一个桌子上做了10个饿急眼的人,你半个小时才上一盘菜,那帮人5分钟就给吃完了,然后坐在那里干瞪眼。