申威26010的设计思想比NV的gpgpu领先太多了，什么tesla ...

来源：百度文库编辑：超级军网时间：2024/04/29 12:39:04

什么tesla加速卡就是笑话，据说跑双精度运算基本靠双精度运算单元才能发挥，70亿晶体管大部分都是吃电的垃圾，估算有10亿有效就不错了
需要先将要处理的数据通过PCI-E x16传输至计算卡内存，然后计算卡才能计算，最后将结果通过PCI-E x16读回主处理器，这样一来一回的性能损失很多时候远大于计算卡带来的好处。

KNC Card就是一块intelXeon Phi协处理器卡，协处理器卡通过PCIE-X16和主处理器相连，其实看上去就像是一台PC上面插着好几块显卡。这样一台PC构成一个计算节点。
对比SW26010处理器的方案，单个节点来看，一块SW26010的核心数量和一台带有4块xeon phi计算卡的功能相当。Intel方案的麻烦在于，这样一个计算节点的功耗和体积远远大于SW26010，而且intel主处理器内存和协处理器卡的内存是分离的，需要先将要处理的数据通过PCI-E x16传输至计算卡内存，然后计算卡才能计算，最后将结果通过PCI-E x16读回主处理器，这样一来一回的性能损失很多时候远大于计算卡带来的好处。
SW26010的主处理器和协处理器的内存是共享的，这样无需来回从协处理器倒腾数据，而且可以实现类似AMD APU的统一内存寻址，大幅度提高了协处理器的使用效率，从这点来说SW26010的方案是优于intel方案的。

理论性能可以看出，单个intel的phi处理器是高于SW26010的计算核心，得益于超宽的512位矢量处理器（VPU），intel phi上的处理器每个时钟可以执行16个单精度运算或8个双精度计算，而SW26010上的计算核心只有一半的宽度，所以最多也就8个单精度和4个双精度，不过SW26010的核心频率是1.45GHz，要比intel phi的1.3GHz稍高，但是这样也很难追平intel的单个核心的理论性能优势。
但是光比理论峰值性能是没有什么意义的，SW26010的VPU虽然比intel phi的宽度小，但是264bit的宽度而不是256bit的宽度可以提供比intel的单双精度浮点更高的计算精度，单精度浮点可以比intel的高一倍，而双精度可以高4倍，这在科学计算中是能够获得更大的优势，而且intel的512bit宽度的矢量运算需要更多的数据来填饱它，加上需要用PCI-E传输数据的瓶颈，大部分时候也只能挨饿，而SW26010可以直接访问主存，因此在实际使用效率上不见得就会比intel phi低多少，并且某些应用场合甚至可能大幅度超过intel。
而且最重要的是，SW26010这样的设计，大幅度降低了系统复杂度，单个计算节点只需要一片SW26010，而intel就很杯具的需要一整台机架服务器，大概长得像这样：

什么tesla加速卡就是笑话，据说跑双精度运算基本靠双精度运算单元才能发挥，70亿晶体管大部分都是吃电的垃圾，估算有10亿有效就不错了
需要先将要处理的数据通过PCI-E x16传输至计算卡内存，然后计算卡才能计算，最后将结果通过PCI-E x16读回主处理器，这样一来一回的性能损失很多时候远大于计算卡带来的好处。

KNC Card就是一块intelXeon Phi协处理器卡，协处理器卡通过PCIE-X16和主处理器相连，其实看上去就像是一台PC上面插着好几块显卡。这样一台PC构成一个计算节点。
对比SW26010处理器的方案，单个节点来看，一块SW26010的核心数量和一台带有4块xeon phi计算卡的功能相当。Intel方案的麻烦在于，这样一个计算节点的功耗和体积远远大于SW26010，而且intel主处理器内存和协处理器卡的内存是分离的，需要先将要处理的数据通过PCI-E x16传输至计算卡内存，然后计算卡才能计算，最后将结果通过PCI-E x16读回主处理器，这样一来一回的性能损失很多时候远大于计算卡带来的好处。
SW26010的主处理器和协处理器的内存是共享的，这样无需来回从协处理器倒腾数据，而且可以实现类似AMD APU的统一内存寻址，大幅度提高了协处理器的使用效率，从这点来说SW26010的方案是优于intel方案的。

理论性能可以看出，单个intel的phi处理器是高于SW26010的计算核心，得益于超宽的512位矢量处理器（VPU），intel phi上的处理器每个时钟可以执行16个单精度运算或8个双精度计算，而SW26010上的计算核心只有一半的宽度，所以最多也就8个单精度和4个双精度，不过SW26010的核心频率是1.45GHz，要比intel phi的1.3GHz稍高，但是这样也很难追平intel的单个核心的理论性能优势。
但是光比理论峰值性能是没有什么意义的，SW26010的VPU虽然比intel phi的宽度小，但是264bit的宽度而不是256bit的宽度可以提供比intel的单双精度浮点更高的计算精度，单精度浮点可以比intel的高一倍，而双精度可以高4倍，这在科学计算中是能够获得更大的优势，而且intel的512bit宽度的矢量运算需要更多的数据来填饱它，加上需要用PCI-E传输数据的瓶颈，大部分时候也只能挨饿，而SW26010可以直接访问主存，因此在实际使用效率上不见得就会比intel phi低多少，并且某些应用场合甚至可能大幅度超过intel。
而且最重要的是，SW26010这样的设计，大幅度降低了系统复杂度，单个计算节点只需要一片SW26010，而intel就很杯具的需要一整台机架服务器，大概长得像这样：

啊？

呵呵，同理世界上设计思想比Intel先进的通用芯片多得是，然并卵！

呵呵，同理世界上设计思想比Intel先进的通用芯片多得是，然并卵！
打引号的先进吧。
intel的包袱太多而已。

那么，什么时候才能用上国产核显卡？

标题讲NV的TESLA GPU加速，内容主要是Intel XEON PHI。不知道想说明什么。

软件支持度不行，什么好方案都是白瞎

看不懂说什么

"但是光比理论峰值性能是没有什么意义的，SW26010的VPU虽然比intel phi的宽度小，但是264bit的宽度而不是256bit的宽度可以提供比intel的单双精度浮点更高的计算精度，单精度浮点可以比intel的高一倍，而双精度可以高4倍，这在科学计算中是能够获得更大的优势"

((((；゜Д゜)))

这个设计我可以想到的最大问题是主内存带宽够吗？

倒过来想想，为什么phi的协处理器需要内存，为什么我们需要独立显存的显卡？实际上普通x86处理器（i3,i5,i7...）上的浮点协处理器（使用比如sse，sse2指令）就是直接使用主内存的，i系列的核显也是直接共享主内存的，intel为什么不延续这个设计到phi上？

淘宝上买的到么？买不到就只能看看 PPT

不知道，如果英特尔敞开了干，不考虑成本和通用化，不知道性能能达到什么水平

guoxing1987 发表于 2016-7-31 11:18
打引号的先进吧。
intel的包袱太多而已。
那些“包袱”，绝大多数情况下也是财富，代表着用户、开发工具和现成源代码的积累。

编辑掉

编辑掉

申威26010的设计思想比NV的gpgpu领先太多了，什么tesla ... 装甲战车的设计思想攻击型核潜艇的设计思想高空高速设计思想的明天关于奥斯卡级的设计思想求教感觉女王的设计思想缺失奇葩二战德国坦克设计思想的问题。 Tegra X1, Drive PX和NV的股价想起当年对于坦克设计思想的争论！说说T-50的进气道设计思想性能等沈飞中四-一种平实务本的设计思想从使用模式来看J-20的设计思想