胡伟武口中的世界第一:江南所众核原型DFMC,单CPU256核双 ...

来源:百度文库 编辑:超级军网 时间:2024/04/27 21:38:19


对比的 费米m2090,双精度浮点峰值666GFLOPS,DGEMM为60%,实为400GFLOPS

对比的 费米m2090,双精度浮点峰值666GFLOPS,DGEMM为60%,实为400GFLOPS
面向深度融合异构众核处理器的协同计算技术
Fang Zheng(郑方), Member, CCF, Hong-Liang Li(李宏亮), Member, CCF, Hui Lv(吕晖), Member, CCF, Feng Guo(过锋), Member, CCF, Xiao-Hong Xu(许晓红), Member, CCF, Xiang-Hui Xie(谢向辉), Senior Member, CCF
State Key Laboratory of Mathematical Engineering and Advanced Computing, Wuxi 214125, China
Cooperative Computing Techniques for a Deeply Fused and Heterogeneous Many-Core Processor Architecture
Fang Zheng(郑方), Member, CCF, Hong-Liang Li(李宏亮), Member, CCF, Hui Lv(吕晖), Member, CCF, Feng Guo(过锋), Member, CCF, Xiao-Hong Xu(许晓红), Member, CCF, Xiang-Hui Xie(谢向辉), Senior Member, CCF
State Key Laboratory of Mathematical Engineering and Advanced Computing, Wuxi 214125, China

摘要

参考文献

相关文章
   
      
Download: [PDF 2342KB]  
摘要 随着半导体技术的进步,众核处理器已经广泛应用于高性能计算领域.但是由于"访存墙"的影响,很多应用在众核处理器上执行的过程中出现了性能瓶颈,处理器的计算的能力难以有效发挥.本文中,我们提出了一种面向高性能计算领域的新的深度融合异构众核处理器结构(DFMC,deeply fused many-core).DFMC片上集成了异构的管理核心(MPE)和计算核心(CPE),这两种核心面向不同的应用特征,但使用统一的指令集、统一的执行模型,并支持带Cache一致性的主存共享.为减轻"访存墙"影响,DFMC的CPE之间支持多种协同计算技术,包括多模式数据流传输、高效的寄存器通信技术和快速硬件同步技术.这些技术可以提高片上片上数据重用率并优化访存性能.本文实现了一个基于FPGA的全片原型系统,包括了4个管理核心和256个计算核心.实验结果表明,协同计算技术可以有效提高协同计算效率,DGEMM的效率达到94%,FFT性能达到207Gflops,FDTD性能为27Gflops.
intel的PHI的1000G的DGEMM性能公布的是82%
DFMC原型的双精度矩阵乘(DGEMM)性能功耗比测试,并与NVIDIA公司的Kepler K20GPU进行了对比.优于 K20GPU的90%

http://lt.cjdby.net/thread-1996931-1-1.html

http://www.nvidia.cn/object/tesla-servers-cn.html
“实现了一个基于FPGA的全片原型系统”

才发现论文里有这句话,这个东西有流片过吗?如果没有...

失落的天堂 发表于 2015-6-11 21:31
“实现了一个基于FPGA的全片原型系统”

才发现论文里有这句话,这个东西有流片过吗?如果没有...


核高基众核竟争的胜者,江南所全国产100P超算的CPU,不会流片?
失落的天堂 发表于 2015-6-11 21:31
“实现了一个基于FPGA的全片原型系统”

才发现论文里有这句话,这个东西有流片过吗?如果没有...


核高基众核竟争的胜者,江南所全国产100P超算的CPU,不会流片?
“实现了一个基于FPGA的全片原型系统”

才发现论文里有这句话,这个东西有流片过吗?如果没有...
现在应该是在等中芯国际28纳米在三季度正式量产,
===
由于在中芯国际流片,工艺是40纳米,功耗是150瓦--200瓦之间,随着中芯国际28纳米工艺的引进,将来有望达到 Tesla K80 双GPU (28纳米)加速器的水平,双精度浮点精度突破2000G FLops
现在应该是在等中芯国际28纳米在三季度正式量产,
===
由于在中芯国际流片,工艺是40纳米,功耗是150瓦--2 ...
记得
早些时候说的是1000g 双精浮点么?
听上去挺强大。。。。。
神威威武~!


相比之下,胡伟武的GS464E(新龙芯3A)的DGEMM为90%,INTEL的I系列则为90一97%之间

相比之下,胡伟武的GS464E(新龙芯3A)的DGEMM为90%,INTEL的I系列则为90一97%之间
值得高度关注  !!!
明显没流片吧。至少从论文看还只是处于FPGA原理系统的阶段,至于SMIC,曾经创造出45NM 0.2%良率的FAB居然还会有人对它报期望。。。。。
hswz 发表于 2015-6-11 21:40
现在应该是在等中芯国际28纳米在三季度正式量产,
===
由于在中芯国际流片,工艺是40纳米,功耗是150瓦--2 ...
要类比也是 xeon phi  gpu计算卡峰值水分太大 而且不好利用
不错,众核CPU水平相当不错。可惜没人用,本来市场就小的一笔
明显没流片吧。至少从论文看还只是处于FPGA原理系统的阶段,至于SMIC,曾经创造出45NM 0.2%良率的FAB居然还 ...
无锡恒鼎超级计算中心有限公司已经正式成立,成为国家超级计算(无锡)中心的建设和运营主体。无锡江南计算技术研究所成立了项目指挥组及总师组,代号为 SW-5 的国产众核芯片已经完成样片流片,主机系统软件正在调试,整机系统计划在 2015 年发布,计算性能将冲击世界第一。
无锡恒鼎超级计算中心有限公司已经正式成立,成为国家超级计算(无锡)中心的建设和运营主体。无锡江南计 ...
超天河了?美禁得如此准时?
这些东西流片了给谁用?

自产自用搞研究?
TlJdMxFc 发表于 2015-6-12 09:30
这些东西流片了给谁用?

自产自用搞研究?
如果性能真的有这么出众,那么当然是首先自用装超算。如果成本能控制下来的话,也可以和intel一展竞争(当然这个就有点遥远了)。
TlJdMxFc 发表于 2015-6-12 09:30
这些东西流片了给谁用?

自产自用搞研究?
只有超算有用  这东西和intel xeon phi一个性质
只有超算有用  这东西和intel xeon phi一个性质
比用GPU加速强吧?
用奔四烧水 发表于 2015-6-12 20:26
比用GPU加速强吧?
那是当然GPU适应性和易用性差多了
申威的信息真少
上海高性能集成电路设计中心在"十一五"成果的基础上,突破异构众核处理器架构技术、异构众核处理器验证技术和基于28nm工艺的众核处理器物理实现技术。截至目前,已完成4个主核和256从核的众核处理器28nm工艺流片,工作频率超过1.5GHz,峰值双精度浮点运算速度超过每秒3万亿次,达到预期设计目标。
===
胡伟武口中的世界第一终于官泄了
这回算HKC了么?
这回算HKC了么?
cpu分值测了吗?
继续等呗,要么太好不能说要么太差也不能说
继续等呗,要么太好不能说要么太差也不能说
现在可以说了吗?,cpu分值

mips64el 发表于 2015-6-19 15:40
申威的信息真少


江南所保密做的太好了。
mips64el 发表于 2015-6-19 15:40
申威的信息真少


江南所保密做的太好了。
是神威,不是申威。江南所保密做的太好了。
神威是超算。申威是处理器
神威是超算。申威是处理器
我搞错了。你是对的。