江南所异构众核已投入使用于在雷达截面积计算上，算法加 ...

来源：百度文库编辑：超级军网时间：2024/04/20 10:31:25

三维FDTD众核算法的设计与实现
Designing and Implementation of 3D FDTD Parallel Algorithm on Many-core Architecture
推荐 CAJ下载PDF下载

计算机科学 , Computer Science,
编辑部邮箱
2012年06期
[目录页浏览]
[给本刊投稿]
【作者】余峙檠；刘鑫；张彦彬；吴宏；

【Author】 YU Zhi-qing LIU Xin ZHANG Yan-bin WU Hong(Jiangnan Institute of Computer Technology,Wuxi 214083,China)

【机构】江南计算技术研究所；

【摘要】在电磁学中,时域有限差分算法(FDTD)能够精确地模拟空间中电磁场的变化,在电介质器件设计领域得到了广泛的应用。众核(many-core)处理器片上计算资源丰富,对于计算密集型课题有较好的适应性。通过对麦克斯韦方程FDTD仿真算法的分析,并根据众核处理器的特性,实现了FDTD算法的众核并行。实验结果表明,FDTD算法在众核处理器平台上具有较好的计算效率,能够很好地发挥众核结构的优势
http://www.doc88.com/p-635728946714.html三维FDTD众核算法的设计与实现
Designing and Implementation of 3D FDTD Parallel Algorithm on Many-core Architecture
推荐 CAJ下载PDF下载

计算机科学 , Computer Science,
编辑部邮箱
2012年06期
[目录页浏览]
[给本刊投稿]
【作者】余峙檠；刘鑫；张彦彬；吴宏；

【Author】 YU Zhi-qing LIU Xin ZHANG Yan-bin WU Hong(Jiangnan Institute of Computer Technology,Wuxi 214083,China)

【机构】江南计算技术研究所；

【摘要】在电磁学中,时域有限差分算法(FDTD)能够精确地模拟空间中电磁场的变化,在电介质器件设计领域得到了广泛的应用。众核(many-core)处理器片上计算资源丰富,对于计算密集型课题有较好的适应性。通过对麦克斯韦方程FDTD仿真算法的分析,并根据众核处理器的特性,实现了FDTD算法的众核并行。实验结果表明,FDTD算法在众核处理器平台上具有较好的计算效率,能够很好地发挥众核结构的优势
http://www.doc88.com/p-635728946714.html

内容2010年11月7日
核高基申威SW-3众核处理器研究任务来源：01核高基重大专项，已通过答辩进入最终名单项目目标：提出一种先进的众核处理器结构，建立一个512核模拟系统和一个64核原型验证系统，满足我国“十二五”计划中面向高性能计算、高速信息处理及高吞吐量等方面的应用需求项目基础

内容2010年11月7日
核高基申威SW-3众核处理器研究任务来源：01核高基重大专项，已通过答辩进入最终名单项目目标：提出一种先进的众核处理器结构，建立一个512核模拟系统和一个64核原型验证系统，满足我国“十二五”计划中面向高性能计算、高速信息处理及高吞吐量等方面的应用需求项目基础

Intel Xeon X5670

目录

重要参数
详细信息
编辑本段
重要参数

　　插槽类型：LGA 1366
　　主频：2930MHz
　　最大Turbo频率：3333MHz
　　核心数量：六核心
　　线程数量：12
　　L3缓存：12MB
　　制作工艺：32纳米
　　工作功率：95W
　　CPU架构：64位
　　内存控制器：DDR3-800/1066/1333
　　内核电压（V）：0.800-1.300
　　指令集：SSE4.2
编辑本段
详细信息

　　内核电压（V）：0.800-1.300
　　CPU类型：至强
　　CPU系列：Xeon 5600系列
　　CPU架构：64位
　　核心数量：六核心
　　工作功率：95W
　　制作工艺：32纳米
　　线程数量：12
　　主频：2930MHz
　　最大Turbo频率：3333MHz
　　插槽类型：LGA 1366
　　针脚数：1366 pin
　　L3缓存：12MB
　　指令集：SSE4.2
　　超线程技术：支持
　　内存控制器：DDR3-800/1066/1333
　　其他性能：支持睿频加速
　　其他特点：产品代号：Westmere-EP

这5670肯定是用x87单元跑的。

deam 发表于 2012-9-16 19:12

这5670肯定是用x87单元跑的。
文中说5670在O3编译器中跑的

hswz 发表于 2012-9-16 19:24

文中说5670在O3编译器中跑的
光一个O3有啥用，是不是用到SSE2才是关键。

deam 发表于 2012-9-16 19:26 光一个O3有啥用，是不是用到SSE2才是关键。

用SSE＋SSE2＋SSE3加速比5670也提高不到3倍一一一一一一一一一一一一一一一一《电波科学学报》2012年01期加速并行时域有限差分仿真的新方法张立红余文华杨小玲【摘要】：为了加速并行时域有限差分仿真,提出了基于单指令多数据流式扩展(SSE)的一种新的加速方法,在Intel T2300的PC机上实现了对并行时域有限差分仿真的加速,给出了基于消息传递接口(MPI)、OpenMP和SSE指令集的三级数据并行算法。为了验证该算法的加速效率,计算了自由空间中电磁波的辐射问题,得到的加速比为2.62。实验结果表明:这种加速技术无需任何额外的硬件投资就能在很大程度上提高计算效率。【作者单位】：中国传媒大学信息工程学院;中国人民武装警察部队学院;Penn 【关键词】：SSE时域有限差分CPML并行技术【分类号】：TN011 【正文快照】：引言时域有限差分(FDTD)法最早由K.S.Yee在1966年提出,经过几十年的发展,FDTD已经形成了一套比较完善的方法体系,相对于其他的计算电磁学方法,FDTD因其简单灵活而受到广大电磁计算研究者的欢迎,但它的实现却面临着一些问题,如庞大的计算量是普通PC机所不能满足的,因此,科学家

deam 发表于 2012-9-16 19:26 光一个O3有啥用，是不是用到SSE2才是关键。

了解知识，请关注百科微博
intel T2300
产品类别：中央处理器（CPU）
具体型号: Core Duo T2300(1.66G)
主要用途:笔记本
核心数量:双核
接口类型: Socket 479
核心名称: Yonah
生产工艺: 0.065um
核心电压: 1.25V-1.4V
主频: 1.66GHz
外频: 166MHz
倍频: 10X
一级缓存: 2×(32KB+32KB)
二级缓存: 2048K L2
总线频率: 667MHz
功能参数
节能技术: 支持节能技术
TDP功耗 : 31W
多媒体指令集: MMX,SSE,SSE2,SSE3
64位计算: 不支持64位计算
Virtualization(虚拟化): 支持Virtualization(虚拟化)技术
HyperTransport总线技术: 无HyperTransport总线技术
Hyper-Threading(超线程): 无Hyper-Threading(超线程)技术

hswz 发表于 2012-9-16 20:24
用SSE＋SSE2＋SSE3加速比5670也提高不到3倍一一一一一一一一一一一一一一一一《电波科学学报》2012年01期 ...

core duo是什么架构，而Nehalem是什么架构？core duo的单周期浮点运算能力只有Nehalem的一半，谢谢。

Intel的CPU，从Banias到Yonah到Nehalem到SNB到Haswell，单周期双精度浮点运算能力从1增长到16，明年的Haswell是Nehalem的4倍。SW众核跑到Nehalem成绩的4倍-6倍算正常，14倍那肯定是Nehalem优化太差。

hswz 发表于 2012-9-16 20:24
用SSE＋SSE2＋SSE3加速比5670也提高不到3倍一一一一一一一一一一一一一一一一《电波科学学报》2012年01期 ...

deam 发表于 2012-9-16 21:13
core duo是什么架构，而Nehalem是什么架构？core duo的单周期浮点运算能力只有Nehalem的一半，谢谢。
...

最尖端的那几台样本应该都会用到国产货的，只是如果异构的话暂时没有gpu。

国产？国产货在2015年能实现现在数十倍的性能？根本就是白日梦。无论是SW还是龙芯，继续发展下去都会碰上严重的带宽瓶颈，只能等3维封装的次世代内存技术成熟——在那之前它们都不可能与Intel的MIC、Nvidia的Denver相提并论。

假设2015年龙芯和SW能实现单CPU 512G Flops的运算能力，那么要实现100P Flops至少要12万个双路节点，24万颗CPU；而2015年 Intel的MIC或Nvidia的Denver能实现单卡3T Flops运算能力，即便如此也需要4万块计算卡才能实现100P Flops。但起码后者只要1万个节点，实现起来远比10万节点的系统容易。
＝＝＝这个10年流片成功的众核能否达800GFlops？估计今明两年流片的512核众核能否达3200GFlops？

deam 发表于 2012-9-16 21:13
core duo是什么架构，而Nehalem是什么架构？core duo的单周期浮点运算能力只有Nehalem的一半，谢谢。
...

hswz 发表于 2012-9-16 22:57

最尖端的那几台样本应该都会用到国产货的，只是如果异构的话暂时没有gpu。

国产？国产货在2015年能实现 ...
800G Flops？这也太……

deam 发表于 2012-9-16 23:00 800G Flops？这也太……

带宽看江南所的论文准备在芯片内核间上激光波分复用互联

deam 发表于 2012-9-16 23:00 800G Flops？这也太……

带宽看江南所的论文准备在芯片内核间上激光波分复用互联

hswz 发表于 2012-9-16 23:13

带宽看江南所的论文准备上内核上激光波分复用互联
内部互联是一个问题，外部内存带宽问题更大。

内部互联是一个问题，外部内存带宽问题更大。
全光,外部好解决,内部上激光我觉得技术风险比外部上要大

hswz 发表于 2012-9-16 23:18

全光,外部好解决,内部上激光我觉得技术风险比外部上要大
哪有内存芯片是光路的？内存技术的发展是要看JEDEC的。

哪有内存芯片是光路的？内存技术的发展是要看JEDEC的。
计算所的早期预研项目
＝＝＝＝＝＝
面向DSAG的光互连实验系统-小雨点卡

项目进展发表论文

当前超级计算机系统设计中通信系统的设计已经普遍开始采用光互连，例如Myrinet，,10Gb以太网等。

之间的信号连接仍普遍采用电信号。受传输线寄生电容和电感的影响，计算机主板的总线频率的发展受到限制，最多可以达到600~800MHz，另一方面，高性能CPU的主频已经达到4GHz,并在几年内可以达到10GHz以上。

足处理器对数据传输速率的要求。

设备之间的光互连技术已经开始应用，基于光波导的短距离

国外目前有多家公司和研究机构在研究计算机光互连技术。

连接技术，自由空间光互连技术，全光的交换机系统等也走向成熟。预计未来2~5年板级的光互联会走向成熟，而5~10年内芯片级的光互联也有可能成为现实。

那么采用光连接技术后将会对现有的超级计算机体系结构带来什么样的影响呢？我们认为光连接绝不仅仅是作为一种铜线连接的替代品。光互联的特点是支持数据长距离传输和高传输带宽,这就为更大空间尺度上计算部件之间的高速数据交换和共享(网格化)提供了可能。这种特性很可能会为计算机体系结构带来深刻的变革。

较成熟的 VCSEL/PIN ARRAY 技术，可以在一个模块中实现12x2.5Gbps的单项数据收发(有效数据12x2Gbps)。

CPU尽可能提供更大的数据带宽，采用DDR接口，就可以直接利用现有的PC机/服务器平台。

小雨点卡利用DDR接口和光收发模块，用FPGA实现接口和控制逻辑

项目进展 2005.1.29 小雨点卡第二版完成 2004.9.30 小雨点卡第一版系统改造完成，实现了8路通道绑定，通信峰值带宽达到20Gbps。 2004.8.15 小雨点卡第一版原型系统完成。 2003.9.8 项目组和北京科技大学信息学院就四节点光互连实验系统合作研发达成意向。 2003.8.13 项目组和华中科技大学激光技术国家重点实验室就光互连技术方面的合作研发达成意向

从另一个文档可知最大可达4x4x8g

http://www.doc88.com/p-5520154271.html

项目进展 2005.1.29 小雨点卡第二版完成 2004.9.30 小雨点卡第一版系统改造完成，实现了8路通道绑定，通信峰值带宽达到20Gbps。 2004.8.15 小雨点卡第一版原型系统完成。 2003.9.8 项目组和北京科技大学信息学院就四节点光互连实验系统合作研发达成意向。 2003.8.13 项目组和华中科技大学激光技术国家重点实验室就光互连技术方面的合作研发达成意向

从另一个文档可知最大可达4x4x8g

http://www.doc88.com/p-5520154271.html

国内的刘安生小组在2008年SI基光子学会议上，用波分复用多路传输调制的方法，分别用 8个 25Ｇｂ/ｓ的电光调制器调制8路不同波长的光，实现了200Ｇｂ／ｓ的数据传输速率

国内的刘安生小组在2008年SI基光子学会议上，用波分复用多路传输调制的方法，分别用 8个 25Ｇｂ/ｓ的电光调制器调制8路不同波长的光，实现了200Ｇｂ／ｓ的数据传输速率

超级计算机需要超级带宽；
国内集成光路少见报道，据说以色列领先。

研究人员们已经研制出一种新型光学装置，其体积极小，一个计算机芯片就足以安装数百万个这种装置。该装置可提高信息处理速度和能力，让超级计算机变得更快、更强大。

　　这种“无源光学二极管”是由两个微小的硅质环状物制成的，环状物的直径仅有10微米，大约是人的一根头发直径的1/10。与其他光学二极管不同，这种“无源光学二极管”无需外部能源就能传播信号，还很容易被集成到计算机芯片上。

　　珀杜大学电子和计算机工程学副教授齐明豪说，这种二极管可进行“非交互性传输”，即单向信号传输，由此可具备信息处理能力。

　　齐明豪解释说：“这种单向传输是逻辑电路的最基本要素。因此，我们研制的这种二极管为实现光信息处理敞开了大门。”

　　虽然光缆可用于跨洋和跨大洲传输海量数据，但其信息处理速度会变慢，传输数据也容易遭到网络攻击，因为光学信号须转换成电子信号才能在计算机上使用，反之亦然。

　　研究人员说：“进行这种转换需要十分昂贵的设备。而你希望能做到的是，将这种光纤直接插入计算机而无需进行转换，那样的话，你就可以获得大量带宽，安全方面也会大有保障了。”

　　研究人员樊丽(音)说：“这些二极管非常小，它们身上还有一些特性也很有吸引力。这些二极管或可成为未来光子信息处理芯片的零部件。”

　　用这种新型光学二极管就无需进行光学-电子信号的转换了，因此有可能提高信息处理速度和安全度。这种装置现已接近投入商业生产。使用这种新型光学二极管将多个处理器连接起来，还有可能提高超级计算机的信息处理速度和能力。

　　研究人员利奥·瓦尔盖塞说：“当今导致超级计算机受限的一个主要因素就是，系统内各种独立的超级芯片进行信息传输的速度和带宽。我们研制的这种光学二极管或可成为光互联通信系统的一个组成部分，而该系统或许就可以解决这样的瓶颈问题了。”

　　激光器以通信用波长发出的红外线通过光导纤维，并由被称为“波导管”的微结构进行控制。红外线会按顺序通过两个硅质环状物，并在微型环状物内进行“非线性相互作用”。根据先进入哪个环状物，光束要么向前通过，要么向后耗散，从而完成单向传输。环状物还可通过“微加热器”加热的方式进行调整。微加热器会改变传输波长，因此可对范围广泛的波段加以处理。

deam 发表于 2012-9-16 23:00

800G Flops？这也太……
好像也不是太难，估计关键是软件
=========================
最高不超2W！GF试产28nm 64核心处理器
2012年09月05日 11时48分　作者：驱动之家编辑：杨玉斌

　　GlobalFoundries的新工艺看上去一贯不怎么靠谱，但悄然联络的客户也不少，尤其是对付那些低功耗芯片游刃有余。美国马萨诸塞州的半导体新兴企业Adapteva今天就宣布，已经利用GlobalFoundries 28nm SLP超低功耗工艺试产了其第四代核心处理器“Epiphany IV”。

　　Adapteva Epiphany IV处理器采用RISC精简指令集架构(常见的x86家族为CISC复杂指令集架构)，单芯片整合64个高性能核心，运行频率最高800MHz，可达成50GHz以上的编程性能，峰值浮点性能100GFlops左右。最神奇的是，先进的架构设计和生产工艺相辅相成，最极端的情况下功耗也不会超过2W，相当于每个核心仅仅300毫瓦多一点。

　　这种处理器的峰值浮点性能约为100GFlops，500MHz频率下可以获得最高能效72GFlops/W。

　　该处理器是面向下一代并行计算的协处理众核方案，支持OpenCL计算标准，Adapteva也提供了新的SDK开发包和API编程接口，可以轻松利用平台的计算能力，加速大量应用的性能，包括游戏、娱乐、科学、医疗

deam 发表于 2012-9-16 23:00

800G Flops？这也太……
国防科大的众核目标是1000G Flops以上，2014年前完成
项目起止时间：2011~2014，编号：61033008，负责人：张春元
项目简介：本课题提出面向万亿次量级嵌入式应用的高效能计算模型与体系结构技术研究，其主要思想是以多级动态同步数据流模型为基础，设计并行、访存和通信显式可控的程序模型，并构建与之匹配的高效能核心处理器体系结构，在性能满足单芯片1 Tops以上重大目标应用需求的同时，提升系统的实际效能。

国科大搞的是异构众核路线。。。。

江南所搞的是同构众核路线。。。。。

dddnc 发表于 2012-9-17 10:43

江南所搞的是同构众核路线。。。。。

江南所也搞异构众核啊~！看来是殊途同归啊。。。。同构已经到极限了。。
但是江南的异构核用什么来做呢？他们只有alpha的核。。。
国科大有流处理器的核（其实就是GPU）。。。

dddnc 发表于 2012-9-17 15:08

江南所也搞异构众核啊~！看来是殊途同归啊。。。。同构已经到极限了。。
但是江南的异构核用什么来做呢？他 ...
金庸的书你是白看了，张三丰出自少林，难道武当的功夫是少林功夫？

不了解江南所在GPU领域的实力。。以前倒是听说过他们在搞GPU，好像还是很先进的光线跟踪技术。。

厉害里哈

江南所也搞异构众核啊~！看来是殊途同归啊。。。。同构已经到极限了。。
但是江南的异构核用什么来做呢？他 ...
同构到极限了?BGC携x-gene发来贺电
IBM选择的道路，不是那么容易否定的吧?
ps：BGC的后继者有可能是512-core 。。。

C64&Power A2 Based 64-core,Large on-chip eDRAM L3/L4,Huge 3D TSV DRAM。。。
话说BGC已经BT到极点了，后续者。。。不敢想象

MIC也很可能会发展为同构，将来不需要Xeon的支持直接运行系统。

毫不夸张地说，HPC领域IBM就是标识向量的基础坐标系
至于走错路了神马的。。。那么IBM也会硬生生把它走成对的(GPGPU Vs Multi/Many-Core)，这就是所谓的绝对实力

毫不夸张地说，HPC领域IBM就是标识向量的基础坐标系
至于走错路了神马的。。。那么IBM也会硬生生把它走成对的(GPGPU Vs Multi/Many-Core)，这就是所谓的绝对实力

deam 发表于 2012-9-17 17:24

MIC也很可能会发展为同构，将来不需要Xeon的支持直接运行系统。
仔细看了NUDT的众核简述，是1000G ops，而不是1000G Flops

有什么区别吗？

deam 发表于 2012-9-16 23:00

800G Flops？这也太……
有什么区别吗？
问DEAM网友

有什么区别吗？
FLOPS=Floating-Point Operations per second
剩下的自己理解

神威异构众核进一步资料,一个大核,64个小核,能二进制跑CUDA

===
《计算机工程》2012年09期加入收藏获取最新CUDA到异构众核架构的线程映射模型余勇庞建民单征刘晓楠【摘要】：统一计算设备架构(CUDA)程序移植到其他异构众核架构时的线程数不匹配。为此,提出一种层次化的线程映射模型。在第1个映射层次上,将CUDA主机端线程和设备端线程分别映射到目标平台的主核和从核阵列上,在第2个映射层次上,采用线程循环的方法消除协作线程阵列(CTA)中线程间同步操作,将整个CTA映射到从核阵列的一个从核上。实验结果表明,该模型能使CUDA程序在其他异构众核系统上得到有效运行。【作者单位】：解放军信息工程大学信息工程学院;【关键词】：代码移植图形处理器统一计算设备架构异构众核架构流式多处理器线程循环【基金】：国家“863”计划基金资助重点项目(2009AA012201)“核高基”重大专项(2009ZX01036-001-001)河南省重大科技攻关计划基金资助项目(092101210501)【分类号】：

神威异构众核进一步资料,一个大核,64个小核,能二进制跑CUDA

===
《计算机工程》2012年09期加入收藏获取最新CUDA到异构众核架构的线程映射模型余勇庞建民单征刘晓楠【摘要】：统一计算设备架构(CUDA)程序移植到其他异构众核架构时的线程数不匹配。为此,提出一种层次化的线程映射模型。在第1个映射层次上,将CUDA主机端线程和设备端线程分别映射到目标平台的主核和从核阵列上,在第2个映射层次上,采用线程循环的方法消除协作线程阵列(CTA)中线程间同步操作,将整个CTA映射到从核阵列的一个从核上。实验结果表明,该模型能使CUDA程序在其他异构众核系统上得到有效运行。【作者单位】：解放军信息工程大学信息工程学院;【关键词】：代码移植图形处理器统一计算设备架构异构众核架构流式多处理器线程循环【基金】：国家“863”计划基金资助重点项目(2009AA012201)“核高基”重大专项(2009ZX01036-001-001)河南省重大科技攻关计划基金资助项目(092101210501)【分类号】：

hswz 发表于 2013-6-21 23:37

神威异构众核进一步资料,一个大核,64个小核,能二进制跑CUDA

===
江南所不是有两个64核项目？

hswz 发表于 2012-9-16 22:57
最尖端的那几台样本应该都会用到国产货的，只是如果异构的话暂时没有gpu。

国产？国产货在2015年能实 ...

国内有内存三维封装技术及产品，珠海欧比特的

hswz 发表于 2012-9-16 22:57
最尖端的那几台样本应该都会用到国产货的，只是如果异构的话暂时没有gpu。

国产？国产货在2015年能实 ...

国内有内存三维封装技术及产品，珠海欧比特的

江南所异构众核已投入使用于在雷达截面积计算上，算法加 ... [转]漫谈飞机的雷达截面积欧盟下一代超算将在16年投入使用运算能力超目前最快的计 ... 歼八战机雷达截面积降低70%有用吗?空军认为加机载雷达干 ... 中国最先进X波段气象雷达建成于新疆并投入使用英国“雷神”UCAV的雷达截面积测试结果良好，但首飞时间 ... 美国波音公司完成F-15SE战斗机雷达截面积减缩试验和保形 ... 转贴：漫谈飞机的雷达截面积（为某个08年注册的筒子科 ... 611新所投入使用了！在14所看到新雷达了. 舰船知识上说过苏33的侧方雷达反射截面积约为120平方米 ... 陈一坚说我国现有战机雷达截面都大于10平方米!