中国超级计算的黑马芯片——FT（飞腾）-超级军网

作者/来源: Michael Feldman / HPCWire

http://www.hpcwire.com/hpcwire/2012-01-19/china_s_dark_horse_supercomputing_chip:_feiteng.html

中国开发用于国产高性能计算微处理器的步伐看来开始加速了。龙芯- 3B和神威SW1600处理器先后推出，尤其后者是中国神威蓝光千万亿次超级计算机的核心芯片。伺机而动的飞腾处理器架构，可能将中国的超级计算机带入到exascale的境界。

关于飞腾芯片的最新情况虽然没有更多的公开信息，但它一度被推崇为“世界上第一个专为高性能科学计算的64位流处理器”。这个架构是位于湖南的国防科技大学开发的，曾经以“FT（飞腾）”，“YH（银河）”，“YHFT（银河飞腾）”，和“FT64”等名字出现。第一阶段工作以FT64的名字于2007年完成。

根据2007年度的计算机体系结构国际研讨会（ISCA 2007）上一份论文（由当年ACM出版），FT64的架构和指令集是专门为高性能计算设计的，采用基于VLIW（超长指令字）的指令集，该指令集中将近一半用于64位浮点运算操作，所以其芯片面积的约36％专门用于算术运算，就一点也不让人感到奇怪了。

FT64采用130nm工艺技术生产，工作频率500 MHz，达到了16Gflops（16亿次）的峰值性能。虽然这个指标在今天看来并不令人兴奋，但要记住，FT64是5年前的技术。更令人印象深刻的的是，该芯片消耗只有8.6瓦的功率，这将产生约1.8亿次/瓦的能源效率。而目前的NVIDIA GPU TeslaM02090虽然采用了2011年的40nm工艺，其效能也不过约2.9亿次/瓦。

如同GPGPU一样，FT64是一个协处理器，需要由主CPU驱动运行。ACM的论文里介绍了一个高性能系统的主板：由一个主CPU驱动8个FT64，并通过一个芯片主机接口与每个协处理器进行通信。像今天的GPU - CPU系统一样，FT64内存和主机内存是分开的。

FT64的设计师们也开发了一种被称为SF95流编程语言，它用10个附加指令扩展了Fortran95以开发这个架构的性能潜力。使用专门开发的编译器，FT64测试了 9个常见的科学应用内核（FFT, EP, MG, Swim, CG, Laplace, Jacobi, GEMM, and NLAG-5）用来对比FT64和 Itanium 2的性能。除了在运行CG内核时FT64只有Itanium十分之一的性能，在其他内核上，FT64的速度比Itanium快1倍到2.5倍，在FFT性能上甚至达到8倍的加速比。

然而，2011年12月在国防科技大学一个研讨会上发布了不同的体系结构。这里提供的研讨会摘要：

国防科技大学计算机学院开发的银河飞腾（YHFT）系列高性能通用CPU，依旧以高性能计算为目的。第一代的YHFT CPU采用EPIC（显式并行指令计算）架构。它的ISA（指令集架构）是完全兼容英特尔的Itanium。第二代基于SoC（片上系统）架构。它是由一个通用的CPU和流处理器——世界上第一个64位流处理器组成，专为高性能科学计算设计。该处理器已成功地用于在银河高性能超级计算机系统中。研究结果发表在ISCA2007国际会议和IEEE TPDS上。第三代的YHFT CPU是多核处理器。它的ISA完全兼容SPARC，支持浮点SIMD（单指令多数据）、支持多芯片互连以提高并行处理效能并可直接构成SMP（对称多处理）系统。天河1号千万亿次超级计算机系统已经使用这个多核心处理器的第一个版本，目前正在进行升级版本的研制，将在明年用于天河1号的下一代超级计算机系统上。

根据这种情况，FT64应该是第二代架构，并可能部署在中国一些银河超级计算机上，只是表现得很低调。

飞腾架构的第三代，听起来更像是一个传统的、独立的CPU，而不是一个流加速器。考虑到它最新的版本正用于天河1号超级计算机，因此它的升级版本会用于下一代天河1号。有趣的是，国防科技大学的天河- 1A峰值在4.7 petaflops，是目前中国最强大的机器，但采用英特尔Xeon处理器和NVIDIA Tesla提供能量。

下一代天河机中升级的飞腾芯片将发挥多大作用目前尚不清楚，但对于选择芯片制造商，国防科技大学并没有比美国同行表现出更多的忠诚。2010年，国防科技大学采用Intel Xeon和AMD的Radeon图形处理器用于其第一代千万亿次超级计算系统天河- 1号。次年，他们换成了NVIDIA GPU的天河- 1A。

中国在高性能计算方面希望开发和利用本土的微处理器，因此在未来，国防科技大学的超级计算机采用飞腾处理器取代英特尔和NVIDIA是不足为奇的。显然，在中国的超级计算机开发机构正在尝试多种的微处理器，虽然在这一点上中国愿意使用任何东西，以最大限度地提高系统性能。但几乎可以肯定，中国希望其第一个exaflop机是完全建立在其国内的技术上，当然，包括微处理器！

作者/来源: Michael Feldman / HPCWire

http://www.hpcwire.com/hpcwire/2012-01-19/china_s_dark_horse_supercomputing_chip:_feiteng.html

中国开发用于国产高性能计算微处理器的步伐看来开始加速了。龙芯- 3B和神威SW1600处理器先后推出，尤其后者是中国神威蓝光千万亿次超级计算机的核心芯片。伺机而动的飞腾处理器架构，可能将中国的超级计算机带入到exascale的境界。

关于飞腾芯片的最新情况虽然没有更多的公开信息，但它一度被推崇为“世界上第一个专为高性能科学计算的64位流处理器”。这个架构是位于湖南的国防科技大学开发的，曾经以“FT（飞腾）”，“YH（银河）”，“YHFT（银河飞腾）”，和“FT64”等名字出现。第一阶段工作以FT64的名字于2007年完成。

根据2007年度的计算机体系结构国际研讨会（ISCA 2007）上一份论文（由当年ACM出版），FT64的架构和指令集是专门为高性能计算设计的，采用基于VLIW（超长指令字）的指令集，该指令集中将近一半用于64位浮点运算操作，所以其芯片面积的约36％专门用于算术运算，就一点也不让人感到奇怪了。

FT64_chip.jpg (10.93 KB, 下载次数: 1)

下载附件保存到相册

2012-2-10 23:37 上传

FT64采用130nm工艺技术生产，工作频率500 MHz，达到了16Gflops（16亿次）的峰值性能。虽然这个指标在今天看来并不令人兴奋，但要记住，FT64是5年前的技术。更令人印象深刻的的是，该芯片消耗只有8.6瓦的功率，这将产生约1.8亿次/瓦的能源效率。而目前的NVIDIA GPU TeslaM02090虽然采用了2011年的40nm工艺，其效能也不过约2.9亿次/瓦。

如同GPGPU一样，FT64是一个协处理器，需要由主CPU驱动运行。ACM的论文里介绍了一个高性能系统的主板：由一个主CPU驱动8个FT64，并通过一个芯片主机接口与每个协处理器进行通信。像今天的GPU - CPU系统一样，FT64内存和主机内存是分开的。

YHf.jpg (97.95 KB, 下载次数: 4)

下载附件保存到相册

2012-2-10 23:37 上传

FT64的设计师们也开发了一种被称为SF95流编程语言，它用10个附加指令扩展了Fortran95以开发这个架构的性能潜力。使用专门开发的编译器，FT64测试了 9个常见的科学应用内核（FFT, EP, MG, Swim, CG, Laplace, Jacobi, GEMM, and NLAG-5）用来对比FT64和 Itanium 2的性能。除了在运行CG内核时FT64只有Itanium十分之一的性能，在其他内核上，FT64的速度比Itanium快1倍到2.5倍，在FFT性能上甚至达到8倍的加速比。

然而，2011年12月在国防科技大学一个研讨会上发布了不同的体系结构。这里提供的研讨会摘要：

国防科技大学计算机学院开发的银河飞腾（YHFT）系列高性能通用CPU，依旧以高性能计算为目的。第一代的YHFT CPU采用EPIC（显式并行指令计算）架构。它的ISA（指令集架构）是完全兼容英特尔的Itanium。第二代基于SoC（片上系统）架构。它是由一个通用的CPU和流处理器——世界上第一个64位流处理器组成，专为高性能科学计算设计。该处理器已成功地用于在银河高性能超级计算机系统中。研究结果发表在ISCA2007国际会议和IEEE TPDS上。第三代的YHFT CPU是多核处理器。它的ISA完全兼容SPARC，支持浮点SIMD（单指令多数据）、支持多芯片互连以提高并行处理效能并可直接构成SMP（对称多处理）系统。天河1号千万亿次超级计算机系统已经使用这个多核心处理器的第一个版本，目前正在进行升级版本的研制，将在明年用于天河1号的下一代超级计算机系统上。

根据这种情况，FT64应该是第二代架构，并可能部署在中国一些银河超级计算机上，只是表现得很低调。

飞腾架构的第三代，听起来更像是一个传统的、独立的CPU，而不是一个流加速器。考虑到它最新的版本正用于天河1号超级计算机，因此它的升级版本会用于下一代天河1号。有趣的是，国防科技大学的天河- 1A峰值在4.7 petaflops，是目前中国最强大的机器，但采用英特尔Xeon处理器和NVIDIA Tesla提供能量。

下一代天河机中升级的飞腾芯片将发挥多大作用目前尚不清楚，但对于选择芯片制造商，国防科技大学并没有比美国同行表现出更多的忠诚。2010年，国防科技大学采用Intel Xeon和AMD的Radeon图形处理器用于其第一代千万亿次超级计算系统天河- 1号。次年，他们换成了NVIDIA GPU的天河- 1A。

中国在高性能计算方面希望开发和利用本土的微处理器，因此在未来，国防科技大学的超级计算机采用飞腾处理器取代英特尔和NVIDIA是不足为奇的。显然，在中国的超级计算机开发机构正在尝试多种的微处理器，虽然在这一点上中国愿意使用任何东西，以最大限度地提高系统性能。但几乎可以肯定，中国希望其第一个exaflop机是完全建立在其国内的技术上，当然，包括微处理器！

国防科大顶一下

居然发展了三代毫不相干的产品，不知道怎么评价好了。

流韵壮东风发表于 2012-2-11 00:29
居然发展了三代毫不相干的产品，不知道怎么评价好了。
这就是典型的军事背景项目，和商业开发逻辑不一样

fengxiang 发表于 2012-2-11 09:42
这就是典型的军事背景项目，和商业开发逻辑不一样
不知道国防科大和江南所是怎么分工的，重复发展就没意思了。

竞争才有前进的动力

对国防科大和56所没啥太大担忧的，部队干的项目就是给力，而且巨型机不必太考虑指令集之类的限制、专利啥的

龙芯不一样啊，要向普及推广的，加油啊 .................

国产三大处理器没有一个处理器的频率是给力的，龙芯的IO带宽一如既往的杯具！

破落户发表于 2012-2-14 18:53
国产三大处理器没有一个处理器的频率是给力的，龙芯的IO带宽一如既往的杯具！
频率不给力不是啥问题吧，流水线设计的短，频率上不去很正常。

国产三大处理器没有一个处理器的频率是给力的，龙芯的IO带宽一如既往的杯具！
架构还行，就是那悲剧的制程，落后人家好几代，芯片代工这块咱们唯一的一根独苗中芯国际不给力啊！

deam 发表于 2012-2-14 23:54
频率不给力不是啥问题吧，流水线设计的短，频率上不去很正常。

芯片工作频率体现后端设计功力。

都是90nm工艺，intel的bulk HP工艺比ibm的soi工艺电气性能还略强些。
Intel Prescott核心P4的流水线多达31级，频率仅达3.8GHz；而Cell流水线仅18级，最高频率却可以跑到4.32GHz。

Alpha的底子不错，其电路设计堪称经典。江南所如果用65nm重做SW1,跑到2G以上是没问题的。
16核的SW1600，之所以只能跑1.2G，跟芯片规模急剧增大带来的一系列电路方面问题有关，
比如规模巨大的时钟网络就会是一个很要命的问题，要处理好这些问题还需要积累更多经验。

deam 发表于 2012-2-14 23:54
频率不给力不是啥问题吧，流水线设计的短，频率上不去很正常。

芯片工作频率体现后端设计功力。

都是90nm工艺，intel的bulk HP工艺比ibm的soi工艺电气性能还略强些。
Intel Prescott核心P4的流水线多达31级，频率仅达3.8GHz；而Cell流水线仅18级，最高频率却可以跑到4.32GHz。

Alpha的底子不错，其电路设计堪称经典。江南所如果用65nm重做SW1,跑到2G以上是没问题的。
16核的SW1600，之所以只能跑1.2G，跟芯片规模急剧增大带来的一系列电路方面问题有关，
比如规模巨大的时钟网络就会是一个很要命的问题，要处理好这些问题还需要积累更多经验。

lgthunders 发表于 2012-2-15 02:04
芯片工作频率体现后端设计功力。

都是90nm工艺，intel的bulk HP工艺比ibm的soi工艺电气性能还略 ...
sw1600不是有4核心的版本么，而且16核心的版本似乎就是4核心版本组合起来的。那么4核心的版本频率是不是会更高些？

4核心的版本是个SOC，把南桥以及网卡等外设全部加进来了。
而且低功耗还是一个重要的设计目标，所以频率不会更高。

deam 发表于 2012-2-14 23:54
频率不给力不是啥问题吧，流水线设计的短，频率上不去很正常。

频率跟很多问题有关，流水线长度，物理设计能力，制造工艺，芯片复杂度。。。。。，同流水线长，一个物理设计组，顺序的比乱序的频率会更高，就是乱序的，功能部件少，达到同样目的结构简单的频率也能做高

deam 发表于 2012-2-14 23:54
频率不给力不是啥问题吧，流水线设计的短，频率上不去很正常。

频率跟很多问题有关，流水线长度，物理设计能力，制造工艺，芯片复杂度。。。。。，同流水线长，一个物理设计组，顺序的比乱序的频率会更高，就是乱序的，功能部件少，达到同样目的结构简单的频率也能做高

16核龙芯3C今年上2G也难，2G的龙芯3C今年出来样片估计是要创造神话！富士通的16核40nm工艺才1.8G，看来规模大了没那么容易上频率。

16核龙芯3C今年上2G也难，2G的龙芯3C今年出来样片估计是要创造神话！富士通的16核40nm工艺才1.8G，看来规模大了没那么容易上频率。

破落户发表于 2012-2-15 09:46
16核龙芯3C今年上2G也难，2G的龙芯3C今年出来样片估计是要创造神话！富士通的16核40nm工艺才1.8G，看来规模 ...
先让龙芯把32nm 1.5G的龙3B+搞出来再提龙3C吧

EKW 发表于 2012-2-15 10:32
先让龙芯把32nm 1.5G的龙3B+搞出来再提龙3C吧

对龙芯的单核性能比SW好还不服气？心里不舒服？龙芯团队物理设计不如江南所，搞龙芯3C确实不容易！其实老胡主张把8核的龙芯3C1频率搞上去，因为16核的多核效率不太好，其实8核就很好了，多核上了16核并不都是好事

EKW 发表于 2012-2-15 10:32
先让龙芯把32nm 1.5G的龙3B+搞出来再提龙3C吧

对龙芯的单核性能比SW好还不服气？心里不舒服？龙芯团队物理设计不如江南所，搞龙芯3C确实不容易！其实老胡主张把8核的龙芯3C1频率搞上去，因为16核的多核效率不太好，其实8核就很好了，多核上了16核并不都是好事

破落户发表于 2012-2-15 10:55
对龙芯的单核性能比SW好还不服气？心里不舒服？龙芯团队物理设计不如江南所，搞龙芯3C确实不容易！其实老 ...
光吹，没东西。人家江南实打实拿出全国产超算，你家全龙芯超算在那里？不会还在炒作阶段吧;P

破落户发表于 2012-2-15 09:46
16核龙芯3C今年上2G也难，2G的龙芯3C今年出来样片估计是要创造神话！富士通的16核40nm工艺才1.8G，看来规模 ...
有没有3C的照片或官方数据？

编辑掉！！

编辑掉！！

dai1976 发表于 2012-2-15 11:09
有没有3C的照片或官方数据？

8核的龙芯3C1没有照片,没有数据。

dai1976 发表于 2012-2-15 11:09
有没有3C的照片或官方数据？

8核的龙芯3C1没有照片,没有数据。

这个我以前发过，这个是军用的，不是民间的

十月赞歌发表于 2012-2-15 13:35
这个我以前发过，这个是军用的，不是民间的
无所谓军用和民间，龙芯SW FT 是竞争关系，没有划分军用和民用芯片。看来这里都在神秘化SW FT

破落户发表于 2012-2-15 13:45
无所谓军用和民间，龙芯SW FT 是竞争关系，没有划分军用和民用芯片。看来这里都在神秘化SW FT
FT是美国某公司（哪个我就不说了）的高端产品的山寨升级版，和兔子某军用电脑（现在很出名的）的CPU性能和使用条件相近，当然比龙芯有竞争力

十月赞歌发表于 2012-2-15 13:54
FT是美国某公司（哪个我就不说了）的高端产品的山寨升级版，和兔子某军用电脑（现在很出名的）的CPU性能和 ...
什么高端产品，不就是SUN的sparc T2,比龙芯有竞争力？你说你是军方人士就当我什么没说，你不是的话。。。。。

破落户发表于 2012-2-15 14:01
什么高端产品，不就是SUN的sparc T2,比龙芯有竞争力？你说你是军方人士就当我什么没说，你不是的话。。。 ...
我不是军方人士，但是FT是军方自己搞的，你说有没有竞争力

十月赞歌发表于 2012-2-15 14:04
我不是军方人士，但是FT是军方自己搞的，你说有没有竞争力
军方很务实，谁东西好用谁的，阿斗扶不上墙你敢用！

破落户发表于 2012-2-15 14:08
军方很务实，谁东西好用谁的，阿斗扶不上墙你敢用！
好吧，你觉得龙芯不阿斗么？

十月赞歌发表于 2012-2-15 14:14
好吧，你觉得龙芯不阿斗么？
谁是阿斗军方知道，你是军方人士你已经知道了，也不至于在这里发这个帖子！

破落户发表于 2012-2-15 14:17
谁是阿斗军方知道，你是军方人士你已经知道了，也不至于在这里发这个帖子！
似乎你是军方的？

十月赞歌发表于 2012-2-15 14:19
似乎你是军方的？
我没有判断三个芯片那个被军方使用，你判断了，说：FT不是民间的！这就是我们两的区别。还有区别，你是不知道，我是知道不的！

破落户发表于 2012-2-15 10:55
对龙芯的单核性能比SW好还不服气？心里不舒服？龙芯团队物理设计不如江南所，搞龙芯3C确实不容易！其实 ...
那就请阁下说说龙芯的单核哪一项性能比SW好，光靠嘴皮子说有什么用啊;P

好吧，不和你吵了，就期待龙芯扶得起来吧

破落户发表于 2012-2-15 14:01
什么高端产品，不就是SUN的sparc T2,比龙芯有竞争力？你说你是军方人士就当我什么没说，你不是的话。。。 ...
阁下还好意思用龙芯和SUN的sparc T2比,也不看看人家SUN的sparc T2的SPEC成绩是多少,龙芯的才多少;P

EKW 发表于 2012-2-15 14:26
那就请阁下说说龙芯的单核哪一项性能比SW好，光靠嘴皮子说有什么用啊
呵呵，你继续不舒服就对了！
一个抄alpha 没抄明白
一个抄T2没抄清楚

破落户发表于 2012-2-15 14:32
呵呵，你继续不舒服就对了！
一个抄alpha 没抄明白
一个抄T2没抄清楚
那就请阁下说说人家怎么就没抄明白,怎么没抄清楚了,难道又是靠阁下的在这嘴吹啊;P

EKW 发表于 2012-2-15 14:32
阁下还好意思用龙芯和SUN的sparc T2比,也不看看人家SUN的sparc T2的SPEC成绩是多少,龙芯的才多少
查清楚T2是几发射处理器，是干什么的。再来吵架，看来你还是要一个美国处理器做爹你才理直气壮，没有美国爹你会说话吗？

破落户发表于 2012-2-15 14:38
查清楚T2是几发射处理器，是干什么的。再来吵架，看来你还是要一个美国处理器做爹你才理直气壮，没有美国 ...

人家T2的SPEC成绩就摆在那，还有，这是阁下非要用龙芯和T2比得啊，龙芯哪一项性能比得上T2啊，难道是靠阁下的嘴炮就比得上了;P

EKW 发表于 2012-2-15 14:34
那就请阁下说说人家怎么就没抄明白,怎么没抄清楚了,难道又是靠阁下的在这嘴吹啊
吹了半天的几款龙芯连影子都见不着，所谓使用龙芯的超算炒作了一年多了，还是没动静，全靠网络炒作。

EKW 发表于 2012-2-15 15:36
人家T2的SPEC成绩就摆在那，还有，这是阁下非要用龙芯和T2比得啊，龙芯哪一项性能比得上T2啊，难道是靠 ...
T2的SPEC成绩，哈哈哈哈，人家成绩好就是国防科大的好，alpha 21264的好就是SW的好！
再说：我拿龙芯跟T2比成绩了吗？
别YY了！
T2是个2发射，核心中浮点单元减半的东西，做什么的我不清楚