新天河一号简介:国产CPU+国产互联网络

来源:百度文库 编辑:超级军网 时间:2024/04/29 01:29:09


http://server.it168.com/a2010/1027/1118/000001118952.shtml

Top100爆冷门 天河一号力压星云再夺魁
2010年10月28日11:19 it168网站原创  作者:孟庆  编辑:孟庆 评论:0条
本文Tag: 超级计算机 曙光 高性能计算
    【IT168 专稿】在10月28日召开的2010年全国高性能计算学术年会上,中国高性能计算机排行榜Top100再度被刷新。国防科大研制的“天河一号”以2507万亿次的Linpack成绩再度取得了第一名,而此前被众人看好的曙光“星云”则以1271万亿次的成绩屈居第二,爆出了本次Top100排行最大的冷门。
    “天河一号”再度夺魁 系统规模今非昔比
    据了解,国防科大自主研发的“天河一号”自去年以峰值性能1206万亿次夺得国内TOP100第一名以来(详见这里),经过对CPU和Tesla计算卡的升级以及今年新加入的国产飞腾系列处理器(详见这里),使其计算性能猛增到2507万亿次。

    目前“天河一号”配备了14336颗至强X5670处理器(32nm工艺,六核12线程,2.93GHz主频),而GPU方面则采用了7168块基于Nvidia “Fermi”架构的Tesla M2050计算卡(主频1.15GHz,双精度浮点性能515Gflops、单精度浮点性能1.03Tflops)。而2048颗国产飞腾处理器的使用则使“天河一号”如虎添翼(八核64线程,主频1GHz),后面我们会详细阐述。

▲“天河一号”的CPU计算节点,四路节点上每个至强X5670处理器(32nm工艺,六核12线程,2.93GHz主频)拥有六根内存,以4Gb*6*4来计算,单CPU计算节点的内存容量可以达到96Gb,如果采用8Gb DDR3内存则单节点内存容量可以达到192Gb之巨。

▲“天河一号”采用了国产处理器“飞腾”,65nm工艺,八核64线程,晶体管数目达到3.5亿个。芯片主频800Mhz-1Ghz,拥有3个HT直连总线接口,4个独立的DDR3内存通道,带宽达到32GBps,8个PCIE 2.0通道,从规格上看要么是采用了微处理器内核设计,要么就是超低缓存设计(晶体管数量决定了两者只能取其一)
   相比去年“天河一号”仅有5120个CPU(其中E5540(2.53GHz)处理器4096个,E5450(3.0GHz)处理器1024个)和5120个AMD HD4870组成的GPU计算模块(详见这里),现在的“天河一号”在性能上的飞跃也就不足为奇了。
    “天河一号”有秘密武器 “星云”爆冷有三大原因
    那么曙光“星云”超级计算系统作为曙光6000的一部分,今年5月底在Top500榜单上荣获第二名的好成绩,也同样采用了至强5600系列处理器和“Fermi”架构的Tesla计算卡,为什么会“悲情”的被爆冷呢?——原因有三个方面:
    首先是规模上,“星云”拥有了120640个处理核心(CPU和GPU数量之和,详见这里);而现在的“天河一号”CPU部分拥有202752个核心(CPU核心数102400个,GPU核心数100352个),规模上较“星云”高出59.5%。内存规模也达到了262TB,后台存储容量为2PB。
    其次是处理器选型上,“星云”采用的是较低主频的X5650(主频2.66GHz),而“天河一号”则采用了X5670(主频2.93GHz),值得注意的是X5670的功耗与X5650相同,均为95W(详见这里);而GPU方面“星云”采用的是C2050(T3600刀片机箱每个插了10块C2050计算卡),而“天河一号”采用的是M2050计算卡(一个字母之差区别在何处?点击这里和这里分别查看两款计算卡的区别,其实就在于GPU附带的3G存储器的存储频率——1.5Ghz与1.55Ghz的区别)。

▲“天河一号”的GPU计算节点,Nvidia “Fermi”核心Tesla M2050系列计算卡,拥有448个流处理器核心(CUDA核心),主频1.15GHz,专用ECC存储器是DDR5规格的3Gb缓存,缓存频率高达1.55GHz,这使得GPU内数据存储速率达到了148Gb/s。由于散热和功耗等因素,一个GPU计算节点中只放置了两块M2050计算卡。
    第三点也是最核心的区别——“天河一号”采用了双向160Gbps私有高速通讯网络,远远超过了“星云”所采用的QDR Infiniband 40Gb的通讯速率,可以说这种通讯速率上的秘密武器才使得“天河一号”得以集成如此多的处理器和GPU计算卡。而国产“飞腾”处理器的加入,不但有助于计算性能的提升,也为国产处理器进入大规模实际应用做了示范。

▲“飞腾”处理器近照披露

▲传说中的高速互联交换芯片“NRC”和接口芯片“NIC”。其中NRC芯片片内延迟只有单端口双向带宽高达160Gbps——是Infiniband QDR传输速率的2倍,而NRC单芯片上拥有16个这样的交换端口,其峰值速率达到2.56Tbps。通信芯片由于稳定性和制程局限,往往不采用最新的制程工艺,该NRC芯片采用了90nm工艺制造,晶体管数目大约为4.6亿——细心的读者可以发现其比“飞腾”处理器晶体管要多(再度认为飞腾的微内核专用性更强)

http://server.it168.com/a2010/1027/1118/000001118952.shtml

Top100爆冷门 天河一号力压星云再夺魁
2010年10月28日11:19 it168网站原创  作者:孟庆  编辑:孟庆 评论:0条
本文Tag: 超级计算机 曙光 高性能计算
    【IT168 专稿】在10月28日召开的2010年全国高性能计算学术年会上,中国高性能计算机排行榜Top100再度被刷新。国防科大研制的“天河一号”以2507万亿次的Linpack成绩再度取得了第一名,而此前被众人看好的曙光“星云”则以1271万亿次的成绩屈居第二,爆出了本次Top100排行最大的冷门。
    “天河一号”再度夺魁 系统规模今非昔比
    据了解,国防科大自主研发的“天河一号”自去年以峰值性能1206万亿次夺得国内TOP100第一名以来(详见这里),经过对CPU和Tesla计算卡的升级以及今年新加入的国产飞腾系列处理器(详见这里),使其计算性能猛增到2507万亿次。

    目前“天河一号”配备了14336颗至强X5670处理器(32nm工艺,六核12线程,2.93GHz主频),而GPU方面则采用了7168块基于Nvidia “Fermi”架构的Tesla M2050计算卡(主频1.15GHz,双精度浮点性能515Gflops、单精度浮点性能1.03Tflops)。而2048颗国产飞腾处理器的使用则使“天河一号”如虎添翼(八核64线程,主频1GHz),后面我们会详细阐述。

▲“天河一号”的CPU计算节点,四路节点上每个至强X5670处理器(32nm工艺,六核12线程,2.93GHz主频)拥有六根内存,以4Gb*6*4来计算,单CPU计算节点的内存容量可以达到96Gb,如果采用8Gb DDR3内存则单节点内存容量可以达到192Gb之巨。

▲“天河一号”采用了国产处理器“飞腾”,65nm工艺,八核64线程,晶体管数目达到3.5亿个。芯片主频800Mhz-1Ghz,拥有3个HT直连总线接口,4个独立的DDR3内存通道,带宽达到32GBps,8个PCIE 2.0通道,从规格上看要么是采用了微处理器内核设计,要么就是超低缓存设计(晶体管数量决定了两者只能取其一)
   相比去年“天河一号”仅有5120个CPU(其中E5540(2.53GHz)处理器4096个,E5450(3.0GHz)处理器1024个)和5120个AMD HD4870组成的GPU计算模块(详见这里),现在的“天河一号”在性能上的飞跃也就不足为奇了。
    “天河一号”有秘密武器 “星云”爆冷有三大原因
    那么曙光“星云”超级计算系统作为曙光6000的一部分,今年5月底在Top500榜单上荣获第二名的好成绩,也同样采用了至强5600系列处理器和“Fermi”架构的Tesla计算卡,为什么会“悲情”的被爆冷呢?——原因有三个方面:
    首先是规模上,“星云”拥有了120640个处理核心(CPU和GPU数量之和,详见这里);而现在的“天河一号”CPU部分拥有202752个核心(CPU核心数102400个,GPU核心数100352个),规模上较“星云”高出59.5%。内存规模也达到了262TB,后台存储容量为2PB。
    其次是处理器选型上,“星云”采用的是较低主频的X5650(主频2.66GHz),而“天河一号”则采用了X5670(主频2.93GHz),值得注意的是X5670的功耗与X5650相同,均为95W(详见这里);而GPU方面“星云”采用的是C2050(T3600刀片机箱每个插了10块C2050计算卡),而“天河一号”采用的是M2050计算卡(一个字母之差区别在何处?点击这里和这里分别查看两款计算卡的区别,其实就在于GPU附带的3G存储器的存储频率——1.5Ghz与1.55Ghz的区别)。

▲“天河一号”的GPU计算节点,Nvidia “Fermi”核心Tesla M2050系列计算卡,拥有448个流处理器核心(CUDA核心),主频1.15GHz,专用ECC存储器是DDR5规格的3Gb缓存,缓存频率高达1.55GHz,这使得GPU内数据存储速率达到了148Gb/s。由于散热和功耗等因素,一个GPU计算节点中只放置了两块M2050计算卡。
    第三点也是最核心的区别——“天河一号”采用了双向160Gbps私有高速通讯网络,远远超过了“星云”所采用的QDR Infiniband 40Gb的通讯速率,可以说这种通讯速率上的秘密武器才使得“天河一号”得以集成如此多的处理器和GPU计算卡。而国产“飞腾”处理器的加入,不但有助于计算性能的提升,也为国产处理器进入大规模实际应用做了示范。

▲“飞腾”处理器近照披露

▲传说中的高速互联交换芯片“NRC”和接口芯片“NIC”。其中NRC芯片片内延迟只有单端口双向带宽高达160Gbps——是Infiniband QDR传输速率的2倍,而NRC单芯片上拥有16个这样的交换端口,其峰值速率达到2.56Tbps。通信芯片由于稳定性和制程局限,往往不采用最新的制程工艺,该NRC芯片采用了90nm工艺制造,晶体管数目大约为4.6亿——细心的读者可以发现其比“飞腾”处理器晶体管要多(再度认为飞腾的微内核专用性更强)
好消息!
非常好的消息。
Oceanian 发表于 2010-10-28 15:15
装个window,拿来玩单机游戏不知道是什么感觉[:a2:]
nanchaoren 发表于 2010-10-28 16:39



请先准备好每小时1万块钱左右的电费。;P
好消息,祝贺!
不错的消息,祝贺
看来国产超算机器已突破制约集群超算的内部通讯樽颈. KC 红变紫咯.:victory:
锋利的灵魂 发表于 2010-10-28 16:55


    电费就这么高,包夜要多少钱啊?
祝贺祝贺,哪位大侠能介绍一下美日在研的超级计算机,比天河一号快多少?
锋利的灵魂 发表于 2010-10-28 16:55

两千就够了。总功率好像是4000千瓦。
好消息!
gfish 发表于 2010-10-28 17:24


    这个玩意恐怕不能私自接在民用电网上,供电局会查的。到时不会用民用电给你计价的

祝贺祝贺,哪位大侠能介绍一下美日在研的超级计算机,比天河一号快多少?
diyue 发表于 2010-10-28 17:22


Blue Gene/Q还不好说,Blue Waters的峰值差不多是这玩意的5-6倍,实测linpack 6-8倍吧

PS:倘若以“现在的”Blue Waters作为比较基准,请将以上数字乘以50%(下限)~80%(上限)
祝贺祝贺,哪位大侠能介绍一下美日在研的超级计算机,比天河一号快多少?
diyue 发表于 2010-10-28 17:22


Blue Gene/Q还不好说,Blue Waters的峰值差不多是这玩意的5-6倍,实测linpack 6-8倍吧

PS:倘若以“现在的”Blue Waters作为比较基准,请将以上数字乘以50%(下限)~80%(上限)
祝贺一下,但对这些方面的技术很不了解
拿来玩游戏爽呀

先建一座发电站,呵呵


原来就是两种计算芯片,我还以为是“换”国产芯片,结果是“加”国产芯片;
这就奇特了:还嫌架构不复杂?

而且,这个“飞腾”看来也是CPU,和至强的功能是重复的,难道是山寨的兼容产品?
否则,似乎就是给自己找不痛快,还不如直接增加“至强”的数量;
国产CPU需要舞台,可以用“飞腾”另外攒台超算;
还是说,怕全国产CPU不可靠,需要“至强”保底、提携?

等高人科普。

原来就是两种计算芯片,我还以为是“换”国产芯片,结果是“加”国产芯片;
这就奇特了:还嫌架构不复杂?

而且,这个“飞腾”看来也是CPU,和至强的功能是重复的,难道是山寨的兼容产品?
否则,似乎就是给自己找不痛快,还不如直接增加“至强”的数量;
国产CPU需要舞台,可以用“飞腾”另外攒台超算;
还是说,怕全国产CPU不可靠,需要“至强”保底、提携?

等高人科普。
若是论计算能力,还是Alpha架构的神威系列更好一些。
补楼主的图:
详细的见:
http://subject.it168.com/Active/HPCChina2010/

今年的“高性能计算学术年会”。
galaxy,好名字。。。
碳酸氢镁镁 发表于 2010-10-28 18:19


    国防科大一直用“银河”品牌做计算机产品。
锋利的灵魂 发表于 2010-10-28 16:55


   在 超级机器帖子里加上吧
大狼芬里尔 发表于 2010-10-28 17:46
绿林好汉 发表于 2010-10-28 18:09
好消息,要支持。
飞腾处理器?就是山寨美国安腾的处理器吧?
碳酸氢镁镁 发表于 2010-10-28 18:19

我觉得要是有新品牌可以叫 Frontier
大狼芬里尔 发表于 2010-10-28 17:46


最新超级计算机Top500榜单出炉 中国星云摘榜眼
http://server.chinabyte.com/41/11354541.shtml
2010-05-31 17:05出处:比特网作者:王允
-----上半年的排名
大狼芬里尔 发表于 2010-10-28 17:46


    是吗?由国防科技大学研制的“天河一号”二期系统以每秒4700万亿次的峰值性能和每秒2507万亿次的实测性能位居榜首。
无聊的没什麽意思
蓝水是20Pflops级别的,所以明年问世的话,理论性能还是能超那年的第二名1倍的。
更不用说强节点跟异构的效率差别了……
新华网北京10月28日电(记者 白瑞雪)经过技术升级之后,中国首台千万亿次超级计算机“天河一号”性能实现飞跃,运算速度达到当前国际领先水平。这是中国高性能计算机TOP100组织28日公布的消息。

  同日发布的2010年度中国高性能计算机前100强排行榜上,由国防科技大学研制的“天河一号”二期系统以每秒4700万亿次的峰值性能和每秒2507万亿次的实测性能位居榜首。

  与目前已知的全球最快计算机——美国“美洲虎”超级计算机相比,“天河一号”的实测性能是它的1.425倍。与诞生于一年前的“天河一号”一期系统相比,二期系统的峰值性能和持续性能分别提高了2.89倍和3.45倍。

  最新的全球排名将于11月中旬发布。中科院软件所研究员张云泉认为,“天河一号”可望问鼎世界超级计算机性能之首。

  新的“天河一号”机柜从113个增加至140个,“刀片”即计算结点由竖向插入改为横向插入。尽管从外表上看变化并不大,“天河一号”工程办公室主任李楠表示,这次升级不是简单的规模扩张,而是实现了一系列重大技术突破。

  在升级后的系统中,互联芯片全部替换为国防科大自主研制的产品,性能是目前国际商用芯片的两倍。CPU(中央处理器)也首次部分采用这所大学自主研制的“银河飞腾1000”芯片,数量约占全部CPU的七分之一。

“我们自己的CPU完全能够实现全部替换,但目前应用软件的发展尚未跟上,需要逐步过渡。”李楠说,“从个体性能来看,我们的CPU与世界先进水平还有差距,正在研制中的下一代CPU将瞄准世界最前沿。”

  除此之外,二期系统还在大规模集成电路芯片、结点机、网络、印制电路板和操作系统、编译系统等关键技术上成功升级,在异构融合体系结构、基于高阶路由的高速互联通信、高性能虚拟计算域等方面取得了新的突破。

  同时,由于采用了世界最先进的水冷制冷等技术,新一代“天河一号”的能效值提升了近50%,是仅次于IBM“蓝色基因”的世界上最节能的超级计算机。

  作为国家超级计算天津中心的业务主机,“天河一号”已在天津市滨海新区部署并投入使用,在石油勘探、高端装备研制、生物医药、动漫设计、新能源、新材料、工程设计与仿真分析、气象预报、遥感数据处理、金融风险分析等领域获得了成功应用。

  作为中国首个具有千万亿次计算能力的超级计算中心,天津中心与企业、科研院所和高校合作,已建立3个分中心和5个信息处理平台,为20多个用户单位提供了高性能计算服务。

  “超级计算机将为提高国家科技创新能力、促进战略新型产业技术创新提供强大的高性能计算支撑。”李楠说,“在中国产业从‘中国制造’迈向‘中国设计’的过程中,这是一项重要的基础设施。”

  “天河一号”一期系统于2009年9月研制成功,这标志着中国成为继美国之后世界上第二个能够研制千万亿次超级计算机的国家。目前,中国拥有“天河一号”和“曙光星云”两台千万亿次超级计算机系统。
百臂巨人 发表于 2010-10-29 00:38
板盾蛮 发表于 2010-10-28 22:03


    A 64-bit Stream Processor Architecture for Scientific Applications

参见这篇论文, from ISCA 2007
bessel 发表于 2010-10-29 04:11

这只能算是Blue Waters的第一形态,事实上20P也未必是这家伙的顶点(和Jaguar一样,它的全寿命周期将会相当漫长)

话说这玩意真正可怕的地方是……绝大多数情况下它的实际性能表现不小于1P


不过我还是觉得,综合考虑可用性、可编程性、可拓展性和P/W值,Blue Gene Sereis更接近于HPC的理想形态就是了

说起来,不知道Blue Waters和Blue Gene/Q谁会第一个到达20P就是了;Blue Waters进度比较快是没错,但后者毕竟是直接冲着20P去的

不过我还是觉得,综合考虑可用性、可编程性、可拓展性和P/W值,Blue Gene Sereis更接近于HPC的理想形态就是了

说起来,不知道Blue Waters和Blue Gene/Q谁会第一个到达20P就是了;Blue Waters进度比较快是没错,但后者毕竟是直接冲着20P去的


楼上,很多超算在实际中由于没有那么多的用户同时运算,再加上不同用户写程序的能力不同,性能很难到峰值。

楼上,很多超算在实际中由于没有那么多的用户同时运算,再加上不同用户写程序的能力不同,性能很难到峰值。
3344789 发表于 2010-10-29 09:34

Blue Waters的第一阶段的峰值是10P(很有可能直接跨过去上20P),以这一目标值计算,Blue Waters可以在绝大部分应用中实现1P以上的性能输出(太垃圾的程序不算),相比Linpack效率,这一数字恐怕更加叫人难忘

当然,这样一种效率是不是“有效率的”,那就是另一个问题了