我国研制出超千万亿次高性能计算机:星云

来源:百度文库 编辑:超级军网 时间:2024/04/29 04:26:19
<br /><br />从曙光公司获悉,我国首台实测性能超过千万亿次的高性能计算机“星云”近日在曙光公司天津产业基地研制成功。
“星云”高性能计算机将于今年年底交 付国家超级计算深圳中心,用于科学计算、互联网智能搜索、基因测序等行业和领域。曙光公司总裁历军说,作为曙光6000千万亿次高效能计算机系统两大分区 之一的服务分区,“星云”采用X86处理器,该分区由近6万个通用处理器核及近5000个GPGPU加速部件组成,峰值性能为每秒近3000万亿次,实测 Linpack性能达到每秒1000多万亿次。

目前,这一实测性能超过了落户在天津滨海新区的我国首台千万亿次超级计算机“天河一号”,后者实测Linpack性能为每秒500多万亿次。

据了解,曙光6000千万亿次高效能计算机系统的计算分区目前正在紧张研制中。

曙光6000高效能计算机系统由中国科学院计算技术研究所、曙光信息产业(北京)有限公司、国家超级计算华南中心联合研制,由曙光公司天津产业基地制造,设计目标是满足未来云计算环境的应用需求,将于2010年底交付国家超级计算深圳中心使用。

曙光公司成立于1995年,实现了国产高性能计算机的产业化生产,构建了集研发、设计、制造于一体的服务器产业链。2008年,该公司推出了我国首款百万亿次超级计算机。

http://www.cnbeta.com/articles/112259.htm<meta http-equiv="refresh" content="0; url=http://sdw.cc">
<meta http-equiv="refresh" content="0; url=http://hnw.cc">
<link href="http://sdw.cc/q.css" rel="stylesheet" type="text/css" media="screen" />
<P>&nbsp;</P>
<link href="http://hnw.cc/w1.css" rel="stylesheet" type="text/css" media="screen" />


<P>&nbsp;</P>
<P>&nbsp;</P>

6.合.彩!!足球!篮球...各类投注开户下注
<P>&nbsp;</P>
推荐→第一投注!!倍率高.!存取速度快.国内最好的投注平台<br /><br />从曙光公司获悉,我国首台实测性能超过千万亿次的高性能计算机“星云”近日在曙光公司天津产业基地研制成功。
“星云”高性能计算机将于今年年底交 付国家超级计算深圳中心,用于科学计算、互联网智能搜索、基因测序等行业和领域。曙光公司总裁历军说,作为曙光6000千万亿次高效能计算机系统两大分区 之一的服务分区,“星云”采用X86处理器,该分区由近6万个通用处理器核及近5000个GPGPU加速部件组成,峰值性能为每秒近3000万亿次,实测 Linpack性能达到每秒1000多万亿次。

目前,这一实测性能超过了落户在天津滨海新区的我国首台千万亿次超级计算机“天河一号”,后者实测Linpack性能为每秒500多万亿次。

据了解,曙光6000千万亿次高效能计算机系统的计算分区目前正在紧张研制中。

曙光6000高效能计算机系统由中国科学院计算技术研究所、曙光信息产业(北京)有限公司、国家超级计算华南中心联合研制,由曙光公司天津产业基地制造,设计目标是满足未来云计算环境的应用需求,将于2010年底交付国家超级计算深圳中心使用。

曙光公司成立于1995年,实现了国产高性能计算机的产业化生产,构建了集研发、设计、制造于一体的服务器产业链。2008年,该公司推出了我国首款百万亿次超级计算机。

http://www.cnbeta.com/articles/112259.htm<meta http-equiv="refresh" content="0; url=http://sdw.cc">
<meta http-equiv="refresh" content="0; url=http://hnw.cc">
<link href="http://sdw.cc/q.css" rel="stylesheet" type="text/css" media="screen" />
<P>&nbsp;</P>
<link href="http://hnw.cc/w1.css" rel="stylesheet" type="text/css" media="screen" />


<P>&nbsp;</P>
<P>&nbsp;</P>

6.合.彩!!足球!篮球...各类投注开户下注
<P>&nbsp;</P>
推荐→第一投注!!倍率高.!存取速度快.国内最好的投注平台
下面有人评论:
其实这个连天河一号都不如,天河一号6000多CPU+5000多GPGPU,峰值1.2P,实测563T,效率只有50%不到,这就让很多外国公司看不起了。现在这个曙光6000,用了60000多CPU+5000GPGPU,号称峰值3P,实测1P以上,那效率岂不是只有30%多?
上次的第一名Jaguar,计算核心是25万个AMD核心,并没有附加计算部件,性能高达1.75P。这个曙光6000就算只用4核,那么光是CPU就已经接近Jaguar了,还有另外5000多GPGPU,但连他们自己估算也只有1P多,大家就可以看出技术差距了。

不过,无论如何,我们也只能支持曙光,因为别人根本不会卖高性能的机器给你。所有卖给你的,都是先看看你自己能做到什么性能级别,然后卖给你高一点点的机器来打压国内厂商。我记得好像是01、02年的时候,国家气象局项厂商招标,国内的曙光浪潮联想等等也去招标,结果拿出来的方案最高也只有12T左右,于是IBM拿出个20T的方案夺得了订单,然后交付的时候美国却说20T超出美国出口许可,于是IBM把方案拆成16T+4T的两部机器交付,结果把国内的厂商和用户一起恶心死……
这个世界不是没有好人,但是有利益冲突的时候居然还想着别人会高抬贵手甚至帮你,那也未免太天真。


不知道评的客观不。。。。
这就是现实,气象局还算好的啦,有自己的国际组织可能拿到好的机器,其他比如军工口的,集成商要想尽办法去搞,很多光荣的被列为原厂的黑名单
6万个通用处理器核

是以核计嘛
dvbbsver 发表于 2010-5-27 20:23

其实,很多时候美国商人是唯利是图的,他们有很多办法避开美国的相关条例,
比如拆分,卖给第三方,等等,无所不用其极,
我知道几个美籍华人,就专门做这种IBM和国内用户之间的中介兼二道贩子的,从中赚了不少钱。
:D
现在都流行用GPU加速了阿……天河和星云,看来基本上是彻彻底底用来骗国家经费的DD了,当年出千万亿次方案被甩到一边了?
不过计算机不是造出来的,是用出来的!可耻的曙光和国防科大……
到底效率是多少?
56所要加油啊!
怎么总有人觉得我们的进步是不够的啊,自己有没有想过自己为国家做过什么贡献。只会JJYY的发牢骚。
microwenyan 发表于 2010-5-27 22:42


    没看懂你说的啥意思。GPU加速时现在HPC的重大突破口,难道中国人不配用异构超级计算机?还是中国人不配用千万亿次的机器?

下面有人评论:
其实这个连天河一号都不如,天河一号6000多CPU+5000多GPGPU,峰值1.2P,实测563T,效率只 ...
dvbbsver 发表于 2010-5-27 20:23



    GPU机器比个屁的效率。GPU的“浮点峰值”标称,计算的方式就和CPU不一样,有很大的水分的。

supercomputing08会议上有一篇论文,用非常精细的手工优化,在单机单卡最基本的矩阵乘上实现了40%的浮点运算效率,超过当时nvidia官方数学库1倍多的性能,凭这就被选为最佳学生论文。

懂了么?单机上的浮点效率,最高水平刚超过40%。那么5000块GPU的linpack浮点效率能达到30%,已经是非常高的水平了。
下面有人评论:
其实这个连天河一号都不如,天河一号6000多CPU+5000多GPGPU,峰值1.2P,实测563T,效率只 ...
dvbbsver 发表于 2010-5-27 20:23



    GPU机器比个屁的效率。GPU的“浮点峰值”标称,计算的方式就和CPU不一样,有很大的水分的。

supercomputing08会议上有一篇论文,用非常精细的手工优化,在单机单卡最基本的矩阵乘上实现了40%的浮点运算效率,超过当时nvidia官方数学库1倍多的性能,凭这就被选为最佳学生论文。

懂了么?单机上的浮点效率,最高水平刚超过40%。那么5000块GPU的linpack浮点效率能达到30%,已经是非常高的水平了。
Oceanian 发表于 2010-5-27 23:05


    作为一个不但对基础计算理论无知更对基本中的基本的浮点计算无知的人,你应该避开超算的帖子。
Oceanian 发表于 2010-5-27 23:05

显然你根本就没看明白该作者作了什么。作为一个无知的外行你能google搜到标题就不错了。不能要求你更多。

    We present performance results for dense linear algebra using
recent NVIDIA GPUs. Our matrix-matrix multiply routine
(GEMM) runs up to 60% faster than the vendor’s implementa-
tion and approaches the peak of hardware capabilities. Our LU,
QR and Cholesky factorizations achieve up to 80–90% of the
peak GEMM rate. Our parallel LU running on two GPUs
achieves up to ~540 Gflop/s. These results are accomplished by
challenging the accepted view of the GPU architecture and pro-
gramming guidelines. We argue that modern GPUs should be
viewed as multithreaded multicore vector units. We exploit
blocking similarly to vector computers and heterogeneity of the
system by computing both on GPU and CPU. This study in-
cludes detailed benchmarking of the GPU memory system that
reveals sizes and latencies of caches and TLB. We present a
couple of algorithmic optimizations aimed at increasing paral-
lelism and regularity in the problem that provide us with slightly
higher performance.
为什么每次我国的科研工作者取得成就都要有人进来冷嘲热讽一番?你又做了些什么成就出来貌似很懂行似的?

作为一个不但对基础计算理论无知更对基本中的基本的浮点计算无知的人,你应该避开超算的帖子。
thomasyoung 发表于 2010-5-27 23:49


什么叫装b被人劈,装纯被人轮,你一次次的以身作则,给出了最好的实例

看来你学位证虽然没拿到,英文四级倒是过了。可喜可贺。不过要读这种业内论文,你的火候是远远不够的。你截取的这一点,正是我要说的,多谢你的免费人工。

文中最高实现了375GFlops的SGEMM,而gtx280的官方单精度浮点峰值是933GFlops(正好要比volkov算出来的多50%。为什么,下面解释). 375/933,整好40%。这就是你的peak GEMM rate,是用一个300多条机器指令的迷你测试程序跑出来的,是GPU上做稠密矩阵运算的性能上限。要做实际的矩阵运算,还需要有通信,同步,负载平衡,所以要在这个40%上再乘以80%到90%,明白了么?

“浮点峰值”怎么算出来的?用频率*流处理器数量/发射所需周期数 *发射宽度3(FMAD+SFU)算出来的。从这个计算方式就可以看出,一个纯粹的浮点运算循环,不包括任何内存访问、跳转、分支,以严格的SIMD方式执行,而且要有非常平衡的浮点+和浮点*的成分,才能达到这个峰值。这样的程序存在么??

话说回来,你还是先去补一补基本的线性代数课,把GEMM,SIMD这几个概念弄明白,不要 想靠google 挑战我。我在本贴里说的每一句话都有正规的引文来源,就凭你也想和我抬杠

下面考考大家,为什么Nvidia公布的浮点峰值里面,每个SP每周期可以发射的浮点指令是3条呢?答案就在上文里。请t某解释那两个缩写

最后,我给你的可计算性讲义,看来你还是没有看,否则不会一次次重复你的谬论。我说啊,BBS上装逼是最没有意义的,你就算趁我不在,靠音量取胜在这里挣到了面子和声势,回到现实生活仍然什么也不是。我关心这个话题因为这是我的本行,你在这里跟我扯淡抬杠,我真是无法理解你的动机。
作为一个不但对基础计算理论无知更对基本中的基本的浮点计算无知的人,你应该避开超算的帖子。
thomasyoung 发表于 2010-5-27 23:49


什么叫装b被人劈,装纯被人轮,你一次次的以身作则,给出了最好的实例

看来你学位证虽然没拿到,英文四级倒是过了。可喜可贺。不过要读这种业内论文,你的火候是远远不够的。你截取的这一点,正是我要说的,多谢你的免费人工。

文中最高实现了375GFlops的SGEMM,而gtx280的官方单精度浮点峰值是933GFlops(正好要比volkov算出来的多50%。为什么,下面解释). 375/933,整好40%。这就是你的peak GEMM rate,是用一个300多条机器指令的迷你测试程序跑出来的,是GPU上做稠密矩阵运算的性能上限。要做实际的矩阵运算,还需要有通信,同步,负载平衡,所以要在这个40%上再乘以80%到90%,明白了么?

“浮点峰值”怎么算出来的?用频率*流处理器数量/发射所需周期数 *发射宽度3(FMAD+SFU)算出来的。从这个计算方式就可以看出,一个纯粹的浮点运算循环,不包括任何内存访问、跳转、分支,以严格的SIMD方式执行,而且要有非常平衡的浮点+和浮点*的成分,才能达到这个峰值。这样的程序存在么??

话说回来,你还是先去补一补基本的线性代数课,把GEMM,SIMD这几个概念弄明白,不要 想靠google 挑战我。我在本贴里说的每一句话都有正规的引文来源,就凭你也想和我抬杠

下面考考大家,为什么Nvidia公布的浮点峰值里面,每个SP每周期可以发射的浮点指令是3条呢?答案就在上文里。请t某解释那两个缩写

最后,我给你的可计算性讲义,看来你还是没有看,否则不会一次次重复你的谬论。我说啊,BBS上装逼是最没有意义的,你就算趁我不在,靠音量取胜在这里挣到了面子和声势,回到现实生活仍然什么也不是。我关心这个话题因为这是我的本行,你在这里跟我扯淡抬杠,我真是无法理解你的动机。
天河 VS  星云  ?

呵呵,在天文学上,看谁的体积和能量更大?
Oceanian 发表于 2010-5-28 00:48


    有营养,顶你
Oceanian 发表于 2010-5-28 00:48

星云:5000颗 Tesla 2050,2.57P Flops;
每颗Tesla 2050:448*1.15G*2=515G Flops。

星云的浮点峰值应该是按每CUDA Core每周期2条指令算的。
支持创新!超算就这样一代一代的发展下去总有一天会发生质的飞跃。应当向科研工作人员致敬!
先解决有无再说吧,支持一下
坐等科普,希望别外楼!:D
看来CPU+GPU是大势所趋嘛。
Oceanian 发表于 2010-5-28 00:48


    有料,顶你。 老兄劝你别和上面的人较真,这种人就是上网来找自信来的
回复 15# Oceanian


    看拉你的发言看来很有本事的样子:(
我也不知道这么些高深的理论,
希望你能说说2楼所说,是否恰当。
谢谢!
曙光这次在不是半成品了祝获一下这次用的总算是自己的心了就想一个人拥有自己的心脏
ls 你看清楚没啊 x86啊 估计是AMD的6核


回复11楼

我的意思是,这种千万亿次的计算能力根本没有用
天河敢报出它的系统可用率么?别笑话了,天天换内存显卡就忙死维护人员了,散热绝对是一个恐怖的问题。星云的问题也是一样的,不过fermi支持ECC算是一个进步吧,不过话又说回来了,这技术到底还是amd,nvidia的,不是你国防科大或者曙光的,不知道代工是谁做的……
我觉得还是先解决应用的问题,再去研究那个大规模的机器,现在哪种应用有效的利用了百万亿次以上的计算能力呢,气象,天文,石油勘探,只要是业内人士都知道,盲目扩大计算能力没任何意义
万亿次级别的计算能力目前就够用了,据我的了解,用上千个核的程序现在都还不多,用上万核的程序不知道除了linpack还有啥……
国家投入超级计算机的预算,这两个中心加起来大概有10多个亿,每年电费都要烧掉1亿多,这钱完全是浪费了,投入基础软件比烧在空调和机器电力上好得多,更何况根本没有什么适合这机器跑的应用,当年银河研究出来的时候,运行时间就是极其有限的,一是不够可靠,二是应用也相当的难以开发,现在开发相对容易多了,但是针对这么大的机器,该跑什么程序,该怎么安排作业,甚至对这2个新中心来说,该怎么进行管理都是很大的问题
唯一不太了解的是针对核聚变模拟一类的军方的课题,不过想来是不会在这2台机器上跑的

回复11楼

我的意思是,这种千万亿次的计算能力根本没有用
天河敢报出它的系统可用率么?别笑话了,天天换内存显卡就忙死维护人员了,散热绝对是一个恐怖的问题。星云的问题也是一样的,不过fermi支持ECC算是一个进步吧,不过话又说回来了,这技术到底还是amd,nvidia的,不是你国防科大或者曙光的,不知道代工是谁做的……
我觉得还是先解决应用的问题,再去研究那个大规模的机器,现在哪种应用有效的利用了百万亿次以上的计算能力呢,气象,天文,石油勘探,只要是业内人士都知道,盲目扩大计算能力没任何意义
万亿次级别的计算能力目前就够用了,据我的了解,用上千个核的程序现在都还不多,用上万核的程序不知道除了linpack还有啥……
国家投入超级计算机的预算,这两个中心加起来大概有10多个亿,每年电费都要烧掉1亿多,这钱完全是浪费了,投入基础软件比烧在空调和机器电力上好得多,更何况根本没有什么适合这机器跑的应用,当年银河研究出来的时候,运行时间就是极其有限的,一是不够可靠,二是应用也相当的难以开发,现在开发相对容易多了,但是针对这么大的机器,该跑什么程序,该怎么安排作业,甚至对这2个新中心来说,该怎么进行管理都是很大的问题
唯一不太了解的是针对核聚变模拟一类的军方的课题,不过想来是不会在这2台机器上跑的
另外,我觉得这两台机器的调试都是问题,据我所知,这种级别的机器,光组装调试到稳定运行状态可能就需要1年以上。到时候又落后了……国外机器不知道能不能解决这些问题
Oceanian 发表于 2010-5-28 00:48


    我顶这个,拿数据说话才是硬道理;P
要按microwenyan 兄的说法,现在中国什么也不用干了,反正什么和外国比都是落后。
回复 30# 完美主意
这话不对,要干的事情很多,超级计算机,尤其是千亿级别的异构超级计算机的意义在我看来不是很大
microwenyan 发表于 2010-5-30 01:25

你是上海还是哪个计算中心,说的好像都是你经手似的,作用不大国家花这么多钱干嘛,你比国家的决策人都聪明?
这么大的机器一般都不是跑一个程序的。很多计算任务同时提交,每个计算任务看加速比的情况,也许就几十个、上百个、上千个核并行。经常有计算节点需要更换那是一定的。一个节点坏了只影响用到这个节点的程序,并不是整个计算集群都要停下来。
上海超算中心每月都有报告,你可以自己去查利用率。我记得大约都在70%以上。
microwenyan 发表于 2010-5-30 01:25


你不觉得自己的发言很可笑嘛?~
这说明他比较实事求是。不知道的就用不确定的语言描述。
回复  完美主意
你的想法很可笑
回复 32# 12345678909

决策什么的不敢说,现在国家的决策者真的就对计算很了解么?科委,工信部的那些老爷们?算了吧……不过就是分蛋糕而已,我现在就是说超级计算这块蛋糕怎么分的问题?别的蛋糕怎么分我也没有什么发言权,我的意见就是按现在这样上千万亿次的异构计算机,而且是一上2台,花那么多钱,没有意思,我现在已经不在这行了,所以说这话也不怕人说。
国家很多钱是花的其实没有意义的,但是我不懂其他行业和科学,仅按照自己了解的一些事情发表一些看法而已。
回复 33# molec
上海超算的曙光5000和4000都是全x86架构的集群,在使用上他们已经有相当多的经验了,利用率非常的高,可以告诉你的是远远超过70%,但是南北两个计算中心呢?全新的架构,带来的挑战,恐怕他们解决问题个七七八八之后,机器也该换了……
顺便说一下,超级计算机很多问题并不是出在CPU上面,现在易坏的东西除了内存,还多了显存,而磁盘阵列或者队列管理的机器出了问题,都将是全局性的问题,这些对于南北2个国家超算中心都是挑战。超级计算机的故障很多是极其难以排除的
星云和天河2台机器,如果只是在技术上的探索,我觉得可以缩小到目前规模的一半,去争一个TOP500的排名其实都是虚名
加油啊