惊魂百万亿次:曙光5000A冲击Top500纪实

来源:百度文库 编辑:超级军网 时间:2024/05/03 16:58:05
● 后 记

  元月11日,时逢周日,顶着深冬京城凛冽的寒风,李铭、叶翔宇和本文的3个作者走进了位于金源购物中心一层的上岛咖啡。应该跟上岛道上一句歉,因为我们除了有个人要了一份套餐外,就靠一壶清茶支撑着,从晚上7点开始,聊过9点半购物中心的打烊直至10点半。第二天中科院计算所智能计算机中心张佩珩副主任不仅为我们详细介绍了计算所在高性能计算预研和曙光5000A研发过程中的关键作用,而且还带我们到地下车库,对曙光 5000A做了详细的介绍。第三天,聂华又拨冗跟我们聊了近2个小时。

  本文所有的素材均取自对上述各位嘉宾的采访,只是因为故事性很强,我们尝试着换一种写法。

  在采访过程中,我们感触最深的是,曙光5000A作为一个非常复杂的系统,涉及到多家合作,这里面既有国别的差异,也有企业文化的不同,但大家目标一致,顶住时间上的压力,不计得失,夜以继日,终成正果。通常,系统联调遇到问题时,最容易出现扯皮现象——大家极力要把自己择出来。但曙光和微软的测试团队则相互理解、相互支持,有问题先查自己。有过系统抓总经历的人都明白,这是至关重要的。

  还应该提到的是李铭他们敢于冒险、勇于承担责任的精神和吃苦耐劳的实干,在我们对外企的多年采访经历中还是第一次遇到。这可能也得益于微软中国研发集团的研究文化,Google标榜其工程师可以有 20%的自由支配的时间,而微软中国研发集团的文化可以容忍李铭他们在一段时间内100%地支配自己的时间,而且还瞒着他们的老板。

  最后应该强调的是,Linpack测试只是衡量曙光5000A系统的极限计算能力,与目前用户的应用模式有着很大的差异,曙光5000A的硬件设计是为用户的应用而非冲击Linpack而优化的。我们从计算所、曙光和微软都听到了这种答案。

本报独家访谈:

  冲向千万亿次 曙光6000已在研制中

  国家智能计算机研究开发中心 张佩珩

  设计曙光系列高性能计算机是中科院计算所的看家本领,其10个研究实体之一——高性能计算机研究中心的任务就是研究和开发高性能计算机。从最早的李国杰院士亲自参与设计的曙光1号,到后来的曙光1000、曙光2000-I、曙光2000-II、曙光3000、曙光4000,直到此次冲进Top500的曙光5000A,中科院计算所始终提供着最为重要的技术支撑。

  2006年10月,中科院计算所作为承制单位递交可行性报告,开始研制曙光5000A。这台由科技部立项的高性能计算机被定义为百万亿次高效能系统。它融入了多项计算所自主创新技术,如体系结构、主板、计算刀片、系统管理以及散热设计等技术,最终形成了高性能、高效能、高密度、高可靠性、低功耗、低价格的的技术特征。

  曙光5000A的单计算节点还衍生出了PHPC,融入降噪设计的单节点成为可以被广泛用于办公室等环境的个人高性能计算机。

  研制一代的同时还要预研一代,本着这样的设计原则和渐进式发展路线,曙光5000A既在体系结构等方面继承了曙光4000的一些成熟技术特征,同时也进行了一些开创型的全新设计。同时,曙光5000A不仅要完成其本身的设计指标,同时也要承担起为下一代计算机探路的重任。曙光5000A的百万亿次研制工作已经完成,并随即提供给上海超级计算中心使用,而其千万亿次的预研任务也处于最后的调制阶段。

  从2009年开始,计算所开始着手被命名为曙光6000的千万亿次高性能计算机的研发工作,预计到2010年研制完成,并计划提供给国家华南超级计算中心。曙光6000将采用计算所自主创新设计的HPP体系结构,H代表了超节点、超并行的意思。提出新的体系结构,就是要把自主研制的国产处理器龙芯引入到曙光系列高性能计算机当中。

  直观地说,曙光6000的计算节点在HPP体系结构下是异构的,既有x86处理器,也有龙芯处理器,各司其职。龙芯的指令集与x86指令集不一样,而当前用户应用的应用软件却大多是基于x86指令集的。为了解决用不兼容的指令集来兼容用户的应用软件的问题,该节点用x86处理器来运行操作系统,以实现软件栈兼容,用户的编译和应用提交给x86处理器,再由x86处理器在后台将任务分发给龙芯处理器,用户的使用习惯无须发生任何改变。

  曙光6000的发展代表了未来发展的“异构”趋势。曙光4000、曙光5000A,都是同构集群,在更大规模的扩展中,将遭遇越来越多的问题,尤其是能耗问题。异构实现的目标之一就是控制能耗,不会发生能耗伴随性能线性增长的情况。

  曙光6000引入龙芯3处理器,除了有自主研制的原因之外,更多的也是考虑它的低功耗:已经开始流片的龙芯3二代产品为8核处理器,而功耗却控制在30瓦左右,这要明显低于主流的x86处理器。处理器的混合使用,就如同给曙光6000引入了混合动力。

  在中国做HPC 难处不小但希望更大

  曙光信息产业有限公司副总裁 聂华

  高性能计算从技术角度讲,是一个非常有挑战性的难题,更是一个国家科技实力的象征,它有着非常重要的战略意义。我国在高性能计算领域快速发展,必然会带动很多相关行业的科技进步,它本身起到的是个平台作用,如同舞者跳跃的舞台。

  中国高性能计算的发展遇到不少难处。美国可以根据不同应用研制不同的高性能计算机,可以把应用做得很专,做得相对有技术,做得很容易,而且也有差异化。

  但中国就难在,在我们目前的发展阶段,要求一台高性能计算机要满足所有可能的潜在应用,满足各种客户的需求,比如有人需要大内存,有人需要网络快,有人需要计算快。这些条条框框促使曙光不得不用通用的设计思路满足客户需求。这就好比我们造飞机,我们既要造战斗机,又要做客机,但结果是做成同时兼顾的一架飞机。

  根据这种思路设计的通用型高性能计算机,就势必要中规中矩,反而让人感觉不出来比专用计算机更有技术含量。如果按照专用型高性能计算机设计思路进行设计,就要屏蔽掉很多应用,一旦屏蔽很多应用,又不能满足客户需求。这种矛盾是中国在高性能计算机设计的发展道路上遭遇的大难题。

  另一方面,我国高性能计算的应用程序也并不丰富,能应用到工程上的就更少了。我们既要重视有形的东西,也要重视无形的东西。高性能计算机固然很重要,但是如果在这个平台上没事可做,那也是一种浪费。高性能计算应用软件专业性极强,一般的商业软件公司无法开发。没有长时间的经验积累和大量资金投入,要在短时间内开发出适合中国各行业特点的应用软件并非易事。但只有更多地发展应用,让高性能计算更加普及,甚至成为很多行业的应用习惯,这才能形成正向循环。

  但我们的国情也让高性能计算发展充满了希望。高性能计算已经为社会创造了很多价值。举个通俗的例子,马路上的下水井盖,为什么当车以不同速度经过时,第一个车轮轧过造成的震动不至于使井盖形成一个角度,让后面车轮轧过去的时候陷下去,这种频率控制设计就需要使用高性能计算机来辅助。这只是在日常生活当中可以看到的,在更多的高精尖领域,高性能计算更是发挥着重要作用。比如,曙光4000已经为民航的支线LGR1做出重要贡献。如今我国要研制大飞机,曙光 5000A的重要用途之一,就是要为民航大飞机的研发提供支撑和服务。高性能计算机的应用领域和前景一片大好。

  曙光此次冲进全球 Top500十强,赢得的是尊重,展示了我们的技术实力,我们有能力做好高性能计算机,而且绝不比外国人做得差。而这次与微软合作,其背后更深层次的意义在于,双方都有意愿要推动高性能计算普及化,普及化的首要指标就是好用。这也是当初为何选择Windows进行尝试的原因,毕竟Windows是一个被广泛使用的平台,拥有众多的开发者,他们习惯熟悉的语言环境、开发工具和用户界面。而能很好地支持Windows运行,更证明了曙光5000A的通用性。
在多种噪声交织的测试现场

...闹心的风扇声
有点超频的意思,就不知实际意义有多大!
事实证明windows就是烂啊:L
M$赚了

如此宝贵的合作经验
死活不肯给国内人才一点机会阿。

老外来了,问题解决了,那请问,老外如果不来呢?
代码是人家写的,当然最好是找那个写代码的人来改咯
warz 发表于 2009-4-15 13:01
Voltaire公司那个搞路由和网络优化的不清楚
但MS的那个老夏和日本的goto,国内还真就找不出这样的人
MS和中科这可以说是笔交易,双方各取得自己想要的东西。
怎么我看这文章有点象MS求着中科装WHS2008.[:a11:]
blueworld 发表于 2009-4-15 20:52
估计好处没少给
不然谁用他们的东西啊;P
HPC方面,M$还是非主流
whucsm 发表于 2009-4-15 21:48
请了一个在MS工作的正牌大神,一个在德州理工做访问学者的正牌大神
至少两正牌大神,可能好处少吗?:D :D
还是力挺LINUX
LINUX不错,服务器就用它。
Linux对新推出的CPU的优化总是要慢一点的,Intel、AMD首先就会针对Windows进行优化,微软又会针对该两个厂商的新CPU进行优化,因此有优势的。Linux的优化目前靠GNU团队自己搞肯定要慢半拍,除非CPU厂家主动并且要和GNU团队合作高,才有可能赶上X86体系的步伐。

龙芯目前在优化着一块就没搞好。

据说长沙那边由于CPU、操作系统全都是自己从核心开始搞得,因此优化做的要好一些,也就是所谓的麒麟BSD内核针对CPU体系的优化问题。
xcxy 发表于 2009-4-15 23:35
warz 发表于 2009-4-15 13:01
blueworld 发表于 2009-4-15 20:49
pxjdream 发表于 2009-4-14 22:29
会不会与要微软支持龙芯3有交易?
GNU当然不只是业余的了,但是针对Intel和AMD的X86体系,除非这两个厂家主动和GNU体系合作,否则GNU在这两家的CPU上的优化肯定要比微软慢半拍!

你要说IBM那时另外一回事,而且那也不算正儿八经的GNU了,它的优化不会免费发放,比如在很多摩托手机商用的嵌入式Linux,它的代码它的优化就不会开放给你,最后一样要钱去买。

MIPS目前没有哪家厂商足够强势,各MIPS厂商自行优化也大多是做商品的,龙芯只能靠自己和国际GNU团队,因此是重要慢半拍,当然这个和龙芯自己的技术经验积累不够也有莫大的关系,毕竟只进行了两代产品,Linux这对龙芯的内核优化代码的开发团队还不成熟,单纯靠外面的GNU团队,则独木难支,它对CPU的熟悉程度就不如龙芯团队自身,而龙芯团队对Linux内核优化的了解有不如传统的GNU团队。
21# xcxy

那么多Linux商业发行版,怎么可能和AMD/Intel没有深入合作?

Linux产业早就是一门大生意而不是一群牛仔的游戏了

ps:
GNU和Linux的概念还是要区分一下的
oldwatch 发表于 2009-4-16 10:46


每一个版本的发行都不是所谓的商业发行版。

其次每一个发行版都会比Windows针对最最新CPU的优化满半拍。
国内就是这样过分崇洋,特别是年纪在40-50岁这一代,被文革整过,然后出国又被洗脑过.回国后,动不动就说国外好,连个榔头都说国外手柄好!
现在刚好这代人掌权,就看共和国气数大,还是这代人气数大了.
超级机用WinHPC的确很奇怪。
xcxy 发表于 2009-4-16 10:52
开啥玩笑?
虽然自己不在行,不过朋友某次给服务器打补丁的时候拉着我通宵,对linux/gnu什么的也略有了点解。

这些系统用户可以自行优化,甚至可以改源码,自己加补丁。windows的商业模式反而不适合这种特别需要定制化以及优化的系统。windows效率更低简直是必然的。
顺便说一下,经过那次通宵,我才知道为啥昂贵的windows比免费的linux成本低。-----因为linux/gnu一类的系统要用好,必须请相当专业的人,甚至一个团队。而windows有啥问题你找M$就行-----用linux你也可以找专业提供商,不过费用不会比M$低。

换句话说,windows是为同一领域的低端用户准备的。因为要满足通用化,所以臃肿低效。技术水平不够,那考虑windows才是合理的。
搞笑么?win2008针对至强5500定制的版本你觉得你啥时候能从M$拿到?
密切合作是密切合作,windows的商业模式决定了这东西没可能做高级定制

我印象中某些高性能linux定制内核的维护团队
后面有intel icc部门的直接支持
xcxy 发表于 2009-4-16 10:52
bessel 发表于 2009-4-16 03:53

请goto和老夏,那是微软操作系统的需要。如上Linux曙光和计算所自己就能搞定。
所以你这只要请了老外,人家就是饭桶的推理不能成立。
而且goto不只是比国内厉害,人家在世界上都是最顶尖的,你有什么好不服气?老夏也是微软HPC两大牛人之一,你有什么不服气的?怎么就能说明其他做事人饭桶了?一边骂人饭桶,一边说这些人应该尊敬,你是精神分裂吗。
bessel 发表于 2009-4-16 04:30
就你明真像。华为刚开始不过是倒爷。联想早期卖过白菜电视机。戴尔惠普不也是攒机。也可以说电视,手机。。。无数产品都是攒机。有的甚至只是挂个牌。盖房子的水泥钢筋各种建材也不是自己生产。

那又如何?就能否定人家的价值和贡献了?
非得是生产cpu,交换机才有价值和贡献?

抱这样理由踩来踩去的人可不少。不过我得说这种思维其实很脑残。
bessel 发表于 2009-4-16 04:30

这是你自己的瞎猜罢了。到底人家选择win的考量你并不清楚的。再说用win测试一次,老板又得到职称了?你给发的?好像是那个副总裁决策的吧,人家不也是一样在现场加班加点吗,又哪里是只有小兵辛苦了。
个人HPC也是市场的一个方向,曙光也在搞这种产品。win版的HPC谁敢说就没有一定市场呢。曙光能上win,曙光通过这次合作跟微软搞好关系,能说不值得吗。
潇声客 发表于 2009-4-18 15:07

惠普只是攒机......

Itanium产业联盟发来贺电{:3_88:}
2005年成立的联盟,不用乱发贺电

2005年成立的联盟,不用乱发贺电
托起航母 发表于 2009-4-18 16:46


搞清楚Itanium真正的首创者是谁再说吧,知道如今的Itamium用的是谁家的工艺匹配库么?

2005?GOOGLE大神也只能保证足下知道一个2005而已;P
2005年成立的联盟,不用乱发贺电
托起航母 发表于 2009-4-18 16:46


搞清楚Itanium真正的首创者是谁再说吧,知道如今的Itamium用的是谁家的工艺匹配库么?

2005?GOOGLE大神也只能保证足下知道一个2005而已;P
大狼芬里尔 发表于 2009-4-18 16:21

我没说惠普“只是”攒机。惠普的很多产品,特别桌面PC,当中的CPU,显卡,硬盘,内存攒的没错吧?戴尔也有研发,你也可以发贺电。
扣这字眼想说明什么?
能说明计算机只有曙光不是全部组件自己生产,其他电视,手机,房子就是全部部件都是厂家自产?
几十年来不要说组件,中国引进的设备,甚至整条生产线整套技术引进的还少吗。喜欢jjyy的去慢慢骂吧。
潇声客 发表于 2009-4-18 18:11

我的意思简单得很:在这里提HP根本就不靠谱,HP是IT届技术实力最强的几家企业之一

攒机没什么不好,赚钱就行;比如ACER
大狼芬里尔 发表于 2009-4-18 18:02

我是百度的 ,想叫叫我百度大婶吧

我真就只知道个 2005! 没办法文化底哦
潇声客 发表于 2009-4-18 14:57
潇声客 发表于 2009-4-18 15:07
潇声客 发表于 2009-4-18 14:57
用windows,有两种可能,
要么是没有linux类系统的技术团队,或者水平不够没办法自行优化。
要么是M$提供全面的合作和财务支持,因为M$需要这样的机会。

用户买回去,格了windows自行安装linux或其他系统很正常。不要把linux和GNU之类的系统和windows这类不公开源码的商业系统混作一谈。