国内是不是用龙芯做了一台运算速度万亿次的巨型机

来源:百度文库 编辑:超级军网 时间:2024/04/25 18:45:36
这个消息我是在天涯看到的,这个机子据说放在中国科技大学,不知道有没有这回事?这个消息我是在天涯看到的,这个机子据说放在中国科技大学,不知道有没有这回事?
是啊,KD-1嘛
确有此事。
现在万亿次实在不算什么了。四核的巴塞罗那差不多有每秒300亿次。你凑30台也就差不多了。
原帖由 暗夜流星 于 2008-7-22 21:28 发表
确有此事。
现在万亿次实在不算什么了。四核的巴塞罗那差不多有每秒300亿次。你凑30台也就差不多了。

Power7一片都上千亿次了吧 记得是256G 就是两千五百六十亿
搞一个四路的板子 单台4CPU的机器就有万亿次了......
Power 7 还没出呢,要说老百姓能都买得到的,PS3 上的3.2G的Cell大概有1000亿次双精度浮点能力,你凑16台,然后弄个千兆以太网交换机,万亿次是保险的。PS3的市面价格大概是3000元左右,5万块钱应该能打住。

原帖由 TripleX 于 2008-7-22 23:19 发表

Power7一片都上千亿次了吧 记得是256G 就是两千五百六十亿
搞一个四路的板子 单台4CPU的机器就有万亿次了......
原帖由 暗夜流星 于 2008-7-22 23:35 发表
Power 7 还没出呢,要说老百姓能都买得到的,PS3 上的3.2G的Cell大概有1000亿次双精度浮点能力,你凑16台,然后弄个千兆以太网交换机,万亿次是保险的。PS3的市面价格大概是3000元左右,5万块钱应该能打住。


呵呵 数据交换的速度太慢了 起码也得买那种带infiniBand的cell主板 几千美金一个呢 16个机器加一个InfiniBand交换机 怎么也要百万人民币以上了
其实也还好,关键要看你任务的类型和你的算法。尽量减少节点间的数据交换吧。

原帖由 TripleX 于 2008-7-22 23:44 发表

呵呵 数据交换的速度太慢了 起码也得买那种带infiniBand的cell主板 几千美金一个呢 16个机器加一个InfiniBand交换机 怎么也要百万人民币以上了
就算你用InfiniBand,优化工作也是要做的,所谓的多少万亿次,其实能跑到一半就算是很好的成绩了。
原帖由 暗夜流星 于 2008-7-22 23:51 发表
就算你用InfiniBand,优化工作也是要做的,所谓的多少万亿次,其实能跑到一半就算是很好的成绩了。

龙芯那个万亿次 是用什么互联的?
用了得有三五百个龙芯吧
1G的龙芯也够50亿次了吧,256个差不多就万亿次。
原帖由 木头龙 于 2008-7-23 00:06 发表
1G的龙芯也够50亿次了吧,256个差不多就万亿次。

查了一下 用的是750MHz的龙芯2F  用的是千兆以太网连接 和16台PS3互联相比 估计长处就在内存比较大了
########################################
整机指标
低功耗
单计算单元功耗小于20 W
单节点节点功耗小于200 W
整机功耗小于6 KW
低占地面积
36 U单机柜的万亿次计算系统,占地0.51平方米,高度1.74米
低成本
整机成本不超过80万
高计算性能
峰值性能达1 TFlops以上
高计算/功耗比
186 MFlops/W
高计算密度
12个处理单元组成一个1 U节点,每U计算能力36 GFlops
全交换互连
所有处理单元之间均采用千兆交换以太网互连
整机技术参数
计算单元:336个主频750 MHz的龙芯2F,总的峰值计算速度1.008 TFlops
服务节点:2个Opteron双核处理器,主频2.2 GHz
内存容量:每计算单元内存1 GB,服务节点内存8 GB,共344 GB
磁盘容量:876 GB
系统互联网络:千兆以太网
龙芯2F处理器技术参数
四发射超标量RISC结构,兼容MIPS III指令集,主频750 MHz,3 GFlops/s
2个定点部件、2个浮点部件和1个访存部件,支持寄存器重命名、动态调度、转移猜测等乱序执行技术
支持全流水浮点乘加指令和SIMD短向量指令,以及40位虚地址和物理地址访问
片内集成512K二级缓存、DDR2内存控制器和PCI-X/PCI控制器
90 nm工艺,芯片面积42 mm2,功耗小于7瓦
他们也是千兆以太网

------------------------------------

【CNW.com.cn 专稿】2007年12月26日,采用国产高性能通用处理器芯片“龙芯2F”搭建的“KD-50-I” 万亿次高性能计算机宣告问世,并被舆论普遍认为是我国高性能计算机国产化的一次重要突破。

据介绍,“KD-50-I”万亿次高性能计算机采用单一机柜,集成了330余颗“龙芯2F”处理器,其理论计算峰值达到1万亿次。它由20多台计算节点组成,每个节点部署了12个“龙芯2F”处理器。“KD-50-I”采用了华为千兆以太网交换机并采用曙光服务器作为前置机。据了解,所谓前置机主要用于I/O的管理节点,它之所以没有采用“龙芯2F”处理器,而是采用了曙光服务器,据推测与“龙芯2F”的处理能力有关,目前龙芯2F的处理能力仅相当于Pentium 4的水平。

据了解,“KD-50-I”的占地面积仅相当于一台家用冰箱,其总体功耗小于6千瓦其成本造价大约为80万元,适用于高性能计算教学和科研方面的应用。在这些指标之中,其功耗低的特点最为突出,这与“龙芯2F”处理器的功耗低密切相关,“龙芯2F”处理器功耗仅为8瓦。如果采用Intel或者AMD的处理器,其成本造价大体相当。如果采用刀片服务器,配备双路四核服务器刀片,大致需要14~16个刀片,就可以达到万亿次的计算能力。

据了解,目前我国在数学、物理、化学、地学和空间科学、生命科学、材料科学、力学、火灾科学、量子和信息科学、军事科学等领域的高性能计算方面,具有非常大的需求。如果“KD-50-I”万亿次高性能计算机能够在上述应用领域得到推广,那么它将具有非常美好的市场前景。从去年11月13日发布的全球Top500高性能计算排名看,目前我国排名最高的是胜利油田的高性能计算机,排名第59位,其计算能力达到了18.6万亿次/每秒。它采用IBM公司的BladeCenter HS21刀片服务器构建,共960个节点,共采用了4096颗Intel公司 2.33GHz至强双核处理器。

今年,我国将构建两台具有百万亿次计算能力的超级计算机,并在去年就已经进行了有关方案的论证。在所论证的项目中,大多采用Infiniband交换结构的集群方案。如果以“龙芯2F ”为核心搭建的“KD-50-I”,还能够在百万亿次超级计算机上有所贡献,那么无疑将加大用户的选择范围。但是目前,对于“KD-50-I”而言,更大的期望还是在市场化方面能够有更加优异的表现。如此,“KD-50-I”需要对更多的并行应用软件提供支持,这需要它提供底层的编译系统,对应用软件进行编译。

此外,为了发挥系统的效能,确保软件与硬件系统具有良好的兼容性,各种调优的软件工具是必不可少的。以胜利油田为例,也是先后经过了多次调适才达到了18.6万亿次/每秒的计算水平,其中他们就用到了英特尔公司所提供两个调优工具:Intel Compilers(编译器)和Intel VTune Analyzers。通过这些软件工具,可以及时发现系统应用的瓶颈。因此,有专家指出,“KD-50-I”万亿次高性能计算机的突破是一件可喜可贺的事情,但是从市场推广的角度,这还是只是万里长征的第一步。打造一个完整的生态链,其前景才真正值得期待。
重复了,呵呵。
有人算了,KD-50-I就是用CPU的“理论极限运算速度” 称以 CPU个数,才勉强得到1TFlops的。这种“万亿次”只有天顶星人能实际跑到这个数值。

他们算龙芯的3GFlops,是用 “4发射” 乘以 750MHZ得出的,这帮人吹牛忒不要脸了。

我给出的PS3 1000亿次双精度是一个小组用Linpack实测出来的,我特地留出了6000亿次的余量,还要强调一下算法很重要。
实测HP Linpack: 0.34 Tflops。哈哈,万亿次?我看是“玩一次”吧。
原帖由 暗夜流星 于 2008-7-23 00:26 发表
有人算了,KD-50-I就是用CPU的“理论极限运算速度” 称以 CPU个数,才勉强得到1TFlops的。这种“万亿次”只有天顶星人能实际跑到这个数值。

他们算龙芯的3GFlops,是用 “4发射” 乘以 750MHZ得出的,这帮人吹牛忒 ...

呵呵 没有分支预测失败 没有cache miss就可以达到 不仅要编译器恰到好处 测试用的c代码也要恰到好处
仅仅为了噱头而已。

某人的人品我一直存有疑问。

不像做学术做技术的,倒像是宋祖德
作出东西来就是好样的!人品还是问问你自己吧!言论自由的时代,人崇拜一下毛泽东,就让你怀疑人的人品?那还是先问自己的人品咯!;P
原帖由 暗夜流星 于 2008-7-23 00:14 发表
他们也是千兆以太网

------------------------------------

【CNW.com.cn 专稿】2007年12月26日,采用国产高性能通用处理器芯片“龙芯2F”搭建的“KD-50-I” 万亿次高性能计算机宣告问世,并被舆论普遍认为是我 ...


终于知道传说中只售80w人民币的万亿超级机是怎样攒出来的了
原帖由 木头龙 于 2008-7-23 11:55 发表
作出东西来就是好样的!人品还是问问你自己吧!言论自由的时代,人崇拜一下毛泽东,就让你怀疑人的人品?那还是先问自己的人品咯!;P



哎呀,有人对号入座啦。这个可就没办法了。
我可没说因为他崇拜(?)老毛就说他人品不好。

750Mhz 乘上4发射,这话也不是我说的;P
原帖由 oldwatch 于 2008-7-23 12:11 发表


终于知道传说中只售80w人民币的万亿超级机是怎样攒出来的了

万亿次 还是理论峰值 实在不算超级计算机 也就算个小型机
按照胡自己的文章,龙芯2只有两个浮点ALU,双精度浮点撑死也就只能是钟频 X 2

http://www.eaw.com.cn/news/display/article/17199
-----------------------------------------------

龙芯2号功能部件分为两个定点ALU和两个浮点ALU 实现,除实现完整的MIPS 定、浮点指令集外,还实现了龙芯2号类MMX 自定义多媒体指令集以及定点操作在浮点部件(FPU)中的数据通路复用。龙芯2号浮点部件遵照IEEE754 和MIPS 相关标准,浮点加法4 拍完成,浮点乘法5 拍完成,浮点除法4~17拍完成。物理设计支持0.18μm工艺下主频500MHz 的标准单元实现,浮点单精度峰值性能达到2GFLOPS ,双精度峰值性能达到1GFLOPS。
那就是说那个“理论”上的一万亿次只能是单精度浮点了。
早知道那个廉价万亿机会掺水

只是没料到掺的这么明目张胆
...从去年11月13日发布的全球Top500高性能计算排名看,目前我国排名最高的是胜利油田的高性能计算机,排名第59位,其计算能力达到了18.6万亿次/每秒。它采用IBM公司的BladeCenter HS21刀片服务器构建,共960个节点,共采用了4096颗Intel公司 2.33GHz至强双核处理器。

18.6 / 4096 = 0.00454        0.00454 / 2 = 0.0022

1 / 330 = 0.00303

也就是说龙芯的单核性能比2.33GHz的酷睿XEON还厉害哦。:D
原帖由 TripleX 于 2008-7-23 00:33 发表

呵呵 没有分支预测失败 没有cache miss就可以达到 不仅要编译器恰到好处 测试用的c代码也要恰到好处

理论上,还真的写出这样一个程序来,一个劲跑固定循环吧:L :L :L :L
胜利油田物探研究院上榜的高性能计算系统选用1024台IBM BladeCenter HS21刀片服务器组成集群,每台刀片服务器配置二颗双核英特尔至强 5140处理器(2.33GHz),集群总计4096个处理器内核。该系统实测LINPACK峰值(Rmax)为每秒18.60万亿次浮点运算,理论峰值(Rpeak)为每秒38.22万亿次浮点运算,较之安装于中国气象局的原“中国第一”高性能计算系统(Rmax每秒10.31万亿次浮点运算和 Rpeak每秒21.76万亿次浮点运算),各有80.41%和75.64%的提高。
在本次TOP500排行榜上,基于英特尔处理器的上榜高性能计算系统达到287台,占总共500台系统的57.40%;Rmax总计达到每秒2383.84万亿次浮点运算,占Rmax总量的 48.19%;Rpeak总计达到每秒3717.44万亿次浮点运算,占Rpeak总量的51.75%,遥遥领先于任何其他架构处理器。


龙芯轻松秒杀Xeon 5140
原帖由 oldwatch 于 2008-7-23 12:39 发表
早知道那个廉价万亿机会掺水

只是没料到掺的这么明目张胆

---------------------------------------------------------
有几个国家用自己知识产权的芯片做出过亿万次的巨型机的???尤其是WW,也来做个啊???;P ;P

现在CD的有些人,叫自己做不出来,却嘲笑别人做的不够好!!真是不知耻啊!!要打击TG,也要自己有货啊!!!;P ;P
原帖由 killerop24 于 2008-7-25 09:24 发表

---------------------------------------------------------
有几个国家用自己知识产权的芯片做出过亿万次的巨型机的???尤其是WW,也来做个啊???;P ;P

现在CD的有些人,叫自己做不出来,却嘲笑别人做的不够好!! ...

有几个国家用自己出产的橡胶做过保险套的? 尤其是俄罗斯 也来做一个阿 :D
为什么保险套这么重要的东西大家不关注呢? //think
请问这台如此高性能低成本的巨型机部署到哪个部门实际使用了呢?

还是通过评审,给记者拍张照片之后就结束了呢。

这种无比“卓越”的性能数据如何得出的,上面的计算还看不出来吗?
这方面嘲笑俄罗斯都行,还就是不要嘲笑WW。

原帖由 killerop24 于 2008-7-25 09:24 发表

---------------------------------------------------------
有几个国家用自己知识产权的芯片做出过亿万次的巨型机的???尤其是WW,也来做个啊???;P ;P

现在CD的有些人,叫自己做不出来,却嘲笑别人做的不够好!! ...
按照这种计算方法,类似的“万亿次”全国遍地都是,大大小小的网吧都有这个资格。
酷睿也是4发射,我们按照2G的钟频来算。
就是 2G * 4 * 2 = 160亿次。
63 * 160 GFlops/s =  1.008 TFlops/s
这样算,全国很多网吧能合格吧。

原帖由 chinayx 于 2008-7-25 09:49 发表
请问这台如此高性能低成本的巨型机部署到哪个部门实际使用了呢?

还是通过评审,给记者拍张照片之后就结束了呢。

这种无比“卓越”的性能数据如何得出的,上面的计算还看不出来吗?
原帖由 暗夜流星 于 2008-7-25 12:03 发表
按照这种计算方法,类似的“万亿次”全国遍地都是,大大小小的网吧都有这个资格。
酷睿也是4发射,我们按照2G的钟频来算。
就是 2G * 4 * 2 = 160亿次。
63 * 160 GFlops/s =  1.008 TFlops/s
这样算,全国很多网 ...

你少乘一个2了 别忘了每个核有两个超线程 :-)
原帖由 killerop24 于 2008-7-25 09:24 发表

---------------------------------------------------------
有几个国家用自己知识产权的芯片做出过亿万次的巨型机的???尤其是WW,也来做个啊???;P ;P

现在CD的有些人,叫自己做不出来,却嘲笑别人做的不够好!! ...


大陆和台湾比IC设计/制造?这样的高论还真不是什么时候都听得到的;P
原帖由 TripleX 于 2008-7-25 12:12 发表

你少乘一个2了 别忘了每个核有两个超线程 :-)


汗…Conroe没有超线程,又不是Nehalem:L
原帖由 大狼芬里尔 于 2008-7-25 12:14 发表


汗…Conroe没有超线程,又不是Nehalem:L

哦 我平时都用Xeon 我以为是一样的核.....
现在的Xeon也是酷睿2架构了,没有超线程这种东西。
原帖由 chinayx 于 2008-7-25 12:52 发表
现在的Xeon也是酷睿2架构了,没有超线程这种东西。

看了一下公司的服务器 还真是
family 15 model 4 stepping 1的处理器还有超线程
family 15 model 4 stepping 3的就没有了
family 15 model 4 stepping 10的也没有
只有最老的一批服务器有超线程 后来的都没有了
从os角度讲,intel式的超线程会带来安全性问题,两个伪核可以互相hack,攻击者可以用简单的代码控制系统,微软及各os开放者曾经为此发了无数补丁,但只治标不治本,这是结构上(逻辑上)的缺陷,因此超线程死了。
超线程安全问题;P

旧的超线程是为了改善P4的执行效率。

而下一代Intel Nehalem cpu又将支持超线程了。

ls的打算诅咒死Intel吗?