国内是不是用龙芯做了一台运算速度万亿次的巨型机

来源：百度文库编辑：超级军网时间：2024/04/25 18:45:36

这个消息我是在天涯看到的，这个机子据说放在中国科技大学，不知道有没有这回事？这个消息我是在天涯看到的，这个机子据说放在中国科技大学，不知道有没有这回事？

是啊，KD-1嘛

确有此事。
现在万亿次实在不算什么了。四核的巴塞罗那差不多有每秒300亿次。你凑30台也就差不多了。

原帖由 暗夜流星 于 2008-7-22 21:28 发表
确有此事。
现在万亿次实在不算什么了。四核的巴塞罗那差不多有每秒300亿次。你凑30台也就差不多了。

Power7一片都上千亿次了吧记得是256G 就是两千五百六十亿
搞一个四路的板子单台4CPU的机器就有万亿次了......

Power 7 还没出呢，要说老百姓能都买得到的，PS3 上的3.2G的Cell大概有1000亿次双精度浮点能力，你凑16台，然后弄个千兆以太网交换机，万亿次是保险的。PS3的市面价格大概是3000元左右，5万块钱应该能打住。

原帖由 TripleX 于 2008-7-22 23:19 发表

Power7一片都上千亿次了吧记得是256G 就是两千五百六十亿
搞一个四路的板子单台4CPU的机器就有万亿次了......

原帖由 暗夜流星 于 2008-7-22 23:35 发表
Power 7 还没出呢，要说老百姓能都买得到的，PS3 上的3.2G的Cell大概有1000亿次双精度浮点能力，你凑16台，然后弄个千兆以太网交换机，万亿次是保险的。PS3的市面价格大概是3000元左右，5万块钱应该能打住。

呵呵数据交换的速度太慢了起码也得买那种带infiniBand的cell主板几千美金一个呢 16个机器加一个InfiniBand交换机怎么也要百万人民币以上了

其实也还好，关键要看你任务的类型和你的算法。尽量减少节点间的数据交换吧。

原帖由 TripleX 于 2008-7-22 23:44 发表

呵呵数据交换的速度太慢了起码也得买那种带infiniBand的cell主板几千美金一个呢 16个机器加一个InfiniBand交换机怎么也要百万人民币以上了

就算你用InfiniBand，优化工作也是要做的，所谓的多少万亿次，其实能跑到一半就算是很好的成绩了。

原帖由 暗夜流星 于 2008-7-22 23:51 发表
就算你用InfiniBand，优化工作也是要做的，所谓的多少万亿次，其实能跑到一半就算是很好的成绩了。

龙芯那个万亿次是用什么互联的?
用了得有三五百个龙芯吧

1G的龙芯也够50亿次了吧，256个差不多就万亿次。

原帖由 木头龙 于 2008-7-23 00:06 发表
1G的龙芯也够50亿次了吧，256个差不多就万亿次。

查了一下用的是750MHz的龙芯2F 用的是千兆以太网连接和16台PS3互联相比估计长处就在内存比较大了
########################################
整机指标
低功耗
单计算单元功耗小于20 W
单节点节点功耗小于200 W
整机功耗小于6 KW
低占地面积
36 U单机柜的万亿次计算系统，占地0.51平方米，高度1.74米
低成本
整机成本不超过80万
高计算性能
峰值性能达1 TFlops以上
高计算/功耗比
186 MFlops/W
高计算密度
12个处理单元组成一个1 U节点，每U计算能力36 GFlops
全交换互连
所有处理单元之间均采用千兆交换以太网互连
整机技术参数
计算单元：336个主频750 MHz的龙芯2F，总的峰值计算速度1.008 TFlops
服务节点：2个Opteron双核处理器，主频2.2 GHz
内存容量：每计算单元内存1 GB，服务节点内存8 GB，共344 GB
磁盘容量：876 GB
系统互联网络：千兆以太网
龙芯2F处理器技术参数
四发射超标量RISC结构，兼容MIPS III指令集，主频750 MHz，3 GFlops/s
2个定点部件、2个浮点部件和1个访存部件，支持寄存器重命名、动态调度、转移猜测等乱序执行技术
支持全流水浮点乘加指令和SIMD短向量指令，以及40位虚地址和物理地址访问
片内集成512K二级缓存、DDR2内存控制器和PCI-X/PCI控制器
90 nm工艺，芯片面积42 mm2，功耗小于7瓦

他们也是千兆以太网

------------------------------------

【CNW.com.cn 专稿】2007年12月26日，采用国产高性能通用处理器芯片“龙芯2F”搭建的“KD-50-I” 万亿次高性能计算机宣告问世，并被舆论普遍认为是我国高性能计算机国产化的一次重要突破。

据介绍，“KD-50-I”万亿次高性能计算机采用单一机柜，集成了330余颗“龙芯2F”处理器，其理论计算峰值达到1万亿次。它由20多台计算节点组成，每个节点部署了12个“龙芯2F”处理器。“KD-50-I”采用了华为千兆以太网交换机，并采用曙光服务器作为前置机。据了解，所谓前置机主要用于I/O的管理节点，它之所以没有采用“龙芯2F”处理器，而是采用了曙光服务器，据推测与“龙芯2F”的处理能力有关，目前龙芯2F的处理能力仅相当于Pentium 4的水平。

据了解，“KD-50-I”的占地面积仅相当于一台家用冰箱，其总体功耗小于6千瓦，其成本造价大约为80万元，适用于高性能计算教学和科研方面的应用。在这些指标之中，其功耗低的特点最为突出，这与“龙芯2F”处理器的功耗低密切相关，“龙芯2F”处理器功耗仅为8瓦。如果采用Intel或者AMD的处理器，其成本造价大体相当。如果采用刀片服务器，配备双路四核服务器刀片，大致需要14～16个刀片，就可以达到万亿次的计算能力。

据了解，目前我国在数学、物理、化学、地学和空间科学、生命科学、材料科学、力学、火灾科学、量子和信息科学、军事科学等领域的高性能计算方面，具有非常大的需求。如果“KD-50-I”万亿次高性能计算机能够在上述应用领域得到推广，那么它将具有非常美好的市场前景。从去年11月13日发布的全球Top500高性能计算排名看，目前我国排名最高的是胜利油田的高性能计算机，排名第59位，其计算能力达到了18.6万亿次/每秒。它采用IBM公司的BladeCenter HS21刀片服务器构建，共960个节点，共采用了4096颗Intel公司 2.33GHz至强双核处理器。

今年，我国将构建两台具有百万亿次计算能力的超级计算机，并在去年就已经进行了有关方案的论证。在所论证的项目中，大多采用Infiniband交换结构的集群方案。如果以“龙芯2F ”为核心搭建的“KD-50-I”，还能够在百万亿次超级计算机上有所贡献，那么无疑将加大用户的选择范围。但是目前，对于“KD-50-I”而言，更大的期望还是在市场化方面能够有更加优异的表现。如此，“KD-50-I”需要对更多的并行应用软件提供支持，这需要它提供底层的编译系统，对应用软件进行编译。

此外，为了发挥系统的效能，确保软件与硬件系统具有良好的兼容性，各种调优的软件工具是必不可少的。以胜利油田为例，也是先后经过了多次调适才达到了18.6万亿次/每秒的计算水平，其中他们就用到了英特尔公司所提供两个调优工具：Intel Compilers（编译器）和Intel VTune Analyzers。通过这些软件工具，可以及时发现系统应用的瓶颈。因此，有专家指出，“KD-50-I”万亿次高性能计算机的突破是一件可喜可贺的事情，但是从市场推广的角度，这还是只是万里长征的第一步。打造一个完整的生态链，其前景才真正值得期待。

重复了，呵呵。

有人算了，KD-50-I就是用CPU的“理论极限运算速度” 称以 CPU个数，才勉强得到1TFlops的。这种“万亿次”只有天顶星人能实际跑到这个数值。

他们算龙芯的3GFlops，是用 “4发射” 乘以 750MHZ得出的，这帮人吹牛忒不要脸了。

我给出的PS3 1000亿次双精度是一个小组用Linpack实测出来的，我特地留出了6000亿次的余量，还要强调一下算法很重要。

实测HP Linpack: 0.34 Tflops。哈哈，万亿次？我看是“玩一次”吧。

原帖由 暗夜流星 于 2008-7-23 00:26 发表
有人算了，KD-50-I就是用CPU的“理论极限运算速度” 称以 CPU个数，才勉强得到1TFlops的。这种“万亿次”只有天顶星人能实际跑到这个数值。

他们算龙芯的3GFlops，是用 “4发射” 乘以 750MHZ得出的，这帮人吹牛忒 ...

呵呵没有分支预测失败没有cache miss就可以达到不仅要编译器恰到好处测试用的c代码也要恰到好处

仅仅为了噱头而已。

某人的人品我一直存有疑问。

不像做学术做技术的，倒像是宋祖德

作出东西来就是好样的！人品还是问问你自己吧！言论自由的时代，人崇拜一下毛泽东，就让你怀疑人的人品？那还是先问自己的人品咯！;P

原帖由 暗夜流星 于 2008-7-23 00:14 发表
他们也是千兆以太网

------------------------------------

【CNW.com.cn 专稿】2007年12月26日，采用国产高性能通用处理器芯片“龙芯2F”搭建的“KD-50-I” 万亿次高性能计算机宣告问世，并被舆论普遍认为是我 ...

终于知道传说中只售80w人民币的万亿超级机是怎样攒出来的了

原帖由 木头龙 于 2008-7-23 11:55 发表
作出东西来就是好样的！人品还是问问你自己吧！言论自由的时代，人崇拜一下毛泽东，就让你怀疑人的人品？那还是先问自己的人品咯！;P

哎呀，有人对号入座啦。这个可就没办法了。
我可没说因为他崇拜(？)老毛就说他人品不好。

750Mhz 乘上4发射，这话也不是我说的;P

原帖由 oldwatch 于 2008-7-23 12:11 发表

终于知道传说中只售80w人民币的万亿超级机是怎样攒出来的了

万亿次还是理论峰值实在不算超级计算机也就算个小型机

按照胡自己的文章，龙芯2只有两个浮点ALU，双精度浮点撑死也就只能是钟频 X 2

http://www.eaw.com.cn/news/display/article/17199
-----------------------------------------------

龙芯2号功能部件分为两个定点ALU和两个浮点ALU 实现，除实现完整的MIPS 定、浮点指令集外，还实现了龙芯2号类MMX 自定义多媒体指令集以及定点操作在浮点部件(FPU)中的数据通路复用。龙芯2号浮点部件遵照IEEE754 和MIPS 相关标准，浮点加法4 拍完成，浮点乘法5 拍完成，浮点除法4～17拍完成。物理设计支持0.18μm工艺下主频500MHz 的标准单元实现，浮点单精度峰值性能达到2GFLOPS ，双精度峰值性能达到1GFLOPS。

那就是说那个“理论”上的一万亿次只能是单精度浮点了。

早知道那个廉价万亿机会掺水

只是没料到掺的这么明目张胆

...从去年11月13日发布的全球Top500高性能计算排名看，目前我国排名最高的是胜利油田的高性能计算机，排名第59位，其计算能力达到了18.6万亿次/每秒。它采用IBM公司的BladeCenter HS21刀片服务器构建，共960个节点，共采用了4096颗Intel公司 2.33GHz至强双核处理器。

18.6 / 4096 = 0.00454 0.00454 / 2 = 0.0022

1 / 330 = 0.00303

也就是说龙芯的单核性能比2.33GHz的酷睿XEON还厉害哦。:D

原帖由 TripleX 于 2008-7-23 00:33 发表

呵呵没有分支预测失败没有cache miss就可以达到不仅要编译器恰到好处测试用的c代码也要恰到好处

理论上，还真的写出这样一个程序来，一个劲跑固定循环吧:L :L :L :L

胜利油田物探研究院上榜的高性能计算系统选用1024台IBM BladeCenter HS21刀片服务器组成集群，每台刀片服务器配置二颗双核英特尔至强 5140处理器（2.33GHz），集群总计4096个处理器内核。该系统实测LINPACK峰值（Rmax）为每秒18.60万亿次浮点运算，理论峰值（Rpeak）为每秒38.22万亿次浮点运算，较之安装于中国气象局的原“中国第一”高性能计算系统（Rmax每秒10.31万亿次浮点运算和 Rpeak每秒21.76万亿次浮点运算），各有80.41%和75.64%的提高。
在本次TOP500排行榜上，基于英特尔处理器的上榜高性能计算系统达到287台，占总共500台系统的57.40%；Rmax总计达到每秒2383.84万亿次浮点运算，占Rmax总量的 48.19%；Rpeak总计达到每秒3717.44万亿次浮点运算，占Rpeak总量的51.75%，遥遥领先于任何其他架构处理器。

龙芯轻松秒杀Xeon 5140

原帖由 oldwatch 于 2008-7-23 12:39 发表
早知道那个廉价万亿机会掺水

只是没料到掺的这么明目张胆

---------------------------------------------------------
有几个国家用自己知识产权的芯片做出过亿万次的巨型机的???尤其是WW,也来做个啊???;P ;P

现在CD的有些人,叫自己做不出来,却嘲笑别人做的不够好!!真是不知耻啊!!要打击TG,也要自己有货啊!!!;P ;P

原帖由 killerop24 于 2008-7-25 09:24 发表

---------------------------------------------------------
有几个国家用自己知识产权的芯片做出过亿万次的巨型机的???尤其是WW,也来做个啊???;P ;P

现在CD的有些人,叫自己做不出来,却嘲笑别人做的不够好!! ...

有几个国家用自己出产的橡胶做过保险套的? 尤其是俄罗斯也来做一个阿 :D
为什么保险套这么重要的东西大家不关注呢? //think

请问这台如此高性能低成本的巨型机部署到哪个部门实际使用了呢？

还是通过评审，给记者拍张照片之后就结束了呢。

这种无比“卓越”的性能数据如何得出的，上面的计算还看不出来吗？

这方面嘲笑俄罗斯都行，还就是不要嘲笑WW。

原帖由 killerop24 于 2008-7-25 09:24 发表

---------------------------------------------------------
有几个国家用自己知识产权的芯片做出过亿万次的巨型机的???尤其是WW,也来做个啊???;P ;P

现在CD的有些人,叫自己做不出来,却嘲笑别人做的不够好!! ...

按照这种计算方法，类似的“万亿次”全国遍地都是，大大小小的网吧都有这个资格。
酷睿也是4发射，我们按照2G的钟频来算。
就是 2G * 4 * 2 = 160亿次。
63 * 160 GFlops/s = 1.008 TFlops/s
这样算，全国很多网吧能合格吧。

原帖由 chinayx 于 2008-7-25 09:49 发表
请问这台如此高性能低成本的巨型机部署到哪个部门实际使用了呢？

还是通过评审，给记者拍张照片之后就结束了呢。

这种无比“卓越”的性能数据如何得出的，上面的计算还看不出来吗？

原帖由 暗夜流星 于 2008-7-25 12:03 发表
按照这种计算方法，类似的“万亿次”全国遍地都是，大大小小的网吧都有这个资格。
酷睿也是4发射，我们按照2G的钟频来算。
就是 2G * 4 * 2 = 160亿次。
63 * 160 GFlops/s = 1.008 TFlops/s
这样算，全国很多网 ...

你少乘一个2了别忘了每个核有两个超线程 :-)

原帖由 killerop24 于 2008-7-25 09:24 发表

---------------------------------------------------------
有几个国家用自己知识产权的芯片做出过亿万次的巨型机的???尤其是WW,也来做个啊???;P ;P

现在CD的有些人,叫自己做不出来,却嘲笑别人做的不够好!! ...

大陆和台湾比IC设计/制造？这样的高论还真不是什么时候都听得到的;P

原帖由 TripleX 于 2008-7-25 12:12 发表

你少乘一个2了别忘了每个核有两个超线程 :-)

汗…Conroe没有超线程，又不是Nehalem:L

原帖由 大狼芬里尔 于 2008-7-25 12:14 发表

汗…Conroe没有超线程，又不是Nehalem:L

哦我平时都用Xeon 我以为是一样的核.....

现在的Xeon也是酷睿2架构了，没有超线程这种东西。

原帖由 chinayx 于 2008-7-25 12:52 发表
现在的Xeon也是酷睿2架构了，没有超线程这种东西。

看了一下公司的服务器还真是
family 15 model 4 stepping 1的处理器还有超线程
family 15 model 4 stepping 3的就没有了
family 15 model 4 stepping 10的也没有
只有最老的一批服务器有超线程后来的都没有了

从os角度讲，intel式的超线程会带来安全性问题，两个伪核可以互相hack，攻击者可以用简单的代码控制系统，微软及各os开放者曾经为此发了无数补丁，但只治标不治本，这是结构上(逻辑上)的缺陷，因此超线程死了。

超线程安全问题;P

旧的超线程是为了改善P4的执行效率。

而下一代Intel Nehalem cpu又将支持超线程了。

ls的打算诅咒死Intel吗？

国内是不是用龙芯做了一台运算速度万亿次的巨型机印度第一台每秒运算１万亿次的超级计算机推出我国诞生每秒峰值运算速度１１万亿次超级服务器！（ZT）中国首台突破百万亿次运算速度超级计算机研制成功中国首台突破百万亿次运算速度超级计算机研制成功日本開始研發100万万亿次每秒运算級的下一代超級計算机我国的超级计算机每秒运算速度3000亿次以上！国内首台国产千万亿次计算机系统启用中科院自动化所万亿次极光系列代数运算微处理器运算10万亿次/秒国产超级计算机有望入全球十强全球最快：每秒运算1000万亿次美展示超级计算机"走鹃 ... 俄罗斯新一代超级计算机完成安装，500万亿次浮点运算