增强型龙芯万亿次高性能计算机

来源：百度文库编辑：超级军网时间：2024/04/29 07:46:52

http://www.cnbeta.com/articles/73444.htm

30秒内为驾驶员提供实时路况和最优出行路线信息;8分钟完成单幅机载合成雷达数据成像,准实时精确提供灾情评估和经济损失分析信息。记者日前从中国科技大学获悉,国产KD-50-I-E增强型万亿次国产高性能计算机已成功应用于城市交通控制与管理、防灾减灾。去年12月底,我国首台采用国产高性能通用处理器芯片“龙芯2F”和其他国产器件、设备和技术的万亿次高性能计算机“KD-50-I”在中国科大研制成功,功能定位于大规模科学计算。

为了让该项成果直接服务于国民经济建设,陈国良院士领导科研团队大胆改进了计算节点的设计,提高了系统主频,采用纠错能力更强的存储芯片、速度更快的交换芯片、合理的结构布局和新的生产工艺,使整机性能得到大幅度的提升,运行更加稳定可靠。

新近研制成功的两台万亿次计算机包括144颗“龙芯2F”CPU,已分别应用于安徽省道路交通管理系统和安徽省减灾防灾雷达图像数据处理系统,直接服务于生产实际和国民经济建设。安徽省智能交通工程技术中心的负责人介绍,安徽省交通信息网目前已经在该万亿次计算机上运行,效果良好。

记者在机房现场看到,“KD-50-I-E”的体积仅相当于一台普通家用冰箱,其功耗小于6千瓦,成本不到80万元人民币http://www.cnbeta.com/articles/73444.htm

30秒内为驾驶员提供实时路况和最优出行路线信息;8分钟完成单幅机载合成雷达数据成像,准实时精确提供灾情评估和经济损失分析信息。记者日前从中国科技大学获悉,国产KD-50-I-E增强型万亿次国产高性能计算机已成功应用于城市交通控制与管理、防灾减灾。去年12月底,我国首台采用国产高性能通用处理器芯片“龙芯2F”和其他国产器件、设备和技术的万亿次高性能计算机“KD-50-I”在中国科大研制成功,功能定位于大规模科学计算。

为了让该项成果直接服务于国民经济建设,陈国良院士领导科研团队大胆改进了计算节点的设计,提高了系统主频,采用纠错能力更强的存储芯片、速度更快的交换芯片、合理的结构布局和新的生产工艺,使整机性能得到大幅度的提升,运行更加稳定可靠。

新近研制成功的两台万亿次计算机包括144颗“龙芯2F”CPU,已分别应用于安徽省道路交通管理系统和安徽省减灾防灾雷达图像数据处理系统,直接服务于生产实际和国民经济建设。安徽省智能交通工程技术中心的负责人介绍,安徽省交通信息网目前已经在该万亿次计算机上运行,效果良好。

记者在机房现场看到,“KD-50-I-E”的体积仅相当于一台普通家用冰箱,其功耗小于6千瓦,成本不到80万元人民币

:o :o 这个万亿次是如何搞出来的，难道芯片的频率提高了。

有总比没有好。

龙芯？！去年12月？！万亿次？！哈哈，终于扇了某些人的耳光。

]]

如果改用龙芯3
性能可能更高

个人觉得龙芯现在的出路还是在集团用户，例如学校，科研单位等等

做个人PC的难度太大，应该尽量绕道走

这个80w的价格果然很好很强大

一台一台地做出来卖出去用起来
龙芯只要慢慢有了市场就会慢慢打出一个未来的。

吹，吹，吹个大气球啊

一块不到900元的4850显卡就具有万亿次单精度浮点运算能力

一块不到900元的4850显卡就具有万亿次单精度浮点运算能力
===============================================
跑200 公里的摩托和跑200 公里火车的分别.

原帖由 屠城校尉 于 2008-12-29 12:35 发表
一块不到900元的4850显卡就具有万亿次单精度浮点运算能力
===============================================
跑200 公里的摩托和跑200 公里火车的分别.

的确如此, 所以宣传单位不要老拿那个万亿次说事, 不然谁知道是摩托还是火车.

原帖由 屠城校尉 于 2008-12-29 12:35 发表
一块不到900元的4850显卡就具有万亿次单精度浮点运算能力
===============================================
跑200 公里的摩托和跑200 公里火车的分别.

除了最高时速之外，这辆传说中的火车有别的指标来证明自己的价值么？

上面的一些帖子，在过去数百年里有人不停的在说

听了几百年了，没想到还要听下去

原帖由 oldwatch 于 2008-12-29 13:52 发表

除了最高时速之外，这辆传说中的火车有别的指标来证明自己的价值么？

========;P 可以啊!!我们就来看看你的那个万亿次浮点芯片如何和服务器级工作站比全面性.

原帖由 roadrunner 于 2008-12-29 12:47 发表

的确如此, 所以宣传单位不要老拿那个万亿次说事, 不然谁知道是摩托还是火车.

======什么拿万亿次说事,这两个是一个等级吗?要不要比两者的网络性能??

80w的机器，性能指标只公布一个理论峰值

你觉的很正常的话也没啥

中科大昨发布高性能计算机应用成果令人惊叹
过去两小时如今八分钟
2008年12月27日01时10分

12月22日——12月28日徽周刊

　　过去，使用进口服务器生成一幅雷达图像需耗时2个小时，而使用KD-50-I-E增强型国产万亿次高性能计算机后，完成这项工作只需要8分钟。昨日，中国科学技术大学向媒体发布了国产万亿次高性能计算机已取得的应用成果。该校表示，下一步将优先考虑在我省推动国产高性能计算机产业化。

　　据了解，在教育部“985工程”建设项目的支持下，2007年6月以中科大陈国良院士为项目负责人的研究队伍开始研制国产万亿次高性能计算机。同年12月，他们研制的高性能计算机KD-50-I通过了专家委员会的鉴定。以KD-50-I为基础，今年11月该团队又研制出两台面向行业应用的增强型高性能计算机KD-50-I-E。这两台体积仅为家用电冰箱大小、成本不到80万元的高性能计算机不仅具有高性能、高稳定性等特点，通过配置数据服务节点和其他应用部件还可构建出满足不同应用需要的系统。据介绍，这两台计算机已分别应用于安徽省道路交通管理系统和安徽省减灾防灾雷达图像数据处理系统。

　　中科大表示，已取得的应用成果标志着我国国产高性能计算机向产业化迈进了一步。下一步，中科大将优先考虑在我省推动、实现国产高性能计算机的产业化。(记者陈哲)

原帖由 oldwatch 于 2008-12-29 15:55 发表
80w的机器，性能指标只公布一个理论峰值

你觉的很正常的话也没啥

========你想对此搞得更清清楚楚请给中科大打电话,我不信人家不会告诉你.

喷，啥叫网络性能？这个级别的机器的网络性能指啥？

zz from newsmth
===========================
KD-50-I万亿次机硬件主要技术指标和参数

* 整机指标
      o 低功耗
            + 单计算单元功耗小于20 W
            + 单节点节点功耗小于200 W
            + 整机功耗小于6 KW
      o 低占地面积
            + 36 U单机柜的万亿次计算系统，占地0.51平方米，高度1.74米
      o 低成本
            + 整机成本不超过80万
      o 高计算性能
            + 峰值性能达1 TFlops以上
      o 高计算/功耗比
            + 186 MFlops/W
      o 高计算密度
            + 12个处理单元组成一个1 U节点，每U计算能力36 GFlops
      o 全交换互连
            + 所有处理单元之间均采用千兆交换以太网互连
* 整机技术参数
      o 计算单元：336个主频750 MHz的龙芯2F，总的峰值计算速度1.008 TFlops
      o 服务节点：2个Opteron双核处理器，主频2.2 GHz
      o 内存容量：每计算单元内存1 GB，服务节点内存8 GB，共344 GB
      o 磁盘容量：876 GB
      o 系统互联网络：千兆以太网
* 龙芯2F处理器技术参数
      o 四发射超标量RISC结构，兼容MIPS III指令集，主频750 MHz，3 GFlops/s
      o 2个定点部件、2个浮点部件和1个访存部件，支持寄存器重命名、动态调度、转移猜测等乱序执行技术
      o 支持全流水浮点乘加指令和SIMD短向量指令，以及40位虚地址和物理地址访问
      o 片内集成512K二级缓存、DDR2内存控制器和PCI-X/PCI控制器
      o 90 nm工艺，芯片面积42 mm2，功耗小于7瓦

KD-50-I万亿次机软件主要构成

* 操作系统：Debian/GNU Linux 4.0
* 编译环境
      o GCC4.2
      o MPICH2
* 数值函数库
      o BLAS
      o LAPACK
      o ScaLAPACK
      o FFTW
* 资源管理：TORQUE
* 作业调度：Maui
* 运行监控：Ganglia

;P ;P 你那意思是K-50-I-E不能作WEB服务器??你那图形芯片不改内部构造能行不??;P ;P

原帖由 oldwatch 于 2008-12-29 15:59 发表
喷，啥叫网络性能？这个级别的机器的网络性能指啥？

zz from newsmth
===========================
KD-50-I万亿次机硬件主要技术指标和参数

* 整机指标
o 低功耗
+ 单计算单 ...

======你要是觉得你的那个图形芯片的能力特强,.要不要和K50IE一对一的比谁对单幅机载合成雷达数据成像的完成能力更强.

]]

总算来了个正经讨论的

这次部署的机器实际效率能跑过50%么？

ps:
这机器报价怎么会这么高？龙芯流片成本太高？

原帖由 175799022 于 2008-12-29 16:18 发表

======你要是觉得你的那个图形芯片的能力特强,.要不要和K50IE一对一的比谁对单幅机载合成雷达数据成像的完成能力更强.

要比这个的话还真不一定谁赢……

怎么非找最有利于GPGPU的项目之一不可呢;P

要比这个的话还真不一定谁赢……
========================
这个就够搞笑. 几百元通街有卖的好过几十万一台机器, 还花那麽大气力搞并行计算人家是不是有病.;P

陈国良这名字不错。两个陈国良，居然有一个是科学院院士一个是工程院院士。:victory:

啧啧

GPU计算这东西还真不能小看

GPU的编程结构和CPU完全不一样，GPU是高度专业化的东西。再说这种事情都要打折扣的，前几年PS3刚出的时候不是号称模拟地球的吗，当时浮点性能号称能排进全球前20，一堆人讨论购买PS3制作超级计算机。

]]

原帖由 175799022 于 2008-12-29 16:18 发表

======你要是觉得你的那个图形芯片的能力特强,.要不要和K50IE一对一的比谁对单幅机载合成雷达数据成像的完成能力更强.

你撞枪口上了,GPU最适合大量数据处理

原帖由 marion 于 2008-12-29 17:38 发表

原型机 KD-50-I 理论 1TFLOPS，实测 350GFLOPS，
34% 左右的水平

KD-50-I-E 比这个水平提高了不少——陈国良是谁？
并行计算机体系结构的大腕之一，这要不提高就怪了。

;funk

原型机 KD-50-I 理论 1TFLOPS，实测 350GFLOPS，34% 左右的水平;funk ;funk ;funk ;funk ;funk ;funk ;funk

等有时间,测试一下兄弟偶的集群, 北木XEON *12,虽然堆不了那么多CPU,不过效率至少能及格

原帖由 屠城校尉 于 2008-12-29 18:55 发表
要比这个的话还真不一定谁赢……
========================
这个就够搞笑. 几百元通街有卖的好过几十万一台机器, 还花那麽大气力搞并行计算人家是不是有病.;P

说你孤陋寡闻,真是的,
以后流行MPI+OPENCL计算!!
欧也

原帖由 观光团员 于 2008-12-29 19:41 发表
GPU的编程结构和CPU完全不一样，GPU是高度专业化的东西。再说这种事情都要打折扣的，前几年PS3刚出的时候不是号称模拟地球的吗，当时浮点性能号称能排进全球前20，一堆人讨论购买PS3制作超级计算机。

CELL : 双核心PPC970+SPE*8, 浮点性能是INTEL Q6600的7倍,而这东西都出来快3年了,

另外,侬不知道IBM只把PS3当作成本平摊工具/初级入门平台而已,至于服务器IBM推CELL刀片可不是今年才有的啊

这条新闻关键在于龙芯的应用推广, 至于科大攒机的水平不是关注焦点.

原帖由 dxh1976 于 2008-12-29 20:46 发表
这条新闻关键在于龙芯的应用推广, 至于科大攒机的水平不是关注焦点.

别提这个了，龙芯从诞生开始，试探过的应用领域少说也有十个八个了
这只是新一轮尝试的开始而已

BladeCenter QS22 ，最贵的配置1.3万美元。单精度 4600亿次，双精度 2170 亿次。
Intel i7的某个测试值似乎是700亿次双精度浮点，真的要做山寨版本的万亿次，也是价廉物美。
KD-50的方案从功耗，体积，价格上都不占什么便宜。
至于所谓的“增强”，也许就是拿掉了一些节点（估计总体性能还是3400亿次左右），因为受到通信机制的制约，到达一个数量之后，增加节点的结果是性能不增反降。

原帖由 qnxchina 于 2008-12-29 20:20 发表
CELL : 双核心PPC970+SPE*8, 浮点性能是INTEL Q6600的7倍,而这东西都出来快3年了,

另外,侬不知道IBM只把PS3当作成本平摊工具/初级入门平台而已,至于服务器IBM推CELL刀片可不是今年才有的啊

俺正在问人，目前没有书面资料释放出来。

原帖由 qnxchina 于 2008-12-29 20:13 发表

你撞枪口上了,GPU最适合大量数据处理

说话靠点儿普。GPU加速对应用的要求是相当多的

访存要规则，计算要密集。通讯要少，全局通讯最好没有。分支要简单，等等等等。。。

要知道过去20年里在晶体管数量允许的范围内，可行的体系结构几乎都被人试遍了。那么问题来了：为什么通用处理器没有走上这条堆ALU的道路？

很简单，他不适合大部分应用嘛。就拿最简单的linpack来说，GPU上的效率还没有超过40%的，而CPU很容易超过80%。GPU的浮点峰值是假设所有运算都是FMAD，这个峰值数字根本没有意义。

增强型龙芯万亿次高性能计算机 ZT 国产万亿次高性能计算机向产业化迈进中国龙芯万亿次高性能计算机向产业化迈进我国研制出超千万亿次高性能计算机：星云中国千万亿次高性能计算机跻身世界第二位中国自主设计万亿次高性能计算机研制成功龙芯万亿次高性能计算机通过国家鉴定(图) 子午工程专用12万亿次刀片式超级计算机高性能计算平台建 ... (转)我国首台基于“龙芯3A”的国产万亿次高性能计算机诞 ... 我国研制成功超千万亿次高性能计算机“星云” 首台基于“龙芯3B”万亿次高性能计算机研制成功，相当于 ... 我国成功研发微型万亿次高性能计算机，超算上小型预警机 ...