世界第一IBM Blue MTBF时间只有几十分钟甚至更短

来源：百度文库编辑：超级军网时间：2024/04/26 06:04:06

世界上最快的计算机 — — —IBM BlueGene/ L 拥有 212 ,992 个处理器。然而 ,系统规模的急剧扩大导致系统的平均无故障时间(MTBF)大幅降低。很多高性能计算机的 MTBF 只有几小时或者十几小时。像 BlueGene/ L 这样处理器数目超过 10 万的大规模系统 ,MTBF 甚至会降到只有几十分钟甚至更短。另一方面 ,很多科学计算程序往往需要连续运行几天甚至几个月 ,例如 IBM Blue Gene上的蛋白质折叠程序需要运行好几个月

世界上最快的计算机 — — —IBM BlueGene/ L 拥有 212 ,992 个处理器。然而 ,系统规模的急剧扩大导致系统的平均无故障时间(MTBF)大幅降低。很多高性能计算机的 MTBF 只有几小时或者十几小时。像 BlueGene/ L 这样处理器数目超过 10 万的大规模系统 ,MTBF 甚至会降到只有几十分钟甚至更短。另一方面 ,很多科学计算程序往往需要连续运行几天甚至几个月 ,例如 IBM Blue Gene上的蛋白质折叠程序需要运行好几个月

不可能吧
超级计算机，有一些CPU不能运行，也不会有问题呀

如果真的是这样，那不成废物了吗？

文子容发表于 2009-7-3 19:38

那倒未必, 编程序时候考虑到系统可能随时崩溃,把计算的中间过程随时备份就行了

系统设计可收缩就行了，随时可以卸载出故障的模块。

ddzzqq 发表于 2009-7-3 21:02

是呀.坏的马上换:victory:

节点可以热拔插，关键节点有在线备份的

无所谓。

hswz 发表于 2009-7-3 17:20

bigKprocess 发表于 2009-7-3 19:55

wawa02002 发表于 2009-7-4 06:08

bessel 发表于 2009-7-4 20:29

很简单：
如果作业高度并发，那么另找一个节点重新算坏掉的那部分就是了。这是异常基本的功能。我都可以做出来。
如果不是，那么就不用那么多节点……

bessel 发表于 2009-7-4 20:22

恩。其实最关键的是，很多任务并没有高的并行特性，不适合并行计算。

无故障时间不等于不瘫痪时间吧，呵呵。

高度并发不等于节点间数据没有依赖性.
坏节点可以重起,再算一遍,但是其他64k-1个节点要等着咯?
并行效率......

:sleepy:

假如这种事情每几个小时或者几十分钟发生一次，嘿嘿。

很简单：
如果作业高度并发，那么另找一个节点重新算坏掉的那部分就是了。这是异常基本的功能。我都可以做出来。
如果不是，那么就不用那么多节点……
jiandingzhe 发表于 2009-7-4 21:54

hswz 发表于 2009-7-3 17:20

Google每个小时都有N多的硬盘/节点坏掉。
不是新闻了。
天塌不下来。

蛋白质折叠程序可以放到互联网上让家用电脑算，可靠性无影响

hswz 发表于 2009-7-3 17:20

http://www.lemote.com/bbs/viewth ... page%3D1&page=3

hswz 发表于 2009-7-5 23:24

没想到啊，看来高性能也伴随着很多问题

cabrio 发表于 2009-7-6 10:25

bessel 发表于 2009-7-6 22:06

若干星期，干很多活都够了……

需要64k-1个节点来等1个节点的应用根本就不能算高并行应用.

真正的高并行应用分解出来的可并行任务应当远高于CPU核心数量

roadrunner 发表于 2009-7-9 19:29

jiandingzhe 发表于 2009-7-9 19:18

1# hswz

酷啊。:D

硬盘和CPU有那么容易坏的吗??? 严重怀疑!

netxiao 发表于 2009-7-10 22:47

世界第一IBM Blue MTBF时间只有几十分钟甚至更短 IBM下一代超级计算机Blue Waters blue ibm 如果只许这样打仗，谁是世界第一 BLUE SHINE BLUE SHINE Deep Blue Blue mood！世界第一世界第一出租时间只为心灵交流