世界第一IBM Blue MTBF时间只有几十分钟甚至更短

来源:百度文库 编辑:超级军网 时间:2024/04/26 06:04:06


世界上最快的计算机 — — —IBM BlueGene/ L 拥有 212 ,992 个处理器。然而 ,系统规模的急剧扩大导致系统的平均无故障时间(MTBF)大幅降低。很多高性能计算机的 MTBF 只有几小时或者十几小时。像 BlueGene/ L 这样处理器数目超过 10 万的大规模系统 ,MTBF 甚至会降到只有几十分钟甚至更短。另一方面 ,很多科学计算程序往往需要连续运行几天甚至几个月 ,例如 IBM Blue Gene上的蛋白质折叠程序需要运行好几个月


世界上最快的计算机 — — —IBM BlueGene/ L 拥有 212 ,992 个处理器。然而 ,系统规模的急剧扩大导致系统的平均无故障时间(MTBF)大幅降低。很多高性能计算机的 MTBF 只有几小时或者十几小时。像 BlueGene/ L 这样处理器数目超过 10 万的大规模系统 ,MTBF 甚至会降到只有几十分钟甚至更短。另一方面 ,很多科学计算程序往往需要连续运行几天甚至几个月 ,例如 IBM Blue Gene上的蛋白质折叠程序需要运行好几个月
不可能吧
超级计算机,有一些CPU不能运行,也不会有问题呀

如果真的是这样,那不成废物了吗?
文子容 发表于 2009-7-3 19:38

那倒未必, 编程序时候考虑到系统可能随时崩溃,把计算的中间过程随时备份就行了
系统设计可收缩就行了,随时可以卸载出故障的模块。
ddzzqq 发表于 2009-7-3 21:02
是呀.坏的马上换:victory:
节点可以热拔插,关键节点有在线备份的
无所谓。
hswz 发表于 2009-7-3 17:20
bigKprocess 发表于 2009-7-3 19:55
wawa02002 发表于 2009-7-4 06:08
bessel 发表于 2009-7-4 20:29
很简单:
如果作业高度并发,那么另找一个节点重新算坏掉的那部分就是了。这是异常基本的功能。我都可以做出来。
如果不是,那么就不用那么多节点……
bessel 发表于 2009-7-4 20:22
恩。其实最关键的是,很多任务并没有高的并行特性,不适合并行计算。
无故障时间不等于不瘫痪时间吧,呵呵。


高度并发不等于节点间数据没有依赖性.
坏节点可以重起,再算一遍,但是其他64k-1个节点要等着咯?
并行效率......

:sleepy:


假如这种事情每几个小时或者几十分钟发生一次,嘿嘿。

很简单:
如果作业高度并发,那么另找一个节点重新算坏掉的那部分就是了。这是异常基本的功能。我都可以做出来。
如果不是,那么就不用那么多节点……
jiandingzhe 发表于 2009-7-4 21:54


高度并发不等于节点间数据没有依赖性.
坏节点可以重起,再算一遍,但是其他64k-1个节点要等着咯?
并行效率......

:sleepy:


假如这种事情每几个小时或者几十分钟发生一次,嘿嘿。

很简单:
如果作业高度并发,那么另找一个节点重新算坏掉的那部分就是了。这是异常基本的功能。我都可以做出来。
如果不是,那么就不用那么多节点……
jiandingzhe 发表于 2009-7-4 21:54
hswz 发表于 2009-7-3 17:20

Google每个小时都有N多的硬盘/节点坏掉。
不是新闻了。
天塌不下来。
蛋白质折叠程序可以放到互联网上让家用电脑算,可靠性无影响
hswz 发表于 2009-7-3 17:20
http://www.lemote.com/bbs/viewth ... page%3D1&page=3
hswz 发表于 2009-7-5 23:24
没想到啊,看来高性能也伴随着很多问题
cabrio 发表于 2009-7-6 10:25
bessel 发表于 2009-7-6 22:06
若干星期,干很多活都够了……
需要64k-1个节点来等1个节点的应用根本就不能算高并行应用.

真正的高并行应用分解出来的可并行任务应当远高于CPU核心数量
roadrunner 发表于 2009-7-9 19:29
jiandingzhe 发表于 2009-7-9 19:18
1# hswz

酷啊。:D
硬盘和CPU有那么容易坏的吗??? 严重怀疑!
netxiao 发表于 2009-7-10 22:47