IBM实现43分钟内扫描100亿文件

来源:百度文库 编辑:超级军网 时间:2024/05/05 13:12:08


IBM实现43分钟内扫描100亿文件
2011年07月24日14:49腾讯科技万学我要评论(2)
字号:T|T


      腾讯科技讯(万学)北京时间7月24日消息,据国外媒体报道,为了帮助将来需要处理大量数据的企业用户,IBM的研究者设计出了一种超快速的存储系统,这种系统能够在43分钟内扫描100亿个文件。


    这个存储系统明显优于IBM 2007年演示的系统。早在美国2007年超级计算机大会(Supercomputing 2007)上,IBM就推出了一个存储系统,它能够在3个小时内扫描10亿个文件。这个存储系统的性能得以改善的关键原因是,它使用了高速闪存来保存存储系统用来寻找所需信息的元数据。传统上,元数据就存储在普通硬盘上,访问这些数据就会降低存储系统的整体运行速度。“如果我们把这些数据存储在高速存储器上,那么我们就能更加快速地处理我们的任务。”IBM 阿尔马登研究中心的存储系统负责人布鲁斯-希斯伯格(Bruce Hillsberg)说,“相对于在普通硬盘上存储元数据来说,利用固态存储器存储元数据确实能够极大地提高我们执行管理任务的速度。”

    IBM预计,在未来几年内,它的客户将需要处理比现在多得多的信息。“由于我们的客户需要存储和处理较长时期的大量数据,因此,他们就需要高效地管理这些数据。”希斯伯格说。
在新演示的存储系统中,IBM建立了10个八核服务器,装备了总共6.8兆兆字节的固态存储器。IBM使用了4款Violin Memory公司的3205固态存储系统。最终组建好的存储系统能够以大约5 GB/s的速度阅读文件。希斯伯格称,这个系统还使用了IBM 3.4版本的通用并行文件系统(GPFS),并进行了相应的调整。这款GPFS系统最初是为高性能计算系统设计的,现在也越来越适用于帮助数据量大的企业处理庞大的工作量。GPFS系统允许所有的处理器核心并行在硬盘上读写数据,从而极大地提高了存储系统的反应速度。

    希斯伯格解释说,现在的文件系统并不太适合于管理多个存储系统上的数据。2007年超级计算大会上演示的存储系统表明,像GPFS这样的并行文件系统能够作为存储系统升级的基础。而现在演示的存储系统则证明,像这样的系统再配上固态硬盘,就能进一步提高存储系统的性能。

    IBM的研究者还发布了一份白皮书,其中较为详细地描述了这个系统的基本架构,能帮助第三方企业建立类似的系统。IBM还把这些创意植入到了它自己的产品中,希斯伯格说。早前IBM实施的建立实验性固态系统的研究工作,也帮助它创造出了新的软件,例如IBM Easy Tier,它能帮助系统自动地平衡固态硬盘和普通硬盘之间的数据。“我想,你将会从这项研究中看到一些非常有意思的东西。”希斯伯格提到这次演示活动时说。

    IBM并不是唯一一个用固态存储器来提高系统运行速度的公司。在美国计算机协会(Association for Computing Machinery)本月的通讯上,来自卡内基梅隆大学和英特尔实验室的一组研究人员描述了一种整合有低能耗处理器和闪存存储器的服务器架构,这种设计能够极大地提高交易量巨大的大型网站的运行速度。
与IBM的架构类似,这组研究人员推出的名为Fast Array of Wimpy Nodes(简称FAWN)的架构只需要有极少量的闪存存储器,把访问频率最高的数据存储在上面即可。他们指出,尽管固态存储器的价格可能是传统硬盘的10倍,但是它们能把整个存储系统的性能提高一倍。
   
    用闪存存储器协助建立服务器的想法“并不久,但是这种技术已经存在了。”谷歌著名工程师、参与FAWN架构设计的鲁伊兹-安德鲁-巴罗索(Luiz André Barroso)说。


http://tech.qq.com/a/20110724/000069.htm

IBM实现43分钟内扫描100亿文件
2011年07月24日14:49腾讯科技万学我要评论(2)
字号:T|T


      腾讯科技讯(万学)北京时间7月24日消息,据国外媒体报道,为了帮助将来需要处理大量数据的企业用户,IBM的研究者设计出了一种超快速的存储系统,这种系统能够在43分钟内扫描100亿个文件。


    这个存储系统明显优于IBM 2007年演示的系统。早在美国2007年超级计算机大会(Supercomputing 2007)上,IBM就推出了一个存储系统,它能够在3个小时内扫描10亿个文件。这个存储系统的性能得以改善的关键原因是,它使用了高速闪存来保存存储系统用来寻找所需信息的元数据。传统上,元数据就存储在普通硬盘上,访问这些数据就会降低存储系统的整体运行速度。“如果我们把这些数据存储在高速存储器上,那么我们就能更加快速地处理我们的任务。”IBM 阿尔马登研究中心的存储系统负责人布鲁斯-希斯伯格(Bruce Hillsberg)说,“相对于在普通硬盘上存储元数据来说,利用固态存储器存储元数据确实能够极大地提高我们执行管理任务的速度。”

    IBM预计,在未来几年内,它的客户将需要处理比现在多得多的信息。“由于我们的客户需要存储和处理较长时期的大量数据,因此,他们就需要高效地管理这些数据。”希斯伯格说。
在新演示的存储系统中,IBM建立了10个八核服务器,装备了总共6.8兆兆字节的固态存储器。IBM使用了4款Violin Memory公司的3205固态存储系统。最终组建好的存储系统能够以大约5 GB/s的速度阅读文件。希斯伯格称,这个系统还使用了IBM 3.4版本的通用并行文件系统(GPFS),并进行了相应的调整。这款GPFS系统最初是为高性能计算系统设计的,现在也越来越适用于帮助数据量大的企业处理庞大的工作量。GPFS系统允许所有的处理器核心并行在硬盘上读写数据,从而极大地提高了存储系统的反应速度。

    希斯伯格解释说,现在的文件系统并不太适合于管理多个存储系统上的数据。2007年超级计算大会上演示的存储系统表明,像GPFS这样的并行文件系统能够作为存储系统升级的基础。而现在演示的存储系统则证明,像这样的系统再配上固态硬盘,就能进一步提高存储系统的性能。

    IBM的研究者还发布了一份白皮书,其中较为详细地描述了这个系统的基本架构,能帮助第三方企业建立类似的系统。IBM还把这些创意植入到了它自己的产品中,希斯伯格说。早前IBM实施的建立实验性固态系统的研究工作,也帮助它创造出了新的软件,例如IBM Easy Tier,它能帮助系统自动地平衡固态硬盘和普通硬盘之间的数据。“我想,你将会从这项研究中看到一些非常有意思的东西。”希斯伯格提到这次演示活动时说。

    IBM并不是唯一一个用固态存储器来提高系统运行速度的公司。在美国计算机协会(Association for Computing Machinery)本月的通讯上,来自卡内基梅隆大学和英特尔实验室的一组研究人员描述了一种整合有低能耗处理器和闪存存储器的服务器架构,这种设计能够极大地提高交易量巨大的大型网站的运行速度。
与IBM的架构类似,这组研究人员推出的名为Fast Array of Wimpy Nodes(简称FAWN)的架构只需要有极少量的闪存存储器,把访问频率最高的数据存储在上面即可。他们指出,尽管固态存储器的价格可能是传统硬盘的10倍,但是它们能把整个存储系统的性能提高一倍。
   
    用闪存存储器协助建立服务器的想法“并不久,但是这种技术已经存在了。”谷歌著名工程师、参与FAWN架构设计的鲁伊兹-安德鲁-巴罗索(Luiz André Barroso)说。


http://tech.qq.com/a/20110724/000069.htm
各路人马都在往存储金字塔中间塞闪存啊