江南所很强,用落后两代的工艺造出跟英特尔下代众核相当 ...

来源:百度文库 编辑:超级军网 时间:2024/04/30 15:41:42
https://www.zhihu.com/question/47628487
作者:李发
链接:https://www.zhihu.com/question/47628487/answer/106923013
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

作为前HPC从业只能说江南所很强,用落后两代的工艺造出跟英特尔下代众核相当的产品,还比英特尔先投入应用

修改:

看到楼下貌似喷子回复出现,特此针对喷点补充一下:

1)中国无论天河-1还是天河-2现在都是满负荷运转,根本没有闲置问题,天河1不说了,现在用得排队,天河2的国防科大自己想测试下节点都经常没资源,所谓天河-2上利用效率不高也是相对于去目的的,把资源满负荷当然容易,以前跟袁学峰教授合作过,这么说吧,人家所谓利用不充分是说重大科研课题放在天河-2上的没他们期望的比例高,至于金融类动漫类低层次的应用,人家根本没把它们当正经应用(这类应用由于门槛低,并行度高,很容易占用大量计算资源),国防科大和广州天河的袁教授期望的是天河-2在国家重大专项等高层次应用上更多做出贡献,比如核物理,流体力学等代表超算顶尖水平的应用更多(这也是天河-3继续获得国家拨款的主要依据,国家一点都不傻),这当然有一定难度,因为天河-2是异构计算机,想充分利用这些资源,代码几乎都得重写,实际上,在美国TITAN上由于用了GPU, 这类应用推进的也不怎么样。

2)以我在HPC工作接触的情况来看,江南所这个超算完全不用担心上述问题,因为江南所是军方背景,他们搞得计算机一个主要应用就是核物理仿真,中国在核物理仿真方面几乎全部代码都是自主搞得,而且很多代码都是针对江南所的计算硬件专门设计的,编译器加速库等生态系统一应俱全,因此这些在天河-2上遇到的问题,反而在神威上可能不是太大问题,一个例子就是神威超算刚上线,一个核物理仿真在神威上就取得了40P的惊人效率,并且已经入围超算应用国际大奖评选了(效率3占到理论峰值多30%的超算应用是惊人的,实际上写过程序的都知道,别说超算,即便多核计算机,一般的应用能达到系统浮点峰值30%都是挺不错了)。

当然相应的,神威上部署民用应用,比如金融/动漫渲染之类低层次应用,反而难度会大一些,基本上代码得重写或者大改,但是对这种层次的超算,这些低水平应用本来就不是重点。

3)有个号称做HPC的从业者在本贴居然吐槽这超算是浪费钱,不如把它拆成工作站给大家?说这话还号称自己搞过超算,是民科超算吗?

对很多核物理和流体,计算电磁学等高端计算来讲,现在超算不是能力太强,是太弱,因此只能千方百计地降低计算复杂度+各种简化,实际上即便是天河-2,做流体的直接数值模拟,也根本达不到可用的尺度,这里居然“超算从业人员”吐槽超算没用不如工作站,他搞的超算应用是“算盘”的算吗?https://www.zhihu.com/question/47628487
作者:李发
链接:https://www.zhihu.com/question/47628487/answer/106923013
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

作为前HPC从业只能说江南所很强,用落后两代的工艺造出跟英特尔下代众核相当的产品,还比英特尔先投入应用

修改:

看到楼下貌似喷子回复出现,特此针对喷点补充一下:

1)中国无论天河-1还是天河-2现在都是满负荷运转,根本没有闲置问题,天河1不说了,现在用得排队,天河2的国防科大自己想测试下节点都经常没资源,所谓天河-2上利用效率不高也是相对于去目的的,把资源满负荷当然容易,以前跟袁学峰教授合作过,这么说吧,人家所谓利用不充分是说重大科研课题放在天河-2上的没他们期望的比例高,至于金融类动漫类低层次的应用,人家根本没把它们当正经应用(这类应用由于门槛低,并行度高,很容易占用大量计算资源),国防科大和广州天河的袁教授期望的是天河-2在国家重大专项等高层次应用上更多做出贡献,比如核物理,流体力学等代表超算顶尖水平的应用更多(这也是天河-3继续获得国家拨款的主要依据,国家一点都不傻),这当然有一定难度,因为天河-2是异构计算机,想充分利用这些资源,代码几乎都得重写,实际上,在美国TITAN上由于用了GPU, 这类应用推进的也不怎么样。

2)以我在HPC工作接触的情况来看,江南所这个超算完全不用担心上述问题,因为江南所是军方背景,他们搞得计算机一个主要应用就是核物理仿真,中国在核物理仿真方面几乎全部代码都是自主搞得,而且很多代码都是针对江南所的计算硬件专门设计的,编译器加速库等生态系统一应俱全,因此这些在天河-2上遇到的问题,反而在神威上可能不是太大问题,一个例子就是神威超算刚上线,一个核物理仿真在神威上就取得了40P的惊人效率,并且已经入围超算应用国际大奖评选了(效率3占到理论峰值多30%的超算应用是惊人的,实际上写过程序的都知道,别说超算,即便多核计算机,一般的应用能达到系统浮点峰值30%都是挺不错了)。

当然相应的,神威上部署民用应用,比如金融/动漫渲染之类低层次应用,反而难度会大一些,基本上代码得重写或者大改,但是对这种层次的超算,这些低水平应用本来就不是重点。

3)有个号称做HPC的从业者在本贴居然吐槽这超算是浪费钱,不如把它拆成工作站给大家?说这话还号称自己搞过超算,是民科超算吗?

对很多核物理和流体,计算电磁学等高端计算来讲,现在超算不是能力太强,是太弱,因此只能千方百计地降低计算复杂度+各种简化,实际上即便是天河-2,做流体的直接数值模拟,也根本达不到可用的尺度,这里居然“超算从业人员”吐槽超算没用不如工作站,他搞的超算应用是“算盘”的算吗?
感觉超算就像E5、Titan一类的发烧硬件,普通应用完全浪费,但复杂计算、大游戏一来,反而会嫌不够。
这个链接我去看了。
硬件上不用说了,软件开发并非想象中的缺乏支持,编程也不复杂,这一点比较振奋。
壮东风 发表于 2016-6-22 22:39
这个链接我去看了。
硬件上不用说了,软件开发并非想象中的缺乏支持,编程也不复杂,这一点比较振奋。
明明前期做测试移植应用的开发者说主流应用都要重编译做移植,而且移植时受限于缓存、内存的性能不足做起来还挺麻烦的。
deam 发表于 2016-6-22 22:47
明明前期做测试移植应用的开发者说主流应用都要重编译做移植,而且移植时受限于缓存、内存的性能不足做起 ...
应用移植肯定要做针对性优化,麻烦是一定的,但相对来说小多了。
基本上没有可比性,Phi是商业化的产品,其设计思想不是追求极致的性能,而是确保最大程度的适用性 —— 一个X86平台的代码不需要或只需要极少的修改就能运行在Phi上,INTEL为了实现这一点付出了很多的代价。

PS:Phi(包括NVIDIA Tesla)已经商业化到连淘宝上都遍地开花了,全新港行盒装哦
工艺没跟上设计,缺点要补
一个是定制的,一个是货架产品,这没法比吧,追求的目标不一样
失落的天堂 发表于 2016-6-23 10:41
基本上没有可比性,Phi是商业化的产品,其设计思想不是追求极致的性能,而是确保最大程度的适用性 —— 一 ...
intel其实蛮纠结的,之前费了老大功夫才把x87嵌到x86里头,结果到头来还是得另外搞浮点加速
intel其实蛮纠结的,之前费了老大功夫才把x87嵌到x86里头,结果到头来还是得另外搞浮点加速
x87不是向量指令,浮点性能不强,后面加的sse avx向量指令集才是大头
x87是解决硬件支持浮点指令问题的
估计是28nm的工艺,不知道是不是HKMG的。

swz2011 发表于 2016-6-23 12:30
估计是28nm的工艺,不知道是不是HKMG的。


台积电叫HPM,只有三星的叫做hkmg,从目前的信息来看,并不是三星代工的
swz2011 发表于 2016-6-23 12:30
估计是28nm的工艺,不知道是不是HKMG的。


台积电叫HPM,只有三星的叫做hkmg,从目前的信息来看,并不是三星代工的
1771964382 发表于 2016-6-23 12:59
台积电叫HPM,只有三星的叫做hkmg,从目前的信息来看,并不是三星代工的
中芯国际的28nm也是HKMG工艺。
swz2011 发表于 2016-6-23 13:02
中芯国际的28nm也是HKMG工艺。
哦,忘了它了
会不会用于飞机气动飞控    。核爆炸模拟很强????
deam 发表于 2016-6-22 22:47
明明前期做测试移植应用的开发者说主流应用都要重编译做移植,而且移植时受限于缓存、内存的性能不足做起 ...
重编译很正常吧。对搞大型计算的应用来说这都不算什么事。
就算E5移植到PHY实际上也是要重新优化的。毕竟不是写一个“Hello World”。


水果派派88 发表于 2016-6-23 20:12
重编译很正常吧。对搞大型计算的应用来说这都不算什么事。
就算E5移植到PHY实际上也是要重新优化的。毕 ...
对于小规模需求的用户来说能不重编译就不做,何况很多用户连源代码都没有。
deam 发表于 2016-6-23 22:03
对于小规模需求的用户来说能不重编译就不做,何况很多用户连源代码都没有。
这种用户就根本不该到大型超算上来占资源。
直接用多路E5的服务器组个小集群效率还高点,租金也便宜得多。


deam 发表于 2016-6-23 22:03
对于小规模需求的用户来说能不重编译就不做,何况很多用户连源代码都没有。


无锡中心大事记
◎2013年4月,江苏省政府正式发函科技部商情支持在无锡市建设10亿亿次超级计算中心;
◎2013年9月,无锡市成立以汪泉市长为组长的推进国家超算无锡中心建设领导小组;
◎2014年6月,无锡市决定项目由滨湖区蠡园开发区承担建设和运营管理;
◎2015年12月21日,完成整机LINPACK性能测试,超级计算机“神威·太湖之光”问世;
◎2016年3月,无锡市和清华大学正式签署协议,由清华大学负责运行维护。
◎2016年6月20日,正式运行启动。


可以看出,申威26010整整领先了KNL一年,领先NV的帕斯卡一年半(时间角度)
deam 发表于 2016-6-23 22:03
对于小规模需求的用户来说能不重编译就不做,何况很多用户连源代码都没有。


无锡中心大事记
◎2013年4月,江苏省政府正式发函科技部商情支持在无锡市建设10亿亿次超级计算中心;
◎2013年9月,无锡市成立以汪泉市长为组长的推进国家超算无锡中心建设领导小组;
◎2014年6月,无锡市决定项目由滨湖区蠡园开发区承担建设和运营管理;
◎2015年12月21日,完成整机LINPACK性能测试,超级计算机“神威·太湖之光”问世;
◎2016年3月,无锡市和清华大学正式签署协议,由清华大学负责运行维护。
◎2016年6月20日,正式运行启动。


可以看出,申威26010整整领先了KNL一年,领先NV的帕斯卡一年半(时间角度)
deam 发表于 2016-6-23 22:03
对于小规模需求的用户来说能不重编译就不做,何况很多用户连源代码都没有。
编译(重新编译)在软件的生命周期中所占的时间等开销简直可以忽略不计。

而且,针对超算等应用,其首要目的是性能,重新编译根本就不是成本,完全可以自动化,半自动化。除非没有源码。
mips64el 发表于 2016-6-23 23:10
无锡中心大事记
◎2013年4月,江苏省政府正式发函科技部商情支持在无锡市建设10亿亿次超级计算中心;
...
要是美国没禁运,天河去年底就靠升级KNL做到100P了。
mips64el 发表于 2016-6-23 23:13
编译(重新编译)在软件的生命周期中所占的时间等开销简直可以忽略不计。

而且,针对超算等应用,其首 ...
自己去看太湖之光的那份报告,人家可是说了移植应用相当费事,尤其是SW26010内存缓存都是弱项的情况下。
deam 发表于 2016-6-24 00:18
要是美国没禁运,天河去年底就靠升级KNL做到100P了。
KNL前天才发售。。。。
一堆CPE要发挥性能,提高吞吐量,要花的功夫不是一般化的大。
PS3做游戏走这个路线失败了,简单暴力行不通。超算走这个方向,说不定倒对了,简单暴力就是美。
水果派派88 发表于 2016-6-23 20:12
重编译很正常吧。对搞大型计算的应用来说这都不算什么事。
就算E5移植到PHY实际上也是要重新优化的。毕 ...
这个构架,很多库可能都需要重写才行。移植编译可能还行,但是优化性能的难度可能很大。
从某些方面看神威是软硬件一体的产品,完成一定的任务的产品,和Intel的通用产品不一样
dfxd 发表于 2016-6-24 04:31
KNL前天才发售。。。。
大的超算中心和公司是可以提前拿到货的
导弹与捣蛋 发表于 2016-6-24 05:21
从某些方面看神威是软硬件一体的产品,完成一定的任务的产品,和Intel的通用产品不一样
申威更有针对性
deam 发表于 2016-6-24 00:19
自己去看太湖之光的那份报告,人家可是说了移植应用相当费事,尤其是SW26010内存缓存都是弱项的情况下。
移植应用就是重新编译啊? 原来你是这么理解的?
deam 发表于 2016-6-24 00:18
要是美国没禁运,天河去年底就靠升级KNL做到100P了。
那只是计划
keeperx1 发表于 2016-6-24 05:01
一堆CPE要发挥性能,提高吞吐量,要花的功夫不是一般化的大。
PS3做游戏走这个路线失败了,简单暴力行不通 ...
你说的是power cell吧,那时候没有OpenACC等,异构计算生态还没建立,现在不同了
1771964382 发表于 2016-6-24 08:37
大的超算中心和公司是可以提前拿到货的
会提前,单能提前多久?
keeperx1 发表于 2016-6-24 05:04
这个构架,很多库可能都需要重写才行。移植编译可能还行,但是优化性能的难度可能很大。
底层的库是超算开发的一部分,像MPI这类都只要调用就好了。如果应用按规范写,移植难度不大。
应用层的优化主要是并发数和信息交互开销之间找平衡。有的是通过小规模试错得到经验公式。不过这些都是有固定的方法论和流程的,对搞计算科学的来说不算什么问题。没什么可以说难的,这就是个体力活。
mips64el 发表于 2016-6-24 08:57
会提前,单能提前多久?
一般提前半年多拿样片,量产时间倒差不多,最多有抢货的优先权。
主要省的时间是可以同步开发,不需要等硬件全稳定才开始软件集成测试调优。样片搭的系统一般也不会开放给用户。



mips64el 发表于 2016-6-24 08:54
移植应用就是重新编译啊? 原来你是这么理解的?
何止重新编译,还得照顾内存薄弱的环节改代码哩。
一般提前半年多拿样片,量产时间倒差不多,最多有抢货的优先权。
主要省的时间是可以同步开发,不需要等 ...
样片对于整个超算是没有用的,超算上动辄几万(十几万)片,只能等量产片。Intel的PHI也就刚刚开始出货而已。

所以,天河2号原计划2015年年底升级100P的计划本来就实现不了(即使不禁售也不行)

以发售日期算,SW26010领先Intel KNL一年时间丝毫不夸张
mips64el 发表于 2016-6-24 14:13
样片对于整个超算是没有用的,超算上动辄几万(十几万)片,只能等量产片。Intel的PHI也就刚刚开始出货而已 ...
那是你孤陋寡闻。

当年天河首次用Xeon Phi,就是在Xeon Phi和Xeon E5 V2正式开售半年前就大规模部署的。
水果派派88 发表于 2016-6-24 09:06
底层的库是超算开发的一部分,像MPI这类都只要调用就好了。如果应用按规范写,移植难度不大。
应用层的 ...
底层太简单暴力,问题会直接传递到应用层,用库来封装问题很多时候是不可能做到的。当初ps3开发就是这个问题。

当然超算计算任务较为单一重复,直线型跑车可能确实性价比更高。(这句话要打个大大的问号,取决于计算向并行计算的简化程度)
deam 发表于 2016-6-24 14:20
那是你孤陋寡闻。

当年天河首次用Xeon Phi,就是在Xeon Phi和Xeon E5 V2正式开售半年前就大规模部署的 ...
所以说堆出来个XX。

反正KNL目前没有人用而已。都发布多久了。