Intel发布14nm 76核心Xeon Phi处理器

来源:百度文库 编辑:超级军网 时间:2024/04/28 05:09:29


Intel Xeon Phi协处理器已经在超级计算机的世界中逐渐开花结果,尤其是史无前例六连冠的天河二号都用的是它,不过似乎也正是这样引来了美帝的不满,直接禁售了,所以更强大的下一代基本和我们无缘了。

昨日晚间的SC15超级计算机大会上,Intel再次预告了第二代Xeon Phi,并公布了大量架构和技术细节,看起来无比震撼炫目,也越发可惜了。

新一代产品代号“Knights Landing”(KNL),首要变化就是既可以继续做协处理器,也可以单独做中央主处理器,不再必须有Xeon的支撑,因而更加灵活。

这次采用了14nm新工艺,架构是Silvermont(没错就是Atom上那一套)的改进定制版,核心数量多达72个,并支持四线程,即总计最多288个线程。

有趣的是,这么多核心不是传统的环形总线互连,改成了2D网格总线——每两个核心组成一对,饼干共享1MB二级缓存,总计36MB。

另外,每个核心里都有俩VPU——不是当年ATI的视觉处理器,而是矢量处理器,支持AVX-512。

核心频率约1.3GHz,双精度浮点性能超过3TFlops,单精度则超过6TFlops。

内存方面也十分别致,包括完全独立的两部分,首先是两个三通道DDR4-2400,总计六通道,最大容量384GB。

其次是八个MCDRAM(多通道内存),而与其搭配的就是类似AMD Fiji显卡上的HBM高带宽内存,同样通过中介层整合在处理器封装上,容量最大16GB(八颗芯片),带宽可超过400GB/s,DDR4部分则只有90+GB/s。


KNL的另外一个重要特性就是Intel自主设计的全新光纤互连总线“Omni-Path”,用来取代老旧的InfiniBand,而这个总线这次倒是正式发布了。

Intel宣称,相比于老总线,Omni-Path的信息传输率提高7%,延迟降低17%,支持计算节点增多26%,功耗降低60%,并支持48端口切换。



该总线和Xeon Phi处理器一起,将是整个Intel高性能计算生态系统的一部分,叫做“系统可扩展框架”(SFF),相关软件开发也在进行中,并在大会上进行了展示。

不过它删去了支持双路/四路并行的QPI总线,因此只能单路运行,倒是提供了36条PCI-E 3.0总线。

另外,非易失性的3DX Point未来也有望加入Xeon Phi的大家庭,但还处在研究阶段。


KNL的相关系统正在设计试运行中,Cray公司、法国原子能委员会(CEA)、美国桑迪亚国家实验室都在积极推进,预计会在2016年第一季度随着KNL的正式发布而陆续揭开面纱。

接下来的第三代Xeon Phi,代号为“Kights Hill”,将升级为10nm,并使用第二代Omni-Path。





http://news.mydrivers.com/1/457/457112.htm

Intel Xeon Phi协处理器已经在超级计算机的世界中逐渐开花结果,尤其是史无前例六连冠的天河二号都用的是它,不过似乎也正是这样引来了美帝的不满,直接禁售了,所以更强大的下一代基本和我们无缘了。

昨日晚间的SC15超级计算机大会上,Intel再次预告了第二代Xeon Phi,并公布了大量架构和技术细节,看起来无比震撼炫目,也越发可惜了。

新一代产品代号“Knights Landing”(KNL),首要变化就是既可以继续做协处理器,也可以单独做中央主处理器,不再必须有Xeon的支撑,因而更加灵活。

这次采用了14nm新工艺,架构是Silvermont(没错就是Atom上那一套)的改进定制版,核心数量多达72个,并支持四线程,即总计最多288个线程。

有趣的是,这么多核心不是传统的环形总线互连,改成了2D网格总线——每两个核心组成一对,饼干共享1MB二级缓存,总计36MB。

另外,每个核心里都有俩VPU——不是当年ATI的视觉处理器,而是矢量处理器,支持AVX-512。

核心频率约1.3GHz,双精度浮点性能超过3TFlops,单精度则超过6TFlops。

内存方面也十分别致,包括完全独立的两部分,首先是两个三通道DDR4-2400,总计六通道,最大容量384GB。

其次是八个MCDRAM(多通道内存),而与其搭配的就是类似AMD Fiji显卡上的HBM高带宽内存,同样通过中介层整合在处理器封装上,容量最大16GB(八颗芯片),带宽可超过400GB/s,DDR4部分则只有90+GB/s。

s_e56a71d66e9a4890ab3fd64e6d68db09.jpg (141.57 KB, 下载次数: 1)

下载附件 保存到相册

2015-11-18 07:43 上传

s_0f755a28f6474eed8e65e9ad3a200786.png.jpg (154.84 KB, 下载次数: 1)

下载附件 保存到相册

2015-11-18 07:43 上传



KNL的另外一个重要特性就是Intel自主设计的全新光纤互连总线“Omni-Path”,用来取代老旧的InfiniBand,而这个总线这次倒是正式发布了。

Intel宣称,相比于老总线,Omni-Path的信息传输率提高7%,延迟降低17%,支持计算节点增多26%,功耗降低60%,并支持48端口切换。

s_663d163d8dfe4225acfc1888dd405875.jpg (185.9 KB, 下载次数: 1)

下载附件 保存到相册

2015-11-18 07:43 上传



该总线和Xeon Phi处理器一起,将是整个Intel高性能计算生态系统的一部分,叫做“系统可扩展框架”(SFF),相关软件开发也在进行中,并在大会上进行了展示。

不过它删去了支持双路/四路并行的QPI总线,因此只能单路运行,倒是提供了36条PCI-E 3.0总线。

另外,非易失性的3DX Point未来也有望加入Xeon Phi的大家庭,但还处在研究阶段。

s_4ea7a6219f4a49f99a97f7c31b8827ec.jpg (157.32 KB, 下载次数: 1)

下载附件 保存到相册

2015-11-18 07:43 上传

s_642fab8213a94fa8bc3aa70a6231fd8f.jpg (137.14 KB, 下载次数: 1)

下载附件 保存到相册

2015-11-18 07:43 上传



KNL的相关系统正在设计试运行中,Cray公司、法国原子能委员会(CEA)、美国桑迪亚国家实验室都在积极推进,预计会在2016年第一季度随着KNL的正式发布而陆续揭开面纱。

接下来的第三代Xeon Phi,代号为“Kights Hill”,将升级为10nm,并使用第二代Omni-Path。

s_9e0910abcea04b30af4f6795091d5ffc.jpg (167.83 KB, 下载次数: 1)

下载附件 保存到相册

2015-11-18 07:43 上传

s_a20c3e8df18548aa885e84e659cda308.jpg (185.43 KB, 下载次数: 1)

下载附件 保存到相册

2015-11-18 07:45 上传

s_298b07bb02d14681a6128f84d3eb8526.jpg (136.55 KB, 下载次数: 1)

下载附件 保存到相册

2015-11-18 07:43 上传

s_d087646dcbe044658056f3e3aa1f799a.jpg (178.46 KB, 下载次数: 1)

下载附件 保存到相册

2015-11-18 07:43 上传

s_b2e255edaa2343bdbdb2d44d7ea5e076.jpg (195.79 KB, 下载次数: 1)

下载附件 保存到相册

2015-11-18 07:43 上传

s_b17e0aa285b44f6fad23a474a815dff0.jpg (142.11 KB, 下载次数: 1)

下载附件 保存到相册

2015-11-18 07:43 上传

s_616d24bbbf0242f7beabdf27c6cccad2.jpg (171.55 KB, 下载次数: 1)

下载附件 保存到相册

2015-11-18 07:43 上传

s_d9a4eda24ca8491ca4fca644d7d96eb9.jpg (152.03 KB, 下载次数: 1)

下载附件 保存到相册

2015-11-18 07:43 上传

s_e3dc2cc34ea6454e8c10be3f5bb81677.jpg (198.74 KB, 下载次数: 1)

下载附件 保存到相册

2015-11-18 07:43 上传





http://news.mydrivers.com/1/457/457112.htm
技术和指标上和我国的那一个比怎么样?有我们的好吗?听说我们的功耗比这款要低100W,是怎么做到的,兔子真是腹黑,不出则以,出则一鸣惊人,制程比英特尔差,功耗比英特尔却低那么多,一个低100W,超算要堆那么多个,一年光电费都不知道要剩多少钱了
英特尔估计要吐血了
1771964382 发表于 2015-11-18 07:50
技术和指标上和我国的那一个比怎么样?有我们的好吗?听说我们的功耗比这款要低100W,是怎么做到的,兔子真 ...
CPU搞大规模浮点数运算天生不如专用的GPU和DSP,这个是架构决定的。
XEON PHI比普通XEON好点,但和GPU/DSP相比还是差很多。


水果派派88 发表于 2015-11-18 08:08
CPU搞大规模浮点数运算天生不如专用的GPU和DSP,这个是架构决定的。
XEON PHI比普通XEON好点,但和GPU/D ...
所以说就是垃圾了,那么NVIDA的帕斯卡加速卡怎么样?
水果派派88 发表于 2015-11-18 08:08
CPU搞大规模浮点数运算天生不如专用的GPU和DSP,这个是架构决定的。
XEON PHI比普通XEON好点,但和GPU/D ...
那么GPU和DSP,哪个更好,听说是DSP更好,但美国人为什么不走DSP的路线呢?
1771964382 发表于 2015-11-18 08:10
所以说就是垃圾了,那么NVIDA的帕斯卡加速卡怎么样?
Intel这个PHI二代的水平基本等同于NVIDIA现在的K80
NVIDIA下一代GPU会集成HBM,带宽和容量比MCDRAM要高很多,计算能力就不用提了。所以基本是一代的代差。
水果派派88 发表于 2015-11-18 08:23
Intel这个PHI二代的水平基本等同于NVIDIA现在的K80
NVIDIA下一代GPU会集成HBM,带宽和容量比MCDRAM要高 ...
既然性能差那么多,而且Nvida用的还是28nm架构,那么英特尔的这个准备卖给谁?
水果派派88 发表于 2015-11-18 08:23
Intel这个PHI二代的水平基本等同于NVIDIA现在的K80
NVIDIA下一代GPU会集成HBM,带宽和容量比MCDRAM要高 ...
打错了,现在才发现,是TESLA,不是帕斯卡
1771964382 发表于 2015-11-18 08:20
那么GPU和DSP,哪个更好,听说是DSP更好,但美国人为什么不走DSP的路线呢?
成熟度的问题
GPGPU已经发展接近10年了,各种软件算法支持相对完善一点。DSP支持计算现在刚起步,连OpenCL这类算法语言都要2.0版以后才会考虑优化。也只有国内这种被封锁没历史包袱,又有大型应用需求支撑的可以先上。
这个情况和几年前GPU对CPU的情况类似,尽管知道GPU理论效率高,但多数人考虑价格和易用性还是选择用CPU搭超算。
RePhrase项目的目的是改善计算机软件开发的并行和异构体系结构。“并行和异构体系结构用于连接计算机不同部件,如常见的多核处理器以及执行计算的 图形卡。”卡三团队主要研究人员,计算机系研究计算机系统结构与通讯系统(ARCOS)小组的何塞·丹尼尔·加西亚 (José Daniel García)表示。

卡三在该项目中的主要任务是解决计算机并行应用开发时的具体问题,特别针对C++语言程序,改程序已被参与人员确定为这类设备最理想的替代品。
根据何塞·丹尼尔·加西亚研究员表示,接下去几代计算机将采用功能更丰富的处理器。因此,开发软件采用新方法将尤为重要。“开发更快的应用并与此同时消耗更少的能量将是一大挑战。”
生物医学上的应用
该研究成果将被广泛应用于多个领域:如提高工业生产进程,监控铁路运输,或优化精神疾病诊断应用。对于最后一种情况,卡三与格列高里·马拉侬医院(Gregorio Marañón)精神健康网络生物医学研究中心(CIBERSAM)紧密合作,应用研究成果,在核磁共振领域提高诊断方案。
“我们工作研发的应用是通过对大脑的核磁共振,由计算机捕获图像并进行处理。”项目参与者,卡三计算机系教师弗朗西斯科·哈维尔·加西亚·布拉斯(Fco. Javier García Blas)解释并说明:“现有的计算机系统通过图像进行分析需要数小时,而研究的目的就是为了缩短时间。即:对于如精神分裂症,双相情感障碍,或抑郁症等疾病情况能够做出更快速的诊断分析。”
PePhrase项目 于2015年4月启动并持续三年。该项目联合奥地利,西班牙,匈牙利,以色列,意大利和英国的8个研究机构和企业,包括IBM的合作参与。该项目预算为三百五十万欧元,由欧盟拨款资助,是2020地平线研究子项目,编号644235,并延续REPARA项目研究 ,致力于简化计算机并行和异构体系结构程序。
水果派派88 发表于 2015-11-18 08:35
成熟度的问题
GPGPU已经发展接近10年了,各种软件算法支持相对完善一点。DSP支持计算现在刚起步,连Open ...
但是美国人为什么当初选择发展GPU,而不是DSP
1771964382 发表于 2015-11-18 08:25
既然性能差那么多,而且Nvida用的还是28nm架构,那么英特尔的这个准备卖给谁?
PHI的价格比GPU便宜。针对编程能力相对较弱的用户,问题规模相对小一点的超算用这个还是不错的。
水果派派88 发表于 2015-11-18 08:41
PHI的价格比GPU便宜。针对编程能力相对较弱的用户,问题规模相对小一点的超算用这个还是不错的。
说的直白点,就是低端货和高端活了,需求低的低端货就可以满足
1771964382 发表于 2015-11-18 08:40
但是美国人为什么当初选择发展GPU,而不是DSP
这是个发展过程。
之前只有CPU有编程能力,没人想过别的。
后来NVIDIA开拓市场,才想出用GPU增加编程能力搭通用计算平台。NVIDIA就是专业卖GPU的,不会造DSP。
等NVIDIA成功了别人慢慢开始考虑还可以用架构更好的DSP。现在还在研究怎么优化编程,时间上就晚了。

如果GPU不成功,编程难度更高的DSP不会有机会。

水果派派88 发表于 2015-11-18 08:50
这是个发展过程。
之前只有CPU有编程能力,没人想过别的。
后来NVIDIA开拓市场,才想出用GPU增加编程能 ...

美国人不知道什么感受,他们因为技术问题退缩了,但却被中国给搞了出来,这真是打脸,大的啪啪响,还不能说什么。能介绍一下CPU,GPU,DSP,以及最近很火的FPGA吗?还有美国DSP的技术,是不是没中国好?没时间就算了,只是小白想补充点知识罢了
水果派派88 发表于 2015-11-18 08:23
Intel这个PHI二代的水平基本等同于NVIDIA现在的K80
NVIDIA下一代GPU会集成HBM,带宽和容量比MCDRAM要高 ...
NV在NX,就是个GPU架构,不能单独运行系统进行计算,必须配合CPU才能工作,
Intel PHI另一个亮点,就是能运行操作系统,单独控制计算,当然了也可以像GPU一样配合CPU来进行工作,
这种特点是纯粹GPU架构加速器所不能干的活
armfans 发表于 2015-11-18 09:03
NV在NX,就是个GPU架构,不能单独运行系统进行计算,必须配合CPU才能工作,
Intel PHI另一个亮点,就是 ...
所以说能干的活比较杂,但是都不是最强,就和F35一样喽
1771964382 发表于 2015-11-18 09:07
所以说能干的活比较杂,但是都不是最强,就和F35一样喽
但是有些系统考虑高度冗余,安全,可靠备份的话,这种结构显然是合理的选择啊

自然有其存在的道理,
armfans 发表于 2015-11-18 09:08
但是有些系统考虑高度冗余,安全,可靠备份的话,这种结构显然是合理的选择啊

自然有其存在的道理,
综合来看,我国的那一款(忘记名字了)在什么水平,和英伟达比怎么样?有新出的M60厉害吗?和K80比呢?以及英特尔新出的这款呢?不好意思,问题有点多
1771964382 发表于 2015-11-18 08:56
美国人不知道什么感受,他们因为技术问题退缩了,但却被中国给搞了出来,这真是打脸,大的啪啪响,还不 ...
算不上打脸吧
国内也是沾了GPU成功的光,知道还有CPU之外的选择。然后再被封锁,才有用DSP开发超算的计划。毕竟国内开发通用CPU不行,搞个专用DSP还是没啥问题的。再加上有足够大的应用需求,编程困难可以靠堆人解决(这点在美国反而是个大问题)。
FPGA擅长的是定点数和整数运算,双精度浮点数峰值不如GPU。而且本质上FPGA也是靠内部的几千个DSP单元完成运算量的。好处是FPGA没有固定总线,是用编程逻辑来协调DSP的并行运算和资源调配,数据搬运效率比CPU/GPU/DSP高很多。(不像CPU,核心数量一多就因为各种总线竞争而喂不满,峰值能力完全没有意义)
水果派派88 发表于 2015-11-18 09:13
算不上打脸吧
国内也是沾了GPU成功的光,知道还有CPU之外的选择。然后再被封锁,才有用DSP开发超算的计 ...
我知道几个比较牛逼的FPGA 公司都在美国,中国这方面怎么样,和美国差距的吗?
1771964382 发表于 2015-11-18 09:12
综合来看,我国的那一款(忘记名字了)在什么水平,和英伟达比怎么样?有新出的M60厉害吗?和K80比呢?以 ...
客观的说,不知道,毕竟我们的CPU都是宣称的参数很高,但是并没有在哪一个超算里面担任主力角色或占用绝对运算节点,都是辅助性的少量使用,与Intel ,NV,大规模的存在于超算中,是无法比较的;

所以,没有数据不瞎猜,不知道我国的水平怎样
armfans 发表于 2015-11-18 09:08
但是有些系统考虑高度冗余,安全,可靠备份的话,这种结构显然是合理的选择啊

自然有其存在的道理,
那是指小系统
PHI取消QPI总线,就是把目标定位到运算能力需求低一点的小型节点上。
过去常用的都是两个E5加上两三个PHI组成一个强计算能力的超算节点。现在定位已经变了。

armfans 发表于 2015-11-18 09:17
客观的说,不知道,毕竟我们的CPU都是宣称的参数很高,但是并没有在哪一个超算里面担任主力角色或占用绝 ...
哦,谢谢回复
1771964382 发表于 2015-11-18 07:50
技术和指标上和我国的那一个比怎么样?有我们的好吗?听说我们的功耗比这款要低100W,是怎么做到的,兔子真 ...
Phi的比较对象应该是申威5,矩阵2000是专用DSP,肯定要占便宜。
1771964382 发表于 2015-11-18 09:17
我知道几个比较牛逼的FPGA 公司都在美国,中国这方面怎么样,和美国差距的吗?
这个差得太远,和最先进的有十年以上的代差。
壮东风 发表于 2015-11-18 09:21
Phi的比较对象应该是申威5,矩阵2000是专用DSP,肯定要占便宜。
谢谢      
1771964382 发表于 2015-11-18 08:40
但是美国人为什么当初选择发展GPU,而不是DSP
因为当时NVIDIA之后GPU,没有DSP;
客观的说,不知道,毕竟我们的CPU都是宣称的参数很高,但是并没有在哪一个超算里面担任主力角色或占用绝 ...
有倒是有一个,超算山东中心的神威蓝光
跳票啦,说好今年发布的
oldwatch 发表于 2015-11-18 12:35
跳票啦,说好今年发布的
总感觉英特尔缺少发展的动力,所以总是拖拖沓沓的

水果派派88 发表于 2015-11-18 09:19
那是指小系统
PHI取消QPI总线,就是把目标定位到运算能力需求低一点的小型节点上。
过去常用的都是两个 ...


因为大i认为单个 phi加上片上内存已经足够直接撑起一个节点

所以可以直接对接更高一层的节点间互联方案

再说,omni path指标绝对不低
水果派派88 发表于 2015-11-18 09:19
那是指小系统
PHI取消QPI总线,就是把目标定位到运算能力需求低一点的小型节点上。
过去常用的都是两个 ...


因为大i认为单个 phi加上片上内存已经足够直接撑起一个节点

所以可以直接对接更高一层的节点间互联方案

再说,omni path指标绝对不低
所以说能干的活比较杂,但是都不是最强,就和F35一样喽
编程难度大幅下降,不用在调度核计算核之间腾挪。

Dsp是在CPU刷浮点指标前滥大街的专用计算方案
但是CPU的灵活性适应性无人能比,指标赶上来以后就完全没DSP的事了
Omni path可不是什么低成本方案
这玩意是HPC级别的互联技术
oldwatch 发表于 2015-11-18 12:49
编程难度大幅下降,不用在调度核计算核之间腾挪。

Dsp是在CPU刷浮点指标前滥大街的专用计算方案
FPGA呢?   
oldwatch 发表于 2015-11-18 12:50
Omni path可不是什么低成本方案
这玩意是HPC级别的互联技术
也就是说很牛逼了?
1771964382 发表于 2015-11-18 12:54
FPGA呢?

轮编程难易度,或者说做产品的速度

通用CPU(X86)>非通用CPU(ARM/MIPS)>GPU(NV/AMD)>DSP>FPGA
前面的容易,后面的难
armfans 发表于 2015-11-18 12:59
轮编程难易度,或者说做产品的速度

通用CPU(X86)>非通用CPU(ARM/MIPS)>GPU(NV/AMD)>DSP>FPGA
谢谢,那么暗性能呢?
armfans 发表于 2015-11-18 12:59
轮编程难易度,或者说做产品的速度

通用CPU(X86)>非通用CPU(ARM/MIPS)>GPU(NV/AMD)>DSP>FPGA
都是CPU,为什么x86就是通用的,ARM和MIPS的就不是通用的???
都是CPU,编程难易程度是一样的(x86,mips,arm,powerpc,sparc,alpha),没任何差别别

就编程难易程度来讲(从“易”到“难”排序):
通用CPU > 同构众核CPU(Intel-PHI,作为CPU使用) >= 片上微异构众核CPU(SW-5) > GPDSP 和 GPGPU 和 作为加速器使用的intel-PHI(GPDSP,GPGPU,作为加速器使用的PHI的编程难易程度我个人觉得差别不大)