申威411的部分参数(新申威CPU)

来源:百度文库 编辑:超级军网 时间:2024/03/28 17:15:06
申威411的部分参数:

网址:http://www.jztec.cn/col.jsp?id=133

【概述】
“申威411”是基于第三代“申威64”核心的国产高性能多核处理器,主要面向中低端服务器和高性能桌面计算机应用需求,采用对称多核结构和SoC技术,单芯片集成了4个64位RISC结构的申威处理器核心、2路64位DDR3存储控制器和两套PCI-E标准I/O接口,最高工作频率达1.6GHz。

【特点】
1) 采用Load/Store型指令系统和超级标量RISC结构,采用自主多核指令集;
2) 4译码7发射结构,最大支持3条整数指令、2条浮点/SIMD指令和2条访存指令并行发射,采用转移预测、寄存器更名、并行译码、乱序发射、乱序执行、推测执行等技术,提升处理器性能和运行效率;
3) 采用SoC集成结构,片内包含2路64位DDR3存储控制器以及2路PCI-E 2.0接口,提供与性能匹配的存储器带宽和I/O带宽;
4) PCI-E接口实现基于IOMMU的I/O虚拟化,支持256个MSI-X中断;
5) 在微结构设计、逻辑设计和电路设计中,采用多层次低功耗设计与管理技术。

【参数】
申威411的部分参数:

网址:http://www.jztec.cn/col.jsp?id=133

【概述】
“申威411”是基于第三代“申威64”核心的国产高性能多核处理器,主要面向中低端服务器和高性能桌面计算机应用需求,采用对称多核结构和SoC技术,单芯片集成了4个64位RISC结构的申威处理器核心、2路64位DDR3存储控制器和两套PCI-E标准I/O接口,最高工作频率达1.6GHz。

【特点】
1) 采用Load/Store型指令系统和超级标量RISC结构,采用自主多核指令集;
2) 4译码7发射结构,最大支持3条整数指令、2条浮点/SIMD指令和2条访存指令并行发射,采用转移预测、寄存器更名、并行译码、乱序发射、乱序执行、推测执行等技术,提升处理器性能和运行效率;
3) 采用SoC集成结构,片内包含2路64位DDR3存储控制器以及2路PCI-E 2.0接口,提供与性能匹配的存储器带宽和I/O带宽;
4) PCI-E接口实现基于IOMMU的I/O虚拟化,支持256个MSI-X中断;
5) 在微结构设计、逻辑设计和电路设计中,采用多层次低功耗设计与管理技术。

【参数】
另见:http://lt.cjdby.net/thread-2103109-1-1.html
7发射的话  只要构架上没有什么短板的话 性能不会差的
什么系统的?
十月赞歌 发表于 2015-11-18 06:36
什么系统的?
你指的是什么系统?
ayanamei 发表于 2015-11-17 23:40
7发射的话  只要构架上没有什么短板的话 性能不会差的
你觉得:SW411的 “4解码7发射” 是不是真的?

我看龙芯GS464和GS464E的参数 :取指/译码/发射/执行/提交 : 4/4/5/5/4(GS464) | 8/4/6/6/4(GS464E)

所以GS464E的4发射到底指的是什么??

http://loongson.cn/product/ipcore/106.html
ayanamei 发表于 2015-11-17 23:40
7发射的话  只要构架上没有什么短板的话 性能不会差的
2010年的申威1600处理器核心为2译码3发射结构
2012年的申威1610处理器没有详细参数
2015年的申威411是4译码7发射的,提升真的蛮大的;
2010年的申威1600处理器核心为2译码3发射结构
2012年的申威1610处理器没有详细参数
2015年的申威411是4 ...
所以浮点单元也是随着前段译码器提高的
不出意外性能可以翻翻
用奔四烧水 发表于 2015-11-18 14:37
所以浮点单元也是随着前段译码器提高的
不出意外性能可以翻翻
411  比410  浮点是翻番了

就是整数不知道怎么样?
ayanamei 发表于 2015-11-17 23:40
7发射的话  只要构架上没有什么短板的话 性能不会差的

和GS464E比哪个强?

又众核 又新微结构   江南变态啊
用奔四烧水 发表于 2015-11-18 14:37
所以浮点单元也是随着前段译码器提高的
不出意外性能可以翻翻
整形有了解么 ?

以下两个应该是理论成绩:
浮点:每秒1024亿次双精度浮点结果@1.6GHz;
整数:每秒704亿次整数结果@1.6GHz。
mips64el 发表于 2015-11-18 10:11
你觉得:SW411的 “4解码7发射” 是不是真的?

我看龙芯GS464和GS464E的参数 :取指/译码/发射/执行/ ...
向执行管线派发机微指令令码 现在的处理器一般都是外部指令内部重编译成微码执行的

像现在这种乱序执行流水线的处理器  指令发射和指令列队深度对整个执行管线的效率影响比较敏感
mips64el 发表于 2015-11-18 14:47
整形有了解么 ?

以下两个应该是理论成绩:
整数执行部分比较复杂  不能这么量化

浮点理论上限倒是容易提升 发挥起来也比整数部分容易

整数执行效能基本上提升速度很慢
scxtx 发表于 2015-11-18 14:47
和GS464E比哪个强?

又众核 又新微结构   江南变态啊
这个没办法判断
微构架实际表现只能测试出来
毕竟实际发挥会因为很多因素损失掉


用奔四烧水 发表于 2015-11-18 14:37
所以浮点单元也是随着前段译码器提高的
不出意外性能可以翻翻


靠SIMD VPU堆上去浮点 对指令发射和译码器 这种指令前端不太敏感
因为SIMD操作高宽度浮点数 动不动一个指令下去就是128 /256bit等大宽度 浮点数
所以账面flops是很高的 浮点部分倒是对cache延迟 访存性能等比较敏感

指令前端对整个传统管线的影响比较大
最典型的例子是AMD的推土机 因为内部塞了2个模块 来增加执行资源 但是指令前端用了2+2 凑出来的4个指令发射端来给2个执行模块用 相当于一个核心其实只有2个指令译码2个指令发射端

其IPC相比原来的x4 955 性能反而下降 原来是3指令译码3指令发射

不过x86指令译码和发射端并发度很难 很难做大 因为CISC x86指令 实时硬件编译程risc风格的内部微码 这个译码器非常复杂 译码器跟不上扩大发射端也没有

用奔四烧水 发表于 2015-11-18 14:37
所以浮点单元也是随着前段译码器提高的
不出意外性能可以翻翻


靠SIMD VPU堆上去浮点 对指令发射和译码器 这种指令前端不太敏感
因为SIMD操作高宽度浮点数 动不动一个指令下去就是128 /256bit等大宽度 浮点数
所以账面flops是很高的 浮点部分倒是对cache延迟 访存性能等比较敏感

指令前端对整个传统管线的影响比较大
最典型的例子是AMD的推土机 因为内部塞了2个模块 来增加执行资源 但是指令前端用了2+2 凑出来的4个指令发射端来给2个执行模块用 相当于一个核心其实只有2个指令译码2个指令发射端

其IPC相比原来的x4 955 性能反而下降 原来是3指令译码3指令发射

不过x86指令译码和发射端并发度很难 很难做大 因为CISC x86指令 实时硬件编译程risc风格的内部微码 这个译码器非常复杂 译码器跟不上扩大发射端也没有
ayanamei 发表于 2015-11-18 15:55
靠SIMD VPU堆上去浮点 对指令发射和译码器 这种指令前端不太敏感
因为SIMD操作高宽度浮点数 动不动一 ...
不知道你愿不愿意加个QQ,信息分享,
1012330087
ayanamei 发表于 2015-11-18 15:55
靠SIMD VPU堆上去浮点 对指令发射和译码器 这种指令前端不太敏感
因为SIMD操作高宽度浮点数 动不动一 ...
961536044 (QQ)—— 这个是百度贴吧的 钢铁洪流1888, 可以采访到很多人
ayanamei 发表于 2015-11-18 15:55
靠SIMD VPU堆上去浮点 对指令发射和译码器 这种指令前端不太敏感
因为SIMD操作高宽度浮点数 动不动一 ...
GS464E是: 8取指,4译码,6发射,6执行、4提交;
SW411是: 4译码7发射结构,最大支持3条整数指令、2条浮点/SIMD指令和2条访存指令并行发射;

这两种说法怎么“对应”?
mips64el 发表于 2015-11-18 16:33
GS464E是: 8取指,4译码,6发射,6执行、4提交;
SW411是: 4译码7发射结构,最大支持3条整数指令、2条浮 ...
只有译码 和发射概念是一样的

其它都是前端中的不同部件

sw411 给7个指令发射端给了具体功能上的分配
但是别的微构架的指令发射端设计未必和它一样  所以不同微构架之间一般不会去这样比大致知道指令并发宽度就可以了

sw411这个是多少nm的工艺?
不动大冥王 发表于 2015-11-18 17:21
sw411这个是多少nm的工艺?
估计是28nm
不动大冥王 发表于 2015-11-18 17:21
sw411这个是多少nm的工艺?
40nm,截图上有
ayanamei 发表于 2015-11-18 18:42
估计是28nm
40nm,7亿晶体管(SW410是2.7亿,SW1610是10亿;4核心的SW411晶体管数目接近16核心的SW1610)截图上有
mips64el 发表于 2015-11-18 18:53
40nm,7亿晶体管(SW410是2.7亿,SW1610是10亿;4核心的SW411晶体管数目接近16核心的SW1610)截图上有
就是不知道有没有16核心的SW1611
SW411采用的是“双通道64bits”内存控制器
SW410采用的是“单通道128bits”内存控制器

懂得人分析一下
mips64el 发表于 2015-11-18 21:38
SW411采用的是“双通道64bits”内存控制器
SW410采用的是“单通道128bits”内存控制器
这个描述相当奇怪  双通道128bit  比较好理解
单通道128bit 普通的DIMM根本不行 除非默认是强行绑定2个DIMM共同工作  这和双通道的128bit工作模式没啥区别  除非这玩意儿只能双通道 运行

而64bit双通道内存控制器 允许实用单个dimm

只能这样理解了
mips64el 发表于 2015-11-18 18:53
40nm,7亿晶体管(SW410是2.7亿,SW1610是10亿;4核心的SW411晶体管数目接近16核心的SW1610)截图上有
不知道上28nm能不能拱上2ghz

还用40nm感觉不太对 要么是第一批产品吧  用40nm生产完全没意义
成本高
ayanamei 发表于 2015-11-18 22:48
不知道上28nm能不能拱上2ghz

还用40nm感觉不太对 要么是第一批产品吧  用40nm生产完全没意义
可能这款芯片量产的时候,中心国际的28nm还不怎么成熟吧;
龙芯国际的28nm不是2015年才成熟的么;
如果申威411和龙芯的3A2000是同一时刻的产品(甚至更早)那么采用40nm也是情理之中吧
40nm,7亿晶体管(SW410是2.7亿,SW1610是10亿;4核心的SW411晶体管数目接近16核心的SW1610)截图上有
这个参数表就晶体管数量有一点参考意义,其他有跟没有差不多,sw410的缓存小吧,411二级和三级加起来8m,晶体管数量很大,所以411的核心不算很大
花落庭院 发表于 2015-11-19 13:00
这个参数表就晶体管数量有一点参考意义,其他有跟没有差不多,sw410的缓存小吧,411二级和三级加起来8m, ...
单核心同频性能应该还不如GS464E,不过这货频率高一点;
mips64el 发表于 2015-11-19 13:04
单核心同频性能应该还不如GS464E,不过这货频率高一点;
核心不够大,单核性能高不到哪里去,在还有一个流水线优化的好不好还未知。。。。两个因素。
花落庭院 发表于 2015-11-19 13:14
核心不够大,单核性能高不到哪里去,在还有一个流水线优化的好不好还未知。。。。两个因素。
SW411的L1+L2+L3一共:        8 * 32K + 4*512K + 6M    =    8448K = 8.25M
3A(B)2000的L1+L2+L3一共: 8 * 64K + 4 * 256K + 4M  =  5632K = ~5.25M (两者差了3M)

3A(B)2000的晶体管数目多少来着?
花落庭院 发表于 2015-11-19 13:14
核心不够大,单核性能高不到哪里去,在还有一个流水线优化的好不好还未知。。。。两个因素。
SW411的L1+L2+L3一共:        8 * 32K + 4*512K + 6M    =    8448K = 8.25M
3A(B)2000的L1+L2+L3一共: 8 * 64K + 4 * 256K + 4M  =  5632K = ~5.25M (两者差了3M)

申威411近7亿晶体管,3A(B)2000是621,444,904个晶体管(6.2亿);

核心的确是SW411小一些;
这个是军用的么?
minimi001 发表于 2015-11-19 13:37
这个是军用的么?
军民两用吧
SW411的L1+L2+L3一共:        8 * 32K + 4*512K + 6M    =    8448K = 8.25M
3A(B)2000的L1+L2+L3一共 ...
也有可能是江南物理设计好呢?
用奔四烧水 发表于 2015-11-19 16:47
也有可能是江南物理设计好呢?
物理设计水平江南所应该好于龙芯吧,毕竟频率高
物理设计水平江南所应该好于龙芯吧,毕竟频率高
所以会不会是同样的核心资源,用的管线少呢?
用奔四烧水 发表于 2015-11-19 17:03
所以会不会是同样的核心资源,用的管线少呢?
这个就不懂了,还的请懂行的人回复了
http://www.sw64.cn/