ZT 龙芯产品发展路线图,龙芯8核今年6-7月完成实物流片

来源:百度文库 编辑:超级军网 时间:2024/04/29 07:30:14


从产品路线图来看,龙芯处理器未来将主要有三条产品线:
1.jpg

总体来看有三大领域,分别是面向服务器和HPC领域的“大CPU”龙芯3系列处理器——包括刚发布的曙光CB50-A就属于这条产品线,其产品刚刚发布第一代:龙芯3A,采用65nm制造工艺,集成了4.25亿晶体管,原生四核,1GHz主频,性能约为16GFlops;其下一代产品龙芯3B已经设计完成,同样基于65纳米工艺,内核数达到了8个,计算性能达到128GFlops,据透露,龙芯3B将于今年6~7月份完成实物流片;未来的龙芯3C正在设计中,预计采用28纳米制程工艺(确实够先进),集成16个处理器内核,主频也达到了1.5GHz,计算性能预计达到384GFlops,预计于2011年底左右推出——笔者认为,龙芯处理器如果能按路线图顺利推出龙芯3C产品的话,无论是在工艺上,还是技术上都已经不弱于2011~2012年英特尔和AMD计划推出的主流企业级处理器——确实值得期待
2.jpg

面向普通计算机和嵌入式应用的龙芯2系列处理器已经推出了两代产品,分别是龙芯2F和龙芯2G,可以看到龙芯2G的制程工艺从2008年的90纳米升级到了目前的65纳米(应该是意法半导体代工),单核1GHz主频,集成DDR3内存控制器和PCI总线控制器(等于集成了北桥);而未来的龙芯2H在保持龙芯2G规格的同时,集成了GPU、南北桥等,几乎是“一片走天下”的嵌入式处理器。相比“大CPU”,面向普通计算机的“中CPU”没有在性能上有太多的“想法”,和国外主流x86厂商力推多核与高主频的处理器相比,龙芯2系列低调的多,却走了一条整合的路线。不得不说,在MIPS架构并不完全兼容x86应用程序的情况下,龙芯走这样的路线十分明智,避开了与绝对优势“对手”的竞争,转而以整合性能,功耗,多媒体性为主,利用整合带来的平台低成本和低功耗,获得用户市场。
3.jpg

最后一条产品线是面向移动、消费电子(指手机/MP4/掌上电脑等)、嵌入式应用的龙芯1系列处理器。目前龙芯1系列也发展到第二代产品龙芯1B,处于稳定性考虑采用了130纳米工艺,300MHz主频有助于超低功耗的实现,整合了GPU和南北桥——充分符合嵌入式对处理器的需求。
4.jpg

胡伟武先生表示,龙芯未来还将推出安全类芯片,应用在特种计算机/服务器和保密装备中。处于自主知识产权的处理器也必将填补“敏感”领域的IT应用空白。

下图给出更多关于龙芯3A处理器的细节,这里只提一下GS464处理器核的意思是Godson464计算核心(Godson是龙芯的开发代号)。
5.jpg

对于即将于今年6月~7月流片(试制)的龙芯3B八核处理器,这里要详细介绍一下:该处理器采用65纳米工艺,主频1GHz,片内集成了8个龙芯GS464处理器内核,双精度浮点能力达到128GFlops(四核龙芯3A的双精度浮点只有16GFlops)。根据目前的资料,龙芯3B的八个内核会共享4MB L2缓存(这里要多说两句:由于龙芯是MIPS架构,与x86架构执行原理不同,因此并没有大容量的缓存设计(如x86处理器动辄10来兆的缓存等)。总之,别用缓存多少判断不同架构的处理器性能,而内存控制器和HT超传输总线仍然保持与四核龙芯3A一样的规格,处理器的设计功耗小于25瓦。处于保密考虑,我们并没有获得龙芯3B八核处理器的晶圆图和内部结构图。但是,我们可以通过龙芯3B和未来16核龙芯3C处理器的规格推测其大致架构。


我们来揭晓一组实测数据,包括了4核心龙芯3A,8核心龙芯3B,英特尔上一代面向多路的至强7460,Nehalem架构的至强X5570,还有上一代安腾处理器,AMD的皓龙8384“上海”,以及IBM的Power 6+处理器,主要体现的是其双精度浮点运算性能、功耗、以及效能比(每瓦功耗的实际计算性能Gflops):
8.jpg
可以看出龙芯处理器的优势了——超高能效比。4核龙芯3A的功耗只有10瓦,而8核龙芯3B的功耗也只有20瓦,与之强大的双精度浮点运算性能相比,其能效达到了1.6Gflops/Watt和6.4Gflops/watt。相比之下,英特尔和AMD的x86处理器普遍不具竞争力——同样是四核的情况下,其产品性能均超过龙芯3A,但代价是功耗居高不下。在面向数据中心和高性能计算的环境中,单一处理器的性能并不是首选,用户更看重功耗带来的运营费用,因此能效比方面龙芯拥有巨大优势。而作为RISC小型机的主力Power 6+,受制于核心过少(只有2个),因此即便主频高达4.7GHz,也没有得到更高的双精度性能,能耗也在120W,自然比不了龙芯。

  可惜的是,这张实测图因为时间关系,没有加入英特尔最新至强5600,至强7500系列处理器,AMD十二核“马尼库尔”,IBM Power 7处理器做比较,相信这些处理器的效能比会超过龙芯3A,但能否达到龙芯3B的6.4Gflops/Watt,则是一个问号。我们将在今后对比这些新款处理器的实测数据来验证。
http://server.it168.com/a2010/0428/880/000000880047.shtml

_______________________
如果龙芯3B是GPU+CPU的架构话CPU和GPU互联的确是交叉开关,不过各个单元之间因该是和FUSION一样通过HT总线连接成一个整体的.编辑了一下,把有争议的内核架构先删该了一下,等3B流片后再讨论3BCPU+GPU的架构问题.希望明年能看到曙光6000.

从产品路线图来看,龙芯处理器未来将主要有三条产品线:
1.jpg

总体来看有三大领域,分别是面向服务器和HPC领域的“大CPU”龙芯3系列处理器——包括刚发布的曙光CB50-A就属于这条产品线,其产品刚刚发布第一代:龙芯3A,采用65nm制造工艺,集成了4.25亿晶体管,原生四核,1GHz主频,性能约为16GFlops;其下一代产品龙芯3B已经设计完成,同样基于65纳米工艺,内核数达到了8个,计算性能达到128GFlops,据透露,龙芯3B将于今年6~7月份完成实物流片;未来的龙芯3C正在设计中,预计采用28纳米制程工艺(确实够先进),集成16个处理器内核,主频也达到了1.5GHz,计算性能预计达到384GFlops,预计于2011年底左右推出——笔者认为,龙芯处理器如果能按路线图顺利推出龙芯3C产品的话,无论是在工艺上,还是技术上都已经不弱于2011~2012年英特尔和AMD计划推出的主流企业级处理器——确实值得期待
2.jpg

面向普通计算机和嵌入式应用的龙芯2系列处理器已经推出了两代产品,分别是龙芯2F和龙芯2G,可以看到龙芯2G的制程工艺从2008年的90纳米升级到了目前的65纳米(应该是意法半导体代工),单核1GHz主频,集成DDR3内存控制器和PCI总线控制器(等于集成了北桥);而未来的龙芯2H在保持龙芯2G规格的同时,集成了GPU、南北桥等,几乎是“一片走天下”的嵌入式处理器。相比“大CPU”,面向普通计算机的“中CPU”没有在性能上有太多的“想法”,和国外主流x86厂商力推多核与高主频的处理器相比,龙芯2系列低调的多,却走了一条整合的路线。不得不说,在MIPS架构并不完全兼容x86应用程序的情况下,龙芯走这样的路线十分明智,避开了与绝对优势“对手”的竞争,转而以整合性能,功耗,多媒体性为主,利用整合带来的平台低成本和低功耗,获得用户市场。
3.jpg

最后一条产品线是面向移动、消费电子(指手机/MP4/掌上电脑等)、嵌入式应用的龙芯1系列处理器。目前龙芯1系列也发展到第二代产品龙芯1B,处于稳定性考虑采用了130纳米工艺,300MHz主频有助于超低功耗的实现,整合了GPU和南北桥——充分符合嵌入式对处理器的需求。
4.jpg

胡伟武先生表示,龙芯未来还将推出安全类芯片,应用在特种计算机/服务器和保密装备中。处于自主知识产权的处理器也必将填补“敏感”领域的IT应用空白。

下图给出更多关于龙芯3A处理器的细节,这里只提一下GS464处理器核的意思是Godson464计算核心(Godson是龙芯的开发代号)。
5.jpg

对于即将于今年6月~7月流片(试制)的龙芯3B八核处理器,这里要详细介绍一下:该处理器采用65纳米工艺,主频1GHz,片内集成了8个龙芯GS464处理器内核,双精度浮点能力达到128GFlops(四核龙芯3A的双精度浮点只有16GFlops)。根据目前的资料,龙芯3B的八个内核会共享4MB L2缓存(这里要多说两句:由于龙芯是MIPS架构,与x86架构执行原理不同,因此并没有大容量的缓存设计(如x86处理器动辄10来兆的缓存等)。总之,别用缓存多少判断不同架构的处理器性能,而内存控制器和HT超传输总线仍然保持与四核龙芯3A一样的规格,处理器的设计功耗小于25瓦。处于保密考虑,我们并没有获得龙芯3B八核处理器的晶圆图和内部结构图。但是,我们可以通过龙芯3B和未来16核龙芯3C处理器的规格推测其大致架构。


我们来揭晓一组实测数据,包括了4核心龙芯3A,8核心龙芯3B,英特尔上一代面向多路的至强7460,Nehalem架构的至强X5570,还有上一代安腾处理器,AMD的皓龙8384“上海”,以及IBM的Power 6+处理器,主要体现的是其双精度浮点运算性能、功耗、以及效能比(每瓦功耗的实际计算性能Gflops):
8.jpg
可以看出龙芯处理器的优势了——超高能效比。4核龙芯3A的功耗只有10瓦,而8核龙芯3B的功耗也只有20瓦,与之强大的双精度浮点运算性能相比,其能效达到了1.6Gflops/Watt和6.4Gflops/watt。相比之下,英特尔和AMD的x86处理器普遍不具竞争力——同样是四核的情况下,其产品性能均超过龙芯3A,但代价是功耗居高不下。在面向数据中心和高性能计算的环境中,单一处理器的性能并不是首选,用户更看重功耗带来的运营费用,因此能效比方面龙芯拥有巨大优势。而作为RISC小型机的主力Power 6+,受制于核心过少(只有2个),因此即便主频高达4.7GHz,也没有得到更高的双精度性能,能耗也在120W,自然比不了龙芯。

  可惜的是,这张实测图因为时间关系,没有加入英特尔最新至强5600,至强7500系列处理器,AMD十二核“马尼库尔”,IBM Power 7处理器做比较,相信这些处理器的效能比会超过龙芯3A,但能否达到龙芯3B的6.4Gflops/Watt,则是一个问号。我们将在今后对比这些新款处理器的实测数据来验证。
http://server.it168.com/a2010/0428/880/000000880047.shtml

_______________________
如果龙芯3B是GPU+CPU的架构话CPU和GPU互联的确是交叉开关,不过各个单元之间因该是和FUSION一样通过HT总线连接成一个整体的.编辑了一下,把有争议的内核架构先删该了一下,等3B流片后再讨论3BCPU+GPU的架构问题.希望明年能看到曙光6000.
有不少不靠谱的地方。龙芯论坛上讨论结果是,大部分否认。
链接里骂声一片~
8核不是用HT连接的,是交叉开关!就是那个2G的图靠谱吗?
不过MIPS的软件还有待培养调教……
楼主是龙芯的?还是客户?这东西都能整出来.......:L
2B 到底造出来了没?
happywar 发表于 2010-4-30 21:26
应该没有!只是设计完了!
回复 8# 123456d


    那为什么功耗测试表里有?{:3_77:}
longying 发表于 2010-4-30 20:06

还是意法半导体造的么,那就没意思了阿....必须要自己能造才行
回复 1# longying

居然去跟CPU比双精度了。 AMD都不想在CPU里装浮点模块了。
2011年 吹吧。。{:3_97:}
看龙芯3A那个图片,封装上面丝印字体的风格,还是意法半导体给流片的?
回复 12# 低调做人 这个媒体不知道从那里来的东西!瞎扯
:D我都觉  it168.com 怎么能弄到龙芯这些数据的
回复 13# 三块石头

的确是ST流片,龙芯没进入桌面市场哪来的钱搞芯片工厂,


LY1.jpg
这个是3A的芯片图
ly2.jpg
CB50-A龙芯刀片服务器PCB电路板

LY1.jpg
这个是3A的芯片图
ly2.jpg
CB50-A龙芯刀片服务器PCB电路板
龙3C计划是2012年,32 nm,怎么跑出个28nm来,那个胶水核更可笑!CPU跟向量处理器是用交叉开关连接的!唯一说的靠谱的是3B6月份去流片!
longying 发表于 2010-5-1 10:33

st的技术和经验也是龙芯需要的,龙芯2c之前是中芯国际的生产的,没有一个能实用太大实用价值的。龙芯什么时候离开ST,那就说明学得差不多了。
搞芯片工厂是不可能的。共用芯片代工厂才是降低成本的合理选择。
28纳米?前几天听说台积电要自己开发28纳米的工艺,莫非打算在这里生产
sarchiel 发表于 2010-5-1 16:18 关键是计算所的物理设计要搞32nm,又搞28nm,可能吗?
123456d 发表于 2010-5-1 16:25
垃圾媒体害死人啊
硬件设计也是分层的。最后的电路生成都是用的厂家的模板。数字电路就是好,逻辑设计基本与工艺无关。
不同制程应该和优化有关。和程序一样。优化过的速度快,但逻辑清晰性会下降,不利于修改。不优化速度不高。效率低下。当然每层优化都不同。
回复 14# 123456d


还不是你吹我吹出来的,说不定CD上看来的
低调做人 发表于 2010-5-2 01:24
{:3_91:}有这个可能!
scybliyu 发表于 2010-5-2 00:24

你按台电规则设计的芯片,拿去意法就不能直接投片。

问题是台积电28nm还在天上。。

台积电自己都在吹,没看到NV的费米都拖了好久。 费米还是40nm的呢,现在良率都极低。
龙芯现在是频率上不去,就只能玩多核。。

这几年还在1G晃悠。
cirio991 发表于 2010-5-2 07:22
我估计英特尔等公司在芯片厂的工艺一致性上面肯定是要下很大功夫的,不然他也要给每个厂单独开发生产用的优化。
基本属于扯淡。。。。。。。
龙芯的设计工作没有楼上人才们的参与真是胡伟武先生用人的失误,没有楼上人才们的参与想搞出高性能的芯片无异于痴人说梦。唉,龙芯无望矣。
继续关注。


哪里扯蛋了?
虽然那个对比有点荒谬,但是如果就是对比flops和功耗,那个表格没有多少问题。



我觉得全文里就这句话有点问题:
“无论是在工艺上,还是技术上都已经不弱于2011~2012年英特尔和AMD 计划推出的主流企业级处理器——确实值得期待”

基本属于扯淡。。。。。。。
qnxchina 发表于 2010-5-2 17:15


哪里扯蛋了?
虽然那个对比有点荒谬,但是如果就是对比flops和功耗,那个表格没有多少问题。



我觉得全文里就这句话有点问题:
“无论是在工艺上,还是技术上都已经不弱于2011~2012年英特尔和AMD 计划推出的主流企业级处理器——确实值得期待”

基本属于扯淡。。。。。。。
qnxchina 发表于 2010-5-2 17:15
longying 发表于 2010-5-1 10:43
bessel 发表于 2010-5-2 20:05


时间点基本属于瞎猜,想想2008年下半年龙3都发生了什么
LZ明显乐观过度
如上图所示,龙芯3A的结构我们已经了解。而龙芯3B的封装似乎是两个龙芯3A通过MCM技术(MCM是一种由两个或两个以上裸芯片或者芯片尺寸封装(CSP)的IC组装在一个基板上的模块,模块组成一个电子系统或子系统)封装在一起得到的——让人想起了英特尔早期的双核/四核处理器以及AMD最新的“马尼库尔”12核处理器(将两个6核“伊斯坦布尔”封装在一起)。实际上,这种做法在半导体行业非常普遍,所要解决的问题也很常规——两个封装的处理器如何保持低延迟通讯和协同工作——龙芯的答案很简单:用Hypertransport超传输总线直连。

  在龙芯3A中,两条HT总线的分工是:其一负责HT总线的调度,另一个负责缓存以及MC;那么到了龙芯3B,一主一从两个内核如何互联呢?我们来参考一下12核“马尼库尔”的互联吧:”

简单地说,文章作者根本就是以为龙3B还是同构CPU,所以才会把它直接和I、A的同构CPU比较浮点运算能力。嗯,如果128G Flops指的是非向量核的运算能力那当然是巨大的优势——事实并非如此。
qnxchina 发表于 2010-5-2 20:38
deam 发表于 2010-5-2 20:55