转点关于“龙芯”的文章内容,请各位高人品评

来源:百度文库 编辑:超级军网 时间:2024/04/30 00:40:08
(原址:http://www.beareyes.com.cn/2/lib/201202/01/20120201224_0.htm)
节选:

................................
MIPS兼容架构——中科院“龙芯”处理器

    “龙芯”处理器是中科院计算所的研究小组在“龙芯之父”胡伟武教授的带领下设计和研发的。而处理器的量产是交由北京神州龙芯集成电路设计有限公司来完成的。这家公司是由中国科学院计算技术研究所和江苏综艺股份有限公司共同投资创办的,于2002年底在北京市中关村注册成立, 是一家专门开发、销售具自主知识产权的龙芯系列微处理器芯片(CPU)、硅知识产权(CPU-IP)以及相关嵌入式系统产品的高新技术企业。

    从诞生到现在经历了三代产品,其中最新的就是“龙芯3”处理器,这是一款8核处理器,其主频为1.05GHz,拥有8个四发射乱序执行处理核心(每个核心有九级流水线,2个定点单元、2个浮点单元(每个每个浮点单元支持256位向量运算)和1个访存单元,采用交叉开关进行核间互连,并采用通过HT接口进行片间可伸缩互连。)。缓存方面,每个处理器核的一级指令cache和数据cache各64KB,八个处理器核通过交叉开关共享4MB的二级cache。内存方面集成了两个DDR2/3-800控制器。在1GHz下可提供高达16 GFLOPs每核的浮点计算能力,而在1.05GHz下可提供160 GFLOP的双精度浮点处理能力。同时代的3.3GHz Intel Core i7 3960X(拥有新的AVX指令集)在峰值情况下可提供160 GFLOPs的计算能力,而上一代的Core i7 990X 峰值情况下可提供90 GFLOPs,AMD FX8150可提供110 GFLOPs的峰值处理能力。相比之下,“龙芯3”虽然不是性能最强的,但其能耗却是最低的(其TDP仅为40W)。

    需要补充的是,“龙芯3”处理器还有一个存有200个扩展指令的独立“盒子”,其作用是使用QEMU(开源虚拟机之一)对X86软件进行加速(Alpha处理器也曾尝试使用类似技术对运行在Alpha Windows NT上的软件进行加速)。使大部分软件的运行都能达到原生速度,而其面积只占整个处理器面积的5%。

    鉴于“龙芯3”的每个核心已足够高效,“龙芯3”的发展方向将是28nm制程的16核版本,其模型很有可能于2012年下半年推出。核心设计将进行小幅改动,主频将提升到1.6GHz,二级缓存将进一步增大,而一级缓存将保持不变。

    软件方面,已有数款Linux发行版本提供了对“龙芯3”的支持,其中包括Debian,Gentoo,Mandriva以及Red Flag。而BSD和Windows CE在很早以前便可以在“龙芯”处理器上运行。可惜的是在消费级市场上,我们还很少见到装备“龙芯”处理器的设备,不过相信随着技术的成熟,在不久的将来也许可以见到使用“龙芯”处理器的Android或Windows 8平板电脑。
................................
(原址:http://www.beareyes.com.cn/2/lib/201202/01/20120201224_0.htm)
节选:

................................
MIPS兼容架构——中科院“龙芯”处理器

    “龙芯”处理器是中科院计算所的研究小组在“龙芯之父”胡伟武教授的带领下设计和研发的。而处理器的量产是交由北京神州龙芯集成电路设计有限公司来完成的。这家公司是由中国科学院计算技术研究所和江苏综艺股份有限公司共同投资创办的,于2002年底在北京市中关村注册成立, 是一家专门开发、销售具自主知识产权的龙芯系列微处理器芯片(CPU)、硅知识产权(CPU-IP)以及相关嵌入式系统产品的高新技术企业。

    从诞生到现在经历了三代产品,其中最新的就是“龙芯3”处理器,这是一款8核处理器,其主频为1.05GHz,拥有8个四发射乱序执行处理核心(每个核心有九级流水线,2个定点单元、2个浮点单元(每个每个浮点单元支持256位向量运算)和1个访存单元,采用交叉开关进行核间互连,并采用通过HT接口进行片间可伸缩互连。)。缓存方面,每个处理器核的一级指令cache和数据cache各64KB,八个处理器核通过交叉开关共享4MB的二级cache。内存方面集成了两个DDR2/3-800控制器。在1GHz下可提供高达16 GFLOPs每核的浮点计算能力,而在1.05GHz下可提供160 GFLOP的双精度浮点处理能力。同时代的3.3GHz Intel Core i7 3960X(拥有新的AVX指令集)在峰值情况下可提供160 GFLOPs的计算能力,而上一代的Core i7 990X 峰值情况下可提供90 GFLOPs,AMD FX8150可提供110 GFLOPs的峰值处理能力。相比之下,“龙芯3”虽然不是性能最强的,但其能耗却是最低的(其TDP仅为40W)。

    需要补充的是,“龙芯3”处理器还有一个存有200个扩展指令的独立“盒子”,其作用是使用QEMU(开源虚拟机之一)对X86软件进行加速(Alpha处理器也曾尝试使用类似技术对运行在Alpha Windows NT上的软件进行加速)。使大部分软件的运行都能达到原生速度,而其面积只占整个处理器面积的5%。

    鉴于“龙芯3”的每个核心已足够高效,“龙芯3”的发展方向将是28nm制程的16核版本,其模型很有可能于2012年下半年推出。核心设计将进行小幅改动,主频将提升到1.6GHz,二级缓存将进一步增大,而一级缓存将保持不变。

    软件方面,已有数款Linux发行版本提供了对“龙芯3”的支持,其中包括Debian,Gentoo,Mandriva以及Red Flag。而BSD和Windows CE在很早以前便可以在“龙芯”处理器上运行。可惜的是在消费级市场上,我们还很少见到装备“龙芯”处理器的设备,不过相信随着技术的成熟,在不久的将来也许可以见到使用“龙芯”处理器的Android或Windows 8平板电脑。
................................
源文章还有“神威”的内容:

..................................
ALPHA构架在中国繁衍——神威处理器

    还记得世纪之交时,Alpha处理器曾大方异彩,它采用经典RISC架构(设计简单,扩展性强)、对于原生速度的关注以及纯粹的64位设计(避免了对32位的兼容性问题)。在1993到2001年间,Alpha处理器作为常胜将军,创造了所有与处理器性能有关的记录,仅在某些DEC不太关注的方面(内存接口和I/O系统)失手。其中为DEC赢得最多美名的处理器就是Alpha 21264 EV5系列处理器(经历了处理器制程发展的三个阶段0.50微米,0.35微米以及0.25微米)。

    在1996到1997年间,0.35微米制程的21164A处理器成为了最广泛使用的Alpha处理器,其原始频率达到了667MHz,在测试中得分达到了同时代Intel Pentium处理器(主频266MHz)的二倍以上。其后继21164处理器也继承了简单的设计和高效的执行能力(高主频、四发射顺序执行,功耗仅25W),性能上仅稍稍落后于数年后才推出的Pentium III “Katmai”处理器(主频600MHz,功耗达75W)。

    接下来,便迎来Alpha处理器发展的转折点,即Alpha 21264 EV6乱序执行核心的诞生(其每时钟周期处理性能达到了原来的二倍,而功耗也达到了原来的三倍),其发展也经历数个制程阶段。它和继任者21364 EV7把性能记录保持到了2002年(之后Alpha处理器也就从公众视野中消失了)。2000年问世的EV7在存储和I/O的设计属于革命性的创新设计(处理核心采用了与EV6相同的架构),存储包括1.75MB的片上二级缓存,集成了一个10通道Rambus内存控制器(充分利用二级Cache作为内存系统低延迟缓存的功能),四个并行6.4GB/s一致性内部链接连接到另外四个核心上,最高支持512 socket以及目录协议。5年后的AMD HyperTransport和更晚的Intel QPI也采用了类似的设计。

    再看看21464 EV8,这是第一款采用八发射超标量乱序执行的对称多线程核心的处理器,每个核心拥有四线程处理能力。继任者21564 EV9处理器增加了核心数量(于2004年推出),加入了高性能向量处理单元(1 KILOBYTE处理带宽),可提供100 GFLOPS DP 每核的浮点处理能力,这样的处理能力在2011年也属主流(需要6到8个核心才能达到),组建其性能之强悍。遗憾的是由于种种原因,采用超前设计的EV8和EV9并没有得到量产。

    在90年代后期,我国成功地引进了Alpha架构,构架了数个以Alpha为核心的庞大系统,并从Compaq和DEC公司取得了Digital / Tru64 Linux和相关软件栈的全权许可(包括所有源代码)。推进了自主研发Alpha架构处理器的进程。经过数十年的努力(三代处理器),江南计算所推出的神威SW-3处理器——自定制Alpha处理器,并用于装配超大规模Petaflop级超级计算机神威蓝光MPP。而长达一年的测试实验证明了其作为超算专用处理器的资质。

    SW3 aka SW1600是一款16核,64位RISC指令集处理器,而每个核心都是21164A EV56加强版(加入向量浮点处理单元,主频范围为1到1.1GHz,制程为65nm)在标准情况(主频1.1GHz)下,处理器浮点处理性能可达141 GFLOPs DP。装配在蓝光超级计算机上的处理器频率为925MHz,配置有四通道128位DDR3内存控制器(可提供68GB/s的内存带宽,相当于8通道DDR3-1066服务器内存带宽)。Cache方面,继承了21164的Cache设计,一级Cache为2 X 8KB,二级Cache为 96KB构成了低延迟缓存系统,其中一级缓存的延迟仅为2个时钟周期。向量处理单元方面,拥有类似AVX设置,如果将频率设置为1GHz,每个核将可以提供8 GFLOPs DP的处理能力,而整个芯片功耗仅为40W左右。

    看看神威蓝光超级计算机,它配置了8704个神威SW1600处理器(其中用8575个在975MHz下运行了Top100 bench测试程序)组成了34个超级节点(每个由256个节点组成),150TB内存,2PB硬盘,性能可达1.07 PFLOPS,持续处理能力可达796 TFLOPS,效率达74.3%,峰值功率为1074KW。

    神威处理器的未来发展有几种可能性,第一种,继续已经长时间停滞的Alpha架构研发,包括8发射核心(不管是顺序还是乱序执行),更快每核浮点处理单元以及最新的Cache和内存架构的加入。第二种,对现有的核心进行有效的改进,比如增加单芯片核心数量,提升主频或增加向量处理单元位宽和内存带宽(这种改进与Intel的 Knights Corner加速器比较类似)。还有就是设计出片上Teraflop处理器。但它们的实现都需要制程的支持,必须将现有制程提升到32nm甚至28nm(龙芯处理器3B也需要制程提升)。
..................................
移动类消费电子,短期之内是别想了,龙芯根本没做这方面的长远规划。
中华土鸡 发表于 2012-2-2 09:52
移动类消费电子,短期之内是别想了,龙芯根本没做这方面的长远规划。

原址最后面内容是一堆ARM授权企业的消费类电子产品芯片,钱途远大。
绿林奸汉 发表于 2012-2-2 09:47
源文章还有“神威”的内容:

..................................

这位作者怎么不把这篇Chinese high end CPUs are now in the game - details: Part 2, Alpha文章翻译完全啊;P
http://vr-zone.com/articles/chinese-high-end-cpus-are-now-in-the-game--details--part-2-alpha/14347.html


每核96KB的L2?{:soso_e120:}
看看版图,96k的sram会占这么多地方?
1600是SW-2系列中的一个型号,而非SW-3
3C的缓存方面已经改变了
绿林奸汉 发表于 2012-2-2 09:59
原址最后面内容是一堆ARM授权企业的消费类电子产品芯片,钱途远大。
我了解到的龙芯SOC,基本都是做工控的外围电路/IP设计。
消费电子他们想进,但因为缺乏产业渠道(主要是没有人愿意等和配合他们的SOC,大家都是赚快钱倒现金流的主,龙芯消费电子在规划,到实际产品还有12-18个月,而且其中还有技术风险,陪龙芯玩必须要准备先亏5000万),而停留在口头上。
因为没有大客户准备产品化买单,龙芯自己也不敢上(其实他不清楚一线的具体需求)。开颗芯片他自己也要先准备3000万以上,没有下游渠道配合,开出来就死,所以也就不敢进。

我也在观察,看看龙芯怎么打下这个局。

其实不是ARM没什么问题。mips跑Android挺好的。当然龙芯芯片现在价格在消费领域没优势。
龙芯进电视机了,海尔,海信。。。。。。。。。。。
破落户 发表于 2012-2-2 14:54
龙芯进电视机了,海尔,海信。。。。。。。。。。。
能把专业领域的芯片搞好也够吃饭了
整个电子产业链那么长,机会多多
何必非得盯着桌面,移动终端
破落户 发表于 2012-2-2 14:54
龙芯进电视机了,海尔,海信。。。。。。。。。。。
海尔海信哪个智能电视用了龙芯?
长见识了
用柳传志的说法,搭班子、定战略、带队伍。
班子不对。胡只是个搞科研的,完全没有商业的经验,也没有意识。但龙芯的市场却差不多是变化最迅猛的。
战略没有或者错误。
总的来说龙芯长期基本是搞课题的模式。为搞课题而研究,没有清楚的方向,战略。

柳传志说,先有人,这是必要条件。现在来说,龙芯应该还是没有人。
说龙芯没钱不敢上什么,但是 龙芯却有钱去大盖房子。变成一个房地产项目了。这样糟蹋钱的人该追究法律责任。