《中国计算机报》: 龙芯3二代8核心处理器已开始流片!

来源:百度文库 编辑:超级军网 时间:2024/04/29 07:46:51
本报独家访谈: 冲向千万亿次 曙光6000已在研制中

国家智能计算机研究开发中心 张佩珩

设计曙光系列高性能计算机是中科院计算所的看家本领,其10个研究实体之一——高性能计算机研究中心的任务就是研究和开发高性能计算机.从最早的李国杰院士亲自参与设计的曙光1号,到后来的曙光1000、曙光2000-I、曙光2000-II、曙光3000、曙光4000,直到此次冲进 Top500的曙光5000A,中科院计算所始终提供着最为重要的技术支撑.

2006年10月,中科院计算所作为承制单位递交可行性报告,开始研制曙光5000A.这台由科技部立项的高性能计算机被定义为百万亿次高效能系统.它融入了多项计算所自主创新技术,如体系结构、主板、计算刀片、系统管理以及散热设计等技术,最终形成了高性能、高效能、高密度、高可靠性、低功耗、低价格的的技术特征.

曙光5000A的单计算节点还衍生出了PHPC,融入降噪设计的单节点成为可以被广泛用于办公室等环境的个人高性能计算机.

研制一代的同时还要预研一代,本着这样的设计原则和渐进式发展路线,曙光5000A既在体系结构等方面继承了曙光4000的一些成熟技术特征,同时也进行了一些开创型的全新设计.同时,曙光5000A不仅要完成其本身的设计指标,同时也要承担起为下一代计算机探路的重任.曙光5000A的百万亿次研制工作已经完成,并随即提供给上海超级计算中心使用,而其千万亿次的预研任务也处于最后的调制阶段.

从2009年开始,计算所开始着手被命名为曙光6000的千万亿次高性能计算机的研发工作,预计到2010年研制完成,并计划提供给国家华南超级计算中心.曙光6000将采用计算所自主创新设计的HPP体系结构,H代表了超节点、超并行的意思.提出新的体系结构,就是要把自主研制的国产处理器龙芯引入到曙光系列高性能计算机当中.

直观地说,曙光6000的计算节点在HPP体系结构下是异构的,既有x86处理器,也有龙芯处理器,各司其职.龙芯的指令集与x86指令集不一样,而当前用户应用的应用软件却大多是基于x86指令集的.为了解决用不兼容的指令集来兼容用户的应用软件的问题,该节点用x86处理器来运行操作系统,以实现软件栈兼容,用户的编译和应用提交给x86处理器,再由x86处理器在后台将任务分发给龙芯处理器,用户的使用习惯无须发生任何改变.

曙光6000的发展代表了未来发展的“异构”趋势.曙光4000、曙光5000A,都是同构集群,在更大规模的扩展中,将遭遇越来越多的问题,尤其是能耗问题.异构实现的目标之一就是控制能耗,不会发生能耗伴随性能线性增长的情况.

曙光6000引入龙芯3处理器,除了有自主研制的原因之外,更多的也是考虑它的低功耗:已经开始流片的龙芯3二代产品为8核处理器,而功耗却控制在30瓦左右,这要明显低于主流的x86处理器.处理器的混合使用,就如同给曙光6000引入了混合动力.

http://www.cnbeta.com/articles/76775.htm

http://tech.sina.com.cn/it/2009-02-11/17112813953.shtml本报独家访谈: 冲向千万亿次 曙光6000已在研制中

国家智能计算机研究开发中心 张佩珩

设计曙光系列高性能计算机是中科院计算所的看家本领,其10个研究实体之一——高性能计算机研究中心的任务就是研究和开发高性能计算机.从最早的李国杰院士亲自参与设计的曙光1号,到后来的曙光1000、曙光2000-I、曙光2000-II、曙光3000、曙光4000,直到此次冲进 Top500的曙光5000A,中科院计算所始终提供着最为重要的技术支撑.

2006年10月,中科院计算所作为承制单位递交可行性报告,开始研制曙光5000A.这台由科技部立项的高性能计算机被定义为百万亿次高效能系统.它融入了多项计算所自主创新技术,如体系结构、主板、计算刀片、系统管理以及散热设计等技术,最终形成了高性能、高效能、高密度、高可靠性、低功耗、低价格的的技术特征.

曙光5000A的单计算节点还衍生出了PHPC,融入降噪设计的单节点成为可以被广泛用于办公室等环境的个人高性能计算机.

研制一代的同时还要预研一代,本着这样的设计原则和渐进式发展路线,曙光5000A既在体系结构等方面继承了曙光4000的一些成熟技术特征,同时也进行了一些开创型的全新设计.同时,曙光5000A不仅要完成其本身的设计指标,同时也要承担起为下一代计算机探路的重任.曙光5000A的百万亿次研制工作已经完成,并随即提供给上海超级计算中心使用,而其千万亿次的预研任务也处于最后的调制阶段.

从2009年开始,计算所开始着手被命名为曙光6000的千万亿次高性能计算机的研发工作,预计到2010年研制完成,并计划提供给国家华南超级计算中心.曙光6000将采用计算所自主创新设计的HPP体系结构,H代表了超节点、超并行的意思.提出新的体系结构,就是要把自主研制的国产处理器龙芯引入到曙光系列高性能计算机当中.

直观地说,曙光6000的计算节点在HPP体系结构下是异构的,既有x86处理器,也有龙芯处理器,各司其职.龙芯的指令集与x86指令集不一样,而当前用户应用的应用软件却大多是基于x86指令集的.为了解决用不兼容的指令集来兼容用户的应用软件的问题,该节点用x86处理器来运行操作系统,以实现软件栈兼容,用户的编译和应用提交给x86处理器,再由x86处理器在后台将任务分发给龙芯处理器,用户的使用习惯无须发生任何改变.

曙光6000的发展代表了未来发展的“异构”趋势.曙光4000、曙光5000A,都是同构集群,在更大规模的扩展中,将遭遇越来越多的问题,尤其是能耗问题.异构实现的目标之一就是控制能耗,不会发生能耗伴随性能线性增长的情况.

曙光6000引入龙芯3处理器,除了有自主研制的原因之外,更多的也是考虑它的低功耗:已经开始流片的龙芯3二代产品为8核处理器,而功耗却控制在30瓦左右,这要明显低于主流的x86处理器.处理器的混合使用,就如同给曙光6000引入了混合动力.

http://www.cnbeta.com/articles/76775.htm

http://tech.sina.com.cn/it/2009-02-11/17112813953.shtml
额,好像发错论坛了

请版主帮我转到《航天二炮及新概念武器》区
很好.............:D
是说在x86上用龙芯的编译器编译出兼容龙芯的代码,然后再放到龙芯上跑?
那各种的函数库什么,不也都要重新编译一遍,如果是商业库的话,有源代码么?
原帖由 heavenstar_x 于 2009-2-11 23:34 发表
是说在x86上用龙芯的编译器编译出兼容龙芯的代码,然后再放到龙芯上跑?
那各种的函数库什么,不也都要重新编译一遍,如果是商业库的话,有源代码么?

在x86上编译龙芯的代码没啥问题吧? 大部分函数库也都是代码形式分发的,至少在科研领域是这样的,反正我到现在碰到的需要超级计算机的数值模拟函数库都是开源的,库函数安装到龙芯机器上编译一次就OK,关键看编译器能不能根据cpu优化好了。龙芯现在性价比还是不行,主要用在需要自主的应用上,所以把商业库放到上面跑的机会不多。
什么时候用上自己造的CPU才算真正的国产!
小心翼翼的等待龙芯的好消息。[:a6:]
任何一个商业企业都不会把一个还没有正式完成的东西当产品,曙光5000A还是以AMD平台为主,只给龙芯留了个接口,你到时候出的来东西就试试,出不来也不影响我的进度,反正AMD平台搞定后那个龙芯只是试验性质的东西,至于是否成功都在两可之间
原帖由 heavenstar_x 于 2009-2-11 23:34 发表
是说在x86上用龙芯的编译器编译出兼容龙芯的代码,然后再放到龙芯上跑?
那各种的函数库什么,不也都要重新编译一遍,如果是商业库的话,有源代码么?


交叉编译么。没啥的。
反正是linux,统统来开源库就行了。
原帖由 freiheit 于 2009-2-12 07:26 发表
小心翼翼的等待龙芯的好消息。[:a6:]


2001年的mips 8核就商业化了。
]]
[已通过安全检测]RISING.ANTIVIRUS.Personal.Edition.2008.Retail
[病毒库发布日期]2008-11-04
[已通过安装测试]Windows XP Professional + Service Pack 3
共享服务时间:通常随机
共享服务器:通常Razorback 3.1/Razorback 3.0
软件版权归原作者及原软件公司所有 请遵循GPL授权协议使用


SPARC

Sun UltraSPARC II处理器

SPARC,全称为“可扩充处理器架构”(Scalable ProcessorARChitecture),是RISC微处理器架构之一。它最早于1985年由升阳电脑所设计,也是SPARC国际公司的注册商标之一。这家公司于1989年成立,其目的是向外界推广SPARC,以及为该架构进行符合性测试。此外该公司为了扩阔SPARC设计的生态系统,SPARC国际也把标准开放,并授权予多间生产商采用,包括德州仪器、Cypress半导体、富士通等。由于SPARC架构也对外完全开放,因此也出现了完全开放原始码的LEON处理器,这款处理器以VHDL语言写成,并采用LGPL授权。

SPARC架构原设计给工作站使用,及后应用在升阳、富士通等制造的大型SMP服务器上。而升阳开发的Solaris操作系统也是为SPARC设计的系统之一,除Solaris外,NeXTSTEP、Linux、FreeBSD、OpenBSD及NetBSD系统也提供SPARC版本。

现时最新版本的SPARC为第8及第9版,在2005年12月,升阳方面宣布其UltraSPARC T1处理器将采用开放原始码方式。



开源CPU--OpenSparc T1简介 FPGA级别

2006年3月,Sun宣布开源化其多核心UltraSparc T1 CPU的处理器设计,采用的是GNU通用公共许可证(GNU GPLlicense)。之前Sun已经公开了"Hypervisor"API规范,允许各公司将Linux、BSD及其他操作系统移植到UltraSparc T1平台。

Sun是业界首家将复杂的硬件设计使用GNU GPL许可进行发布的公司,而此举也将为UltraSparc T1处理器增加曝光度,并吸引开发人员为该平台开发软硬件解决方案。

该硬件设计的开源发布包括64-bit UltraSparcT1的Verilog硬件描述语言源代码,验证套装和模拟模型,ISA规范及Solaris 10OS虚拟镜像。T1处理器的代号为“Niagara”,于去年发布并应用于Sun的T1000/T2000服务器中。Sun目前推出了4、6、8核心的CPU版本,且每核心最多支持4线程,即总共最多32线程。T1基于SparcV9架构,每核心集成16KB指令缓存和8KB主数据缓存,整个处理器共享3MB L2缓存。“OpenSparcT1”芯片设计,验证套装,架构和性能模型工具已经发布在http://www.opensparc.net网站。Sun还发布了“CoolTools”,其中包括优化多线程CPU性能的各种程序以及CMT编程及描绘工具。
OpenSparc T1处理器的主要特征包括:
8个Sparc V9处理核心,每核心4线程,共计32线程
每处理核心16KB一级指令缓存,共128KB;

每处理核心8KB一级数据缓存,共64KB;

3MB二级缓存,4-way bank,12向关联,各核心共享;

4个DDR2内存控制器,每通道位宽144bit,总带宽峰值25GB/s;

IEEE754兼容浮点单元(FPU),各核心共享;

J-Bus输入输出接口,峰值带宽2.56GB/s,128bit多元地址/数据复用总线。



UltraSPARC T1



Sun UltraSPARC T2解析



新一代的UltraSPARC T2处理器带有8个核心,可以同时处理64个线程。T2的产品代号Niagra2,不仅将应用在SUN自己的服务器上,还可能放在机顶盒、路由器等设备中。目前处理器由TI负责制造,采用SoC设计,带有2个以太网接口,1个PCIe×8接口和4个双通道FBDIMM内存控制器,整个处理器带有5.03亿个晶体管,核心大小342平方毫米,目前共推出1.2GHz与1.4GHz两种频率,在1.4GHz主频的电压为1.1伏,工作频率上功耗85W。




UltraSPARC T2设计蓝图

65纳米技术更节能

  SUN已经成功将90纳米的制作工艺成功转制成65纳米工艺,这样意味着在同样面积的芯片上可以放入更多的模块。此外,T2还使用了其具有革命性的酷线程(CoolThreads?)芯片多线程技术(CMT)扩展到每线程功耗低于2瓦的UltraSPARCT2处理器。换句话说,拥有这项技术后,SUN的产品功耗将是竞争对手的十分之一或三十分之一。因此我们将看到业界功耗最低、8个内核、64个线程、4倍的吞吐量及网络和安全的功能性于一身的产品。


芯片特点
处理器         八核心 工作主频在900MHz – 1.4GHz
支持64线程
支持64 FB-DIMMs, 4个内存控制器
内存带宽         60+GB/S
功耗         标准95W或最高123W
其他特点         8个浮点运算单元(FPUs)
双10Gbit以太网接口和PCI-E支持
4MB二级缓存 (8 banks)



每核心1个安全协处理器
核心特点
核心特征         大小:12 mm2
8线程
2条指令管线 + 1个浮点计算 + 1个密码加速单元
8KB 数据缓存+ 16KB 指令缓存
其他应用
其他应用         单插槽的机架或刀片服务器
WiMAX 无线
3G/4G
网络基础构架


性能翻倍,新一代架构有突破

  UltraSPARCT2处理器将单一芯片上集成的系统功能提升到空前水平,在性能方面也是T1的两倍。这首先要得益于它较高的吞吐量处理器能力,在SPECint_rate2006和SPECfp_rate2006的测试中,这两项成绩分别是78.3 est和62.3est,这主要得益于该处理器的8核和每核8线程的设计特色。在网络连接方面,该处理器支持两个可虚拟化的多线程的每秒10千兆比特的以太网端口,也就是万兆以太网接口,并具有内建的包分类功能。在安全方面,8个密码加速单元,一共有10个独立的功能,可满足不断增长的安全需求,包括由NSA批准的算法,在性能上也没有任何损失。

 除此之外,在计算方面8个浮点单元,SUN将CMT的技术优势扩展到了高性能计算领域,适用于各类科学应用,创立了单芯片 SPECfp_rate2006世界记录和单芯片,有8条通道的输入输出接口可以满足行业标准PCI ExpressI/O高速应用,如流媒体、数据库读/写,以及数据备份等。4个内存控制器,提供了每秒50千兆字节以上的内存访存速度。

以下表格中公布的是UltraSPARC T2单处理器的性能测试结果:

           SPECint_rate2006          SPECfp_rate2006
1.4GHz Sun UltraSPARC T2          148%          134%
4.7GHz IBM POWER 6          115%          125%
2.66GHz Intel X5355          100%          100%

开源让更多用户受益

  UltraSparc T2也将和UltraSparc T1一样采用开放原始码授权,到目前为止,OpenSPARCT1源码的下载已经超过5,500次。现在Sun正准备将UltraSPARCT2的源码在www.opensparc.net上向OpenSPARC社团发布。并且提供了程序员参考手册、微架构技术规范、OpenSPARCT2β版评估项目等一系列措施,其中程序员参考手册里提供了软件端口、操作系统端口,以及加快OpenSPARCT2项目进展的应用工具。微架构技术规范里提供了对OpenSPARC T2硬件模块特性和功能的详细描述。OpenSPARCT2β版评估项目为一定数量的硬件设计人员和工具开发人员提供早期试用版,让他们开始使用具有片上系统功能性的最新CMT技术。该项目将促进OpenSPARC T2社团的发展,加快调试过程,以获得性能更佳的OpenSPARCT2的第一个版本,配合具有海量线程特性的Solaris操作系统使高线程处理器UltraSPARCT2的技术优势得到充分发挥,拥有开放的、低成本的虚拟化功能。


OpenSPARC Internals



Thisbook is intended as a "getting started" companion to both OpenSPARC T1and OpenSPARC T2. Now that Sun has open-sourced OpenSPARC T1 and T2,what can they be used for? One thing is certain: the real-world uses towhich OpenSPARC will be put will be infinitely more diverse andinteresting than anything that could be suggested in this book!OpenSPARC Internals was largely written by the team of OpenSPARCdesigners, developers, and programmers to acquaint readers withOpenSPARC and to guide users as they develop their own OpenSPARCdesigns. Here are some highlights of the book:
How to customize and use OpenSPARC
How to start using OpenSPARC code
How to make basic changes including
configuring number of cores or threads
paring to a smaller size
fitting on an FPGA
adding extensions
How to set up
simulation environment
emulation environment
How to verify an OpenSPARC design

OpenSPARC Internals
Edited by David Weaver
Published by Sun Microsytems, Inc.
369 pages
First printing, October 2008
ISBN 978-0-557-01974-8
What are they saying about OpenSPARC Internals?

"Thecoverage is extremely broad and deep, from the basics of the OpenSPARCarchitecture, the rationale for throughput optimized microprocessordesign, and the microarchitecture of the T1 and T2 implementations to aroadmap for using the T1 and T2 design database and design verificationsuites."
Kunle Olukotun
Stanford University
Professor, Electrical Engineering & Computer Science
Founder, Afara Websystems
Director, Pervasive Parallelism Lab


"OpenSPARCInternals provides an in-depth explanation of UltraSPARC T1/T2 internalarchitecture. It also serves as a detailed reference for guiding theimplementation of a chip multithreaded microprocessor or thedevelopment of a SoC based application system. This book plays asignificant role in helping promote not only the application ofUltraSPARC T1/T2 but also the research and development of a chipmultithreaded microprocessor as well as its applications."
Dongsheng Wang, Ph.D.
Tsinghua University, Beijing, China
Professor, Dept. of Computer Science
Director of Microprocessor and SoC Center


"Likethe open-source OpenSPARC T1 and T2 projects, OpenSPARC Internalsdelivers a comprehensive package. The book tells a complete storybehind Sun's current flagship chip-multithreaded (CMT) processors-fromthe design theories and internals to the development tools andmethodologies. The book is especially indispensable to anyoneinterested in uncovering ways to take advantage of the open-sourceOpenSPARC projects."
James C. Hoe
Carnegie Mellon University
Associate Professor, Electrical & Computer Engineering


"Thisbook provides a wealth of practical tips for getting started usingOpenSPARC, and OpenSPARC provides a great design to take full advantageof modern FPGAs."
Ivo Bolsens Chief Technology Officer, Xilinx Corporation
这年头,装B要被雷劈,
龙芯作为教学模型还差不多,产业话还差10年
我只知道最近一向是打脸党盛行

虽然一向对龙芯谨慎悲观,不过还是想知道见人挑担者有没兴趣自己去挑挑看
核心特点
核心特征         大小:12 mm2
8线程
2条指令管线 + 1个浮点计算 + 1个密码加速单元
8KB 数据缓存+ 16KB 指令缓存

单个 core比较的话,T2的core似乎比酷睿的core弱不少啊 ?
好,祝流片成功!
原帖由 qnxchina 于 2009-2-12 08:11 发表
这年头,装B要被雷劈,
龙芯作为教学模型还差不多,产业话还差10年

--------------------------------------------------------------
又在这里做外国厂商的代言人,打击民族产业的发展了!!

试问什么东西离开了产业能生存的??

支持民族产业---龙芯!:@
不要想着龙芯一步登天。

说句实话,现在龙芯就是赔钱货。

但必须有,它的作用就是使用有限的资源,逐步跟上主流处理器。

当国家需要时,不会措手不及而已
原帖由 qnxchina 于 2009-2-12 08:11 发表
这年头,装B要被雷劈,
龙芯作为教学模型还差不多,产业话还差10年

其实那帮人能做到现在这个样子已经不容易了,当然他们还是沉不住气,至少要坐5年冷板凳
原帖由 killerop24 于 2009-2-12 12:21 发表

--------------------------------------------------------------
又在这里做外国厂商的代言人,打击民族产业的发展了!!

试问什么东西离开了产业能生存的??

支持民族产业---龙芯!:@

再过几年龙芯没准真能成为产量很大的cpu 看现在世界半导体业这个惨样 摩尔定律也快到头了 再过10来年 全世界的厂子生产的cpu都不会有太大的性能差别 就跟80年代的收音机 90年代的彩色电视机一样 然后中国厂商一统江湖
要争 核高基 这块超级大肥肉 ,不提前放点卫星出来怎么行?;P
我只想知道,这东西能放在微机上,能玩魔兽不。。[:a3:]
弱弱的问一下:文中说的是龙芯3二代,那么龙芯3一代是啥东东?:L
龙芯3一代四核,二代八核。
原帖由 gfish 于 2009-2-12 09:29 发表
核心特点
核心特征         大小:12 mm2
8线程
2条指令管线 + 1个浮点计算 + 1个密码加速单元
8KB 数据缓存+ 16KB 指令缓存

单个 core比较的话,T2的core似乎比酷睿的core弱不少啊 ?


别忘了指令效能不一样,全看设计,要实际测试才能得结论,安腾从表面看起来也狠差劲
原帖由 killerop24 于 2009-2-12 12:21 发表

--------------------------------------------------------------
又在这里做外国厂商的代言人,打击民族产业的发展了!!

试问什么东西离开了产业能生存的??

支持民族产业---龙芯!:@


俺们支持VIA,谁说TW不是TG一部分请自动去喝茶:victory:


:victory:
原帖由 inthebreeze 于 2009-2-12 12:36 发表

其实那帮人能做到现在这个样子已经不容易了,当然他们还是沉不住气,至少要坐5年冷板凳

桃老大啊,俺们当年学FPGA就已经头疼的厉害了,因此自然知道这行业不好做,一个刚入门的新人前5年都是在打基础
可这帮人太过浮躁了,不得不给予狠狠打击;P
;P
原帖由 TripleX 于 2009-2-12 13:52 发表

再过几年龙芯没准真能成为产量很大的cpu 看现在世界半导体业这个惨样 摩尔定律也快到头了 再过10来年 全世界的厂子生产的cpu都不会有太大的性能差别 就跟80年代的收音机 90年代的彩色电视机一样 然后中国厂商一统江 ...


再过20年,人家开始用生物计算机了,

PS:现在已经开始初见曙光了,
就问一句,和我380买的AND双核5000比强多少
原帖由 inthebreeze 于 2009-2-12 12:36 发表

其实那帮人能做到现在这个样子已经不容易了,当然他们还是沉不住气,至少要坐5年冷板凳


龙芯研制组听到了,一定会感叹,“知音”啦。
       作为观众支持一下,希望龙芯超算如期问世
看样子制造CPU比设计CPU难多了 TG应该加强精密制造业
支持龙心,这个必须要有.没有老美不卖CPU就完了.
威盛不行要给INTEL付专利费.
无论WW怎么唱衰,我们都要坚定支持龙心.
原帖由 qnxchina 于 2009-2-12 21:16 发表


别忘了指令效能不一样,全看设计,要实际测试才能得结论,安腾从表面看起来也狠差劲

以现在的技术水平来说,两管线的core和四发射的core,只靠软件很难扳平差距吧?况且运行频率上还差了不少呢。。
原帖由 yzlft 于 2009-2-13 00:07 发表
支持龙心,这个必须要有.没有老美不卖CPU就完了.
威盛不行要给INTEL付专利费.
无论WW怎么唱衰,我们都要坚定支持龙心.


国内的确需要自己能做CPU
但龙新基本是个忽悠。
原帖由 qnxchina 于 2009-2-12 21:16 发表


别忘了指令效能不一样,全看设计,要实际测试才能得结论,安腾从表面看起来也狠差劲


VLIW跟动态执行差好多的。
龙新哪有那么大差别。
原帖由 cncok 于 2009-2-12 23:15 发表
看样子制造CPU比设计CPU难多了 TG应该加强精密制造业

扯~都一樣有難點 每個東西的每個環節都很重要
原帖由 thomasyoung 于 2009-2-13 02:19 发表


国内的确需要自己能做CPU
但龙新基本是个忽悠。

-----------------------------------
反正不用依据,你怎么不说INTEL是个忽悠啊??:@ :@ :@
原帖由 qnxchina 于 2009-2-12 21:17 发表


俺们支持VIA,谁说TW不是TG一部分请自动去喝茶:victory:


:victory:

靠VIA?????哈哈,VIA先是用钱买外国的CPU研发机构才有CPU,而且还是个WW,和台军,台毒有联系!!

大陆可不需要这样的!!
原帖由 qnxchina 于 2009-2-12 21:21 发表


再过20年,人家开始用生物计算机了,

PS:现在已经开始初见曙光了,

-------------------------------------------
建议WW立刻去研究外星技术,马上地球人的技术都要被淘汰了,WW领先地球一步!!;P ;P ;P