龙芯3的结构与大致性能 [图]

来源:百度文库 编辑:超级军网 时间:2024/03/29 06:56:36
龙芯3四核心物理布局图








龙芯3 四核心结构图


龙芯3 八核心结构图






部分兼容X86


大致性能
龙芯3四核心物理布局图








龙芯3 四核心结构图


龙芯3 八核心结构图






部分兼容X86


大致性能


MS WINDOWS:系统级虚拟
X86版本LINUX:处理器级虚拟

这两个有什么不同?
Process 不是处理器,是进程。


原帖由 jbyyy 于 2008-9-4 23:30 发表


MS WINDOWS:系统级虚拟
X86版本LINUX:处理器级虚拟

这两个有什么不同?
哦,对,是进程:b


MS WINDOWS :系统级虚拟
X86版本LINUX  :进程级虚拟
这玩意的PCIE是什么意思?
看了这个东西只能说社会主义好,可以花钱让胡搞这种“创新”,反正失败了无人负责,就当“交了学费”。
原帖由 happywar 于 2008-9-4 23:42 发表
这玩意的PCIE是什么意思?


就是PCIE总线
原帖由 暗夜流星 于 2008-9-4 23:44 发表
看了这个东西只能说社会主义好,可以花钱让胡搞这种“创新”,反正失败了无人负责,就当“交了学费”。


什么是“胡搞”?
莫名其妙

网络就是好,无知者胡说也不知道脸红
随你说了,反正我不会无知到 Process 是进程都不知道。

原帖由 jbyyy 于 2008-9-4 23:46 发表


什么是“胡搞”?
莫名其妙

网络就是好,无知者胡说也不知道脸红
另外胡说的,CPU+GPU中的GPU是不是就是那个所谓的“MPC”(或者是一种改进?)。
胡WW性胡,所以他搞的东西呢,就是“胡搞的”,要是分词呢,应该是“胡 搞的”,不是某些人理解的“胡搞 的”,如果是他说的,就是“胡 说的”,汉字就是这么奇妙,请不要误解。
年底出来,具体的性能就知道了!!!:D :D
]]
PCI-E总线我记得也要花钱的吧,有专利的好像。

希望这次不会习惯性的跳票

对于GS3内部的GStera ,也就是那个Reconfigurable Processor,凭记忆画了一个,不知道画没画对?




关于RF的结构:

那个1024*64我臆测了一下,最开始我认为会提供1Kbit*64Entry这种结构,但是这无法解释为什么会有4R。当然,有一种可能就是AXI Bus那边还需要W/R Port,以保证Streaming。还有另外一种可能,就是1K Entry* 64bit,但是会导致Delay会过大,如果想保持Frequency,那么需要增加Pipeline的长度。

其实1K Entry* 64bit也是完全可能的。毕竟如果当DSP用,这就是一个Streaming Processor,Pipeline仅仅增加几个Stage也不会产生致命的缺陷。

所以,我认为1Kbit*64Entry和1K Entry* 64bit者都是完全可能的,但是对在峰值上的贡献来说,所以经过几次考虑后,我还是更倾向1Kbit*64Entry。虽然可利用调度的Reg数量减少,但是可以Vector的ALU增加,即峰值增加,这很符合这个Unit的Tera的名字。(根据讨论结果再修改这张图)




关于Crossbar对Pipeline的影响:

我感觉像DSP,我记得PPT描述,ALU+RF的结构总计有16套,我不认为这个东西可以Multithreading,但是对于FFT类似的运算可能会和强大,因为有一个Crossbar。这东西相当的专用,理论上Crossbar的Net Delay肯定不小,实际中,考虑可能会用Switch来做,会增加Pipeline Stage的个数,但是靠虑到DSP的需求,SW是可以容忍的。

既然是DSP嘛,那也就可以很轻易的解释为什么Mesh Network的每一个Node上都会有DMA,一般的应用我认为是不需要这个东西的。不知道这个DMA是不是可以直接写RF?同时也就意味着,可能会有一些Cache Inst?




关于R/W Port :

关于4R4W,感觉有些夸张,像这种东西,都做2R1W我认为比较合适。就算不考虑Delay,但是Die Area也是不容忽视的,所以RW Port不能做太多。当然,这里RW Port多也是有原因的

4W能够理解,因为Crossbar会传输过来其他ALU的写回数据,并且AXI Bus方面也会读写数据。

但是4R呢?如果有MAD Inst的话,那需要3R,如果普通二元指令的话,只需要2R,4R是怎么回事?而且我认为MAC指令会比MAD指令用得更为广泛,毕竟MAD还有RAW Dependency,MAC可以通过在Arch上的设计隐藏掉这个缺点。对于DSP来的Streaming特性来说,同样可以达到不错的效果,但仅仅需要2R,代价是增加一个ACC Reg。但是这并没有完全解释为什么这里会是4R?




关于Peak Performance :

无论怎么样,如果使用了1Kbit*64Entry,那么一个GStera Unit就会拥有256个可以运算Float64的ALU。假如说Frenquency可以做到1Ghz,那么就意味着峰值性能是 256*1G*3=768Gflops。如果按照Diagram上,有两个Gstera的话,那么就意味着,拥有1.536Tflops。再看看这个Gstera的名字,所以我认为,还是1Kbit*64Entry更靠普。而且可以放心大胆地设置MAD Inst。




关于 Inst Format:

还有一点,ALU怎么接受Inst?我是这样想的,考虑到Parallel的需求和Ti的67XX的先例,每组ALU内部我相信是一个16 way Vector的结构,而每组ALU之间,我相信是一个16 way VLIW的结构。之前就有传闻说计算所有的哥们磨拳擦掌要搞VLIW。不知近日是否得以应验。呵呵。




关于Application:

但是,对于Graphics来说,我认为这个Arch无济于事。和LRB和G100都相差太远。和R700有点像形似,不过离神似还差十万八千里。还是做Server吧。





总结:

最后,我的评价就是 ,(没贬义,只是考虑到实际情况 :> )
首先,从工程角度上来说,这东西大头在SW,Arch这边比较容易做
其次,从国家项目角度上来说,反正甭管好不好用,反正峰值我是做上去了,并且也好向973 863什么的交差,
最后,从商业角度上来说,我考,可是“片上万亿次”,轰炸性的猛料!~~~ 方便以后为“创造了XXX世界领先”的市场宣传打猛药,包括配合曙光那边。以及方便粉青再Desktop上面拿这个东西呢Core之类的Intel处理器比速度,从而体现X86和Intel就是一个猪的结论。当然,这东西是能够为VM机制下的SSE实现提供强有力的加速的,这点不容忽视。



不过总的来说,还是不错的,总算给龙芯露了回脸!其他兄弟们多多斟酌.......懂得不懂得都讨论讨论:>




PS:龙芯的哥们在美国都能回答洋人的各种问题,咱们国内的是不是也照顾照顾??不是老胡从前说过,他最讨厌那种”胁洋自重”的人么


:〉

                                                               
_____________                                             __________
|             |                         ________          |          |
|             |----------------------〉|        |         |          |
|             |                        | 1K bit |         |          |
|             |       _______          |*64Entry|         |          |
|             |      | 64bit |         |        |         |          |
|             |      |  *16  |         |   RAM  | <------>|          |
|             | <--- |  ALU  |<------  | (4R4W) |         |          |
|             |      |_______|         |________|         |          |
|             |                                           |          |
|             |                         ________          |          |
|             |----------------------〉|        |         |          |
|             |                        | 1K bit |         |          |
|             |       _______          |*64Entry|         |          |
|             |      | 64bit |         |        |         |          |
|             |      |  *16  |         |   RAM  | <------>|          |
|             | <--- |  ALU  |<------  | (4R4W) |         |          |
|             |      |_______|         |________|         |          |
|             |                                           |          |
|             |                                           |          |
|             |                         ________          |          |
|             |----------------------〉|        |         |          |
|             |                        | 1K bit |         |          |
|             |       _______          |*64Entry|         |          |
|             |      | 64bit |         |        |         |          |
|             |      |  *16  |         |   RAM  | <------>|          |
|             | <--- |  ALU  |<------  | (4R4W) |         |          |
|             |      |_______|         |________|         |          |
|             |                                           |          |
|             |                                           |          |
|             |          ·                ·             |          |
|             |          ·                ·             |          |
|             |          ·                ·             |          |  
|             |          ·                ·             |          |   
|  Crossbar   |          ·                ·             |   AXI    |    ________
|             |          ·                ·             | Crossbar |<->|  DMA   |   
|             |          ·                ·             | To  L2$  |   |________|
|             |          ·                ·             |          |     
|             |          ·                ·             |          |   
|             |          ·                ·             |          |   
|             |          ·                ·             |          |   
|             |          ·                ·             |          |   
|             |          ·                ·             |          |   
|             |                         ________          |          |
|             |----------------------〉|        |         |          |
|             |                        | 1K bit |         |          |
|             |       _______          |*64Entry|         |          |
|             |      | 64bit |         |        |         |          |
|             |      |  *16  |         |   RAM  | <------>|          |
|             | <--- |  ALU  |<------  | (4R4W) |         |          |
|             |      |_______|         |________|         |          |
|             |                                           |          |
|             |                                           |          |
|_____________|                                           |__________|



最后,以上仅代表我个人意见,分析错了的话,尽管拍吧,古人云“召闻道,夕可死”。所以,希望兄弟们不要手下留情!!!!
两者结构类似,如果除了龙3项目之外,还有一个所谓的GPU在独立研制的话,我只能说如果能达到他们吹嘘的性能,那龙芯项目组的成员个个都是神仙。

原帖由 175799022 于 2008-9-5 00:13 发表

=====MP好像是专用CPU的意思吧!!!GPU完全两码事!!!:L :LCPU+GPU目前只在龙芯2项目里面才有!!!
]]
如果要搞桌面万亿次何必这么麻烦,直接焊一堆FPGA好了,国外不是没有人这么干过,那个灵活性说实话还要高些。
反正“大头在SW”么。



原帖由 175799022 于 2008-9-5 00:38 发表
来听听其他网站上网友的关点!!!


对于GS3内部的GStera ,也就是那个Reconfigurable Processor,凭记忆画了一个,不知道画没画对?




关于RF的结构:

那个1024*64我臆测了一下,最开始我认为会提供 ...
看看水木清华的人怎么评价徐志伟老师在HotChip上的报告

http://www.newsmth.net/bbstcon.php?board=CSArch&gid=34939
]]
]]
这是你转贴的吧。

原帖由 175799022 于 2008-9-5 00:58 发表
PPT呈请了三点疑问,

首先,Reconfigurable 不是指Arch而是指Algorithm。

其次,RF是1Kbit*64Entry,不然打死我也不信能干到1Ghz,从而解释了4R是为了AXI(DMA) read和MAD read准备的。

最后,DMA直接可以写 ...
原帖由 暗夜流星 于 2008-9-5 01:02 发表
这是你转贴的吧。



======是的!!!
看来GS3是个雄心勃勃的计划,Network on Chip Based Heterogeneous Reconfigurable Architecture,NB大了!!

好像我看到X86的支持是BT的?那倒是不会涉及专利问题。不过看样子Mesh的确是用HT搭的。赫赫不错,NB。以后有机会学习学习

====================================================================
过去intel如此
从龙芯又一次很遗憾的让人看到
一个芯片稳定后微结构就不会有什么改变
只有在系统结构上做文章了
sigh...

其实我倒觉得继续优化微结构
把主频拼上1.5G
还是有可能的...
====================================================================
transmeta是怎么解决专利问题的?
=====================================================================transmeta是软件翻译所以应该没有问题
=====================================================================计算所不是专门有个BT组么,是那边的成果么? 那边的BT应该是是基于SW的……

对于ISA的专利我还是没搞明白,那假如说,我的Decoder用的是CAM那种结构呢?就好像TLB那样,不过开机启动的时候还是跑Mips,然后Bios把所有的X86所需要的Decode信息都输入到这个CAM中,每次Decoder的时候做一个查找。如果Entey比较多的Cam会慢,那就弄一个Level N Cache的那种层次化结构,等等……。这就不会侵犯专利了吧?

就算还是专利,那也可以使用比较流氓的招数。说,“我们本身不提供X86的硬件解码,我们出厂的时候CAM是空的,但是客户非要把我们做研究用的X86 Decode Table写道这个CAM里面去,我们也没办法。”呵呵。有点类似专用的FPGA,没配置前啥也不是,配置以后立马变身为X86 GS 。哈哈

=====================================================================我觉得这涉及到了一个核心竞争力的问题,在资源有限的情况下,如何选择市场定位和研发路线。

从企业构架的角度上来说,我觉得IC这边不是计算所的强项,而且很吃钱,不如在Arch上的研究能体现更多的优势。而且如果要是跟大牌公司拼IC的话,我认为计算所有点自不量力。

从市场定位来说,Server会更加具有TLP,从而弱化了对ILP的要求,在Arch几乎相同的情况下,ILP主要是拼IC方面的技术积累,而TLP更多的会体现出Arch的重要。这也是计算所的优势。而且考虑到各个厂商在Manycore上的Roadmap,在加上之前说的有限的资源,我感觉GS3的选择方向我感觉还是对的。但是,如果龙芯那边有个几万人马,我觉得那肯定还是要展开全面攻势的。
=====================================================================你可以参考Intel, AMD 2001年的agreement:
http://contracts.corporate.findl ... nse.2001.01.01.html

1.    DEFINITIONS
1.10. "Integrated Circuit" shall mean an integrated unit comprising
(a) one or more active and/or passive circuit elements associated on one
or more substrates, such unit forming, or contributing to the
formation of, a circuit for performing electrical functions
(including, if provided therewith, housing and/or supporting means)
in combination with (b) any and all firmware, microcode or drivers,
if needed to cause such circuit to perform substantially all of its
intended hardware functionality, whether or not such firmware,
microcode or drivers are shipped with such integrated unit or
installed at a later time.

1.20. "Processor" shall mean any Integrated Circuit or combination of Integrated Circuits capable of processing digital data, such as a microprocessor or coprocessor (including, without limitation, a math coprocessor, graphics coprocessor, or digital signal processor) that is capable of executing a substantial portion of the instruction set of an AMD Processor or an Intel Processor.人家早把你的路堵死了
=====================================================================顺便问个无关的问题,谁对X86的RS的dispatching比较了解的,有没有地方可能有其实实现的细节透露,比如说一个循环,induction variable之间的依赖非常短,所以两个iteration之间可以并行执行,但是这个时候硬件在调度的时候怎么去确定优先级关系(假设操作数和执行单元都是满足的),有没有可能得到一个稳定的从RS出去的流形式(一些X86的模拟器好像都不太行),这样我就可以研究这个调度形式,看看有没有优化的机会。intel有pipetrace,但是外面的人不能用。。有人研究过这个吗?谢谢。。
=====================================================================哈哈,哥们是考我呢把?你们06年夏天以前就应搞定FPGA Verification了,而且是带MMX instructions、 SSE instructions 、 x87 floating-point instructions的那种。到底哪儿会出问题,应该比我清晰把?

我是这么想的,由于X86 Inst Length是可变的,所以在对X86进行Decode前,首先要判断从哪里到哪里才是一条指令,只有这个判断以后才能往Decoder里面送。像最经典的P6,一次可以解码两条简单指令和一条复杂指令(需要更多的Cycle),那么为了跟上这个速度,你要一次送给Decoder的X86 Inst也必须是2条以上,那么如何才能判断一次判断多条Inst的Bit Field呢?

如果我来设计,我认为需要有一个Inst Buffer,他具有部分FIFO机制的特型,放在L1$和Decoder中间,他的Byte长度不得小于两条简单指令的长度或是一条复杂指令的长度,通过实现一个判断指令长度的模块来访问这个Buffer。很显然,第一条指令的长度会很好判断,因为Read Porint的开始位置就是第一条Inst的OPcode,但问题在于第二条、第三条,直到第N条指令的判断必须是顺序的,那么也就是说,只有知道上一条Inst Length,才能判断下一条Inst Length。这会很明显的导致Critical Path。

当然,我也没做过,只是以前偶尔想过这个问题,大牛你帮我斧正吧:>
这个图看出Reconfigurable Architecture + Crossbar + Mesh Network On Chip,相当复杂。老胡原来好像作DSM的,搞Manycore有点应用上的优势吧?

龙芯这回总算给计算所露了回脸。
====================================================================
恩,不错
这也澄清了我的两点疑问:
(1)那个crossbar+mesh只是一个roadmap,2009出的只是一个由crossbar链接的4core,这个还是比较靠谱的。那个crossbar+mesh的64 core,global cache coherency的东西,过于牛了:)
(2)我明白了那个close to x86的意思,他们只是增加了200多条x86的指令,加速软件模拟x86的效率,这样应该不会有x86 license的问题了。
【 在 processor (microarchitecture) 的大作中提到: 】
The biggest change to the third generation Godson is that it’ll become a close relative of the x86 architecture by implementing hardware translation for its - essentially - MIPS core. The new core will have 200 additional instructions to cope with this.


完全兼容x86?
他们怎么搞定Intel的指令集授权?
还有相传x86的指令实现非常tricky,做到完全兼容要花一大番功夫:)
顶一下!!!
外面坛子谈的都是技术问题,这边谈的都是骗银子有产品能卖的出去吗?;P ;P ;P
:L 看不懂,友情支持一下
从龙2的情况看,龙3跳票是肯定的,应该会跳半年左右的时间

还有一个就是4M的L2,以龙芯的情况看,我很难相信他们可以把功耗同时也控制住,龙芯还没做过这么大的L2过,还有缓存的算法不确定龙芯能不能做好
这个也像很点意思!!真要成了也不错!!

VLIW:

(Very Long Instruction Word,超长指令字)一种非常长的指令组合,它把许多条指令连在一起,增加了运算的速度。

超长指令字(VLIW)是指令级并行,超线程(Hyper-Threading)是线程级并行,而多内核则是芯片级并行。这三种方式都是提高并行计算性能的有效途径。其中,VLIW(超长指令字)体系结构是美国Multiflow和Cydrome公司于20世纪80年代设计的体系结构,EPIC体系结构就是从VLIW中衍生出来的。
  VLIW的基本思路是:处理器在一个长指令字中赋予编译程序控制所有功能单元的能力,使得编译程序能够精确地调度在何处执行每个操作、每个寄存器存储器读和每个转移操作。实际上,编译程序创立每个程序的执行记录,计算机则反演该记录。在早期的VLIW计算机中,如果编译程序出错,计算机将产生错误的结果,计算机没有逻辑来检验是否以正确的次序来读寄存器、是否重复使用资源。
  VLIW类计算机在传统上被设计成没有高速缓存,主要处理反复循环、向量化的代码。这些限制意味着内存延迟是固定的,转移方向是在编译时就能预测的。由于在VLIW体系结构中指令并行性和数据移动完全是在编译时规定的,处理器只需简单执行编译程序所产生的记录,因而大大简化了运行时资源的调度。VLIW设计者希望通过开发出能够充分利用VLIW特点的编译,大大缩短程序的指令长度,因而也缩短VLIW目标程序的执行时间。
  IBM 和 HP 均从半途而废的公司购得了此项技术,并开始研究设计其自身的系统。20世纪90年代初期,HP 管理层在全公司范围内开展了一项围绕该技术的为期6个月的评估活动,结果表明,该架构本身要比OoO (Out of Order)速度快2倍,而且还具有高度的可扩展性。IBM后来舍弃了此项技术(ACS项目),取而代之的是RISC的 Power 4 处理器。
目前看来还真的有可能用了国防科大的VLIW DSP!!!!:o :o
VLIW/EPIC的处理器不少,著名的就是Intel的安腾,全美达也是VLIW的,TI的某些DSP也是VLIW的。
指令间的并行并不能无限开发,对于很多应用来说,VLIW的加速性能很有限,而且编译器是难点,不好搞。


原帖由 175799022 于 2008-9-5 14:31 发表
这个也像很点意思!!真要成了也不错!!

VLIW:

(Very Long Instruction Word,超长指令字)一种非常长的指令组合,它把许多条指令连在一起,增加了运算的速度。

超长指令字(VLIW)是指令级并行,超线程(H ...
龙三所谓的“桌面万亿次”不过是堆了768个FPU而已,除了一些极其特殊的应用,没有什么人能同时让这768个FPU同时跑起来。
有人骂这是农民架构,本质上也不错。
如果真的在乎同时进行多少次浮点运算,现在市面上比较好的显卡都有万亿次的能力。
Nvidia的Tesla就是把GPU的能力应用到科学计算上来,在科学研究领域早有应用。
比如中科院的某些机构,运算速度也超过了百万亿次。
-----------------------------------------------------------------------------------
系统型号 自建
应用领域 专用,化工过程
处理器类型 Intel harpertown 2.66G, NV TelsaC870加速卡     
处理器数         252个CPU,200个GPU
节点数 126 
总性能 10万亿次(通用)/127万亿次(含专用,单精度)
内存总量 512GB
磁盘空间 32TB
其它存储容量 无
网络情况         以太网(Mesh+Tree)
操作系统      Linux  
采购时间 2007
采购成本         约500万元
使用率% 70
串行/并行作业比例 10:90
运行费         约100万元/年
楼上,能具体说下那机子用在化工过程的哪个方面不,不会是化工过程控制把....
某些人逢*毕反,就算你说的是对的,也不免有些那个罢,就不怕酸过了头?
老外的说词


China intros Godson-3

Computing for the masses

By Paul Taylor: Thursday, 28 August 2008, 11:03 AM

Click here to find out more!

NOW THAT THE OLYMPICS ARE OVER we can discuss China without the sports angle getting in the way (nice CGI fireworks btw guys). More to the point, we’re talking about the CPU known as Godson.

According to slideware presented by the Chinese Academy of Science’s ICT at the Hot Chips conference this Tuesday, the 3rd generation Godson (aka Dragon aka Loongson) is expected to be ready by 2010 in a bid to create China’s very own petaflop computer. At least that’s the plan.

The new Godson-3 will introduce multi-core to the game. Initially this will consist of four Godson-2 chips bunged together in a general purpose processing unit dubbed the GS464, but there will be multi-purpose cores too (named GStera). The architecture will allow the CPU to mesh with other CPUs (strength in numbers, innit?) each multi-core CPU becoming a node in the mesh, and thus creating a more powerful processing unit, whether they are built on the general purpose GS464 or the GStera. This looks more and more like an all-in-one solution for China’s processing requirements (server, desktop, notebook, CE, etc…). Add a bit here, you get a server; remove a bit there and you get something you can use as a cheap desktop CPU.

The biggest change to the third generation Godson is that it’ll become a close relative of the x86 architecture by implementing hardware translation for its - essentially - MIPS core. The new core will have 200 additional instructions to cope with this.

Godson-3 will also jump onto the 4-core bandwagon, later moving on to an 8-core design. The processors will clock in at 1GHz and later 1.2GHz and have an integrated DDR2 controller. No info on L2 cache, but you could read into the fact that these are four Godson-2s rolled into one and guesstimate the same 512KB of L2 cache per core as the predecessor. Expected TDP is 10W for the 4-core design and 20W for the 8-core design.

ST Microelectronics is fabbing the chip on a 65nm process and prototypes should be up and running by this year’s end. ST Micro will also market the product.

A sidenote in all this, the Godson 2G and 2H were also announced, and these will improve on the original Godson-2 design by integrating the graphics chip (2G) and integrating everything and creating a SoC (2H), respectively.

There’s something that the ICT will have to work out though: their chipsets were supplied by VIA and VIA has announced pulling out of 3rd party chipsets altogether. This means that, although the 2H is a self-contained SoC design with both northbridge and southbridge rolled in one, the Godson-3 will still require some kind of chipset, won’t it?

Unless of course VIA continues to supply chipsets under license.
原帖由 暗夜流星 于 2008-9-5 18:08 发表
龙三所谓的“桌面万亿次”不过是堆了768个FPU而已,除了一些极其特殊的应用,没有什么人能同时让这768个FPU同时跑起来。
有人骂这是农民架构,本质上也不错。
如果真的在乎同时进行多少次浮点运算,现在市面上比较 ...


你知道"桌面"代表什么吗?

李国杰说有意开发“桌面万亿次计算机”,价格控制要在10万元人民币以内,帮助一般科研院所,甚至私人跨入高性能计算机门槛。

而你举的例子仅设备采购费就要500万元[:a1:]  年运行费用高达100万元[:a13:]
原帖由 暗夜流星 于 2008-9-4 23:44 发表
看了这个东西只能说社会主义好,可以花钱让胡搞这种“创新”,反正失败了无人负责,就当“交了学费”。


逢中必反有意思么?你也就在论坛上骗骗不懂得人。
原帖由 jbyyy 于 2008-9-4 23:30 发表


MS WINDOWS:系统级虚拟
X86版本LINUX:处理器级虚拟

这两个有什么不同?


说法非常不专业, system mod virtulizition / user mode virtuliztion
说了半天还是QEMU啊
原帖由 175799022 于 2008-9-5 00:13 发表


=====MP好像是专用CPU的意思吧!!!GPU完全两码事!!!:L :LCPU+GPU目前只在龙芯2项目里面才有!!!


无知,INTEL的产品已经出来的,CPU/GPU/南北桥全集成