龙芯X86处理器(GodsonX)的研究

来源:百度文库 编辑:超级军网 时间:2024/04/20 11:41:03
1.        引言
根据摩尔定律,微处理器的速度每十年增长十倍以上,而常用存储器(DRAM)的访存时间却只是缩短到原来的一半。因此,相对于处理器 来说,访存延迟以每十年5倍的速度增长。从1986年到2000年,处理器速度的年增长率为55%,而存储器速度的年增长率仅为10%,按照这种速度推算可知,处理器与存储器以及通信性能上的差距不断增加,造成了系统结构的失衡,形成了阻碍性能提升的"内存墙"[1,2]。日益严峻的访存速度问题正在成为影响处理器性能的瓶颈,严重制约了处理器速度的进一步发展。

降低load-to-use延迟是提高处理器访存性能的关键,高速缓存cache的引入就是为了缓解这一问题[3,4],通过位于处理器主流水线和存储器之间的这层存储逻辑,处理器可以在大多数情况下避免直接访问内存,提高了访存的性能,延缓了“内存墙”问题。目前几乎所有的主流通用处理器都在流水线中包含高速缓存逻辑,并且高速缓存逻辑往往被作为独立的流水级。在其他条件确定的情况下,增加访存通路的带宽是降低load-to-use延迟的最有效途径,但增加带宽意味着增加访存通路的逻辑复杂度,并且访存通路上的RAM逻辑都需要提供双端口。这些复杂度上的增加势必会增加访存通路的时延和功耗。
本文的工作立足于分析程序固有的访存特性,探索高带宽访存流水线的设计和优化空间。通过分析总结出程序访存行为的规律性,并根据这些规律性给出高带宽访存流水线的低复杂度、低延迟、低功耗的高带宽访存解决方案。本文的工作大大简化了高带宽访存流水线的设计,降低了关键路径的时延和功耗,被用于指导Godsonx处理器的访存设计(Godsonx是基于Godson2[5]设计的X86处理器)。采用优化高带宽访存设计后,相对原始的宽度为1的访存流水线,处理器的整体面积仅增加了1.7%,处理器的平均性能提高了8.6%。
本文首先介绍了高带宽访存流水线的相关研究,然后介绍了试验环境,并分别给出cache、TLB的优化策略,评价了改进后的性能提升,最后对全文工作进行了总结。
2.        相关研究
处理器设计者对性能的要求是无止境的,对指令级并行性的追求也不会停止,而片山存储系统是影响指令并行性开发的关键,因此对片上存储系统性能的要求也会持续。程序中大约有三分之一的指令是访存指令或者涉及访存操作[6],对于4发射的超标量处理器来说,具有平均每拍处理两条访存操作的能力是必需的。面对这样的需求,在处理器中采用高带宽的访存流水线非常必要。这就要求采用多端口的Cache。Cache位于流水线的关键路径上并且逻辑复杂[7],因此有必要研究一种简化的多端口Cache,同时满足对Cache带宽的要求。
目前,多端口Cache的设计方法主要有四种[8]:传统的复杂的理想多端口Cache,分时访问的多端口Cache,多份复制的单端口Cache组成的多端口Cache,以及采用多体交叉策略的多端口Cache。DEC Alpha 21264采用的是分时多端口Cache设计技术[9],Cache的工作频率是其他流水级频率的两倍,在主流水线的一拍内可以先后处理两条访存操作,借此实现双端口的效果。随着处理器主频的不断提高,SRAM已经成为流水线时延的关键路径,这种策略已被淘汰。DEC Alpha 21164[10]采用的是由多份复制的单端口Cache组成的多端口Cache,使用两个内容完全相同的单端口Cache实现了双端口Cache。MIPS R10000采用了双体的DCache[3]。两个同时被处理的访存操作必须对应不同的体。对于比较平衡和调度良好的访存操作流,这种策略可以提供良好的访存并行性和较高的带宽,但如果访存操作流并不平衡,频繁发生的体冲突将严重影响访存的性能。虽然各项多端口Cache设计技术都有其缺点,多体交叉技术仍然是应付不断提高的指令级并行性的关键方法,目前主流的微处理器都倾向于采用这种策略[11,3]。
在主流的处理器的设计中,快速地址转换部件TLB(Translation Look aside Buffer)作为访存部分的核心部件,是流水线中不可或缺的一环[5,12,13]。为了降低访存延迟,主流处理器一般将cache和TLB放在相同的流水级,采用虚地址索引的cache,访存操作同时访问Cache和TLB[14,15],所以高带宽的访存流水线设计同样会对TLB的设计产生影响。
随着多端口TLB在先进通用处理器中的应用,由高带宽的访存流水线带来的虚实地址转换压力得到了缓解,研究人员开始把越来越多的注意力放在多端口TLB的设计和优化上。[16]给出了一种L0 TLB的设计策略,整个L0 TLB只有一项,利用连续访存操作的页面局部性,简单的TLB结构可以同时处理多个访存操作的虚实地址转换,[17]中也介绍了相似的设计。[18]中介绍了selective filter-bank TLB,使用几个较小的缓冲区来处理大多数的访问,用以降低TLB的延迟。Kenneth Yeager介绍了另一种TLB结构,TLB中的一项被几个连续的页面公用,这种设计思路和MIPS处理器类似[19]。Interleaved TLB使用互连结构,根据不同的地址将多个虚实地址转换请求分配到多个bank[20]。
Cache、TLB是通用处理器访存流水线中最为核心的两个部件,这些部件的设计直接影响访存流水线的性能,后面会分别从单个部件的角度对高带宽访存流水线的优化进行研究。
3.        实验环境
本文的研究工作以Godsonx模拟器作为平台。Godsonx是一款4发射的超标量X86处理器。因为X86指令集缺乏结构寄存器[21],X86程序中的很多临时数据往往需要借助内存来存放,并且参数传递大量依赖栈来完成,这些导致X86处理器的访存操作非常密集[6],而Godsonx的原始设计中访存带宽为1,所以设计高带宽的访存通路对Godsonx来说尤其重要。
Godsonx模拟器是基于Godson2模拟器实现的,是一个完全兼容IA-32指令集的全系统信号级模拟器,详细模拟了真实处理器的所有结构细节,可以看成RTL代码的高级语言版本。表 1给出了Godsonx模拟器的详细配置。
本文使用SPEC CPU 2000程序作为分析对象。SPEC CPU 2000是用来测试CPU性能的标准测试程序组,其分值被认为是衡量处理器性能的一个标准[22]。本文设计中的时延、面积信息则是基于GodsonX的RTL代码,使用Synopsys的Design Compiler(2006.06 for amd64)软件完成。1.        引言
根据摩尔定律,微处理器的速度每十年增长十倍以上,而常用存储器(DRAM)的访存时间却只是缩短到原来的一半。因此,相对于处理器 来说,访存延迟以每十年5倍的速度增长。从1986年到2000年,处理器速度的年增长率为55%,而存储器速度的年增长率仅为10%,按照这种速度推算可知,处理器与存储器以及通信性能上的差距不断增加,造成了系统结构的失衡,形成了阻碍性能提升的"内存墙"[1,2]。日益严峻的访存速度问题正在成为影响处理器性能的瓶颈,严重制约了处理器速度的进一步发展。

降低load-to-use延迟是提高处理器访存性能的关键,高速缓存cache的引入就是为了缓解这一问题[3,4],通过位于处理器主流水线和存储器之间的这层存储逻辑,处理器可以在大多数情况下避免直接访问内存,提高了访存的性能,延缓了“内存墙”问题。目前几乎所有的主流通用处理器都在流水线中包含高速缓存逻辑,并且高速缓存逻辑往往被作为独立的流水级。在其他条件确定的情况下,增加访存通路的带宽是降低load-to-use延迟的最有效途径,但增加带宽意味着增加访存通路的逻辑复杂度,并且访存通路上的RAM逻辑都需要提供双端口。这些复杂度上的增加势必会增加访存通路的时延和功耗。
本文的工作立足于分析程序固有的访存特性,探索高带宽访存流水线的设计和优化空间。通过分析总结出程序访存行为的规律性,并根据这些规律性给出高带宽访存流水线的低复杂度、低延迟、低功耗的高带宽访存解决方案。本文的工作大大简化了高带宽访存流水线的设计,降低了关键路径的时延和功耗,被用于指导Godsonx处理器的访存设计(Godsonx是基于Godson2[5]设计的X86处理器)。采用优化高带宽访存设计后,相对原始的宽度为1的访存流水线,处理器的整体面积仅增加了1.7%,处理器的平均性能提高了8.6%。
本文首先介绍了高带宽访存流水线的相关研究,然后介绍了试验环境,并分别给出cache、TLB的优化策略,评价了改进后的性能提升,最后对全文工作进行了总结。
2.        相关研究
处理器设计者对性能的要求是无止境的,对指令级并行性的追求也不会停止,而片山存储系统是影响指令并行性开发的关键,因此对片上存储系统性能的要求也会持续。程序中大约有三分之一的指令是访存指令或者涉及访存操作[6],对于4发射的超标量处理器来说,具有平均每拍处理两条访存操作的能力是必需的。面对这样的需求,在处理器中采用高带宽的访存流水线非常必要。这就要求采用多端口的Cache。Cache位于流水线的关键路径上并且逻辑复杂[7],因此有必要研究一种简化的多端口Cache,同时满足对Cache带宽的要求。
目前,多端口Cache的设计方法主要有四种[8]:传统的复杂的理想多端口Cache,分时访问的多端口Cache,多份复制的单端口Cache组成的多端口Cache,以及采用多体交叉策略的多端口Cache。DEC Alpha 21264采用的是分时多端口Cache设计技术[9],Cache的工作频率是其他流水级频率的两倍,在主流水线的一拍内可以先后处理两条访存操作,借此实现双端口的效果。随着处理器主频的不断提高,SRAM已经成为流水线时延的关键路径,这种策略已被淘汰。DEC Alpha 21164[10]采用的是由多份复制的单端口Cache组成的多端口Cache,使用两个内容完全相同的单端口Cache实现了双端口Cache。MIPS R10000采用了双体的DCache[3]。两个同时被处理的访存操作必须对应不同的体。对于比较平衡和调度良好的访存操作流,这种策略可以提供良好的访存并行性和较高的带宽,但如果访存操作流并不平衡,频繁发生的体冲突将严重影响访存的性能。虽然各项多端口Cache设计技术都有其缺点,多体交叉技术仍然是应付不断提高的指令级并行性的关键方法,目前主流的微处理器都倾向于采用这种策略[11,3]。
在主流的处理器的设计中,快速地址转换部件TLB(Translation Look aside Buffer)作为访存部分的核心部件,是流水线中不可或缺的一环[5,12,13]。为了降低访存延迟,主流处理器一般将cache和TLB放在相同的流水级,采用虚地址索引的cache,访存操作同时访问Cache和TLB[14,15],所以高带宽的访存流水线设计同样会对TLB的设计产生影响。
随着多端口TLB在先进通用处理器中的应用,由高带宽的访存流水线带来的虚实地址转换压力得到了缓解,研究人员开始把越来越多的注意力放在多端口TLB的设计和优化上。[16]给出了一种L0 TLB的设计策略,整个L0 TLB只有一项,利用连续访存操作的页面局部性,简单的TLB结构可以同时处理多个访存操作的虚实地址转换,[17]中也介绍了相似的设计。[18]中介绍了selective filter-bank TLB,使用几个较小的缓冲区来处理大多数的访问,用以降低TLB的延迟。Kenneth Yeager介绍了另一种TLB结构,TLB中的一项被几个连续的页面公用,这种设计思路和MIPS处理器类似[19]。Interleaved TLB使用互连结构,根据不同的地址将多个虚实地址转换请求分配到多个bank[20]。
Cache、TLB是通用处理器访存流水线中最为核心的两个部件,这些部件的设计直接影响访存流水线的性能,后面会分别从单个部件的角度对高带宽访存流水线的优化进行研究。
3.        实验环境
本文的研究工作以Godsonx模拟器作为平台。Godsonx是一款4发射的超标量X86处理器。因为X86指令集缺乏结构寄存器[21],X86程序中的很多临时数据往往需要借助内存来存放,并且参数传递大量依赖栈来完成,这些导致X86处理器的访存操作非常密集[6],而Godsonx的原始设计中访存带宽为1,所以设计高带宽的访存通路对Godsonx来说尤其重要。
Godsonx模拟器是基于Godson2模拟器实现的,是一个完全兼容IA-32指令集的全系统信号级模拟器,详细模拟了真实处理器的所有结构细节,可以看成RTL代码的高级语言版本。表 1给出了Godsonx模拟器的详细配置。
本文使用SPEC CPU 2000程序作为分析对象。SPEC CPU 2000是用来测试CPU性能的标准测试程序组,其分值被认为是衡量处理器性能的一个标准[22]。本文设计中的时延、面积信息则是基于GodsonX的RTL代码,使用Synopsys的Design Compiler(2006.06 for amd64)软件完成。
]]
The Group of Advanced Microsystems (GRAM) belongs to Center for Advanced Computing Research, Institute of Computing Technology, Chinese Academy of Sciences. GRAM was found in June, 2005. It has about 20 members.

GRAM is committed to microprocessor design and its members have wide knowledge in this filed. Some are proficient in architecture design, RTL programming, timing tuning and performance analysis; some are skilled in low-power design, Linux kernel hacking, complier optimization; while others are interested in FPGA emulation and IP packaging.
The first project started by GRAM is GodsonX. It was started in July 2005. The object of GodsonX is to design an x86-compatible FPGA prototype processor and boot up Windows XP by the FPGA. Firstly, GRAM carefully designed the micro-architecture of GodsonX. GodsonX is a four-issue out-of-order superscalar processor. It is x86-compatible and supports Intel MMX instructions, SSE instructions and x87 floating-point instructions. Secondly, GRAM wrote a cycle-by-cycle C simulator specified by GodsonX micro-architecture and a function level C simulator for an x86 PC system. After that, GRAM used the GodsonX C simulator to try to boot up Windows XP.  Spending a lot of time on simulator bug fixing and coverage analysis, GRAM booted up Windows XP in GodsonX simulator. Then, GRAM moved on to write RTL code according to the cycle-by-cycle C simulator. Finally, GRAM accomplished RTL timing tuning and FPGA emulation before July, 2006.
GRAM is now involved in the GodsonT project. GodsonT is a research project to explore many-core architecture design for future processors, whose topics include the topology of cores on a chip, thread model, memory model, on-chip network, synchronizing and runtime system etc. GRAM also has a team working on virtualization. They now focus on inter-ISA full system virtualization including CPU virtualization, memory virtualization and I/O virtualization.

====谷歌在线翻译
该集团的高级微系统(克)属于中心高级计算研究,计算技术研究所,中科院。革兰被发现于2005年6月。它拥有大约20名成员组成。

克致力于微处理器的设计和其成员具有广泛的知识在这存档。一些精通建筑设计,编程的RTL ,时间调整和性能分析;有些是熟练的低功耗设计, Linux内核黑客,编译优化;而其他有兴趣的FPGA仿真和IP包装。
第一个项目开始克GodsonX 。这是2005年7月开始。 GodsonX的对象是设计的x86兼容的FPGA原型处理器和启动Windows XP中的FPGA 。首先,革兰精心设计的微架构的GodsonX 。 GodsonX为四个问题乱序超标量处理器。这是x86的兼容,并支持英特尔MMX指令, SSE指令集和x87浮点指令。其次,革兰写了一周期ç模拟器所指明GodsonX微架构和功能C级模拟器的x86 PC系统。在此之后,革兰用GodsonX ç模拟器尝试启动Windows XP中。花了很多时间对错误操纵模拟器和覆盖分析,革兰启动安装Windows XP在GodsonX模拟器。然后,革兰转移到收件RTL代码根据周期ç模拟器。最后,革兰的RTL时间完成调整和FPGA仿真在2006年7月。
克现在参与GodsonT项目。 GodsonT是一个研究项目,探讨许多核心架构设计,未来的处理器,其主题包括拓扑内核在一个芯片上,线程模型,内存模型,片上网络,同步和运行系统等革兰也有一个团队工作虚拟化。他们现在专注于内部的ISA全系统虚拟化,包括CPU虚拟化,存储虚拟化和I / O虚拟化。
GRAM was found in June, 2005
革兰被发现于2005年6月;P
;P ;P ;P ;P

还是看原文的好,这自动翻译好搞笑
===Godsonx 是一套完全兼容iA-32指令集的Cycle级的全系统模拟器,基于Bochs模拟器实现, 在Bochs外设的基础上,添加了一个完全重新实现的超标量处理器核心,该核心具有 IA-32 结构处理器的完整功能,通过 Cycle级的模拟程序实现,模拟了处理器中每一拍运行的状态。
在新的处理器核心完成大量的验证,能在windows操作系统上运行了包括游戏在内的多
种测试程序,在linux操作系统上完整运行了SPEC程序。
统计过程总共执行了 5*10的8次方条 X86 指令,其中启动包括 linux 操
作系统执行了3000万条指令。 图2中的纵坐标表示每10的8次方个时钟周期内发生SMC冲突的次数。图 2 中的试验结果表明,在处理器运行 10的8次方拍的过程中,定点 SPEC 程序发生 SMC 冲突的次数基本小于 20,最高的 eon 也只有159次,浮点 SPEC 程序发生SMC 冲突的次数基本小于 10,最高的 equake 也只有17.17 次。可见,在 SPEC2000 程序执行期间,很少发生 SMC 冲突。
X86指令集是当前最广泛使用的指令集.虽然它的很多特性会大大增加设计x86兼容处理器的复杂度,但由于其应用广泛,我们必须掌握实现x86指令集的有效方法.X86和RISC处理器一个重要的差别是浮点体系结构,x86中浮点寄存器是一个基于堆栈的结构,而RISC处理器中的浮点寄存器一般可使用寄存器号直接寻址,并且寄存器个数较多.本文提出一套在较通用的RISC处理器结构(龙芯2C处理器)上实现x86浮点栈结构的方法和针对栈结构的寄存器重命名方法,这些技术被应用在一个x86全兼容的处理器GodsonX的开发和实现中.X86浮点指令集的另一个特点是包含超越函数的指令,当前流行的x86兼容处理器都用硬件直接支持这些超越函数指令.虽然存在很多计算超越函数的方法,包括基于表的方法、CORDIC方法等,但是无论使用哪种方法都需要在真正计算前对输入参数的范围进行压缩,超越函数的计算才能准确和收敛.我们给出了参数范围压缩的模块的算法和详细的设计与实现.从一般意义上说,本文的工作探索了在某指令集(源指令集)的处理器结构上硬件支持和实现另一指令集(目标指令集)的方法.本文的工作可以给我们提供实现x86各种特征的方法和开销,通过这些信息,我们可以在以龙芯处理器为基础的软硬件协同设计的系统中参考本文的结论针对不同的特性用不同的方法支持.
这个,还是概念吧
范东睿-27岁的副研究员
2000年9月作为硕博连读生入所,进入龙芯团队
- 2005年博士毕业,任课题组副组长,负责龙芯X86处理器研发,并成功设计出GodsonX原型
- 2006年任先进微系统研究组组长,进入前瞻研究中心,承担973重大专项子课题,带领20人的研发团队开展大规模片上多核处理器GodsonT模型研究
- 2006年被破格评聘为副研究员、硕士生导师
- 2007年美国特拉华大学访问学者
个人成绩和荣誉
- 2003年计算所所长奖学金
- 2005年计算所优秀员工
- 2007年中科院优秀青年人才奖
- 发表国内外期刊会议论文20余篇,申请发明专利11项
]]
这个godsonx啥事出样片呢
intel没嚷嚷?
]]
]]
]]
为了绕过intel的专利壁垒,龙芯小组不得不做了一颗与X86兼容的处理器来研究,难道这些事情还不能说明我国为什么要在tdscdma,avs,wapi上另起炉灶吗?
如果不兼容X86架构,迟早都是死。
芯片内核越多不意味速度越快 本报记者 冯卫东 刊发时间:2009-01-26  科技日报   加法在此不成立

  据《每日科学》网站报道,计算机科学家们一直在试图通过增加单个芯片中的处理器内核数量来提高超级计算机的运行速度。但美国桑迪亚国家实验室的研究团队在模拟了来自大型数据集的关键算法后,发现单纯增加内核数量会意外地导致许多复杂计算的性能趋于恶化。

  运行速度和内核数量
不成正比

  模拟结果显示,运算速度在2个到4个内核时会明显增加,但在4个到8个内核时增加并不明显;超过8个内核时,反而会引起速度的下降;16个内核时的速度几乎超不过2个内核的情况;之后再继续增加内核数量时速度就会急剧下降。

  造成此种情形的原因在于内存带宽的缺乏,以及每个处理器对可获得的内存总线的争夺。内存总线是一组可与系统内存交换内存地址和数据的连线。

  举一个超市中的例子,如果同一个结账柜台有两名而不是一名收银员正在处理顾客购买的食品,结账速度明显会快很多。当然,也可以用4名、8名或16名收银员来结账。但此时,问题就来了。如果哪一名收银员根本接触不到顾客购买的食品,那他对收银进程就起不到必要的帮助作用。更糟的是,每名收银员也许还会以自己的方式招徕顾客。

  同样,如果一个人认为1个内核速度快,2个内核速度就更快,4个内核还要快,并以此类推,那他肯定是个没脑子的人。

  桑迪亚国家实验室的研究人员在高性能计算机上的模拟结果显示,由于缺乏快速获取单独记忆缓存(每个处理器的“食品”)的能力,当内核数超过8个时处理器的速度不升反降。

  多核技术治标不治本

  研究人员表示,在某种程度上,许多应用程序很显然具有只需一个单核的内存带宽极限。但是,这不是一个业界已拥有解决方案的问题,而且这个问题还常常被忽视。

  桑迪亚计算、计算机、信息和数学中心主任詹姆斯?皮里说,要解决模块之间的竞争是很困难的。所有的内核都在通过相同的管道向内存发出请求,这就像1个、2个、4个或8个人在同时跟你说“我想要这份资料”后,一直等着回复,这就会导致延迟。

  桑迪亚研究人员表示,之所以要采用原本使用在“红色风暴”超级电脑中的AMD处理器,正是因为其内存性能要优于包括皓龙处理器在内的其他处理器。AMD处理器在高性能计算机中大行其道的主要原因之一,就是其拥有一个集成的内存控制器,这是英特尔到目前还没有的。

  多核技术被认为可能会成为摩尔定律的救星。摩尔定律预测集成电路上可容纳的晶体管数目,约每隔两年便会增加一倍,性能也将提升一倍。研究人员说,多核技术让芯片制造商在晶体管数量上成功地跟上摩尔定律的预测,现在的瓶颈则是如何脱离芯片与内存或网络交换数据。

  研究人员一个更为自然的目标则是增加单个内核的时钟速率,因为绝大多数的应用程序是基于单核性能开发的字处理、音乐或视频应用。但是,功率消耗、不断增加的热量以及像寄生电流等所涉及的物理学基本定律则表明,要在普通硅处理器上设计提高芯片速度已达到了极限。

  研究人员表示,令人绝望的是,目前芯片设计业者还无法找到更好的办法,虽然人们看到的内存系统设计比12个月前有了很大改善,但是根本性的问题依然存在。

  目前,桑迪亚国家实验室已在数据传递计划上投入了大量资金,并已经和橡树岭国家实验室共同组建了先进结构研究所,正在为突破每秒运行一百万万亿次的计算技术铺平道路,这也许将有助于纾解多芯片困境。
tdscdma,avs,wapi这三个东西不需要跟龙芯扯在一起。

只靠热血和YY,成为第二个汉芯倒是很有可能
tdscdma,avs,wapi这三个东西不需要跟龙芯扯在一起
===好象有很多专家说wcdma,h264,wifi,intel的cpu,这些东西价格便宜量又足,国内的完全没有必要发展,重新定一个又完全不能超过别人的标准和产品,劳民伤财啊
只靠热血和YY,成为第二个汉芯倒是很有可能
====也许这是很可能的,但是我们就要永远用鞋子来换飞机吗?并且我请您用论据和事实来说话, 我想您要找出来龙芯是第二个汉芯的证据的话,绝对是爆炸性的新闻 ,不然我辛苦从网上找来的文章就这两句,太空洞了。
]]
龙芯是cpu,汉芯是dsp,不过龙芯也在做dsp了http://bbs.cjdby.net/viewthread.php?tid=576913&extra=page%3D3
TD不发表意见,反正国家已经靠政策让TD偷跑了一年了,情况大家自己看。

avs我没见到开放的编码库下载,与开放标准的H.264或者开源的x.264编码的对比也仅限于砖家的论文而已。

对于vc-1和H.264的软硬件支持已经非常成熟了,avs的支持在哪里暂时没看到。如此的标准除了靠政策,看来推广难度很大阿。

至于WAPI,就是个扯淡的东西,部分部门的老爷们想收钱了而已。CD上有谁买到过支持WAPI的笔记本或者无线路由器么。;P


关于龙芯的话题,二炮版已经吵了很久了,对这个东西,有积极意义,不过也不用上升到国家安全,民族气节的高度来。我对某某人的64核之类持保留意见。龙芯同TD一样,一样含有引进技术与专利授权
狠无聊,
以前曾经有过测试,当时的FSB结构在超过8路以后效能急剧下降,多核心和多路系统类似
龙芯也在做dsp了http://bbs.cjdby.net/viewthread.php?tid=576913&extra=page%3D3

胡说不是,只是给龙芯加了个DSP协处理器而已,并且也不是龙芯组自己搞的东西,这样的东西ARM平台上多的是,看看TI的东西
至于多核心,去看看杰尔的东西吧,很早就是8核心的(委托设计)
:D :D :D :D :D :D :D
]]
没想到大家对godsonx这么有兴趣,也忍不住说两句。
godsonx本身不错,但如果宣传成这样就不实事求是了。
范东睿确实干的不错,但如果说是天才,似乎有些言过其实。
他即使在当年也不是龙芯组的骨干,真正的骨干毕业以后都留下给龙芯继续做贡献。
他靠了和国外一个做编译的教授的关系,发了几篇不错的文章,比很多龙芯骨干文章都强,但是他对处理器结构的理解,和工程能力,都和那些人差距很大。
毕业以后借着东风开始了godsonx的项目,这个项目应该本来就是基于龙芯的
他的成功主要是由于大家齐心协力,范东睿的作用更多的是组织和协调
这和胡伟武研究院当年身先士卒带领大家开发和调试,不可同日而语
由于设计是基于龙芯的,这个项目难度没有文中描述的大
而且处理器内部的那些对提高性能很关键的技术,基本都是直接继承龙芯设计
这是项目的关键,而godsonx基本没有涉及
可以说godsonx的内核和龙芯几乎没有区别
如果没有龙芯,也就没有godsonx
文中提到的设计方法那些,对照胡伟武的文章,和龙芯的完全一样
应该从龙芯设计中继承的居多,如果这些都说成godsonx本身的贡献,水分未免太大了
古话说,前人植树后人乘凉,但如果后人试图说大部分树都是他自己植的,就有些忘本了
现在对godsonx宣传不少,因为x86的指令集,好像比龙芯更有潜力
殊不知这只是龙芯的副产品而已

本人是做编译的,所以对处理器也所钻研,认识一些计算所编译组的朋友
原来觉得龙芯这项目虽然大家质疑不少,但他们的精神以及成果还是值得肯定的
最近又出来一个godsonx,初看宣传还以为比龙芯更厉害
一了解才知道是这么回事儿,给大家说说,以免大家误解了
我好像没有说godsonX不是基于龙芯吧?
并且GodsonX龙芯小组也没有公开宣传的,范东睿也很低调,从来没有接受媒体采访,
并且您的发言有点挑动内斗之嫌,
原帖由 chinayx 于 2009-1-27 16:23 发表
TD不发表意见,反正国家已经靠政策让TD偷跑了一年了,情况大家自己看。

avs我没见到开放的编码库下载,与开放标准的H.264或者开源的x.264编码的对比也仅限于砖家的论文而已。

对于vc-1和H.264的软硬件支持已经 ...

站着说话,腰不疼吧?搞不懂你有什么资格嘲笑那些踏踏实实做事的人?多无耻啊!
胡某人算踏踏实实做事的么。。。

TD属于有不足但是起码是个产品。

avs目前实用不足

wapi不是扯淡是什么
原帖由 chinayx 于 2009-2-17 13:23 发表
胡某人算踏踏实实做事的么。。。

TD属于有不足但是起码是个产品。

avs目前实用不足

wapi不是扯淡是什么

你是谁啊?你说人家没踏踏实实做事就没有啊?你是人家领导还是监工?
你是谁啊?做什么了?哪里的权威啊?有什么资格对别人指手划脚、评头论足?
你是谁啊?叽叽歪歪、冷嘲热讽、像个苍蝇样的,你不知道自己很招人烦么?
原帖由 andyzjx 于 2009-2-17 13:38 发表

你是谁啊?你说人家没踏踏实实做事就没有啊?你是人家领导还是监工?
你是谁啊?做什么了?哪里的权威啊?有什么资格对别人指手划脚、评头论足?
你是谁啊?叽叽歪歪、冷嘲热讽、像个苍蝇样的,你不知道自己很招 ...



热血沸腾啦,坐不住啦。;P
原帖由 chinayx 于 2009-2-17 14:59 发表



热血沸腾啦,坐不住啦。;P

高手,有缘呀!在这又碰上了!看了你那么多高论后,敬仰之至!忍不住我也有同样的问题,您贵姓?贵庚?贵干?高就?肯否到龙芯指导那几个低手?
龙芯3,你在那里,在那里。。;P
]]
原帖由 chinayx 于 2009-2-17 14:59 发表



热血沸腾啦,坐不住啦。;P

呵呵,无话可说了?
拜托~~~转移话题专业点好么?
原帖由 chinayx 于 2009-2-17 14:59 发表



热血沸腾啦,坐不住啦。;P

呵呵,无话可说了?
自以为是倒是很专业,转移话题的水平就太糙了?
呵呵,突然发现了 GRAMS的网站,  现在他们改名叫 ams了.....
http://ams.ict.ac.cn
貌似还是发表了很多关于众核(manycore)的文章
原帖由 lhicq 于 2009-1-26 22:29 发表
如果不兼容X86架构,迟早都是死。


不兼容x86的 不同层面的活的好好的 U  多了去了 ,不知道你会把那种U 死诅咒? [:a1:]
原帖由 托起航母 于 2009-3-30 16:00 发表


不兼容x86的 不同层面的活的好好的 U  多了去了 ,不知道你会把那种U 死诅咒? [:a1:]


可惜龙芯2老想拿不兼容x86的身体去搏x86的市场
原帖由 chinayx 于 2009-3-30 16:14 发表


可惜龙芯2老想拿不兼容x86的身体去搏x86的市场


你定义的市场有多大。先不论龙芯的定位,咱先说超级计算机,x86占有份额的市场,家用绝对x86市场  嵌入p100 p200那东东也有份额
我还实在想不出还有什么市场? 龙芯能定位到 x86看不到地方!
手机!?这我就要笑了 x86或者说 intel被人干掉了