且让世界听龙吟: 理实交融的龙芯基础研究

来源:百度文库 编辑:超级军网 时间:2024/05/02 09:02:05


   2007 年,龙芯 3 号的设计揭开序幕,当被人问到龙芯 3 号的意 义 时, 胡 伟 武 老 师 微 笑 不 语,提笔写下一行字,     “如果说龙芯 1号是在迷雾中起步,还看不到先行者的影子,   那么龙芯 2 号完成后,在当时实际上已经超过了一些同行者,看清了领先者的背影,而龙芯 3 号的完成将使龙芯大踏步赶上并超过领先者。      ”
   四 年 时 间 过 去, 龙 芯 3 号 已经从设计变成现实,并已发展出一系列改进型号。依托龙芯 3 号的研发,龙芯团队已经实现了胡老师的预期,走在了世界体系结构 研 究 的 最 前 沿。 从 2008 年 开始,龙芯在顶级会议和期刊上发表了一系列论文:     IEEE Trans. onComputers、IEEE Micro、ISSCC、I S C A、H P C A、I J C A I、H o t
Chips、SPAA 和 DATE 等等。可以说,相比美国顶尖大学的一个研究组的论文发表水平也毫不逊色。 更 重 要 的 是, 龙 芯 的 研 究已经形成了鲜明的理实交融的风格。
      十年砺刃度清苦,一朝亮剑破敌阵。龙芯的研究也已经走过了十年的历程。无论前六年的求实探索,还是后四年的风云激荡,都是龙芯乃至计算所宝贵的积累。围绕着一个个芯片型号的工程实践,龙芯研究走了一条求真、求实、不取巧的最难走的研究工程紧密结合的路。龙芯研究水平的提高,是龙芯工程水平提高的体现和保障。龙芯最宝贵的研究财富,不是一些论文或者学术影响力,而是走通这条理实交融的路:我们的研究问题和方法,不是来自于外国人的论文,而是来自于自己的工程实践;而从我们的工程实践中提出的理论,能够在龙芯实践中真正发挥作用。笔力所限,我们无法展示这条路上每一次披荆斩棘。在此只能罗列几个闪亮的瞬间,以飨读者。
      龙芯 3 号体系结构
      早在龙芯 2 号的设计过程中,胡伟武老师就开始了对龙芯3 号 结 构 的 构 思。 和 单 核 的 龙 芯2 号 处 理 器 相 比, 多 核 的 龙 芯 3号的设计选择更加的多样化。要
有多少个核,每个核的规模有多大,怎样把核联起来,每个核应该支持哪些应用?这些问题在胡老师心头萦绕了很久。的确,这些问题无论是学术界还是工业界都没有定论。龙芯已经不再跟着别 人 的 脚 步 奔 跑, 必 须 直 面 这些世界前沿水平的学术和工程问题。
    从什么角度来回答这些问题,从中找到一条适合龙芯发展的道路呢?胡老师的思路是清晰和一贯的,那就是市场才是体系结构研究好坏的最终标准。学术界和工业界最终都必须回到这个标准上。普通用户并不需要那么多核,他们更希望有少数很强大的核帮他们解决棘手的问题。同时,科学计算的用户又需要处理器提供一定程度的可扩展性。基于这两点考虑,胡老师采用了交叉开关加 Mesh 两维网络的多核结构,每个核具备较强的计算能力,同时提供 x86 虚拟机的支持。这样兼顾了普通用户和科学计算,给龙
芯 3 号 留 下 了 广 阔 的 扩 展 空 间,同时又为 x86 上大量的应用提供了支持。
    五年前的这个抉择,给龙芯3 号的发展指出了正确的方向,奠定了良好的基础。沿着这个方向胡老师带领高翔、陈云霁等技术骨干加班加点,完成了首款龙芯 3号芯片芯 3A 的结构设计。龙芯3A 在 x86 模拟、可扩展互联方面的特点,被高性能芯片顶级会议Hot Chips08(大陆第一篇)和体系结构领域顶级期刊 IEEE Micro收录。可以说,龙芯研究路线的开创性和实用性是得到了广泛认可。Intel 最 终 采 取 了 和 龙 芯 类似的技术路线,也就是少量大核(Nehalem) 。去年,Intel 决定停掉他们大量小核的计划 Larrabee。他们也承认,没有用户愿意为 32 个以上的核买单。
     创新是永无止境的。龙芯 3A在学术上受到的关注并没有让龙芯人裹足不前。一般来说,通用处理器相对专用芯片来说性能功耗比比较差。一些龙芯 3 号的重要客户,需要龙芯 3 号能以超过DSP 的性能功耗比完成一些重要的信号处理应用。如何突破通用处理器的桎梏,让龙芯 3 号在较低的功耗上达到极高的性能呢?胡老师时常感慨,  “客户提出来的问题,  比论文里面的问题难多了”    。是的,但是龙芯的精神就是越难的问题就越要上。胡老师带着期许将这个艰巨的担子压在了年轻科研人员陈云霁的身上。陈云霁对 CPU、GPU、MPU 和 DSP 等芯片结构的异同进行了深入的思考,试图找出 CPU 性能功耗比差的本质原因。通过和胡老师的反复讨论,他们最终发现,通用处理器问题不在于计算部件不行,也不在于访存部件不行,而是访存部件的数据没有办法以合适的格式很舒服地喂给计算部件,很多带宽和时间都浪费在捣腾数据格式上了,最终导致性能功耗比差。因此,他们提出了 XPU 的结构,让处理器在数据通路的每个阶段都能自动地对数据进行重新组织,这样计算部分就能全负荷地开足马力,一下子就解决了性
能功耗比的问题。同时 XPU 作为CPU、 GPU、 MPU 和 DSP 的融合,可以实现很多传统 CPU 不适合解决的问题(如信号处理、媒体处理等)  。
    XPU 技 术 应 用 到 龙 芯 3B上, 使 得 龙 芯 3B 性 能 功 耗 比 达到 了 惊 人 的 3.2GFlops/W(Intel的 Westmere 大约 1.3GFOPS/W,BM 的 Power7 大约 1.5GFLOPS/
W) ,居目前世界上所有通用处理器第一位。相关工作发表在 HotChips10 和集成电路领域最好的会议,号称集成电路的奥林匹克的ISSCC11 上。可以说,龙芯 3B 标志着龙芯处理器真正走到了世界最前沿。
   全局时钟并行理论
   多核处理器系统设计验证中一个无法回避的关键问题是如何判断并行程序在多核处理器上的执行结果是否正确。这个 NP 难问题就像拦路虎一样阻挡在每一个多核设计者面前。事实上,Intel、IBM 和 Sun 等国际大公司在他们的处理器设计过程中,都被并行执 行 正 确 性 判 断 问 题 深 深 困 扰。他们始终都投入了大量精力进行研究,在 ISCA、HPCA 和 SPAA等顶级会议上进行大量讨论,但始终无法从根本上解决这个问题。
   在 龙 芯 3 号 的 研 制 过 程 中,并行执行正确性判断问题也横亘在龙芯人面前。如果不能取得突破,就意味着每次在龙芯 3 号上跑一个程序要花几千万甚至上亿倍的时间来检验跑得对不对。面对这个前人无法克服的挑战,陈云霁及验证组多位同志反复推敲,在经过许多个不眠之夜后,终于找到了问题的源头:并行执行正确性的判断构建于 Lamport 在 70年代末并行理论基础逻辑时间序之上,也就是仅考虑并行系统中的因果性。经过反复讨论,他们提出采用一个全局时钟上的物理时间序把整个问题切割成多个片段,从而实现分治求解。通过物理时间序的概念,成功地将这个问题时间复杂度从指数级降到了   2O(n )。该论文最终被体系结构领域顶级学术会议 HPCA’09 接收,是该会议第一篇来自大陆的论文。紧接下来,他们在胡老师的指导下乘热打铁进一步把复杂度降到了 O(n),从而彻底解决了这个困扰体系结构学术界和工业界十多年的大问题。相关工作也被计算机领域顶级期刊 IEEE Trans. onComputers 收录。
    物理时间序的想法乍看起 来 十 分 不 符 合 常 理, 以 至 于HPCA’09 的多位审稿人都表示从 未 见 过 此 类 想 法。 学 术 权 威Lamport 早就说过,分布式系统里就不要考虑物理时间序了,还是依靠基于因果关系的逻辑时间序吧。因此,这个观念已经根植于并行理论的骨髓中 30 年了。龙芯人没有畏惧权威,止步不前的传统。但是打破传统观念除了需要勇猛无畏,也需要细致入微。在HPCA’09 之后,陈云霁请来专门从事理论研究的陈天石 ( 当时还是科大博士生 ),二人通过反复讨论终于悟到前人没有想到物理时
间序的原因。原来,在分布式系统中,由于进程之间的物理距离较大,要获得准确的、同步的全局物理时间是极其困难。然而当代的多核处理器已经能在一个芯片上集成多个处理器核,实现全局物理时钟是易如反掌。不幸的是,早期研究中多处理器系统通常被简单地当成分布式系统的一个特例,几十年来这种思想桎梏了对多核处理器中时钟和序关系的研究,严重阻碍了并行领域的发展。
     一旦破除了仅有逻辑时间序的传统观念,并行领域中的许多问题就迎难而解。在不长的时间内,龙芯连续发表了多篇有关并 行 系 统 中 时 钟 的 工 作, 包 ISCA’10(计算机体系结构最好的会议)     、DATE’10(EDA 领域顶级会议)和 SPAA’11(并行理论最好的会议)上。其中 ISCA10的工作有人评价为“终结了硬件确定性重放”       。
     人工智能和体系结构的结合
     2011 年 3 月 31 日,IJCAI’11组委会发出正式通知,龙芯的一篇由郭崎等人发表的关于微处理器设计空间搜索论文被录用为regular paper,并受邀同时参加 oral和 poster presentation。IJCAI 全称是人工智能国际联合大会,是人工智能领域最好的会议,此次会议录用率仅为 17%。微处理器中心的这篇文章是计算所的在该会议上发表第一篇 oral presentationpaper 论 文( 此 外 计 算 所 还 在IJCAI’11 上发表了三篇 poster)  。听起来,人工智能和体系结构天差地远。为什么龙芯要在二者的结合上进行研究呢?这就要回溯到很多年前。
    从龙芯项目一开始,龙芯的设计人员就在工程中始终面临着一个重要的问题:如何找到一个最合适龙芯的设计参数组合?无数个设计选项构成了指数级的设计空间。例如龙芯应该有多少寄存器,多大的访存队列,多少项保留站,等等等等。在庞大的设计空间中,找一个最优方案无异于大海捞针。郭崎和陈云霁在这个问题上花费了大量的时间和精力,始终未能解决这个难题。
    转机发生来自 2010 年。人工智能理论研究方向的能手陈天石博士从科大毕业加入到龙芯团队中。当他了解到龙芯面临的设计空间搜索问题后,一下子就和龙芯已有的研究摩擦出了火花,提出人工智能中的半监督学习方法,很可能可以解决这个问题。有了这把人工智能的快刀,设计空间搜 索 的 乱 麻 一 下 子 就 被 解 开 了。郭崎等人通过大量实验发现,半监督学习方法极大地降低了搜索的误差。通过和南京大学的周志华老师的深入交流,他们在人工智能方法上又得到了进一步的提高。人工智能领域对于这种重要的体系结构应用很感兴趣,而新颖的人工智能方法又促进了体系结构的研究。顺理成章地,这个工作被投稿到 IJCAI 之后,很快就得到了认可。
   除此之外,人工智能方法更是进一步在龙芯的设计验证各个环节得到了广泛推广,例如郭崎和陈天石等人合作的另一篇论文,通过机器学习方法而不是传统的覆盖率来预测和评估验证的质量,也发表在 EDA 领域顶级会议DATE 上。
   理实交融的龙芯基础研究
   一 腔 赤 诚 血, 十 年 风 雨 路。在产学研结合的路上,龙芯的研究从工程中来,到工程中去,源于工程,高于工程,逐渐形成了理 实 交 融 的 龙 芯 基 础 研 究 思 路:
不拘泥于结构研究的小框架,而是立足于工程实践,从应用算法往下做结构或者从底层电路往上做 结 构, 辅 以 编 译、 操 作 系 统、验证等技术的支持,极大的拓展了结构研究的视野和方法,取得了丰硕的成果。迄今在龙芯基础研究中涌现的研究,不跟在洋人后面亦步亦趋(龙芯的大量顶级会议期刊论文在没有国际合作的情况下,依然得到广泛认可,随着更多国际合作的接踵而来,龙芯研究必将给国际主流研究注入自己的特色) 而是解决自己现          ,在遇到或将要遇到的问题。其所解决的龙芯 3 号中的问题,正是整个体系结构领域也要面对的问题。 龙 芯 的 工 程 使 得 龙 芯 人 能更早于学术界一步得到实践的反馈。
   尽管龙芯基础研究已现鲜明特色,然而对龙芯人来说,这些还远远不够。胡老师的理想是龙芯在研究上像 Bell 实验室和 IBM的 Watson 实验室一样,为人类科技进步作出突出的贡献。实现这个理想很艰巨,需要在计算机体系结构方面、    整个计算机领域(包括理论计算机、人工智能和操作系统等)  、乃至自然科学(包括材料甚至物理)的最前沿做出实质性贡献。为了实现这个目标,胡伟武老师决定筹划成立专门的基础研究部门。必须看到,面对繁重的产业化任务,龙芯人把绝大部分精力都投入到紧张的工程开发中,因此目前龙芯并不提倡占用工程时间进行研究(除了面临毕业的博士生)    ,这些顶级论文也都只是龙芯人利用晚上或者周末进行的业余创作。随着龙芯专门的基础研究部门的成立,龙芯理论研究的春天即将开启。■
http://www.ict.cas.cn/cxwh/cxqs/

   2007 年,龙芯 3 号的设计揭开序幕,当被人问到龙芯 3 号的意 义 时, 胡 伟 武 老 师 微 笑 不 语,提笔写下一行字,     “如果说龙芯 1号是在迷雾中起步,还看不到先行者的影子,   那么龙芯 2 号完成后,在当时实际上已经超过了一些同行者,看清了领先者的背影,而龙芯 3 号的完成将使龙芯大踏步赶上并超过领先者。      ”
   四 年 时 间 过 去, 龙 芯 3 号 已经从设计变成现实,并已发展出一系列改进型号。依托龙芯 3 号的研发,龙芯团队已经实现了胡老师的预期,走在了世界体系结构 研 究 的 最 前 沿。 从 2008 年 开始,龙芯在顶级会议和期刊上发表了一系列论文:     IEEE Trans. onComputers、IEEE Micro、ISSCC、I S C A、H P C A、I J C A I、H o t
Chips、SPAA 和 DATE 等等。可以说,相比美国顶尖大学的一个研究组的论文发表水平也毫不逊色。 更 重 要 的 是, 龙 芯 的 研 究已经形成了鲜明的理实交融的风格。
      十年砺刃度清苦,一朝亮剑破敌阵。龙芯的研究也已经走过了十年的历程。无论前六年的求实探索,还是后四年的风云激荡,都是龙芯乃至计算所宝贵的积累。围绕着一个个芯片型号的工程实践,龙芯研究走了一条求真、求实、不取巧的最难走的研究工程紧密结合的路。龙芯研究水平的提高,是龙芯工程水平提高的体现和保障。龙芯最宝贵的研究财富,不是一些论文或者学术影响力,而是走通这条理实交融的路:我们的研究问题和方法,不是来自于外国人的论文,而是来自于自己的工程实践;而从我们的工程实践中提出的理论,能够在龙芯实践中真正发挥作用。笔力所限,我们无法展示这条路上每一次披荆斩棘。在此只能罗列几个闪亮的瞬间,以飨读者。
      龙芯 3 号体系结构
      早在龙芯 2 号的设计过程中,胡伟武老师就开始了对龙芯3 号 结 构 的 构 思。 和 单 核 的 龙 芯2 号 处 理 器 相 比, 多 核 的 龙 芯 3号的设计选择更加的多样化。要
有多少个核,每个核的规模有多大,怎样把核联起来,每个核应该支持哪些应用?这些问题在胡老师心头萦绕了很久。的确,这些问题无论是学术界还是工业界都没有定论。龙芯已经不再跟着别 人 的 脚 步 奔 跑, 必 须 直 面 这些世界前沿水平的学术和工程问题。
    从什么角度来回答这些问题,从中找到一条适合龙芯发展的道路呢?胡老师的思路是清晰和一贯的,那就是市场才是体系结构研究好坏的最终标准。学术界和工业界最终都必须回到这个标准上。普通用户并不需要那么多核,他们更希望有少数很强大的核帮他们解决棘手的问题。同时,科学计算的用户又需要处理器提供一定程度的可扩展性。基于这两点考虑,胡老师采用了交叉开关加 Mesh 两维网络的多核结构,每个核具备较强的计算能力,同时提供 x86 虚拟机的支持。这样兼顾了普通用户和科学计算,给龙
芯 3 号 留 下 了 广 阔 的 扩 展 空 间,同时又为 x86 上大量的应用提供了支持。
    五年前的这个抉择,给龙芯3 号的发展指出了正确的方向,奠定了良好的基础。沿着这个方向胡老师带领高翔、陈云霁等技术骨干加班加点,完成了首款龙芯 3号芯片芯 3A 的结构设计。龙芯3A 在 x86 模拟、可扩展互联方面的特点,被高性能芯片顶级会议Hot Chips08(大陆第一篇)和体系结构领域顶级期刊 IEEE Micro收录。可以说,龙芯研究路线的开创性和实用性是得到了广泛认可。Intel 最 终 采 取 了 和 龙 芯 类似的技术路线,也就是少量大核(Nehalem) 。去年,Intel 决定停掉他们大量小核的计划 Larrabee。他们也承认,没有用户愿意为 32 个以上的核买单。
     创新是永无止境的。龙芯 3A在学术上受到的关注并没有让龙芯人裹足不前。一般来说,通用处理器相对专用芯片来说性能功耗比比较差。一些龙芯 3 号的重要客户,需要龙芯 3 号能以超过DSP 的性能功耗比完成一些重要的信号处理应用。如何突破通用处理器的桎梏,让龙芯 3 号在较低的功耗上达到极高的性能呢?胡老师时常感慨,  “客户提出来的问题,  比论文里面的问题难多了”    。是的,但是龙芯的精神就是越难的问题就越要上。胡老师带着期许将这个艰巨的担子压在了年轻科研人员陈云霁的身上。陈云霁对 CPU、GPU、MPU 和 DSP 等芯片结构的异同进行了深入的思考,试图找出 CPU 性能功耗比差的本质原因。通过和胡老师的反复讨论,他们最终发现,通用处理器问题不在于计算部件不行,也不在于访存部件不行,而是访存部件的数据没有办法以合适的格式很舒服地喂给计算部件,很多带宽和时间都浪费在捣腾数据格式上了,最终导致性能功耗比差。因此,他们提出了 XPU 的结构,让处理器在数据通路的每个阶段都能自动地对数据进行重新组织,这样计算部分就能全负荷地开足马力,一下子就解决了性
能功耗比的问题。同时 XPU 作为CPU、 GPU、 MPU 和 DSP 的融合,可以实现很多传统 CPU 不适合解决的问题(如信号处理、媒体处理等)  。
    XPU 技 术 应 用 到 龙 芯 3B上, 使 得 龙 芯 3B 性 能 功 耗 比 达到 了 惊 人 的 3.2GFlops/W(Intel的 Westmere 大约 1.3GFOPS/W,BM 的 Power7 大约 1.5GFLOPS/
W) ,居目前世界上所有通用处理器第一位。相关工作发表在 HotChips10 和集成电路领域最好的会议,号称集成电路的奥林匹克的ISSCC11 上。可以说,龙芯 3B 标志着龙芯处理器真正走到了世界最前沿。
   全局时钟并行理论
   多核处理器系统设计验证中一个无法回避的关键问题是如何判断并行程序在多核处理器上的执行结果是否正确。这个 NP 难问题就像拦路虎一样阻挡在每一个多核设计者面前。事实上,Intel、IBM 和 Sun 等国际大公司在他们的处理器设计过程中,都被并行执 行 正 确 性 判 断 问 题 深 深 困 扰。他们始终都投入了大量精力进行研究,在 ISCA、HPCA 和 SPAA等顶级会议上进行大量讨论,但始终无法从根本上解决这个问题。
   在 龙 芯 3 号 的 研 制 过 程 中,并行执行正确性判断问题也横亘在龙芯人面前。如果不能取得突破,就意味着每次在龙芯 3 号上跑一个程序要花几千万甚至上亿倍的时间来检验跑得对不对。面对这个前人无法克服的挑战,陈云霁及验证组多位同志反复推敲,在经过许多个不眠之夜后,终于找到了问题的源头:并行执行正确性的判断构建于 Lamport 在 70年代末并行理论基础逻辑时间序之上,也就是仅考虑并行系统中的因果性。经过反复讨论,他们提出采用一个全局时钟上的物理时间序把整个问题切割成多个片段,从而实现分治求解。通过物理时间序的概念,成功地将这个问题时间复杂度从指数级降到了   2O(n )。该论文最终被体系结构领域顶级学术会议 HPCA’09 接收,是该会议第一篇来自大陆的论文。紧接下来,他们在胡老师的指导下乘热打铁进一步把复杂度降到了 O(n),从而彻底解决了这个困扰体系结构学术界和工业界十多年的大问题。相关工作也被计算机领域顶级期刊 IEEE Trans. onComputers 收录。
    物理时间序的想法乍看起 来 十 分 不 符 合 常 理, 以 至 于HPCA’09 的多位审稿人都表示从 未 见 过 此 类 想 法。 学 术 权 威Lamport 早就说过,分布式系统里就不要考虑物理时间序了,还是依靠基于因果关系的逻辑时间序吧。因此,这个观念已经根植于并行理论的骨髓中 30 年了。龙芯人没有畏惧权威,止步不前的传统。但是打破传统观念除了需要勇猛无畏,也需要细致入微。在HPCA’09 之后,陈云霁请来专门从事理论研究的陈天石 ( 当时还是科大博士生 ),二人通过反复讨论终于悟到前人没有想到物理时
间序的原因。原来,在分布式系统中,由于进程之间的物理距离较大,要获得准确的、同步的全局物理时间是极其困难。然而当代的多核处理器已经能在一个芯片上集成多个处理器核,实现全局物理时钟是易如反掌。不幸的是,早期研究中多处理器系统通常被简单地当成分布式系统的一个特例,几十年来这种思想桎梏了对多核处理器中时钟和序关系的研究,严重阻碍了并行领域的发展。
     一旦破除了仅有逻辑时间序的传统观念,并行领域中的许多问题就迎难而解。在不长的时间内,龙芯连续发表了多篇有关并 行 系 统 中 时 钟 的 工 作, 包 ISCA’10(计算机体系结构最好的会议)     、DATE’10(EDA 领域顶级会议)和 SPAA’11(并行理论最好的会议)上。其中 ISCA10的工作有人评价为“终结了硬件确定性重放”       。
     人工智能和体系结构的结合
     2011 年 3 月 31 日,IJCAI’11组委会发出正式通知,龙芯的一篇由郭崎等人发表的关于微处理器设计空间搜索论文被录用为regular paper,并受邀同时参加 oral和 poster presentation。IJCAI 全称是人工智能国际联合大会,是人工智能领域最好的会议,此次会议录用率仅为 17%。微处理器中心的这篇文章是计算所的在该会议上发表第一篇 oral presentationpaper 论 文( 此 外 计 算 所 还 在IJCAI’11 上发表了三篇 poster)  。听起来,人工智能和体系结构天差地远。为什么龙芯要在二者的结合上进行研究呢?这就要回溯到很多年前。
    从龙芯项目一开始,龙芯的设计人员就在工程中始终面临着一个重要的问题:如何找到一个最合适龙芯的设计参数组合?无数个设计选项构成了指数级的设计空间。例如龙芯应该有多少寄存器,多大的访存队列,多少项保留站,等等等等。在庞大的设计空间中,找一个最优方案无异于大海捞针。郭崎和陈云霁在这个问题上花费了大量的时间和精力,始终未能解决这个难题。
    转机发生来自 2010 年。人工智能理论研究方向的能手陈天石博士从科大毕业加入到龙芯团队中。当他了解到龙芯面临的设计空间搜索问题后,一下子就和龙芯已有的研究摩擦出了火花,提出人工智能中的半监督学习方法,很可能可以解决这个问题。有了这把人工智能的快刀,设计空间搜 索 的 乱 麻 一 下 子 就 被 解 开 了。郭崎等人通过大量实验发现,半监督学习方法极大地降低了搜索的误差。通过和南京大学的周志华老师的深入交流,他们在人工智能方法上又得到了进一步的提高。人工智能领域对于这种重要的体系结构应用很感兴趣,而新颖的人工智能方法又促进了体系结构的研究。顺理成章地,这个工作被投稿到 IJCAI 之后,很快就得到了认可。
   除此之外,人工智能方法更是进一步在龙芯的设计验证各个环节得到了广泛推广,例如郭崎和陈天石等人合作的另一篇论文,通过机器学习方法而不是传统的覆盖率来预测和评估验证的质量,也发表在 EDA 领域顶级会议DATE 上。
   理实交融的龙芯基础研究
   一 腔 赤 诚 血, 十 年 风 雨 路。在产学研结合的路上,龙芯的研究从工程中来,到工程中去,源于工程,高于工程,逐渐形成了理 实 交 融 的 龙 芯 基 础 研 究 思 路:
不拘泥于结构研究的小框架,而是立足于工程实践,从应用算法往下做结构或者从底层电路往上做 结 构, 辅 以 编 译、 操 作 系 统、验证等技术的支持,极大的拓展了结构研究的视野和方法,取得了丰硕的成果。迄今在龙芯基础研究中涌现的研究,不跟在洋人后面亦步亦趋(龙芯的大量顶级会议期刊论文在没有国际合作的情况下,依然得到广泛认可,随着更多国际合作的接踵而来,龙芯研究必将给国际主流研究注入自己的特色) 而是解决自己现          ,在遇到或将要遇到的问题。其所解决的龙芯 3 号中的问题,正是整个体系结构领域也要面对的问题。 龙 芯 的 工 程 使 得 龙 芯 人 能更早于学术界一步得到实践的反馈。
   尽管龙芯基础研究已现鲜明特色,然而对龙芯人来说,这些还远远不够。胡老师的理想是龙芯在研究上像 Bell 实验室和 IBM的 Watson 实验室一样,为人类科技进步作出突出的贡献。实现这个理想很艰巨,需要在计算机体系结构方面、    整个计算机领域(包括理论计算机、人工智能和操作系统等)  、乃至自然科学(包括材料甚至物理)的最前沿做出实质性贡献。为了实现这个目标,胡伟武老师决定筹划成立专门的基础研究部门。必须看到,面对繁重的产业化任务,龙芯人把绝大部分精力都投入到紧张的工程开发中,因此目前龙芯并不提倡占用工程时间进行研究(除了面临毕业的博士生)    ,这些顶级论文也都只是龙芯人利用晚上或者周末进行的业余创作。随着龙芯专门的基础研究部门的成立,龙芯理论研究的春天即将开启。■
http://www.ict.cas.cn/cxwh/cxqs/
欣赏龙芯的体系结构
你不能排下版吗?

文章信息量很大啊。
龙芯的体系结构在国内独步不过份!
    2011 年 龙 芯 10 岁 了。 在
2011 年, 全 面 覆 盖“ 大 CPU”  、
“中 CPU”“小 CPU”的更多龙
         、
芯芯片产品会全面走向市场;更
加面向市场需求的龙芯 2H、1C、
1D 等 产 品 将 完 成 流 片; 首 次 使
用 28nm/32nm 工艺的龙芯 3C 将
实现龙芯主流产品主频从现在的
1GHz 到未来 2GHz 的跨越。2011
2H去年底回来样片,测试顺利
已补链接
但是我们这些龙芯爱好者拿不到笔记本啊。
壮东风 发表于 2012-4-9 21:30
但是我们这些龙芯爱好者拿不到笔记本啊。
这个月有200台!
中国大陸人最高科學成就就是〝埋論研究〞,其中“世界領先”技術有-机械人研究/中央處理器設計/空氣動力學/深空間測控能力/發動机合金材料等等,其水平

都是“亞洲第一”滴{:soso_e104:}{:soso_e104:}
据说龙芯2F的flash就很不错了
gegihig3tu42042 发表于 2012-4-9 21:51
中国大陸人最高科學成就就是〝埋論研究〞,其中“世界領先”技術有-机械人研究/中央處理器設計/空氣動力學 ...
台巴子不服气了
破落户 发表于 2012-4-9 21:50
这个月有200台!
别安慰我了,拿不到。
看来那个大量小核也是intel玩剩的东西啊……那个什么4000核“震惊”intel现在看来真是自撸的痛快啊……
flyingfether 发表于 2012-4-9 22:46
看来那个大量小核也是intel玩剩的东西啊……那个什么4000核“震惊”intel现在看来真是自撸的痛快啊……
4000核?最新的显卡核心有多少计算单元?玩噱头而已


4000个核心,连A卡和N卡就是2000左右的流处理单元:
Radeon HD 7870会有20组计算单元、1280个流处理器、80个纹理单元、32个ROP单元、128个Z/Stencil单元
HD7970显卡最受人期待的地方正在于其强大的性能,而性能则源自于强大、高效的核心架构。HD7970显卡的GCN核心架构内建2048个流处理器、43亿个晶体管

4000个核心,连A卡和N卡就是2000左右的流处理单元:
Radeon HD 7870会有20组计算单元、1280个流处理器、80个纹理单元、32个ROP单元、128个Z/Stencil单元
HD7970显卡最受人期待的地方正在于其强大的性能,而性能则源自于强大、高效的核心架构。HD7970显卡的GCN核心架构内建2048个流处理器、43亿个晶体管
壮东风 发表于 2012-4-9 22:31
别安慰我了,拿不到。
就是一些爱好者买,想想办法还是能拿到!可以联系龙梦的销售部史先生
后端设计还是暂时回避了,我最想听到的消息是,计算所能和国内的EDA厂商,如华大九天合作,做出一个如同美国Intrinsity公司(已被苹果收购)的FAST14芯片后端设计软件,链接 http://bbs.lemote.com/viewthread.php?tid=24713&highlight=intrinsity  http://bbs.lemote.com/viewthread.php?tid=28150&highlight=%BE%C5%CC%EC
龙芯CPU芯片设计龙芯3系列的后端设计水平,专职人少兼职人也少经验差且极度依靠Synopsys,链接 http://bbs.lemote.com/viewthread.php?tid=65674&highlight=%BA%F3%B6%CB
苹果证实将收购A4芯片制造商Intrinsity http://bbs.lemote.com/viewthread.php?tid=29180&highlight=intrinsity   http://bbs.lemote.com/viewthread.php?tid=29193&highlight=intrinsity
优点说了一大堆,但是我总觉得肯定有个无法回避的缺点
windrarara 发表于 2012-4-10 10:59
优点说了一大堆,但是我总觉得肯定有个无法回避的缺点
缺点是,频率还没上去。产业链太长
破落户 发表于 2012-4-10 12:29
缺点是,频率还没上去。产业链太长
频率不是大问题。
现在的频率已经是问题了!希望今年2G的3C能去流片
比频率更那个的应该还是产业链
尽管我坚定地支持龙芯

可我总觉得  ........   这篇文章说得太猛了 .........  我感觉心里一下承受不了龙芯有这么大的突破 ?
ddeell72 发表于 2012-4-10 18:24
尽管我坚定地支持龙芯

可我总觉得  ........   这篇文章说得太猛了 .........  我感觉心里一下承受不了龙 ...
不是太猛!是原来的龙黑太狂。龙芯一直是延续龙2,再龙3,没有什么一下子的突破!龙2使用感觉不是太好,是很多方面造成的,软硬件都有原因!
这篇文章的作者是龙芯3号的3个主要设计者之一的陈云霁,是龙芯3号验证组组长。其他两个是老胡和高翔,高翔是系统组组长!牛人
三个问题:
   一、龙芯3的物理优化做的怎么样了,记得龙芯2的这方面做的不好。
   二、是多少工艺的,28nm还是32nm?
   三、模拟X86的效率是多少?
时间和空间可以等量齐观。

空间地址逻辑值与物理值之间的换算关系,也可以推导到时间的逻辑值、物力值上吧。
奇怪这文怎么没有芯片大牛来喷,是不是龙芯己经过气了
这篇文章能信的话,POWER8没出世就被完懪了。。。
3.2G Flops/w已经被证实是胡扯。龙芯3B开启向量单元的TDP是100w,算下来才是1.28G Flops/w。

deam 发表于 2012-9-21 12:59 3.2G Flops/w已经被证实是胡扯。龙芯3B开启向量单元的TDP是100w,算下来才是1.28G Flops/w。
32纳米的8核龙芯3C或叫龙芯3B一B才算实现了目标,192G Flops,估计TDP实际功耗50瓦一60瓦左右,1.2G到1.5G主频

deam 发表于 2012-9-21 12:59 3.2G Flops/w已经被证实是胡扯。龙芯3B开启向量单元的TDP是100w,算下来才是1.28G Flops/w。
32纳米的8核龙芯3C或叫龙芯3B一B才算实现了目标,192G Flops,估计TDP实际功耗50瓦一60瓦左右,1.2G到1.5G主频
3.2G Flops/w已经被证实是胡扯。龙芯3B开启向量单元的TDP是100w,算下来才是1.28G Flops/w。
并且这个100瓦还有争议
http://bbs.lemote.com/viewthread.php?tid=71986&extra=page%3D2
1、龙芯还是在用别人的架构,自己设计芯片而已。
2、龙芯到底什么时候能跑win?
3、龙芯能不能和GPU集成?
十月赞歌 发表于 2012-9-21 17:55
1、龙芯还是在用别人的架构,自己设计芯片而已。
2、龙芯到底什么时候能跑win?
3、龙芯能 ...
用别人架构又怎样
1、龙芯还是在用别人的架构,自己设计芯片而已。 2、龙芯到底什么时候能跑win? 3、龙芯能 ...
龙芯是搞硬件的,不是搞软件的
1、龙芯还是在用别人的架构,自己设计芯片而已。 2、龙芯到底什么时候能跑win? 3、龙芯能 ...
http://bbs.lemote.com/viewthread.php?tid=21289&extra=&highlight=godson%2BX&page=1 谁介绍一下 龙芯X86处理器(GodsonX)

-----再翻译一下 中科院计算技术研究所先进微系统研究组(简称GRAM) 。先进微系统研究组成立于2005年6月。 它拥有大约20名成员组成。

先进微系统研究组致力于微处理器的设计,其成员在这方面有广泛的知识。有些精通体系架构设 计,一些精通集成电路RTL级设计,一些精通时序调整和性能分析;有些是熟练的低功耗设计者, Linux内核级黑客,精通编译器优化;现场可编程门阵列(FPGA)仿真和 IP核封装。 先进微系统研究组第一个项目为 GodsonX处理器 。这个项目从2005年7月开始。 GodsonX处理器 的设计初步目标是与x86指令兼容的FPGA原型处理器,并能在FPGA原型处理器中启动Windows XP 。因此第一步,先进微系统研究组精心设计了微架构的GodsonX 。Godsonx是一款4发射的超 标量X86处理器。它与x86兼容,并支持英特尔MMX指令,SSE指令集和x87浮点指令。第二步, 通过 Cycle级的模拟程序实现,模拟了处理器中每一拍运行的状态。在此之后,先进微系统研究组 用GodsonX ç模拟器尝试启动Windows XP 。并花了很多时间对模拟器中的错误进行分析, 先进微系统研究组成功启动安装Windows XP在GodsonX模拟器。然后,先进微系统研究组转移到

最后,先进微系统研究组的RTL调整和FPGA仿真完成时间为2006

修改RTL代码 ç模拟器。

年7月。 先进微系统研究组现在参与GodsonT项目。 GodsonT是一个在研的大规模片上多核处理器,其主 题包括拓扑内核结构在一个芯片上,线程模型,内存模型,片上网络,同步和运行系统等,先进 微系统研究组还有一个团队正致力于计算机虚拟技术的研究,包括 全系统虚拟化,包括CPU虚拟 化,存储虚拟化和I / O虚拟化。

===Godsonx 是一套完全兼容iA-32指令集的Cycle级的全系统模拟器,基于Bochs模拟器实现, 在Bochs外设的基础上,添加了一个完全重新实现的超标量处理器核心,该核心具有 IA-32 结构处 理器的完整功能,通过 Cycle级的模拟程序实现,模拟了处理器中每一拍运行的状态。 在新的处理器核心完成大量的验证,能在windows操作系统上运行了包括游戏在内的多 种测试程序,在linux操作系统上完整运行了
1、龙芯还是在用别人的架构,自己设计芯片而已。 2、龙芯到底什么时候能跑win? 3、龙芯能 ...
核高基重大专项部分成果推广目录.doc
龙芯2H:一款64位SoC芯片,片内集成64位超标量处理器核、

媒体加速以及南桥芯片组功能。工作频率为900MHz ~1GHz。

芯片采用BGA封装,引脚的数目为744个,功耗小于7瓦。

套片使用。