练拳不练功,到老一场空---观龙芯有感

来源:百度文库 编辑:超级军网 时间:2024/04/28 08:17:13
本论坛IT版里提的龙芯sunspider成绩只有3000多ms,我这10年前的athlon1700还有1500ms,当然你可以说是优化的问题,但这正是差距所在,民用软件电子仍然是美国的天下。没有强大的民用工业,就没有强大的军工。没在中国的Intel、微软、GE、波音也就不可能追上美国。本论坛IT版里提的龙芯sunspider成绩只有3000多ms,我这10年前的athlon1700还有1500ms,当然你可以说是优化的问题,但这正是差距所在,民用软件电子仍然是美国的天下。没有强大的民用工业,就没有强大的军工。没在中国的Intel、微软、GE、波音也就不可能追上美国。
汉芯,龙芯,叹息一声。话说除了要上战场拼命的军备,其它方面真的是BKC一片。
高精尖不是说有就能有的  时间 金钱 人才 一个都不能少
这种东西完全自主的只有美、中、日,这个已经是KC爆红了
“一般一般”……“世界第三”
LZ跑这里讨论来了,我晕。我的3A是900M的频率测试的,你的1700是1.46G.再这个测试对浏览器很敏感。我的另一个浏览器跑13800ms,要这个数据你怎么看?
无非吃国家补助。。。
硬件还好一点了

软件差点更是太远了
LZ跑这里讨论来了,我晕。我的3A是900M的频率测试的,你的1700是1.46G.再这个测试对浏览器很敏感。我的另一 ...
我说了,差距首先是优化不行,chrome 1500ms, 360极速 2200ms,我不精通龙芯,但查了一下3A是四核的,内部cache都2M,对了我的1700还用的是DDR333。
这个东西不是突击几年就能赶上的,别忘了人家上世纪40年代应用计算机的时候我们在干嘛?
想解决这个,Only time。。。50年以后能比人家落后20年就很HKC了。。。
类似的还有滑动鸡,不是突击就能解决的
这些国企的东东好像都不行了,现在风光的华为之类的企业都是民企了。
提高主频,增加内核,相比之下龙芯怕是更容易做到
然而问题在于,由于起点就比别人落后,光靠民间的资源和资金,是永远做不成芯片的,因为你没法和Intel等企业竞争
akmd 发表于 2013-3-10 14:39
我说了,差距首先是优化不行,chrome 1500ms, 360极速 2200ms,我不精通龙芯,但查了一下3A是四核的,内部 ...
貌似这个软件是单线程测试?这个软件测试跟具体多少东西相关我也不清楚。我放出的东西不是官方浏览器,官方浏览器的数据非常差,13800多。
搞笑...
楼主文科的?
苹果和微软创业的时候美国也是高手林立,ibm之类的巨头也不少。但是为啥人家能杀出一条血路。温总说过,中国要有乔布斯这样的人物。这些都是车库公司的代表性人物。
其实我反而认为军用的芯片对于速度的要求,反而比民用的低,军用要的是稳定性,是耐久能力和能耗的控制,所以我认为不必太过紧张,只要在系统集成,在算法控制上做得好,那么速度上的差距还是可以弥补的!
摄友约克 发表于 2013-3-10 14:59
其实我反而认为军用的芯片对于速度的要求,反而比民用的低,军用要的是稳定性,是耐久能力和能耗的控制,所 ...
不要把眼睛光盯在军用上,太狭隘了。芯片这方面主要还是民用
由于基础差、起步晚、一穷二白。。。
搞笑...
楼主文科的?
求理科生给解读一下龙芯的水平.
一声叹息。。。
花落庭院 发表于 2013-3-10 14:31
LZ跑这里讨论来了,我晕。我的3A是900M的频率测试的,你的1700是1.46G.再这个测试对浏览器很敏感。我的另一 ...
撸主原来在哪里还出没过?
朱小童 发表于 2013-3-10 14:58
苹果和微软创业的时候美国也是高手林立,ibm之类的巨头也不少。但是为啥人家能杀出一条血路。温总说过,中国 ...
不是有人要批量制造1000个乔布斯的吗{:soso_e113:}
汝儿乃我 发表于 2013-3-10 15:11
不要把眼睛光盯在军用上,太狭隘了。芯片这方面主要还是民用
以龙芯目前的产能,能满足军用和航天之类的需求就不错了,民用?还不知是哪年的事,不如充分军用化,将来再考虑军转民!
最大侠 发表于 2013-3-10 14:36
硬件还好一点了

软件差点更是太远了
美国的太空总署和军工都是吃国家补贴
民用市场和民营企业竞争才是未来发展方向
国家投资就是在烧钱
akmd 发表于 2013-3-10 15:14
求理科生给解读一下龙芯的水平.
龙芯的结构水平,计算所龙芯组的3个主要设计师之一的陈云霁的文章(29岁成为计算所的研究员):

2007 年,龙芯 3 号的设计揭开序幕,当被人问到龙芯 3 号的意 义 时, 胡 伟 武 老 师 微 笑 不 语,提笔写下一行字,     “如果说龙芯 1号是在迷雾中起步,还看不到先行者的影子,   那么龙芯 2 号完成后,在当时实际上已经超过了一些同行者,看清了领先者的背影,而龙芯 3 号的完成将使龙芯大踏步赶上并超过领先者。  
    ”
      四 年 时 间 过 去, 龙 芯 3 号 已经从设计变成现实,并已发展出一系列改进型号。依托龙芯 3 号的研发,龙芯团队已经实现了胡老师的预期,走在了世界体系结构 研 究 的 最 前 沿。 从 2008 年 开始,龙芯在顶级会议和期刊上发表了一系列论文:     IEEE Trans. onComputers、IEEE Micro、ISSCC、I S C A、H P C A、I J C A I、H o t Chips、SPAA 和 DATE 等等。可以说,相比美国顶尖大学的一个研究组的论文发表水平也毫不逊色。 更 重 要 的 是, 龙 芯 的 研 究已经形成了鲜明的理实交融的风格。
      十年砺刃度清苦,一朝亮剑破敌阵。龙芯的研究也已经走过了十年的历程。无论前六年的求实探索,还是后四年的风云激荡,都是龙芯乃至计算所宝贵的积累。围绕着一个个芯片型号的工程实践,龙芯研究走了一条求真、求实、不取巧的最难走的研究工程紧密结合的路。龙芯研究水平的提高,是龙芯工程水平提高的体现和保障。龙芯最宝贵的研究财富,不是一些论文或者学术影响力,而是走通这条理实交融的路:我们的研究问题和方法,不是来自于外国人的论文,而是来自于自己的工程实践;而从我们的工程实践中提出的理论,能够在龙芯实践中真正发挥作用。笔力所限,我们无法展示这条路上每一次披荆斩棘。在此只能罗列几个闪亮的瞬间,以飨读者。

      龙芯 3 号体系结构
      早在龙芯 2 号的设计过程中,胡伟武老师就开始了对龙芯3 号 结 构 的 构 思。 和 单 核 的 龙 芯2 号 处 理 器 相 比, 多 核 的 龙 芯 3号的设计选择更加的多样化。要有多少个核,每个核的规模有多大,怎样把核联起来,每个核应该支持哪些应用?这些问题在胡老师心头萦绕了很久。的确,这些问题无论是学术界还是工业界都没有定论。龙芯已经不再跟着别 人 的 脚 步 奔 跑, 必 须 直 面 这些世界前沿水平的学术和工程问题。
      从什么角度来回答这些问题,从中找到一条适合龙芯发展的道路呢?胡老师的思路是清晰和一贯的,那就是市场才是体系结构研究好坏的最终标准。学术界和工业界最终都必须回到这个标准上。普通用户并不需要那么多核,他们更希望有少数很强大的核帮他们解决棘手的问题。同时,科学计算的用户又需要处理器提供一定程度的可扩展性。基于这两点考虑,胡老师采用了交叉开关加 Mesh 两维网络的多核结构,每个核具备较强的计算能力,同时提供 x86 虚拟机的支持。这样兼顾了普通用户和科学计算,给龙芯 3 号 留 下 了 广 阔 的 扩 展 空 间,同时又为 x86 上大量的应用提供了支持。
      五年前的这个抉择,给龙芯3 号的发展指出了正确的方向,奠定了良好的基础。沿着这个方向胡老师带领高翔、陈云霁等技术骨干加班加点,完成了首款龙芯 3号芯片芯 3A 的结构设计。龙芯3A 在 x86 模拟、可扩展互联方面的特点,被高性能芯片顶级会议Hot Chips08(大陆第一篇)和体系结构领域顶级期刊 IEEE Micro收录。可以说,龙芯研究路线的开创性和实用性是得到了广泛认可。Intel 最 终 采 取 了 和 龙 芯 类似的技术路线,也就是少量大核(Nehalem) 。去年,Intel 决定停掉他们大量小核的计划 Larrabee。他们也承认,没有用户愿意为 32 个以上的核买单。
     创新是永无止境的。龙芯 3A在学术上受到的关注并没有让龙芯人裹足不前。一般来说,通用处理器相对专用芯片来说性能功耗比比较差。一些龙芯 3 号的重要客户,需要龙芯 3 号能以超过DSP 的性能功耗比完成一些重要的信号处理应用。如何突破通用处理器的桎梏,让龙芯 3 号在较低的功耗上达到极高的性能呢?胡老师时常感慨,  “客户提出来的问题,  比论文里面的问题难多了”    。是的,但是龙芯的精神就是越难的问题就越要上。胡老师带着期许将这个艰巨的担子压在了年轻科研人员陈云霁的身上。陈云霁对 CPU、GPU、MPU 和 DSP 等芯片结构的异同进行了深入的思考,试图找出 CPU 性能功耗比差的本质原因。通过和胡老师的反复讨论,他们最终发现,通用处理器问题不在于计算部件不行,也不在于访存部件不行,而是访存部件的数据没有办法以合适的格式很舒服地喂给计算部件,很多带宽和时间都浪费在捣腾数据格式上了,最终导致性能功耗比差。因此,他们提出了 XPU 的结构,让处理器在数据通路的每个阶段都能自动地对数据进行重新组织,这样计算部分就能全负荷地开足马力,一下子就解决了性
能功耗比的问题。同时 XPU 作为CPU、 GPU、 MPU 和 DSP 的融合,可以实现很多传统 CPU 不适合解决的问题(如信号处理、媒体处理等)  。
       XPU 技 术 应 用 到 龙 芯 3B上, 使 得 龙 芯 3B 性 能 功 耗 比 达到 了 惊 人 的 3.2GFlops/W(Intel的 Westmere 大约 1.3GFOPS/W,BM 的 Power7 大约 1.5GFLOPS/W) ,居目前世界上所有通用处理器第一位。相关工作发表在 HotChips10 和集成电路领域最好的会议,号称集成电路的奥林匹克的ISSCC11 上。可以说,龙芯 3B 标志着龙芯处理器真正走到了世界最前沿。

      全局时钟并行理论
      多核处理器系统设计验证中一个无法回避的关键问题是如何判断并行程序在多核处理器上的执行结果是否正确。这个 NP 难问题就像拦路虎一样阻挡在每一个多核设计者面前。事实上,Intel、IBM 和 Sun 等国际大公司在他们的处理器设计过程中,都被并行执 行 正 确 性 判 断 问 题 深 深 困 扰。他们始终都投入了大量精力进行研究,在 ISCA、HPCA 和 SPAA等顶级会议上进行大量讨论,但始终无法从根本上解决这个问题。
      在 龙 芯 3 号 的 研 制 过 程 中,并行执行正确性判断问题也横亘在龙芯人面前。如果不能取得突破,就意味着每次在龙芯 3 号上跑一个程序要花几千万甚至上亿倍的时间来检验跑得对不对。面对这个前人无法克服的挑战,陈云霁及验证组多位同志反复推敲,在经过许多个不眠之夜后,终于找到了问题的源头:并行执行正确性的判断构建于 Lamport 在 70年代末并行理论基础逻辑时间序之上,也就是仅考虑并行系统中的因果性。经过反复讨论,他们提出采用一个全局时钟上的物理时间序把整个问题切割成多个片段,从而实现分治求解。通过物理时间序的概念,成功地将这个问题时间复杂度从指数级降到了   2O(n )。该论文最终被体系结构领域顶级学术会议 HPCA’09 接收,是该会议第一篇来自大陆的论文。紧接下来,他们在胡老师的指导下乘热打铁进一步把复杂度降到了 O(n),从而彻底解决了这个困扰体系结构学术界和工业界十多年的大问题。相关工作也被计算机领域顶级期刊 IEEE Trans. onComputers 收录。
      物理时间序的想法乍看起 来 十 分 不 符 合 常 理, 以 至 于HPCA’09 的多位审稿人都表示从 未 见 过 此 类 想 法。 学 术 权 威Lamport 早就说过,分布式系统里就不要考虑物理时间序了,还是依靠基于因果关系的逻辑时间序吧。因此,这个观念已经根植于并行理论的骨髓中 30 年了。龙芯人没有畏惧权威,止步不前的传统。但是打破传统观念除了需要勇猛无畏,也需要细致入微。在HPCA’09 之后,陈云霁请来专门从事理论研究的陈天石 ( 当时还是科大博士生 ),二人通过反复讨论终于悟到前人没有想到物理时间序的原因。原来,在分布式系统中,由于进程之间的物理距离较大,要获得准确的、同步的全局物理时间是极其困难。然而当代的多核处理器已经能在一个芯片上集成多个处理器核,实现全局物理时钟是易如反掌。不幸的是,早期研究中多处理器系统通常被简单地当成分布式系统的一个特例,几十年来这种思想桎梏了对多核处理器中时钟和序关系的研究,严重阻碍了并行领域的发展。
      一旦破除了仅有逻辑时间序的传统观念,并行领域中的许多问题就迎难而解。在不长的时间内,龙芯连续发表了多篇有关并 行 系 统 中 时 钟 的 工 作, 包 ISCA’10(计算机体系结构最好的会议)     、DATE’10(EDA 领域顶级会议)和 SPAA’11(并行理论最好的会议)上。其中 ISCA10的工作有人评价为“终结了硬件确定性重放”       。
摄友约克 发表于 2013-3-10 15:32
以龙芯目前的产能,能满足军用和航天之类的需求就不错了,民用?还不知是哪年的事,不如充分军用化,将来 ...
别扯了,现在龙芯根本就没供应部队和航天。

部队和航天又不是没有自己东西,为什么要用龙芯???

akmd 发表于 2013-3-10 15:14
求理科生给解读一下龙芯的水平.
除了龙芯的结构,还有后端设计,这个相距甚远。软件等生态系统就是路漫漫。。。。
一些人一讨论龙芯就国家安全。。。

龙芯做路由器了,国家安全啊,结果中兴华为说,你那垃圾货色不够格啊。。。我们有更好的。

cirio991 发表于 2013-3-10 15:43
别扯了,现在龙芯根本就没供应部队和航天。

部队和航天又不是没有自己东西,为什么要用龙芯???


你看看这个截图:什么叫安全应用?
cirio991 发表于 2013-3-10 15:43
别扯了,现在龙芯根本就没供应部队和航天。

部队和航天又不是没有自己东西,为什么要用龙芯???


你看看这个截图:什么叫安全应用?
龙芯的结构水平,计算所龙芯组的3个主要设计师之一的陈云霁的文章(29岁成为计算所的研究员):

2007  ...
你贴的文章我看过N多次了
产品有个应用和推广的问题。只有大规模的使用才能不断地改进、发展!
akmd 发表于 2013-3-10 15:52
你贴的文章我看过N多次了
你是不相信砖家,信民科,那你可以信deam.
呵呵,苏联躺枪
除了龙芯的结构,还有后端设计,这个相距甚远。软件等生态系统就是路漫漫。。。。
对的,原来还以为只有X86,现在又出了ARM,在民用上更难走了
你是不相信砖家,信民科,那你可以信deam.
我是那篇的专家不真诚,暴的料少
akmd 发表于 2013-3-10 15:52
你贴的文章我看过N多次了
你有心可以去翻IEEE Trans. onComputers、IEEE Micro、ISSCC、I S C A、H P C A、I J C A I、H o t Chips、SPAA 和 DATE 。尤其是结构的3大顶级杂志:micro   ISCA  HPCA,看看龙芯发表的相关论文,美国的杂志发报论文不是靠¥吧。
akmd 发表于 2013-3-10 15:59
我是那篇的专家不真诚,暴的料少
再说深可能就是详细体系结构解说了,这个有必要吗?
看看各位讨论