NVIDIA的丹佛处理器,全美达呀全美达

来源:百度文库 编辑:超级军网 时间:2024/04/29 00:21:02
http://blogs.nvidia.com/blog/201 ... 64-bit-for-android/

一个VLIW顺序处理器,又一个安腾。看来很久以前大牛们的猜测没错。
In other words, it is an in-order VLIW core with a dynamic recompiler ARM emulator in firmware. Like the old "x86" chips from Transmeta. Interesting design choice, we'll see how well it works in practice.

The Denver chip will use in-order control logic...... Mind blown- I applaud nvidia engineers!

this reduces the need to re-optimize the software routines. Instead of using hardware to extract the instruction-level parallelism (ILP) inherent in the code, Denver extracts the ILP once via software techniques, and then executes those routines repeatedly, thus amortizing the cost of ILP extraction over the many execution instances.

As part of the Dynamic Code Optimization process, Denver looks across a window of hundreds of instructions and unrolls loops, renames registers, removes unused instructions, and reorders the code in various ways for optimal speed. This effectively doubles the performance of the base-level hardware through the conversion of ARM code to highly optimized microcode routines and increases the execution energy efficiency.

The slight overhead of the dynamic optimization process is outweighed by the performance gains of already having optimized code ready to execute. In cases where code may not be frequently reused, Denver can process those ARM instructions di

- See more at: http://blogs.nvidia.com/blog/201 ... thash.Boe8Ju5N.dpufhttp://blogs.nvidia.com/blog/201 ... 64-bit-for-android/

一个VLIW顺序处理器,又一个安腾。看来很久以前大牛们的猜测没错。
In other words, it is an in-order VLIW core with a dynamic recompiler ARM emulator in firmware. Like the old "x86" chips from Transmeta. Interesting design choice, we'll see how well it works in practice.

The Denver chip will use in-order control logic...... Mind blown- I applaud nvidia engineers!

this reduces the need to re-optimize the software routines. Instead of using hardware to extract the instruction-level parallelism (ILP) inherent in the code, Denver extracts the ILP once via software techniques, and then executes those routines repeatedly, thus amortizing the cost of ILP extraction over the many execution instances.

As part of the Dynamic Code Optimization process, Denver looks across a window of hundreds of instructions and unrolls loops, renames registers, removes unused instructions, and reorders the code in various ways for optimal speed. This effectively doubles the performance of the base-level hardware through the conversion of ARM code to highly optimized microcode routines and increases the execution energy efficiency.

The slight overhead of the dynamic optimization process is outweighed by the performance gains of already having optimized code ready to execute. In cases where code may not be frequently reused, Denver can process those ARM instructions di

- See more at: http://blogs.nvidia.com/blog/201 ... thash.Boe8Ju5N.dpuf


再来一个性能比较图,苹果的A7不知道测试频率是多少?貌似可以有1.6G?平常工作在1.3G。haswell频率是1.4G,没有加速技术。丹佛是2.5G。SPEC 2000丹佛超过haswell,苹果 A7s是haswell的74%,高通的8974AA频率2.3G的SPEC 2000确实差。。。。。。。。性能基准是2.3G的A15,A15的SPEC 2000是1,苹果A7,haswell,丹佛处理器的分数都可以算出来了!

再来一个性能比较图,苹果的A7不知道测试频率是多少?貌似可以有1.6G?平常工作在1.3G。haswell频率是1.4G,没有加速技术。丹佛是2.5G。SPEC 2000丹佛超过haswell,苹果 A7s是haswell的74%,高通的8974AA频率2.3G的SPEC 2000确实差。。。。。。。。性能基准是2.3G的A15,A15的SPEC 2000是1,苹果A7,haswell,丹佛处理器的分数都可以算出来了!
从SPEC int 2000来说苹果的A7还不如酷睿2,苹果A7的分数是1300分,酷睿1.3G应该在1400分左右。苹果A7假如是正常频率测试的话
老黄在移动处理器上不是要退散了么
从SPEC int 2000来说苹果的A7还不如酷睿2,苹果A7的分数是1300分,酷睿1.3G应该在1400分左右。苹果A7假如是 ...
问题是nvidia只能在越狱的5s上测这个,而其他芯片可以用开发板在linux上测试。
deam 发表于 2014-8-20 08:47
问题是nvidia只能在越狱的5s上测这个,而其他芯片可以用开发板在linux上测试。
什么是越狱?我只知道有人破解A7的硬件资源貌似不少。有一个图,看来苹果的微架构效率还有待发挥。但是英伟达做这个测试性能比较,不能给自己摸黑吧,起码的公平应该考虑,呵呵。。。。。。。


重复编辑。。。。。

重复编辑。。。。。
问题是nvidia只能在越狱的5s是什么东西?我只知道有人破解A7的硬件资源貌似不少。有一个图,看来苹果的微架构效率还有待发挥。NVIDIA不能给自己摸泥巴,公平对有信誉的公司很重要,呵呵。。。。都看着呢


CPU性能图测试补两个链接:
很多争吵可以歇歇了。作为一个有信誉的大公司,成绩应该有权威度。
http://forum.beyond3d.com/showthread.php?p=1865749

http://wccftech.com/nvidias-64bi ... es-clocked-250-ghz/

CPU性能图测试补两个链接:
很多争吵可以歇歇了。作为一个有信誉的大公司,成绩应该有权威度。
http://forum.beyond3d.com/showthread.php?p=1865749

http://wccftech.com/nvidias-64bi ... es-clocked-250-ghz/
楼上英伟达在黑ati时,也没人叫他无赖公司。
搞不定基带,今天的VIA就是明天的nvidia,用不了10年……

花落庭院 发表于 2014-8-20 12:01
什么是越狱?我只知道有人破解A7的硬件资源貌似不少。有一个图,看来苹果的微架构效率还有待发挥。但是英 ...


Nvidia也没法在ip5s上安装linux,只能在越狱解权限的ios上用苹果的编译器编译SPEC,但其他芯片都可以在linux下跑,所以A7的成绩应该是受限的。另外A7的浮点性能比整数性能强不少。

这张图目前存疑,因为是Anand自己猜的。
花落庭院 发表于 2014-8-20 12:01
什么是越狱?我只知道有人破解A7的硬件资源貌似不少。有一个图,看来苹果的微架构效率还有待发挥。但是英 ...


Nvidia也没法在ip5s上安装linux,只能在越狱解权限的ios上用苹果的编译器编译SPEC,但其他芯片都可以在linux下跑,所以A7的成绩应该是受限的。另外A7的浮点性能比整数性能强不少。

这张图目前存疑,因为是Anand自己猜的。
deam 发表于 2014-8-20 21:39
Nvidia也没法在ip5s上安装linux,只能在越狱解权限的ios上用苹果的编译器编译SPEC,但其他芯片都可以在 ...
意思跑ios成绩不如linux?SPEC CPU测试跟操作系统关系很大吗?还是其他原因?A7的浮点性能图片上没有呀,你哪里来的比整数强不少?再 浮点怎么跟整数对比?苹果A7的成绩到底是哪里来的,我也疑惑,假如是NVIDIA测试的,为什么不测试浮点?为什么不公布测试环境?

第二个问题,
http://www.anandtech.com/show/79 ... chitecture-detailed

你觉得这样的猜测靠谱吗?
再看看富士通在hotchips 26上的处理器
意思跑ios成绩不如linux?SPEC CPU测试跟操作系统关系很大吗?还是其他原因?A7的浮点性能图片上没有呀, ...
a7的geekbench测试中,相比同频a6,浮点的优势比整数的大很多。

ios成绩肯定不如linux。当初mac pro 8核系统在os x下测出来的分数才有linux/icc的8成。

anand的这个是推测,目前存疑,主要是decoder是否有6个那么多值得怀疑。
deam 发表于 2014-8-21 14:04
a7的geekbench测试中,相比同频a6,浮点的优势比整数的大很多。

ios成绩肯定不如linux。当初mac pro 8 ...
用geekbench推SPEC CPU,呵呵。。。。。SPEC CPU跟操作系统有这么大的关系?呵呵。。。。。。。。。。。。。。。看来SPEC CPU的测试CPU  内存子系统和编译器的定义要改写。。。。。。。。。
用geekbench推SPEC CPU,呵呵。。。。。SPEC CPU跟操作系统有这么大的关系?呵呵。。。。。。。。。。。 ...

苹果的系统/编译器在spec里表现不佳这是事实。甚至同是icc编译器,windows下的分数就要打折扣。

a7的重点改进就是浮点性能,这是能从geekbench里看出来的。
deam 发表于 2014-8-21 15:59
苹果的系统/编译器在spec里表现不佳这是事实。甚至同是icc编译器,windows下的分数就要打折扣。

a7 ...
呵呵,笑话很冷。。。。。。。。。。。。。。。。。。。。。。
花落庭院 发表于 2014-8-21 17:23
呵呵,笑话很冷。。。。。。。。。。。。。。。。。。。。。。
呵呵什么,敢情龙芯SPEC成绩就会受编译器影响,苹果的就不会么。
deam 发表于 2014-8-21 18:46
呵呵什么,敢情龙芯SPEC成绩就会受编译器影响,苹果的就不会么。

呵呵,你不是说操作系统折扣8成吗?现在又编译器了。。。。。。。
Apple LLVM 执行速度很快,其编译代码的速度比 GCC 快两倍,生成应用程序运行速度也更快(相比 GCC 生成的应用程序)。整个编译器被构建成为一组高度优化的库,使用方便且易于优化,并专门针对当前最新的芯片架构进行设计。在 Xcode 4 当中,整个 Apple LLVM 编译器栈—从千对解析器到后端代码优化器—都对 C、 Objective-C 以及 C++ 有极佳的支持。

http://www.7do.net/resources-5276-1-1.html

花落庭院 发表于 2014-8-21 19:02
呵呵,你不是说操作系统折扣8成吗?现在又编译器了。。。。。。。

http://www.7do.net/resources-52 ...
操作系统不同不就是编译器版本不一样么。

和GCC比?和ICC比还差不多。Nvidia测K1的时候也不可能用GCC吧。

deam 发表于 2014-8-21 19:04
操作系统不同不就是编译器版本不一样么。

和GCC比?和ICC比还差不多。Nvidia测K1的时候也不可能用GCC ...


ICC比X86版本的GCC快2倍?还是LLVM比ICC快2倍?window有ICC版本,linux也有ICC版本测试,你的意思是操作系统还是固定特定的编译器才能测试?
deam 发表于 2014-8-21 19:04
操作系统不同不就是编译器版本不一样么。

和GCC比?和ICC比还差不多。Nvidia测K1的时候也不可能用GCC ...


ICC比X86版本的GCC快2倍?还是LLVM比ICC快2倍?window有ICC版本,linux也有ICC版本测试,你的意思是操作系统还是固定特定的编译器才能测试?
花落庭院 发表于 2014-8-21 19:42
ICC比X86版本的GCC快2倍?还是LLVM比ICC快2倍?window有ICC版本,linux也有ICC版本测试,你的意思是操 ...
前面说的Apple LLVM的速度是GCC两倍,你怎么知道是什么版本的GCC?

苹果自己的测试,同样的8核平台,Intel测出SPEC分数达到210的,苹果只测出145分。
deam 发表于 2014-8-21 21:25
前面说的Apple LLVM的速度是GCC两倍,你怎么知道是什么版本的GCC?

苹果自己的测试,同样的8核平台,I ...
你说2012年苹果会用什么GCC跟LLVM比较呢?
呵呵,玩SPEC rate了?苹果是用什么编译器测试的:ICC,GCC ,LLVM?
用ICC,苹果这是想干嘛?
用GCC,有两种可能,相对LLVM对GCC2倍的速度,其一,GCC对INTEL太偏爱,其二,ICC对比LLVM太次。
用LLVM的话,参考INTEL用ICC+微软编译器测试AMD的CPU,LLVM表现的很不错!
会有其他的编译器测试吗?


呵呵,同样的表演千百遍。。。。。。。看看苹果的黑科技(A7的乱序资源着实不少呀!)是什么原因SPEC CPU  2000测试表现不理想。。。。。是只有300人的设计队伍,还是300人的软件队伍?苹果剩下75000人都去销售了?我怎么记得看过资料说苹果的技术开发团队有接近4万?感情龙芯还是10个人设计CPU,因为2002年左右龙芯就是10人呢。。。。。

呵呵,同样的表演千百遍。。。。。。。看看苹果的黑科技(A7的乱序资源着实不少呀!)是什么原因SPEC CPU  2000测试表现不理想。。。。。是只有300人的设计队伍,还是300人的软件队伍?苹果剩下75000人都去销售了?我怎么记得看过资料说苹果的技术开发团队有接近4万?感情龙芯还是10个人设计CPU,因为2002年左右龙芯就是10人呢。。。。。
你说2012年苹果会用什么GCC跟LLVM比较呢?
呵呵,玩SPEC rate了?苹果是用什么编译器测试的:ICC,GCC  ...
那请问为什么os x上同样的8核平台,用llvm测spec的性能只有icc的7成多?

花落庭院 发表于 2014-8-22 06:35
呵呵,同样的表演千百遍。。。。。。。看看苹果的黑科技(A7的乱序资源着实不少呀!)是什么原因SPEC CPU   ...


nvidia连a7核心结构图都搞不到,开发板没有,在越狱的ip5s上测个自己编译的spec,就能成了a7的spec性能表现了。他们连spec fp都测不出来这都拿来说事。

苹果技术团队接近四万?又准备说苹果有四万人做优化了?可惜苹果不是intel,前者从来就没在ios上公开过spec成绩,这四万人就是做优化都优化不到spec头上。
花落庭院 发表于 2014-8-22 06:35
呵呵,同样的表演千百遍。。。。。。。看看苹果的黑科技(A7的乱序资源着实不少呀!)是什么原因SPEC CPU   ...


nvidia连a7核心结构图都搞不到,开发板没有,在越狱的ip5s上测个自己编译的spec,就能成了a7的spec性能表现了。他们连spec fp都测不出来这都拿来说事。

苹果技术团队接近四万?又准备说苹果有四万人做优化了?可惜苹果不是intel,前者从来就没在ios上公开过spec成绩,这四万人就是做优化都优化不到spec头上。
deam 发表于 2014-8-22 11:03
那请问为什么os x上同样的8核平台,用llvm测spec的性能只有icc的7成多?
http://www.spec.org/cpu2006/resu ... 20111121-18938.html
http://www.spec.org/cpu2006/resu ... 20120116-19332.html
推土机CPU,为什么ICC下是open 64的5成多呢?
花落庭院 发表于 2014-8-22 11:08
http://www.spec.org/cpu2006/results/res2011q4/cpu2006-20111121-18938.html
http://www.spec.org/cpu ...
推土机是苹果做的?苹果自己的编译器跑SPEC就是那个成绩,和AMD有什么关系?
花落庭院 发表于 2014-8-22 11:08
http://www.spec.org/cpu2006/resu ... 20111121-18938.html
http://www.spec.org/cpu ...

还有我问你了,ip5s全速运行也就100秒就降频,这Nvidia是什么条件下测试的ip5s?冰箱里?
deam 发表于 2014-8-22 11:06
nvidia连a7核心结构图都搞不到,开发板没有,在越狱的ip5s上测个自己编译的spec,就能成了a7的spec性能 ...

呵呵,做个好编译器就可以了,什么4万人优化?测试SPEC还要搞什么核心图?有必要吗?是呀,为什么没有浮点测试?是NVIDIA测试的吗?你怎么知道人家怎么测试的?你有测试文档?
花落庭院 发表于 2014-8-22 11:12
呵呵,做个好编译器就可以了,什么4万人优化?测试SPEC还要搞什么核心图?有必要吗?是呀,为什么没有 ...
Nvidia何德何能,就能搞到Cyclone的详细数据?它又何德何能可以让LLVM针对SPEC做优化?以苹果的保密政策,Nvidia唯一的方法就是拿一部越狱的ip5s自己装个SPEC,SPEC fp还不一定测的出来。你有他们的测试文档?既然没有,它这个成绩就没什么公信力。
deam 发表于 2014-8-22 11:10
推土机是苹果做的?苹果自己的编译器跑SPEC就是那个成绩,和AMD有什么关系?
OS X的8核是谁做的CPU?难道是苹果做的?然后用INTEL的ICC测试比苹果的LLVM测试更牛逼?
deam 发表于 2014-8-22 11:10
还有我问你了,ip5s全速运行也就100秒就降频,这Nvidia是什么条件下测试的ip5s?冰箱里?
1.6G会降频率?1.3G降到多少?呵呵
花落庭院 发表于 2014-8-22 11:17
1.6G会降频率?1.3G降到多少?呵呵
Anand测试,100秒后ip5s以900MHZ频率稳定。Nvidia是什么条件测的?
deam 发表于 2014-8-22 11:14
Nvidia何德何能,就能搞到Cyclone的详细数据?它又何德何能可以让LLVM针对SPEC做优化?以苹果的保密政策 ...
呵呵,原来系统里没有编译器,原来A7是没有LLVM优化就跑1300,果然黑科技!
花落庭院 发表于 2014-8-22 11:15
OS X的8核是谁做的CPU?难道是苹果做的?然后用INTEL的ICC测试比苹果的LLVM测试更牛逼?
你得证明iOS上的LLVM跑SPEC测试要比OS X上的LLVM更厉害,可惜苹果从来就不关心SPEC成绩,现在新Mac Pro都不测SPEC了,请告诉我LLVM是怎么对SPEC优化的?
deam 发表于 2014-8-22 11:18
Anand测试,100秒后ip5s以900MHZ频率稳定。Nvidia是什么条件测的?
哈哈哈,好吧900M跑的SPEC测试
花落庭院 发表于 2014-8-22 11:18
呵呵,原来系统里没有编译器,原来A7是没有LLVM优化就跑1300,果然黑科技!
原来LLVM还针对SPEC做优化了,这等机密你是怎么了解的?
花落庭院 发表于 2014-8-22 11:20
哈哈哈,好吧900M跑的SPEC测试

没有测试文档你知道?既然不知道,这个成绩就没什么参考价值,仅此而已。明明有长时间运行不会降频的ipad air,怎么Nvidia就专挑一个ip5s?