Tegra K1架构探析:NVIDIA心很野

来源:百度文库 编辑:超级军网 时间:2024/04/28 04:05:12
Tegra 2是首款双核心安卓处理器,Tegra 3第一个做到了四核,Tegra 4则第一次带来了四核A15。经过四代产品的铺垫,NVIDIA在移动领域积累了大量经验和教训,再次吹响了前进的号角——Tegra K1
这一次,NVIDIA首次在同一个名字下提供了两种不同的版本,其一是传统的4+1核心A15,其二是自主设计的双核ARMv8 64位架构(丹佛工程),并且都集成了开普勒架构的GPU图形核心,抛弃之前陈旧的NV4x而首次追上了桌面显卡的步伐。
这一次,NVIDIA更加野心勃勃。
【CPU选择之一:四核A15】
Tegra K1的这个版本和Tegra 4很相像,也是四个高性能A15核心、一个省电专用A15核心,但仍然有多出明显改进:
1、晶体管布局。这个是对半导体厂商设计能力的最大考验,也是决定芯片表现的关键。NVIDIA自称汲取了Tegra 4上的经验
2、28nm HPM制造工艺。Tegra 4使用的是台积电28nm HPL,最高只能跑到1.9GHz,而且经常需要为了控制功耗而不得不降频,而更高级的新工艺技术大大降低了动态功耗
3、A15 R3核心。Tegra 4的核心是A15 r2p1版本,现在升级到了r3p3版本,而伴随每次修订,都会有大量Bug修复和时不时的性能提升。r3系列版本中,ARM增加了更精细的时钟栅极,直接提高了能效。
综上,Tegra K1的最高频率来到了2.3GHz,而且可以在四个核心全部开启的情况下跑出这个频率,仅此带来的性能提升就可以超过20%。
第五个节能核心的频率最高1GHz,不过大部分时候会徘徊在500MHz左右。
NVIDIA宣称,在同样的功耗下,Tegra K1的性能可以提升40%,而在同样的频率下,Tegra K1的功耗能够节省55%。
缓存没有动,还是2MB二级缓存、32+32KB一级缓存,而内存是64-bit LPDDR3/DDR3L,最大容量翻番至8GB,因为支持了40位物理寻址。
A15版本的Tegra K1已经在2013年底投产,将在本季度内提供给厂商,上半年应该就能看到实际产品出炉,不过有了Tegra 4的前车之鉴,厂商们肯定会更谨慎。
【CPU选择之二:64位丹佛】
整整三年前的CES上,NVIDIA宣布正在自主开发ARM指令集微架构,代号“丹佛工程”,不过当时定位的是PC、服务器,并没有提及移动端,可能那个时候大家还没有想到智能手机、平板机会发展得这么猛。
Tegra K1将在今年下半年迎来新版本,集成两个丹佛核心,工艺可能仍是28nm HPM,而且两个版本针脚兼容,因此内存接口也不会变。
丹佛版Tegra K1将不再有节能核心,只有两个更大的主核心。现在大家都在追逐更多核心,NVIDIA一下子返回双核,会不会让诸多小白感到“愤慨”?
NVIDIA宣称丹佛架构是七发射的,看起来很宽,但这只是处理器的内部指令格式,现在还不清楚哪些指令能够并发,这是很关键的。
丹佛的一级指令缓存是128KB,一级数据缓存是64KB,这种非对称设计在消费级领域并不常见,可能和架构设计特点有关。
28nm工艺加上七发射,丹佛版Tegra K1的主频仍然能够高达2.5GHz,这是挺不可思议的,不知道功耗控制会如何。
丹佛版Tegra K1的设计几周前刚刚从工厂里返回,现在已经可以运行安卓4.4了,进展顺利,不过还得等半年多才能看到它。
【GPU:牛X的开普勒】
此前四代Tegra使用的图形核心都叫做GeForce ULP,是基于古老NV40架构而来的,非统一渲染,技术特性也很差,尤其是不支持OpenGL ES 2.0,好在性能还算不错。
Tegra K1上,NVIDIA发狠首次借鉴了桌面级GPU,这在整个行业也是头一遭,而且看上去Tegra未来会一直这么做,比如下代架构麦克斯韦就也会很快进入Tegra。
Tegra、GeForce的开普勒在架构上是差不多的,拥有同样大小的寄存器文件、共享的一级缓存,100% ISA(指令集架构)兼容,这说明开普勒的设计本身就很高明,直接就能拿过来用到移动端。
当然规模小多了,只有一个阵列、192个流处理器(不过叫192核心芯片就太二了),而桌面和笔记本上至少两个阵列、384个流处理器。我们看看笔记本上的GeForce 740M,功耗大约19W,其中包括3W左右的内存IO、PCI-E和其它非GPU模块,如果能再去掉6W的漏电,那就只剩下10W。
两个阵列变成一个,功耗再降一半来到5W,而频率和电压再控制一下(核心频率应该是950MHz),2-3W是非常有可能的。NVIDIA宣称的则是GPU部分低于2W。
曲面细分、几何引擎都没有删减。FP64支持也在,相当于FP32 1/24。纹理单元8个,ROP单元4个,只有PC版的四分之一。
DirectX 11、OpenGL 4.4、OpenGL ES 3.0、CUDA 6.0,这些在桌面上有的,Tegra里一个不缺,号称有史以来最先进的移动GPU并不为过,还添加支持了自适应可伸缩纹理压缩(ATSC)。
192个流处理器×2GFlops浮点性能每核心×950MHz核心频率,Tegra K1的原始性能达到了365GFlops,远远超过Xbox 360、PS3,同时在纹理过滤、内存带宽上也都明显胜出。单从指标上看,Tegra K1已经超越了上代游戏机。
或许是吃了Tegra 4高功耗的亏,NVIDIA这次非常注重能效,包括电路/电源/多层时钟栅极、互连和数据路径优化、空闲/轻负载/高负载管理、二级缓存与压缩、后端处理等等。
桌面上的开普勒拥有众多计算单元和模块,彼此高效互连非常重要,而移动版规模大大缩减,这方面的压力也就轻了很多。
NVIDIA还提出,开普勒的色彩压缩技术可以有效降低内存带宽占用,而且不仅仅是3D游戏里,UI界面渲染同样如此,可节省43-76%。
NVIDIA宣扬的另外一个数据是,在GFXBench 3.0 Manhattan OpenGL ES 3.0测试中,Tegra K1的能效是骁龙800、苹果A7的1.5倍。
【图像信号处理(ISP)、视频】
ISP掌管着处理静态图片、动态视频的图像流水线,负责任务包括RGB转换、3A(自动对焦/自动曝光/自动白平衡)、降噪、镜头纠正等等。
Tegra K1也使用了两个ISP,占用面积更大,可以很好地支持双摄像头拍照等应用。
Tegra K1 ISP是第三代产品了,每个都能以14位输入每秒处理6亿像素,两个合并就是12亿像素了,相比之下Tegra 4 4亿像素、10位输入就太弱了。
它还最高支持1亿像素摄像头,最多4096个对焦点(64×64阵列),降噪、局部调和映射也都更好了。
Tegra K1兼容此前的Chimera 1.0,包括物体追踪、始终开启HDR、慢动作捕捉、全分辨率爆发等,并且带来了新的Chimera 2.0,支持更好的临时像素组合(temporal pixel binning/综合CMOS的八个曝光点来进一步降噪)、更快的全景拍照、视频稳定、更好的实时特效预览。
它的内核仍然可以运行在CPU、GPU上,但这次应该会支持CUDA了。
视频方面,继续支持2160p30 4K编码、解码,具体来说就是H.264 High Profile Level 5.1解码、H.264 High Profile 4.2编码,整体来收和Tegra 4上差不多,只是进一步优化了效率和功耗。
H.265解码也是支持的,但没有完整的硬件加速,而是交给NVENC、CPU共同处理。
NVIDIA展示了使用Tegra K1外接显示器播放4K 30FPS H.264视频,完全没有掉帧,不过事实上Tegra 4也能做到这一点,都可以通过LVDS、HDMI 1.4b、eDP 1.4来驱动4K显示器。
输入输出方面有两个USB 3.0、三个USB 2.0、eMMC 4.5.1、PCI-E x4。
哦对了,NVIDIA目前演示用的主要是一台更换了Tegra K1处理器的Tegra Note 7,另有4GB内存、1920×1200分辨率,比现在的高级很多。看起来自家平板还会继续坚持做下去。

Tegra 2是首款双核心安卓处理器,Tegra 3第一个做到了四核,Tegra 4则第一次带来了四核A15。经过四代产品的铺垫,NVIDIA在移动领域积累了大量经验和教训,再次吹响了前进的号角——Tegra K1。
这一次,NVIDIA首次在同一个名字下提供了两种不同的版本,其一是传统的4+1核心A15,其二是自主设计的双核ARMv8 64位架构(丹佛工程),并且都集成了开普勒架构的GPU图形核心,抛弃之前陈旧的NV4x而首次追上了桌面显卡的步伐。
这一次,NVIDIA更加野心勃勃。
【CPU选择之一:四核A15】
Tegra K1的这个版本和Tegra 4很相像,也是四个高性能A15核心、一个省电专用A15核心,但仍然有多出明显改进:
1、晶体管布局。这个是对半导体厂商设计能力的最大考验,也是决定芯片表现的关键。NVIDIA自称汲取了Tegra 4上的经验
2、28nm HPM制造工艺。Tegra 4使用的是台积电28nm HPL,最高只能跑到1.9GHz,而且经常需要为了控制功耗而不得不降频,而更高级的新工艺技术大大降低了动态功耗
3、A15 R3核心。Tegra 4的核心是A15 r2p1版本,现在升级到了r3p3版本,而伴随每次修订,都会有大量Bug修复和时不时的性能提升。r3系列版本中,ARM增加了更精细的时钟栅极,直接提高了能效。
综上,Tegra K1的最高频率来到了2.3GHz,而且可以在四个核心全部开启的情况下跑出这个频率,仅此带来的性能提升就可以超过20%。
第五个节能核心的频率最高1GHz,不过大部分时候会徘徊在500MHz左右。
NVIDIA宣称,在同样的功耗下,Tegra K1的性能可以提升40%,而在同样的频率下,Tegra K1的功耗能够节省55%。
缓存没有动,还是2MB二级缓存、32+32KB一级缓存,而内存是64-bit LPDDR3/DDR3L,最大容量翻番至8GB,因为支持了40位物理寻址。
A15版本的Tegra K1已经在2013年底投产,将在本季度内提供给厂商,上半年应该就能看到实际产品出炉,不过有了Tegra 4的前车之鉴,厂商们肯定会更谨慎。
【CPU选择之二:64位丹佛】
整整三年前的CES上,NVIDIA宣布正在自主开发ARM指令集微架构,代号“丹佛工程”,不过当时定位的是PC、服务器,并没有提及移动端,可能那个时候大家还没有想到智能手机、平板机会发展得这么猛。
Tegra K1将在今年下半年迎来新版本,集成两个丹佛核心,工艺可能仍是28nm HPM,而且两个版本针脚兼容,因此内存接口也不会变。
丹佛版Tegra K1将不再有节能核心,只有两个更大的主核心。现在大家都在追逐更多核心,NVIDIA一下子返回双核,会不会让诸多小白感到“愤慨”?
NVIDIA宣称丹佛架构是七发射的,看起来很宽,但这只是处理器的内部指令格式,现在还不清楚哪些指令能够并发,这是很关键的。
丹佛的一级指令缓存是128KB,一级数据缓存是64KB,这种非对称设计在消费级领域并不常见,可能和架构设计特点有关。
28nm工艺加上七发射,丹佛版Tegra K1的主频仍然能够高达2.5GHz,这是挺不可思议的,不知道功耗控制会如何。
丹佛版Tegra K1的设计几周前刚刚从工厂里返回,现在已经可以运行安卓4.4了,进展顺利,不过还得等半年多才能看到它。
【GPU:牛X的开普勒】
此前四代Tegra使用的图形核心都叫做GeForce ULP,是基于古老NV40架构而来的,非统一渲染,技术特性也很差,尤其是不支持OpenGL ES 2.0,好在性能还算不错。
Tegra K1上,NVIDIA发狠首次借鉴了桌面级GPU,这在整个行业也是头一遭,而且看上去Tegra未来会一直这么做,比如下代架构麦克斯韦就也会很快进入Tegra。
Tegra、GeForce的开普勒在架构上是差不多的,拥有同样大小的寄存器文件、共享的一级缓存,100% ISA(指令集架构)兼容,这说明开普勒的设计本身就很高明,直接就能拿过来用到移动端。
当然规模小多了,只有一个阵列、192个流处理器(不过叫192核心芯片就太二了),而桌面和笔记本上至少两个阵列、384个流处理器。我们看看笔记本上的GeForce 740M,功耗大约19W,其中包括3W左右的内存IO、PCI-E和其它非GPU模块,如果能再去掉6W的漏电,那就只剩下10W。
两个阵列变成一个,功耗再降一半来到5W,而频率和电压再控制一下(核心频率应该是950MHz),2-3W是非常有可能的。NVIDIA宣称的则是GPU部分低于2W。
曲面细分、几何引擎都没有删减。FP64支持也在,相当于FP32 1/24。纹理单元8个,ROP单元4个,只有PC版的四分之一。
DirectX 11、OpenGL 4.4、OpenGL ES 3.0、CUDA 6.0,这些在桌面上有的,Tegra里一个不缺,号称有史以来最先进的移动GPU并不为过,还添加支持了自适应可伸缩纹理压缩(ATSC)。
192个流处理器×2GFlops浮点性能每核心×950MHz核心频率,Tegra K1的原始性能达到了365GFlops,远远超过Xbox 360、PS3,同时在纹理过滤、内存带宽上也都明显胜出。单从指标上看,Tegra K1已经超越了上代游戏机。
或许是吃了Tegra 4高功耗的亏,NVIDIA这次非常注重能效,包括电路/电源/多层时钟栅极、互连和数据路径优化、空闲/轻负载/高负载管理、二级缓存与压缩、后端处理等等。
桌面上的开普勒拥有众多计算单元和模块,彼此高效互连非常重要,而移动版规模大大缩减,这方面的压力也就轻了很多。
NVIDIA还提出,开普勒的色彩压缩技术可以有效降低内存带宽占用,而且不仅仅是3D游戏里,UI界面渲染同样如此,可节省43-76%。
NVIDIA宣扬的另外一个数据是,在GFXBench 3.0 Manhattan OpenGL ES 3.0测试中,Tegra K1的能效是骁龙800、苹果A7的1.5倍。
【图像信号处理(ISP)、视频】
ISP掌管着处理静态图片、动态视频的图像流水线,负责任务包括RGB转换、3A(自动对焦/自动曝光/自动白平衡)、降噪、镜头纠正等等。
Tegra K1也使用了两个ISP,占用面积更大,可以很好地支持双摄像头拍照等应用。
Tegra K1 ISP是第三代产品了,每个都能以14位输入每秒处理6亿像素,两个合并就是12亿像素了,相比之下Tegra 4 4亿像素、10位输入就太弱了。
它还最高支持1亿像素摄像头,最多4096个对焦点(64×64阵列),降噪、局部调和映射也都更好了。
Tegra K1兼容此前的Chimera 1.0,包括物体追踪、始终开启HDR、慢动作捕捉、全分辨率爆发等,并且带来了新的Chimera 2.0,支持更好的临时像素组合(temporal pixel binning/综合CMOS的八个曝光点来进一步降噪)、更快的全景拍照、视频稳定、更好的实时特效预览。
它的内核仍然可以运行在CPU、GPU上,但这次应该会支持CUDA了。
视频方面,继续支持2160p30 4K编码、解码,具体来说就是H.264 High Profile Level 5.1解码、H.264 High Profile 4.2编码,整体来收和Tegra 4上差不多,只是进一步优化了效率和功耗。
H.265解码也是支持的,但没有完整的硬件加速,而是交给NVENC、CPU共同处理。
NVIDIA展示了使用Tegra K1外接显示器播放4K 30FPS H.264视频,完全没有掉帧,不过事实上Tegra 4也能做到这一点,都可以通过LVDS、HDMI 1.4b、eDP 1.4来驱动4K显示器。
输入输出方面有两个USB 3.0、三个USB 2.0、eMMC 4.5.1、PCI-E x4。
哦对了,NVIDIA目前演示用的主要是一台更换了Tegra K1处理器的Tegra Note 7,另有4GB内存、1920×1200分辨率,比现在的高级很多。看起来自家平板还会继续坚持做下去。
http://news.mydrivers.com/1/289/289176_all.htm#2
移动战术核显卡威武!
英伟达的T4就是个操蛋的玩意儿!
战术核显卡
期待该核心的体验感想
momoranshi 发表于 2014-1-9 08:16
移动战术核显卡威武!
一卡一栋楼 两卡灭地球 三卡银河系 四卡创世纪
时钟栅极...吐血