Midgard架构,ARM最强GPU Mali-T760发布(看样子是要中 ...

来源:百度文库 编辑:超级军网 时间:2024/04/28 01:13:47




目前,50%的平板和20%的智能手机都采用了ARM的Mali GPU,看来玛丽GPU的接受度还是非常不错的,好消息是,ARM刚刚又发布了两款全新的GPU——Mali-T720/Mali-T760,其中Mali-T760是ARM目前最强GPU,能效比相比Mali-T604要高400%!

▲作为Mali-400 MP和450 MP GPU的继任者,新发布的两款GPU都采用了此前从Mali-T604开始,只有ARM高端GPU才采用的Midgard架构。其中,Mali-T720 GPU搭载8个shader核心,面积比上一代小30%,动态功耗降级15%,4800M填充率,533M三角形,81.6GFLOPS。Mali-T760 GPU搭载16个shader核心,600MHz下,326GFLOPS,1066M三角形,9600M填充率,单个核心是2个ALU pipe,比T658/T678(4ALU每核心)少,跟T624/T628一样(2 ALU pipe),但号称ALU性能比624/628高25%,是ARM目前最强GPU!
http://www.1pad.cn/2013/1030/12190.html

看样子是要中端机1080p,高端平板奔向4K的节奏吧?
T760: 2×512K L2缓存, 32 ALU管线, 16TMU
T720: 2×128K L2缓存, 8 ALU管线, 8TMU
T720的计算能力相比T760缩水到1/4, 像素纹理填充缩水到1/2
T720是针对Mali-450的更新,中端市场开始支持OpenGL ES 3.0
T760是对T678的高端升级——相比T604的能效达到了400%(T604的能效是有多差。。?)
所以放进手机还是。。。估计还会有个T628的升级之类的?(T740?)
相比T6xx的重要提升:降低带宽
随着现在分辨率丧心病狂的提高。。(2560, 1920.。。)带宽压力越来越大
像5420, 8974AB之类的,64bit DDR3都跑到1866上去了
http://tieba.baidu.com/p/2520097486
T7xx系列有2个办法降低带宽需求:
1. 帧缓存压缩,类似之前的ARM Frame Buffer Compression
似乎之前ARM发布的视频硬件单元Mali-V500就支持这个
现在T7xx GPU也支持了——
P.S. PowerVR SGX 6里的G6430,G6630(尾号30)也支持帧缓存压缩,当然是PVR的帧缓存压缩技术,大家都为了节省带宽,现在ARM也跟上了
2. 高级的tiling单元(合成)
参考http://tieba.baidu.com/p/2520097486, 高分辨率下的UI合成实际上很消耗带宽
特别对于地图之类的,动不动就4层,6层,8层合成的应用
ARM T720和T760的合成器并不会傻瓜的对图层的全部进行合成,而会对所有图层进行分块,通过软件智能的追踪每块的变化,只会发送数据发生了变化的图层。对于没有变化的图层,则不会进行重复的发送。由此节省了大量的带宽。
这个功能也可以和硬件合成器搭配使用。
总的来说,结合这两招——ARM说可以节省50%的带宽
所以:32bit lpddr2带1920成为可能?32bit lpddr3带2560成为可能? 而旗舰级64bit ddr3这是奔向4K的节奏吧?


资料来自SA http://semiaccurate.com/2013/10/ ... i-t760-8-core-t720/



目前,50%的平板和20%的智能手机都采用了ARM的Mali GPU,看来玛丽GPU的接受度还是非常不错的,好消息是,ARM刚刚又发布了两款全新的GPU——Mali-T720/Mali-T760,其中Mali-T760是ARM目前最强GPU,能效比相比Mali-T604要高400%!

▲作为Mali-400 MP和450 MP GPU的继任者,新发布的两款GPU都采用了此前从Mali-T604开始,只有ARM高端GPU才采用的Midgard架构。其中,Mali-T720 GPU搭载8个shader核心,面积比上一代小30%,动态功耗降级15%,4800M填充率,533M三角形,81.6GFLOPS。Mali-T760 GPU搭载16个shader核心,600MHz下,326GFLOPS,1066M三角形,9600M填充率,单个核心是2个ALU pipe,比T658/T678(4ALU每核心)少,跟T624/T628一样(2 ALU pipe),但号称ALU性能比624/628高25%,是ARM目前最强GPU!
http://www.1pad.cn/2013/1030/12190.html

看样子是要中端机1080p,高端平板奔向4K的节奏吧?
T760: 2×512K L2缓存, 32 ALU管线, 16TMU
T720: 2×128K L2缓存, 8 ALU管线, 8TMU
T720的计算能力相比T760缩水到1/4, 像素纹理填充缩水到1/2
T720是针对Mali-450的更新,中端市场开始支持OpenGL ES 3.0
T760是对T678的高端升级——相比T604的能效达到了400%(T604的能效是有多差。。?)
所以放进手机还是。。。估计还会有个T628的升级之类的?(T740?)
相比T6xx的重要提升:降低带宽
随着现在分辨率丧心病狂的提高。。(2560, 1920.。。)带宽压力越来越大
像5420, 8974AB之类的,64bit DDR3都跑到1866上去了
http://tieba.baidu.com/p/2520097486
T7xx系列有2个办法降低带宽需求:
1. 帧缓存压缩,类似之前的ARM Frame Buffer Compression
似乎之前ARM发布的视频硬件单元Mali-V500就支持这个
现在T7xx GPU也支持了——
P.S. PowerVR SGX 6里的G6430,G6630(尾号30)也支持帧缓存压缩,当然是PVR的帧缓存压缩技术,大家都为了节省带宽,现在ARM也跟上了
2. 高级的tiling单元(合成)
参考http://tieba.baidu.com/p/2520097486, 高分辨率下的UI合成实际上很消耗带宽
特别对于地图之类的,动不动就4层,6层,8层合成的应用
ARM T720和T760的合成器并不会傻瓜的对图层的全部进行合成,而会对所有图层进行分块,通过软件智能的追踪每块的变化,只会发送数据发生了变化的图层。对于没有变化的图层,则不会进行重复的发送。由此节省了大量的带宽。
这个功能也可以和硬件合成器搭配使用。
总的来说,结合这两招——ARM说可以节省50%的带宽
所以:32bit lpddr2带1920成为可能?32bit lpddr3带2560成为可能? 而旗舰级64bit ddr3这是奔向4K的节奏吧?


资料来自SA http://semiaccurate.com/2013/10/ ... i-t760-8-core-t720/
三星哪一款CPU会用?




高端的T760: 16核心, 600MHz, 326GFLOPS,1066M三角形,9600M填充率
单个核心是2个ALU pipe,比T658/T678(4ALU每核心)少
跟T624/T628一样(2 ALU pipe),但号称ALU性能比624/628高25%

所以总共是16×2 = 32 shader ALU pipe
16*2*17FLOPS * 0.6GHz = 326GFLOPS (这个应该是FP16的性能)
16个TMU
16*0.6GHz = 9.6G pix/s


针对安卓优化的T720:面积小30%(针对上一代同级别,估计是T624MP4),动态功耗降级15%
4800M填充率, 533M三角形, 81.6GFLOPS
8核心,600MHz, 1 ALU/core
所以总共是8个shader ALU pipe, 8个TMU



高端的T760: 16核心, 600MHz, 326GFLOPS,1066M三角形,9600M填充率
单个核心是2个ALU pipe,比T658/T678(4ALU每核心)少
跟T624/T628一样(2 ALU pipe),但号称ALU性能比624/628高25%

所以总共是16×2 = 32 shader ALU pipe
16*2*17FLOPS * 0.6GHz = 326GFLOPS (这个应该是FP16的性能)
16个TMU
16*0.6GHz = 9.6G pix/s


针对安卓优化的T720:面积小30%(针对上一代同级别,估计是T624MP4),动态功耗降级15%
4800M填充率, 533M三角形, 81.6GFLOPS
8核心,600MHz, 1 ALU/core
所以总共是8个shader ALU pipe, 8个TMU
下一代的高清播放器可以用起来了
中国好像没有见过国产的GPU芯片
16nm,我才敢用
下一代的高清播放器可以用起来了
56所的GPU有转民公开的可能吗?西安,长沙的都有转民的了
发热肯定厉害