国产GPU Elite2000性能-超级军网

256个alu，主频400MHZ,功耗0.7w

性能对比
http://www.huashengjp.com/article-185608-1.html

256个alu，主频400MHZ,功耗0.7w

性能对比
http://www.huashengjp.com/article-185608-1.html

Elite2000 300MHZ主频的曼哈顿1080p离屏测试性能和Adreno 430以及Mali-T760 MP8差距不大，超过iPhone 6的GPU，而功耗只有0.7W，主频400MHZ时性能肯定更高

Elite2000 300MHZ主频的曼哈顿1080p离屏测试性能和Adreno 430以及Mali-T760 MP8差距不大，超过iPhone 6的GPU，而功耗只有0.7W，主频400MHZ时性能肯定更高

文案做事不认真我看到700MW 脑子里闪过的是兆瓦。。。。
mW才是正确表达吧

ayanamei 发表于 2015-10-6 17:48
文案做事不认真我看到700MW 脑子里闪过的是兆瓦。。。。
mW才是正确表达吧
评论一下这个GPU吧

EKW 发表于 2015-10-6 17:54
评论一下这个GPU吧
256 shader 统一渲染构架 dx10+ /dx11级别的构架

因为是S3的底子 TMU ,ROP部分不会出什么妖蛾子
整合好各个子部分的比例配对性能就会不错
S3虽然后期产品不行了但是传统图形部分积累是元老级的
shader部分不和ati /nv去拼 DX12级别的东西就是转手在via/兆芯手上发展出一个符合dx11规格的构架不会有啥问题

就是这个功耗很逆天看实际测试再说吧图形部分没啥好说的水到渠成

兆芯到底怎么样

兆芯到底怎么样
中国国产GPU如果要杀进民用娱乐市场 10年内恐怕只有兆芯有这个能力

ayanamei 发表于 2015-10-6 18:18
中国国产GPU如果要杀进民用娱乐市场 10年内恐怕只有兆芯有这个能力

十年内还有长沙景嘉的JM9200和JM9400以及西安邮电大学的萤火虫2号通用GPU

ayanamei 发表于 2015-10-6 18:18
中国国产GPU如果要杀进民用娱乐市场 10年内恐怕只有兆芯有这个能力

十年内还有长沙景嘉的JM9200和JM9400以及西安邮电大学的萤火虫2号通用GPU

十年内还有长沙景嘉的JM9200和JM9400以及西安邮电大学的萤火虫2号通用GPU
家用娱乐市场要求很高的能用和能杀进这个领域之间差距很大

ayanamei 发表于 2015-10-6 19:09
家用娱乐市场要求很高的能用和能杀进这个领域之间差距很大

不过说起来长沙景嘉里面的大部分芯片设计人员都是在国防科大毕业和工作过的人，因此长沙景嘉的GPU设计必然会得到了国防科大的背后设计支持

ayanamei 发表于 2015-10-6 19:09
家用娱乐市场要求很高的能用和能杀进这个领域之间差距很大

不过说起来长沙景嘉里面的大部分芯片设计人员都是在国防科大毕业和工作过的人，因此长沙景嘉的GPU设计必然会得到了国防科大的背后设计支持

不过说起来长沙景嘉里面的大部分芯片设计人员都是在国防科大毕业和工作过的人，因此长沙景嘉的GPU设计 ...
技术是需要积累过程的没有过不去的坎但是要时间

ayanamei 发表于 2015-10-6 17:48
文案做事不认真我看到700MW 脑子里闪过的是兆瓦。。。。
mW才是正确表达吧
兆瓦。。。当场灰飞烟灭。。。

十年内还有长沙景嘉的JM9200和JM9400以及西安邮电大学的萤火虫2号通用GPU
萤火虫2 什么情况

看到竟然测了GFXbench一下有了好感

看到竟然测了GFXbench一下有了好感
功夫过硬当然敢上这种测试

估计就跟Vivante一样，跑分高，兼容差。当年华为可是被Vivante坑惨了

虫2是个什么性能？好像是加速卡用途吧。。。

S3的GPU我05年买神舟台式电脑得时候配过，老实说不好用，打魔兽很卡，感觉还不如英特尔的集成GPU好用

zxd1981 发表于 2015-10-7 15:52
S3的GPU我05年买神舟台式电脑得时候配过，老实说不好用，打魔兽很卡，感觉还不如英特尔的集成GPU好用
s3在PC上面的产品在03年以后基本就属于小众玩票性质了

ayanamei 发表于 2015-10-7 16:08
s3在PC上面的产品在03年以后基本就属于小众玩票性质了

看看山东大学的这个嵌入式GPU，主频200MHZ，有一个像素着色单元，感觉硬件规格和powervr sgx530很相似
tlie--based嵌入式图形处理器的研究与设计
http://www.doc88.com/p-0999375706848.html
一种实现光线追踪的硬件设计架构的制作方法
http://www.xjishu.com/zhuanli/55/201410497780.html
嵌入式GPU的设计与实现
嵌入式GPU设计主要包括架构设计，流处理器设计，指令处理模块设计，存储器设计以及几何处理模块设计。嵌入式GPU采用统一着色器架构，可以有效的提高图形处理效率和资源的利用率，利用可编程方式实现顶点变换，光照计算，纹理贴图等功能。流处理器的设计包括核心计算单元CU设计，流水线设计，以及存储结构设计。本文设计的流处理器包含8个CU模块，每一个CU单元能够同时实现4个32位的单精度浮点计算。8个CU单元构成8级流水线结构，有效的防止了各个CU单元访问存储器产生的冲突。本设计中的嵌入式GPU采用了全新的指令集，指令包含了3D处理的各种操作以及3D流程控制。几何处理模块的设计包含了3D处理流程中的图元组装、视口变换、光栅化和插值操作等模块。
　　最后，本文对所设计的嵌入式GPU进行了功能仿真，包括模块级仿真和系统级仿真，并给出了仿真波形以及结果，同时对结果进行了分析。另外，采用Synopsys公司32nm工艺对嵌入式GPU进行了物理设计，并给出版图设计结果。实验结果表明，本文设计的嵌入式GPU能够很好地完成了3D处理，其功耗大小为54mW。

ayanamei 发表于 2015-10-7 16:08
s3在PC上面的产品在03年以后基本就属于小众玩票性质了

看看山东大学的这个嵌入式GPU，主频200MHZ，有一个像素着色单元，感觉硬件规格和powervr sgx530很相似
tlie--based嵌入式图形处理器的研究与设计
http://www.doc88.com/p-0999375706848.html
一种实现光线追踪的硬件设计架构的制作方法
http://www.xjishu.com/zhuanli/55/201410497780.html
嵌入式GPU的设计与实现
嵌入式GPU设计主要包括架构设计，流处理器设计，指令处理模块设计，存储器设计以及几何处理模块设计。嵌入式GPU采用统一着色器架构，可以有效的提高图形处理效率和资源的利用率，利用可编程方式实现顶点变换，光照计算，纹理贴图等功能。流处理器的设计包括核心计算单元CU设计，流水线设计，以及存储结构设计。本文设计的流处理器包含8个CU模块，每一个CU单元能够同时实现4个32位的单精度浮点计算。8个CU单元构成8级流水线结构，有效的防止了各个CU单元访问存储器产生的冲突。本设计中的嵌入式GPU采用了全新的指令集，指令包含了3D处理的各种操作以及3D流程控制。几何处理模块的设计包含了3D处理流程中的图元组装、视口变换、光栅化和插值操作等模块。
　　最后，本文对所设计的嵌入式GPU进行了功能仿真，包括模块级仿真和系统级仿真，并给出了仿真波形以及结果，同时对结果进行了分析。另外，采用Synopsys公司32nm工艺对嵌入式GPU进行了物理设计，并给出版图设计结果。实验结果表明，本文设计的嵌入式GPU能够很好地完成了3D处理，其功耗大小为54mW。

EKW 发表于 2015-10-7 16:28
看看山东大学的这个嵌入式GPU，主频200MHZ，有一个像素着色单元，感觉硬件规格和powervr sgx530很相似
...

照本宣科的根据图形理论设计一个仿真出来可以运行的GPU而已
可编程的T&L 非主流的编程指令学习和验证可以没应用价值
性能描述拿setup engine的多边形生成和裁剪来说话
显然作者对这个GPU本身性能并不抱有期待
不然不会纹理填充率和像素填充率测试都不做

最关键的光栅化部分照本宣科按照经典图形理论去做是可以运行起来的运行效率就别想了

毕竟是硕士论文不是真正商业方案能设计出仿真出来能运行的GPU 理论积累是足够到位了的
但是这里面不牵涉到任何特效处理和复杂算法

EKW 发表于 2015-10-7 16:28
看看山东大学的这个嵌入式GPU，主频200MHZ，有一个像素着色单元，感觉硬件规格和powervr sgx530很相似
...

照本宣科的根据图形理论设计一个仿真出来可以运行的GPU而已
可编程的T&L 非主流的编程指令学习和验证可以没应用价值
性能描述拿setup engine的多边形生成和裁剪来说话
显然作者对这个GPU本身性能并不抱有期待
不然不会纹理填充率和像素填充率测试都不做

最关键的光栅化部分照本宣科按照经典图形理论去做是可以运行起来的运行效率就别想了

毕竟是硕士论文不是真正商业方案能设计出仿真出来能运行的GPU 理论积累是足够到位了的
但是这里面不牵涉到任何特效处理和复杂算法

ayanamei 发表于 2015-10-7 16:48
照本宣科的根据图形理论设计一个仿真出来可以运行的GPU而已
可编程的T&L 非主流的编程指令学习和验 ...

看那个光线追踪的专利，应该是给这个嵌入式GPU用的，因为论文里这个嵌入式GPU后期规划中要用光线追踪算法，而且这个嵌入式GPU连版图都出来了，就差流片了，像素填充率论文里是每时钟周期7+m个，这个m就代表像素填充个数,纹理填充率和像素填充率一致

ayanamei 发表于 2015-10-7 16:48
照本宣科的根据图形理论设计一个仿真出来可以运行的GPU而已
可编程的T&L 非主流的编程指令学习和验 ...

看那个光线追踪的专利，应该是给这个嵌入式GPU用的，因为论文里这个嵌入式GPU后期规划中要用光线追踪算法，而且这个嵌入式GPU连版图都出来了，就差流片了，像素填充率论文里是每时钟周期7+m个，这个m就代表像素填充个数,纹理填充率和像素填充率一致

用在手机平板上要考虑兼容问题吧
现在三家是 ARM公版mali 靠三棒推广
高通adreno 高通芯片推广
Imagination的POWERVR 靠苹果推广
如果很多游戏不兼容用户体验就不会好
用intel的SOC的都戏称戒了游戏

EKW 发表于 2015-10-7 17:43
看那个光线追踪的专利，应该是给这个嵌入式GPU用的，因为论文里这个嵌入式GPU后期规划中要用光线追踪算 ...

raytrace和rasiterizer过程差距巨大前者纯粹靠带宽和flops暴力计算
后者有各种技巧加速获得近似效果

前者慢但是得到正确的结果 raytrace基本不可用于实时渲染
rasterizer大部分所谓特效和处理都是近似欺骗算法所以能获得实时渲染能够接受的效率从光学的角度上说视觉上说细节上大部分是错误的

还是那句话现在没有真正意义可用的raytrace GPU 这个不是一两个论文可以解决的
而是硬件支撑不起raytrace实时渲染的计算量

目前最接近raytrace GPU的东西是Intel Larrabee 、Larrabee2
但是这东西胎死腹中了以intel的暴力晶体管集成能力都拿不下来

而且期刊论文和专利文档可以参考但是不要太迷信这东西水分可以很大以每年专利注册量来说有10%真正对所在领域应用有实质推进作用都不错了

EKW 发表于 2015-10-7 17:43
看那个光线追踪的专利，应该是给这个嵌入式GPU用的，因为论文里这个嵌入式GPU后期规划中要用光线追踪算 ...

raytrace和rasiterizer过程差距巨大前者纯粹靠带宽和flops暴力计算
后者有各种技巧加速获得近似效果

前者慢但是得到正确的结果 raytrace基本不可用于实时渲染
rasterizer大部分所谓特效和处理都是近似欺骗算法所以能获得实时渲染能够接受的效率从光学的角度上说视觉上说细节上大部分是错误的

还是那句话现在没有真正意义可用的raytrace GPU 这个不是一两个论文可以解决的
而是硬件支撑不起raytrace实时渲染的计算量

目前最接近raytrace GPU的东西是Intel Larrabee 、Larrabee2
但是这东西胎死腹中了以intel的暴力晶体管集成能力都拿不下来

而且期刊论文和专利文档可以参考但是不要太迷信这东西水分可以很大以每年专利注册量来说有10%真正对所在领域应用有实质推进作用都不错了

ayanamei 发表于 2015-10-7 18:37
raytrace和rasiterizer过程差距巨大前者纯粹靠带宽和flops暴力计算
后者有各种技巧加速获得近似效果
...

再看看西电的这个已经流片的GPU
http://www.doc88.com/p-6931871274622.html

ayanamei 发表于 2015-10-7 18:37
raytrace和rasiterizer过程差距巨大前者纯粹靠带宽和flops暴力计算
后者有各种技巧加速获得近似效果
...

再看看西电的这个已经流片的GPU
http://www.doc88.com/p-6931871274622.html

EKW 发表于 2015-10-8 08:45
再看看西电的这个已经流片的GPU
http://www.doc88.com/p-6931871274622.html

这个论文水平比上面那个高多了  不会对关键东西自己没有实现的东西避而不谈
设计思路表达的很清晰现在这个片没有的部分该阐述和应该怎么做的基本都点到了
最后也很真实的公布了这个芯片的性能  虽然很弱  但是别人不吹牛
作者论文很踏实论述很中肯给出的测试结果  描述都很真实
这年头发表的论文很多都很浮躁噱头数据什么的虽然不影响学术本身但是夸大广告看多了总有点恶心而且毕竟行内人看了都懂真没必要

这个流片出来功能完整度已经很高了作为一个准dx7级别的GPU 可以了框架也很好毕竟是不是应用方案或者说转向商业应用方案还需要很多的强化
架子已经是现代GPU的架子了但是很多关键部分还没有加入尤其是最复杂的shader 部分 pixel shader部分处理是最复杂的

已经有了现代GPU基本的框架  商业GPU公司在底层有成百的专利技术来支持它们的硬件以更高效率运行

现在白手起家的新GPU方案缺乏的就是这种底蕴  而且很多专利和优化技巧是在产品发展过程中积累出来的

EKW 发表于 2015-10-8 08:45
再看看西电的这个已经流片的GPU
http://www.doc88.com/p-6931871274622.html

这个论文水平比上面那个高多了  不会对关键东西自己没有实现的东西避而不谈
设计思路表达的很清晰现在这个片没有的部分该阐述和应该怎么做的基本都点到了
最后也很真实的公布了这个芯片的性能  虽然很弱  但是别人不吹牛
作者论文很踏实论述很中肯给出的测试结果  描述都很真实
这年头发表的论文很多都很浮躁噱头数据什么的虽然不影响学术本身但是夸大广告看多了总有点恶心而且毕竟行内人看了都懂真没必要

这个流片出来功能完整度已经很高了作为一个准dx7级别的GPU 可以了框架也很好毕竟是不是应用方案或者说转向商业应用方案还需要很多的强化
架子已经是现代GPU的架子了但是很多关键部分还没有加入尤其是最复杂的shader 部分 pixel shader部分处理是最复杂的

已经有了现代GPU基本的框架  商业GPU公司在底层有成百的专利技术来支持它们的硬件以更高效率运行

现在白手起家的新GPU方案缺乏的就是这种底蕴  而且很多专利和优化技巧是在产品发展过程中积累出来的

ayanamei 发表于 2015-10-8 20:21
这个论文水平比上面那个高多了不会对关键东西自己没有实现的东西避而不谈
设计思路表达的很清晰现 ...

这个GPU有完整的几何变换，光照和裁剪单元，同时还有Vertex Shader，也就是说这个GPU硬件规格已经部分超过了那些DX7显卡，部分具备了DX8特性，只是没有那些DX7显卡的特效而已，还有这个GPU主频是150MHZ，按理说像素填充率应该达到150M个，怎么却只有70M个，因为毕竟纹理填充率都达到了300M个

EKW 发表于 2015-10-9 08:17
这个GPU有完整的几何变换，光照和裁剪单元，同时还有Vertex Shader，也就是说这个GPU硬件规格已经部分 ...

几何部分不具备完整VS功能像素阶段完全不具备pixelshader
撑死还是dx7+吧
纹理填充率可以看出是一个周期两次纹理寻址的理论纹理填充率
像素输出这个因该是在实际渲染中做不到单周期个人看可能是对简单多边形光照然后输出测试出来的
后面5m三角形渲染也应该是实测
其实像素化部分才是难点其实光栅部分就是具备dx7级别的特效支持效率恐怕也不足以应用
作为3D商用GPU特效部分很重要

不过不是商业产品没必要深究

EKW 发表于 2015-10-9 08:17
这个GPU有完整的几何变换，光照和裁剪单元，同时还有Vertex Shader，也就是说这个GPU硬件规格已经部分 ...

几何部分不具备完整VS功能像素阶段完全不具备pixelshader
撑死还是dx7+吧
纹理填充率可以看出是一个周期两次纹理寻址的理论纹理填充率
像素输出这个因该是在实际渲染中做不到单周期个人看可能是对简单多边形光照然后输出测试出来的
后面5m三角形渲染也应该是实测
其实像素化部分才是难点其实光栅部分就是具备dx7级别的特效支持效率恐怕也不足以应用
作为3D商用GPU特效部分很重要

不过不是商业产品没必要深究

ayanamei 发表于 2015-10-9 10:21
几何部分不具备完整VS功能像素阶段完全不具备pixelshader
撑死还是dx7+吧
纹理填充率可以看出是一 ...
不知能不能做为中国版的任天堂NDSi LL多媒体游戏机芯片，毕竟论文里这个GPU是作为时尚掌机游戏机芯片设计的

EKW 发表于 2015-10-9 14:20
不知能不能做为中国版的任天堂NDSi LL多媒体游戏机芯片，毕竟论文里这个GPU是作为时尚掌机游戏机芯片设计 ...
这还不是商品所以还是不要和别人商业方案去比
理论上说这个水平应该还是能做到的

家用娱乐市场要求很高的能用和能杀进这个领域之间差距很大
战术核显卡233

不知能不能做为中国版的任天堂NDSi LL多媒体游戏机芯片，毕竟论文里这个GPU是作为时尚掌机游戏机芯片设计 ...
ndsi其实并没有专门的gpu

数字君发表于 2015-10-10 14:14
ndsi其实并没有专门的gpu
所以NDS一家图形性能惨不忍睹

ayanamei 发表于 2015-10-9 14:28
这还不是商品所以还是不要和别人商业方案去比
理论上说这个水平应该还是能做到的
再看看北京大学的这个图形处理器吧
http://www.doc88.com/p-1798037483181.html

EKW 发表于 2015-10-15 17:21
再看看北京大学的这个图形处理器吧
http://www.doc88.com/p-1798037483181.html
文章的主角是一颗soc芯片的GPU 不是作者设计的
FPGA和rtl仿真了这颗SOC芯片中的GPU 然后对这个GPU驱动层进行优化
PKUnity-3 SK65 是颗SOC芯片北大众志这个SOC芯片的GPU是自主的还是IP授权的还搞不清楚

从这个论文看应该是准dx10规格的东西而且后端msaa也支持了感觉是比较成熟的商业方案

ayanamei 发表于 2015-10-15 19:14
文章的主角是一颗soc芯片的GPU 不是作者设计的
FPGA和rtl仿真了这颗SOC芯片中的GPU 然后对这个GPU驱动 ...

北大获得了图芯的GC1000的IP授权，用论文里这个图形处理器和GC1000对比一下就知道是不是自主的了，说起自主北大还有28nm主频400MHZ移动芯片用的图形处理器GK20A，第一代2012年流的片，到2014年发展出了第二代了

ayanamei 发表于 2015-10-15 19:14
文章的主角是一颗soc芯片的GPU 不是作者设计的
FPGA和rtl仿真了这颗SOC芯片中的GPU 然后对这个GPU驱动 ...

北大获得了图芯的GC1000的IP授权，用论文里这个图形处理器和GC1000对比一下就知道是不是自主的了，说起自主北大还有28nm主频400MHZ移动芯片用的图形处理器GK20A，第一代2012年流的片，到2014年发展出了第二代了

楼主，请问国内有几个GPU，都是什么情况

EKW 发表于 2015-10-15 19:38
北大获得了图芯的GC1000的IP授权，用论文里这个图形处理器和GC1000对比一下就知道是不是自主的了，说起 ...

Vivante的东西啊这个公司好像刚被国内收购
gc1000 sm3.0 opengl 2.0
应该就是这个东西了

Gk20a好像是nvidia的一个芯片啊同名？

EKW 发表于 2015-10-15 19:38
北大获得了图芯的GC1000的IP授权，用论文里这个图形处理器和GC1000对比一下就知道是不是自主的了，说起 ...

Vivante的东西啊这个公司好像刚被国内收购
gc1000 sm3.0 opengl 2.0
应该就是这个东西了

Gk20a好像是nvidia的一个芯片啊同名？

ayanamei 发表于 2015-10-15 22:52
Vivante的东西啊这个公司好像刚被国内收购
gc1000 sm3.0 opengl 2.0
应该就是这个东西了
但是GC1000有2个shader，像素填充率650M个，AXI总线频率600MHZ，但这个图形处理器好像只有1个shader，像素填充率最高也只有357M个，AXI总线频率只有480MHZ，对不上啊，会不会是北大山寨的GC1000啊