西邮“荧火虫1号GPU”通过鉴定,可支持win,峰值3G,实 ...

来源:百度文库 编辑:超级军网 时间:2024/05/09 06:25:52
    通信员 姜毅龙 记者 吕扬
    西安邮电大学自主设计的“嵌入式图形处理器(GPU)芯片-萤火虫1号”芯片于2015年12月24日下午,在西安邮电大学陕西省通信专用集成电路设计及工程技术研究中心,通过了陕西省科技厅主持的成果鉴定。鉴定委员会认为:“萤火虫1号GPU芯片流水线超长,结构复杂,设计难度大,是一款自主开发、设计的嵌入式GPU芯片,该项目填补了国内空白,总体技术达到国内领先水平。”
    图形处理器(GPU,Graphic Processing Unit)是一种广泛应用于图形处理和显示的计算机核心芯片。早期的GPU主要应用于计算机显卡,提供绘图、动画、游戏和可视化功能,只要有显示终端就需要GPU。同时,近年来高端的GPU大量用于高性能计算系统。例如国防科技大学的“天河一号”千万亿次超级计算机使用了5120颗ATI的GPU。2010年12月评测的当时世界上最快的超级计算机“天河一号A”,含有14336颗英特尔六核至强X56702.93GHzCPU和7168颗Nvidia Tesla M2050GPU。
    西安邮电大学GPU团队自主研制的嵌入式图形处理器(GPU)芯片-萤火虫1号,自主设计并实现了染色器指令系统和图元装配器、背面消隐器等多种硬件加速单元;设计了一种专用命令解析单元,加快了OpenGL命令解析速度;提出了一种命令环和反馈环双环新结构,显著提高了命令传输速度,易于命令跟踪;开发了完整的OpenGL1.3软件库并成功地移植到Linux操作系统、VxWorks和Windows操作系统上;建立了完整的软件开发平台;萤火虫1号GPU通过了400多个图形程序的测试验证,支持国际标准的图形程序设计接口OpenGL1.3的功能。芯片运行频率最高可达250MHz,峰值计算速度可达2.5-3GFlops。与此同时,GPU项目团队还设计完成了另一款多态阵列机的GPU芯片-萤火虫2号原型样片,多态阵列机是一个自主设计的众核(16核)阵列机。该芯片运行频率可达250-300MHz,峰值计算速度可达8-9.6GFlops。该芯片采用自主创新的设计和独特的体系结构,有机地将多种并行计算融于一体,形成了高性能的计算芯片的原型样片。芯片自主开发的设计和验证平台、染色器指令系统、硬件加速单元和OpenGL1.3标准的程序设计接口。萤火虫3号将通过对萤火虫2号架构和算法的改进,采用先进工艺,可以满足嵌入式应用的实用的图形处理器,成果获得了多项国家发明专利、软件著作权和集成电路布图保护等知识产权。
    6年磨一剑的GPU团队技术指导李涛教授,2009年从美国返回受聘西安邮电大学工作,是陕西省百人计划特聘专家,荣获陕西省三秦友谊奖,现任西安邮电大学陕西省通信专用集成电路设计工程技术研究中心总工程师。他怀着报效祖国的满腔热情,带领项目团队从零做起。在省委书记赵正永和各级领导关怀下,西安邮电大学领导的大力支持下,GPU科研团队不计名利,埋头研发,克服重重困难,攻克一个又一个难关,第一款国内自主设计的“嵌入式图形处理器(GPU)芯片-萤火虫1号”芯片终于问世。李涛教授认为,目前的成果仅仅是个开始,要赶超国际水平,还有很长的路要走。在省委省政府各级部门和西安邮电大学党委支持下,GPU团队组建了“西邮微电子科技有限公司”创业公司,正在实现GPU芯片产业化的道路上努力前行,力争为我国集成电路产业做出应有的贡献。

http://esb.sxdaily.com.cn/sxrb/20160113/html/page_03_content_002.htm


    通信员 姜毅龙 记者 吕扬
    西安邮电大学自主设计的“嵌入式图形处理器(GPU)芯片-萤火虫1号”芯片于2015年12月24日下午,在西安邮电大学陕西省通信专用集成电路设计及工程技术研究中心,通过了陕西省科技厅主持的成果鉴定。鉴定委员会认为:“萤火虫1号GPU芯片流水线超长,结构复杂,设计难度大,是一款自主开发、设计的嵌入式GPU芯片,该项目填补了国内空白,总体技术达到国内领先水平。”
    图形处理器(GPU,Graphic Processing Unit)是一种广泛应用于图形处理和显示的计算机核心芯片。早期的GPU主要应用于计算机显卡,提供绘图、动画、游戏和可视化功能,只要有显示终端就需要GPU。同时,近年来高端的GPU大量用于高性能计算系统。例如国防科技大学的“天河一号”千万亿次超级计算机使用了5120颗ATI的GPU。2010年12月评测的当时世界上最快的超级计算机“天河一号A”,含有14336颗英特尔六核至强X56702.93GHzCPU和7168颗Nvidia Tesla M2050GPU。
    西安邮电大学GPU团队自主研制的嵌入式图形处理器(GPU)芯片-萤火虫1号,自主设计并实现了染色器指令系统和图元装配器、背面消隐器等多种硬件加速单元;设计了一种专用命令解析单元,加快了OpenGL命令解析速度;提出了一种命令环和反馈环双环新结构,显著提高了命令传输速度,易于命令跟踪;开发了完整的OpenGL1.3软件库并成功地移植到Linux操作系统、VxWorks和Windows操作系统上;建立了完整的软件开发平台;萤火虫1号GPU通过了400多个图形程序的测试验证,支持国际标准的图形程序设计接口OpenGL1.3的功能。芯片运行频率最高可达250MHz,峰值计算速度可达2.5-3GFlops。与此同时,GPU项目团队还设计完成了另一款多态阵列机的GPU芯片-萤火虫2号原型样片,多态阵列机是一个自主设计的众核(16核)阵列机。该芯片运行频率可达250-300MHz,峰值计算速度可达8-9.6GFlops。该芯片采用自主创新的设计和独特的体系结构,有机地将多种并行计算融于一体,形成了高性能的计算芯片的原型样片。芯片自主开发的设计和验证平台、染色器指令系统、硬件加速单元和OpenGL1.3标准的程序设计接口。萤火虫3号将通过对萤火虫2号架构和算法的改进,采用先进工艺,可以满足嵌入式应用的实用的图形处理器,成果获得了多项国家发明专利、软件著作权和集成电路布图保护等知识产权。
    6年磨一剑的GPU团队技术指导李涛教授,2009年从美国返回受聘西安邮电大学工作,是陕西省百人计划特聘专家,荣获陕西省三秦友谊奖,现任西安邮电大学陕西省通信专用集成电路设计工程技术研究中心总工程师。他怀着报效祖国的满腔热情,带领项目团队从零做起。在省委书记赵正永和各级领导关怀下,西安邮电大学领导的大力支持下,GPU科研团队不计名利,埋头研发,克服重重困难,攻克一个又一个难关,第一款国内自主设计的“嵌入式图形处理器(GPU)芯片-萤火虫1号”芯片终于问世。李涛教授认为,目前的成果仅仅是个开始,要赶超国际水平,还有很长的路要走。在省委省政府各级部门和西安邮电大学党委支持下,GPU团队组建了“西邮微电子科技有限公司”创业公司,正在实现GPU芯片产业化的道路上努力前行,力争为我国集成电路产业做出应有的贡献。

http://esb.sxdaily.com.cn/sxrb/20160113/html/page_03_content_002.htm


听听大神怎么说
听听大神怎么说
http://lt.cjdby.net/thread-1936470-1-1.html
相当于ATI M9,主要军用
1. 萤火虫1号主要应用于嵌入式军品GPU及嵌入式民品GPU。
粗略估计军品市场容量如下:
坦克:8000辆×6片/辆:48000片
战斗机:2300架×2片, 4600片
运输机:120架×20片/架,2400片
直升机:500架×6片/架, 3000片
训练机:400架×2片/架,800片
中型、重型两栖登陆舰:55艘×10片/艘,550片
小型、导弹快速攻击艇:85艘×10片/艘,850片
步兵手持设备:100万片
军品销售额合计:160万片(指五年替换完成可产生的销售额)
本项目占据市场一部分预计可销售数亿元。
2. 萤火虫2号主要应用于高性能军品GPU及高性能民品GPU。
预计高性能军品市场容量如下:
战舰:75艘×50片/艘
潜艇:60艘×30片/艘
占据部分军品销售市场可以创造数亿元的经济效益。
高性能民品主要考虑高性能计算机、娱乐和服务器加速器等应用,每年可能达到数十万片。



总之, 萤火虫1号和萤火虫2号可占据部分军品市场和少量民品市场,保守估计可以创造数亿元的经济效益。
这个神马节奏
这个是是处理卫星图片的??


只能说自己造的GPU 嵌入和军品能用敢用就好

GPUflops本来就是虚高的东西 也就只有3Gflops
2008年的hd4850 都有1024Gflops

严格点说就是和2003年的商业GPU比都欠火候

只能说自己造的GPU 嵌入和军品能用敢用就好

GPUflops本来就是虚高的东西 也就只有3Gflops
2008年的hd4850 都有1024Gflops

严格点说就是和2003年的商业GPU比都欠火候
只能说自己造的GPU 嵌入和军品能用敢用就好

GPUflops本来就是虚高的东西 也就只有3Gflops

西邮的GPU是国内第一个公开支持 OpenGL 2.0和DirectDraw 的显卡

==
鉴于图形处理器的应用日趋广泛,多核SoC的研究日益迫切,设计了一款多核交互式图形处理器MIGPU-9及其完整的软件系统.为了兼顾编程灵活性和计算高效性,设计了具有专用指令的前端处理器FEP、支持定点/浮点运算与函数求值器的顶点染色处理器VSP、双模式的剪裁投影处理器PCPTC,以及数个像素染色处理器PSP等共计9个微处理器核;MIGPU-9将这9个具有不同功能和不同结构的微处理器核以及各种专用加速电路以双轨握手的流水线形式集成到一块XC6VLX550T FPGA上,实现了图形处理任务在不同处理器核及专用电路上的并行计算.测试结果表明,MIGPU-9支持OpenGL 2.0和DirectDraw,像素填充率最高可达40M/s,电路规模超过527万门.
http://www.jcadcg.com/Magazine/Show.aspx?ID=48132

ayanamei 发表于 2016-2-9 17:20
只能说自己造的GPU 嵌入和军品能用敢用就好

GPUflops本来就是虚高的东西 也就只有3Gflops


GPU项目团队还设计完成了另一款多态阵列机的GPU芯片-萤火虫2号原型样片,多态阵列机是一个自主设计的众核(16核)阵列机。该芯片运行频率可达250-300MHz,峰值计算速度可达8-9.6GFlops。
===
荧火虫3号应该是就是这个:
西邮在研轻核GPU,荧火虫二号
主频680MHz,支持1024个处理单元
一一一
荧火虫3号完成态按16核原型9.8G换算
1024核,峰值能力为1392GFlops

HD4850是800个流处理器核,峰值为1024Gflops

ayanamei 发表于 2016-2-9 17:20
只能说自己造的GPU 嵌入和军品能用敢用就好

GPUflops本来就是虚高的东西 也就只有3Gflops


GPU项目团队还设计完成了另一款多态阵列机的GPU芯片-萤火虫2号原型样片,多态阵列机是一个自主设计的众核(16核)阵列机。该芯片运行频率可达250-300MHz,峰值计算速度可达8-9.6GFlops。
===
荧火虫3号应该是就是这个:
西邮在研轻核GPU,荧火虫二号
主频680MHz,支持1024个处理单元
一一一
荧火虫3号完成态按16核原型9.8G换算
1024核,峰值能力为1392GFlops

HD4850是800个流处理器核,峰值为1024Gflops

hswz 发表于 2016-2-9 17:57
GPU项目团队还设计完成了另一款多态阵列机的GPU芯9片-萤火虫2号原型样片,多态阵列机是一个自主设计的众 ...

重复了 编辑掉
hswz 发表于 2016-2-9 17:57
GPU项目团队还设计完成了另一款多态阵列机的GPU芯9片-萤火虫2号原型样片,多态阵列机是一个自主设计的众 ...

重复了 编辑掉

hswz 发表于 2016-2-9 17:57
GPU项目团队还设计完成了另一款多态阵列机的GPU芯片-萤火虫2号原型样片,多态阵列机是一个自主设计的众 ...


现在嵌入GPU和主流GPU用核去表述的话 一个GPU核至少是具备TMU,ROP ,SHADER ARRAY 三个部分构成的一个核 可以在这个模块内玩车完成一个完整的像素操作

你引用的流处理器数量并不对应GPU核心
SP是能进行单一1D的算术操作而已 事实上HD4850用现在GPU核心的概念来算就是16像素输出核心 10个像素处理核心
每个核心拥有16个5D SIMD算术单元加4个TMU纹理寻址抓取单元
从flops的角度上说 用现在GPU的标准是RV770的10个shader核心提供了1TFlops
那个年代的GPU不如现在都GPU模块化程度高而已
hswz 发表于 2016-2-9 17:57
GPU项目团队还设计完成了另一款多态阵列机的GPU芯片-萤火虫2号原型样片,多态阵列机是一个自主设计的众 ...


现在嵌入GPU和主流GPU用核去表述的话 一个GPU核至少是具备TMU,ROP ,SHADER ARRAY 三个部分构成的一个核 可以在这个模块内玩车完成一个完整的像素操作

你引用的流处理器数量并不对应GPU核心
SP是能进行单一1D的算术操作而已 事实上HD4850用现在GPU核心的概念来算就是16像素输出核心 10个像素处理核心
每个核心拥有16个5D SIMD算术单元加4个TMU纹理寻址抓取单元
从flops的角度上说 用现在GPU的标准是RV770的10个shader核心提供了1TFlops
那个年代的GPU不如现在都GPU模块化程度高而已

ayanamei 发表于 2016-2-9 21:05
现在嵌入GPU和主流GPU用核去表述的话 一个GPU核至少是具备TMU,ROP ,SHADER ARRAY 三个部分构成的一个 ...


      据有关消息报道,AMD新一代RV770将会内建800个流处理器,Radeon HD 4850核心频率为625MHz,Radeon HD 4870核心频率为750MHz。由于每个shader单元的性能具备2G FLOPS,内建800个流处理器的Radeon HD 4850的浮点运算能力将会达到1TFLOPS,而核心频率为750MHz的Radeon HD 4870的性能将会比HD 4850高20%,浮点运算能力为1.2TFLOPS。
一一一一
由于每个shader单元的性能具备2G FLOPS,内建800个流处理器的Radeon HD 4850的浮点运算能力将会达到1TFLOPS
ayanamei 发表于 2016-2-9 21:05
现在嵌入GPU和主流GPU用核去表述的话 一个GPU核至少是具备TMU,ROP ,SHADER ARRAY 三个部分构成的一个 ...


      据有关消息报道,AMD新一代RV770将会内建800个流处理器,Radeon HD 4850核心频率为625MHz,Radeon HD 4870核心频率为750MHz。由于每个shader单元的性能具备2G FLOPS,内建800个流处理器的Radeon HD 4850的浮点运算能力将会达到1TFLOPS,而核心频率为750MHz的Radeon HD 4870的性能将会比HD 4850高20%,浮点运算能力为1.2TFLOPS。
一一一一
由于每个shader单元的性能具备2G FLOPS,内建800个流处理器的Radeon HD 4850的浮点运算能力将会达到1TFLOPS
不管性能如何, 这个名字我喜欢.

对反感那种名字起得很大气, 但实质不行的做派.

hswz 发表于 2016-2-9 21:17
据有关消息报道,AMD新一代RV770将会内建800个流处理器,Radeon HD 4850核心频率为625MHz,Radeo ...


算flops是可以用shader alu 或者所谓SP的单周期算术操作能力来 累加然后乘以时钟频率

但是不等于单个shader alu 或者SP等同于核GPU核心

萤火虫1这种数据显然是dx8左右时期GPU shader比较简陋的时期的规格
下面描述的
16核心 300mhz 9.6G flops从GPU的角度上来说惨不忍睹 就算它是把16shader宣传夸大成core
它每个shader单周期完成2个flops
这说明它很有可能是1d scalar alu 才会出现单周期2flops的数据
把它实际处理能力也就是4管线初期dx8/9产品的水平  9550神卡都打不过
当然 比哪个MJ5400 还是有些进步的
至于ATI 4850 800SP纯属宣传技巧  这货就是160个shader
hswz 发表于 2016-2-9 21:17
据有关消息报道,AMD新一代RV770将会内建800个流处理器,Radeon HD 4850核心频率为625MHz,Radeo ...


算flops是可以用shader alu 或者所谓SP的单周期算术操作能力来 累加然后乘以时钟频率

但是不等于单个shader alu 或者SP等同于核GPU核心

萤火虫1这种数据显然是dx8左右时期GPU shader比较简陋的时期的规格
下面描述的
16核心 300mhz 9.6G flops从GPU的角度上来说惨不忍睹 就算它是把16shader宣传夸大成core
它每个shader单周期完成2个flops
这说明它很有可能是1d scalar alu 才会出现单周期2flops的数据
把它实际处理能力也就是4管线初期dx8/9产品的水平  9550神卡都打不过
当然 比哪个MJ5400 还是有些进步的
至于ATI 4850 800SP纯属宣传技巧  这货就是160个shader
ayanamei 发表于 2016-2-9 21:26
算flops是可以用shader alu 或者所谓SP的单周期算术操作能力来 累加然后乘以时钟频率

但是不等于单 ...

你这次的猜测还是和上次对JM5400的猜测一样错的离谱不靠谱啊,对了关于JM5400我再加一条就是JM5400还有3D消隐模块啊

EKW 发表于 2016-2-10 15:52
你这次的猜测还是和上次对JM5400的猜测一样错的离谱不靠谱啊,对了关于JM5400我再加一条就是JM5400还有 ...


随便你把一些自己完全看不懂的论文词汇互相胡乱引用

包括你上面贴的支持OPenGL2.0的玩意儿

不是靠一些词汇混淆就可以强行高大上的牵涉到概念确定的规格参数的时候还是要漏底
不管是16核的概念是16shader 还是16 rendercore 300mhz 9.6Gflops这个水平性能作为GPU来说都太次了
而且强行把shader/core脑补扩大并行规模来和rv770比也是无厘头的东西  扩大并行规模除了集成度和晶体管效率本身  线程列队和管理宽度和深度都是制约  不是去你想翻多少就能赛多少的

至于你贴的那个论文 一个40M像素填充率就漏底了啊 低得可怕 拥有VS PS单元是亮点 但是性能没有什么可期待性 哪怕FPGA只跑在50mhz下 这个都太低了  而且还是vs ps分离结构  第一dx9级别产品的构架布局
具备完整的VS PS和支持OPenGL 2.0国内自主设计的可能是领先了
和ati nvidia比就是十几年前的水平
国内搞GPU的自主GPU团队现在还就是在打破有无的问题 和解决特定领域应用  靠HKC强行先进和以前大跃进没什么区别

这些国产嵌入式图形芯片在嵌入式环境用和武器系统上用解决基本需要是没太大问题的

但是和娱乐级商业GPU和用于做GPGPU加速器的先进GPU比 连门槛都没摸到

兆芯的Elite 2000 GPU规格放到这边也是碾压上面十几年的水平好吗  

早就说了国内GPU要达到商业用水平要快就只能收购S3遗产

intel可是有图形芯片积累的 又有财力和人力
最后还是自己从入门级渣渣执行效率折腾了好多年又买了poweVR一些专利  到了近几代GPU才追上主流构架  而且powrVr的影子还是很重
EKW 发表于 2016-2-10 15:52
你这次的猜测还是和上次对JM5400的猜测一样错的离谱不靠谱啊,对了关于JM5400我再加一条就是JM5400还有 ...


随便你把一些自己完全看不懂的论文词汇互相胡乱引用

包括你上面贴的支持OPenGL2.0的玩意儿

不是靠一些词汇混淆就可以强行高大上的牵涉到概念确定的规格参数的时候还是要漏底
不管是16核的概念是16shader 还是16 rendercore 300mhz 9.6Gflops这个水平性能作为GPU来说都太次了
而且强行把shader/core脑补扩大并行规模来和rv770比也是无厘头的东西  扩大并行规模除了集成度和晶体管效率本身  线程列队和管理宽度和深度都是制约  不是去你想翻多少就能赛多少的

至于你贴的那个论文 一个40M像素填充率就漏底了啊 低得可怕 拥有VS PS单元是亮点 但是性能没有什么可期待性 哪怕FPGA只跑在50mhz下 这个都太低了  而且还是vs ps分离结构  第一dx9级别产品的构架布局
具备完整的VS PS和支持OPenGL 2.0国内自主设计的可能是领先了
和ati nvidia比就是十几年前的水平
国内搞GPU的自主GPU团队现在还就是在打破有无的问题 和解决特定领域应用  靠HKC强行先进和以前大跃进没什么区别

这些国产嵌入式图形芯片在嵌入式环境用和武器系统上用解决基本需要是没太大问题的

但是和娱乐级商业GPU和用于做GPGPU加速器的先进GPU比 连门槛都没摸到

兆芯的Elite 2000 GPU规格放到这边也是碾压上面十几年的水平好吗  

早就说了国内GPU要达到商业用水平要快就只能收购S3遗产

intel可是有图形芯片积累的 又有财力和人力
最后还是自己从入门级渣渣执行效率折腾了好多年又买了poweVR一些专利  到了近几代GPU才追上主流构架  而且powrVr的影子还是很重
ayanamei 发表于 2016-2-10 16:28
随便你把一些自己完全看不懂的论文词汇互相胡乱引用

包括你上面贴的支持OPenGL2.0的玩意儿
我的天哪,你的思维又开始混乱了啊,我什么时候贴过论文啊,你不会眼浊了吧
作为西安邮电大学13115工程中心总工程师的李涛教授自2009年起全职受聘该校,从事集成电路芯片研发工作。李涛是有29年国外芯片设计经验的外籍资深集成电路设计专家,也是陕西省“百人计划”特聘专家。曾在美国、加拿大和澳大利亚的大学担任终身教职,在贝尔实验室、摩托罗拉等国际著名企业从事研发工作。他组建了陕西省第一只图形处理器(GPU)芯片设计团队,开展了国内空白的广泛用于各种电子设备和高性能计算系统的图形处理器(GPU)芯片研究。GPU项目受到了社会的广泛关注,目前GPU项目已经流片两款嵌入式芯片和一款高性能雏形芯片。芯片马上进入封装阶段。李涛在该校6年来,为该校培养了多名优秀青年人才,建立了研究团队;开展了多项重要的科研攻关和国际合作研究项目;带领团队开展了有影响力的学术活动;取得一系列高水平的研究成果,为该校和全省集成电路芯片研究作出了突出贡献。
> 已交易项目 >内容页
西安邮电大学萤火虫1A芯片后端技术( 更新日期:2014-11-07)
项目名称 西安邮电大学萤火虫1A芯片后端技术
交易额 1480000元 技术交易额 1480000元
技术领域
知识产权情况
登记时间 2014-11-07

EKW 发表于 2016-2-10 16:54
我的天哪,你的思维又开始混乱了啊,我什么时候贴过论文啊,你不会眼浊了吧


不是你贴的
是另一个id

这点是看错了 回复错人了  不好意思

其实现状就是国内搞GPU自主设计 尤其是3D处理这块
必须扎扎实实自己走过以下几个关键阶段  不同阶段的技术攻坚方向和难点是有区别的
1 从传统像素机  dx3~dx5之间 解决基本的纹理过滤 采样抓取实现和效率问题  

2 集成高效特定算法加速的像素机  dx5~dx7之间 提高底层TMU抓取效率 和设计出高效率的各种固定算法加速硬件部分 对各种采样方式过滤算法提供支持和效率优化

3 具备基本的几何加速和光源加速功能的高级像素机  dx7级别  提高渲染器件浮点计算单元的执行能力 摸熟几何和光源的常用渲染算法加速  摸熟一些传统特效的像素化算法和执行效率融合以和前面几个阶段的积累融合

4具备一定可编程像素管线和shader指令处理能力的 初级GPU
工作重点开始转向GPU硬件的执行效率 执行资源并行度  熟悉可编程管线的调度系统和数据流管理

5具有一定局限性但是具备高效执行体系的GPU  DX9 Shader model  2.0时期水平
1-4的技术积累融合放大应用 提高GPU并行规模和整体规模  flops飚升其期 这个阶段 shader部分处理能力提高的要求几乎是倍于 TMU/ROP这些传统图形器件的积累

6统一渲染构架和shader系统 相对灵活的shader编成体系  dx9 shadermodel 3.0 /dx10 shader model 4.0
重点解决GPU规模提升并行度提升后 执行系统对一些特殊指令 分支循环操作 非4D数据 给管线带来的阻塞和消除气泡 提高并行度可以放缓 但是管理机制和片内调度机制复杂度几倍的增长张

7统一全局调度计算阵列 模块化高并行度执行单元 具备支持系粒度数据和分支循环高效率执行的调度管理体系GPU内核   也就是满足OPENCL compute shader 这种高级GPGPU应用的构架体系
解决5阶段时期留下的问题 6阶段的积累进一步融合强化融会贯通  GPU的内部调度管理体系迎合GPU规模扩大的同时要增加调度并行度和缩小管理粒度  压榨GPU的flops的实际可用度  提高编程接口面的灵活度和自由度   真正成为一颗现代GPU

==============


几个阶段一个一个摸爬滚打上来  才能成就一颗先进的现代GPU
现在从国内的这些公开文献看大部分能拿出来宣传的团队还在3-4这个阶段努力
而且事实上大量文献提到的专利和加速算法 事实上是1-3这些阶段就必须良好解决的问题
不然到了后面就是执行效率的绊脚石  也是传统GPU部分比较考验积累的部分
4以后GPU进化方向就几乎全在可编程管线部分了  GPU传统图形学部分基本是1-3积累的扩展利用和衍生 没有颠覆性的新东西出现

==============
这方面可以说 哪一个阶段拆解开都是大量的具体问题 而且现在开始跟进面临着传统GPU公司在这个阶段发现的问题 以及解决问题申请的大量专利保护
没有自己足够技术和这些公司做交叉授权又没有能力买一些基础技术授权的话 要全部绕开这些壁垒同时拿出不同的解决方案还要保障效率  是相当大的问题
GPU这块 intel反正都低头了 该买专利买专利  才把自己的GPU效率 质量和构架水平做上来

国内这些新进入这些领域的公司和团队 恐怕要么要花钱 要么要牺牲效率 要么就要祈祷团队出几个图形学天才 反正一两个天才是不太够用

GPU这条路不好走  相当难走  可以说比CPU这块还要重视积累和底层

兆芯买S3(VIA)图形部分的好处是S3的底层积累1-4 基础储备是非常扎实的 以后追赶也好 发展自己的图形构架也好来自底层的瓶颈非常小
专心攻坚可编程部分就好了

个人觉得解决和打好1-4阶段的基础 就足够让很多团队跨不过这道坎
国内的话如果有军工或者其他内部体系采购 支持其团队 让他慢慢磨砺  这个团队要是和申威 龙芯 国防科大这些团队一样真心是做实事的  估计有个10年也有凤凰涅槃的一天


那3个搞CPU的团队也不是扎扎实实搞了10多年 现在的东西也是先进水平了 虽然不具备商业市场竞争力
EKW 发表于 2016-2-10 16:54
我的天哪,你的思维又开始混乱了啊,我什么时候贴过论文啊,你不会眼浊了吧


不是你贴的
是另一个id

这点是看错了 回复错人了  不好意思

其实现状就是国内搞GPU自主设计 尤其是3D处理这块
必须扎扎实实自己走过以下几个关键阶段  不同阶段的技术攻坚方向和难点是有区别的
1 从传统像素机  dx3~dx5之间 解决基本的纹理过滤 采样抓取实现和效率问题  

2 集成高效特定算法加速的像素机  dx5~dx7之间 提高底层TMU抓取效率 和设计出高效率的各种固定算法加速硬件部分 对各种采样方式过滤算法提供支持和效率优化

3 具备基本的几何加速和光源加速功能的高级像素机  dx7级别  提高渲染器件浮点计算单元的执行能力 摸熟几何和光源的常用渲染算法加速  摸熟一些传统特效的像素化算法和执行效率融合以和前面几个阶段的积累融合

4具备一定可编程像素管线和shader指令处理能力的 初级GPU
工作重点开始转向GPU硬件的执行效率 执行资源并行度  熟悉可编程管线的调度系统和数据流管理

5具有一定局限性但是具备高效执行体系的GPU  DX9 Shader model  2.0时期水平
1-4的技术积累融合放大应用 提高GPU并行规模和整体规模  flops飚升其期 这个阶段 shader部分处理能力提高的要求几乎是倍于 TMU/ROP这些传统图形器件的积累

6统一渲染构架和shader系统 相对灵活的shader编成体系  dx9 shadermodel 3.0 /dx10 shader model 4.0
重点解决GPU规模提升并行度提升后 执行系统对一些特殊指令 分支循环操作 非4D数据 给管线带来的阻塞和消除气泡 提高并行度可以放缓 但是管理机制和片内调度机制复杂度几倍的增长张

7统一全局调度计算阵列 模块化高并行度执行单元 具备支持系粒度数据和分支循环高效率执行的调度管理体系GPU内核   也就是满足OPENCL compute shader 这种高级GPGPU应用的构架体系
解决5阶段时期留下的问题 6阶段的积累进一步融合强化融会贯通  GPU的内部调度管理体系迎合GPU规模扩大的同时要增加调度并行度和缩小管理粒度  压榨GPU的flops的实际可用度  提高编程接口面的灵活度和自由度   真正成为一颗现代GPU

==============


几个阶段一个一个摸爬滚打上来  才能成就一颗先进的现代GPU
现在从国内的这些公开文献看大部分能拿出来宣传的团队还在3-4这个阶段努力
而且事实上大量文献提到的专利和加速算法 事实上是1-3这些阶段就必须良好解决的问题
不然到了后面就是执行效率的绊脚石  也是传统GPU部分比较考验积累的部分
4以后GPU进化方向就几乎全在可编程管线部分了  GPU传统图形学部分基本是1-3积累的扩展利用和衍生 没有颠覆性的新东西出现

==============
这方面可以说 哪一个阶段拆解开都是大量的具体问题 而且现在开始跟进面临着传统GPU公司在这个阶段发现的问题 以及解决问题申请的大量专利保护
没有自己足够技术和这些公司做交叉授权又没有能力买一些基础技术授权的话 要全部绕开这些壁垒同时拿出不同的解决方案还要保障效率  是相当大的问题
GPU这块 intel反正都低头了 该买专利买专利  才把自己的GPU效率 质量和构架水平做上来

国内这些新进入这些领域的公司和团队 恐怕要么要花钱 要么要牺牲效率 要么就要祈祷团队出几个图形学天才 反正一两个天才是不太够用

GPU这条路不好走  相当难走  可以说比CPU这块还要重视积累和底层

兆芯买S3(VIA)图形部分的好处是S3的底层积累1-4 基础储备是非常扎实的 以后追赶也好 发展自己的图形构架也好来自底层的瓶颈非常小
专心攻坚可编程部分就好了

个人觉得解决和打好1-4阶段的基础 就足够让很多团队跨不过这道坎
国内的话如果有军工或者其他内部体系采购 支持其团队 让他慢慢磨砺  这个团队要是和申威 龙芯 国防科大这些团队一样真心是做实事的  估计有个10年也有凤凰涅槃的一天


那3个搞CPU的团队也不是扎扎实实搞了10多年 现在的东西也是先进水平了 虽然不具备商业市场竞争力
ayanamei 发表于 2016-2-10 16:28
随便你把一些自己完全看不懂的论文词汇互相胡乱引用

包括你上面贴的支持OPenGL2.0的玩意儿
面前看来萤火虫1号GPU性能和GeForce4 Ti4200相当,但是由于取消了硬件T&L单元,所以架构比GeForce4 Ti4200先进
想起优质但暴卒的科幻美剧《萤火虫》。
http://lt.cjdby.net/thread-1936470-1-1.html
相当于ATI M9,主要军用
1. 萤火虫1号主要应用于嵌入式军 ...
空军的地型匹配做的怎么样了?