基于龙芯3号最新IP的国内最强DSP一一华睿2号

来源:百度文库 编辑:超级军网 时间:2024/05/06 15:32:41
摩尔定律指出,集成芯片可容纳的晶体管数目约每隔18个月便会增加一倍,性能也将提升一倍。随着半导体制造工艺的改进,大规模SOC(System On Chip,片上系统) 和多核设计的出现,专用集成芯片设计的复杂度以指数形式增长,这使得验证工作成为芯片设计流程中的瓶颈,数据表明,接近70%-80%的设计时间花费在功能验证中。目前,专用集成芯片已经可以达到上亿门,设计上复杂度的提高迫切需要在功能验证方面有新的技术和方法学。 本课题所要验证的是DSP芯片,该处理器基于MIPS架构,采用四发射的超标量结构,乱序执行技术等,使得芯片的设计极其复杂,这就需要高效,自动化的验证来满足设计的需求。 因此验证方法学诞生,UVM是验证业界为自身研发的一种新验证方法学。UVM代表着验证技术的最新进展,使用它可创建坚实、可重用、具互操作性的验证IP和测试流程(testbench)组件。本文就首先对UVM验证方法展开论述,而后详细介绍作者基于UVM验证方法搭建的dsp芯片的验证平台,并对验证过程和结果进行评估。
http://paper.buaalib.com/docinfo.action?dbid=72&docid=38053摩尔定律指出,集成芯片可容纳的晶体管数目约每隔18个月便会增加一倍,性能也将提升一倍。随着半导体制造工艺的改进,大规模SOC(System On Chip,片上系统) 和多核设计的出现,专用集成芯片设计的复杂度以指数形式增长,这使得验证工作成为芯片设计流程中的瓶颈,数据表明,接近70%-80%的设计时间花费在功能验证中。目前,专用集成芯片已经可以达到上亿门,设计上复杂度的提高迫切需要在功能验证方面有新的技术和方法学。 本课题所要验证的是DSP芯片,该处理器基于MIPS架构,采用四发射的超标量结构,乱序执行技术等,使得芯片的设计极其复杂,这就需要高效,自动化的验证来满足设计的需求。 因此验证方法学诞生,UVM是验证业界为自身研发的一种新验证方法学。UVM代表着验证技术的最新进展,使用它可创建坚实、可重用、具互操作性的验证IP和测试流程(testbench)组件。本文就首先对UVM验证方法展开论述,而后详细介绍作者基于UVM验证方法搭建的dsp芯片的验证平台,并对验证过程和结果进行评估。
http://paper.buaalib.com/docinfo.action?dbid=72&docid=38053
为“核高基”重大专项“面向先进雷达的高性能数字信号处理器研发及应用(编号:2012ZX01034-001-002)”主要研制人员。创新性地将雷达信号处理算法提炼成FFT、FIR、相关、矩阵求逆等17种基本计算构件,通过计算构件的逻辑组合实现复杂算法。并将该技术成功应用于“面向先进雷达的高性能数字信号处理器研发及应用----华睿2号DSP中,较好地解决了雷达系统大带宽、高吞吐的应用需求。对本项目的贡献度为5%。
1 课题来源 北京国睿中数科技股份有限公司,由中国电子科技集团公司第十四研究所控股,国睿中数先后实施了多项包括国家863课题的国家重大科技项目,自2007年起,作为牵头单位,联合中国电子科技集团公司第十四研究所,清华大学等国内顶级科研院所合作承担了国家重大科技专项核高基课题高性能DSP芯片“CGT1号”的研发,去年开始研发DSP芯片“CGT2号”,为提升其性能,该芯片采用高性能的MIPS架构,频率高达1GHZ,该核具有四路超标量,分支预测机制,指令乱序执行机制,以及兼容MIPS64,及其release3指令集,并且有自定义的向量指令扩展。该芯片基于现有国内领先的研发基础和国际水准的技术方案,具有完全自主知识出产权,其应用将满足高端数字信号处理的重大需求。
2014-12-16 17:58:14

12月2日,工业与信息化部组书记、部长苗圩在中国电科组成员、总会计师张登洲的陪同下调研视察中国电科14所,对14所工业化和信息化融合工作给予了高度评价。工信部办公厅主任莫玮、装备工业司司长张相木、规划司副司长羌薇、电子信息司副司长安筱鹏,江苏省副省长史和平、省经信委主任徐一平、副主任胡学同、南京市副市长罗群等陪同视察。

在14所展厅,苗部长听取了14所委书记郁蔚铭、副所长胡明春关于14所概况、产业发展情况和信息化体系建设情况的汇报,详细了解了14所在“两化”融合方面的发展情况以及取得的效益,观看了基于数字化电讯样机结构样机的协同设计仿真演示,详细询问了具有自主知识产权的“华睿1号”“华睿2号”核心芯片的研发情况。
这玩意儿不是龙芯3B的某个马甲版本吧
用GS464E?
用GS464E?
没真么快

估计是464v
龙芯3还能当DSP用???用龙芯3内核能算14所自己开发的吗??披着华睿马甲的龙芯??
龙芯3还能当DSP用???用龙芯3内核能算14所自己开发的吗??披着华睿马甲的龙芯??
那些希望调整其它音频/DSP算法的用户,MIPS DSP程序库(MIPS DSP Library)作为MIPS软件工具包的一部分可供使用。这个程序库具有广泛的适用于语音压缩、回声消除、噪音消除、通道均衡、音频处理等信号处理功能,还包括过滤器和FFT等通用功能。  MIPS内核有许多特性有助于有效地实现像DSP这样的应用。经过优化的音频多媒体数字信号编解码器和DSP程序库可利用其提供重要的优势:  ● 为在所有音频算法中使用32位整数数据的内部计算提供尽可能最优异的音频质量。  ● MIPS32乘法积累(Multiply-Accumulate,MADD)指令在对DSP MAC运行进行编码时是非常有效的。
http://www.eepw.com.cn/article/8110.htm

dddnc 发表于 2015-6-8 22:31
龙芯3还能当DSP用???用龙芯3内核能算14所自己开发的吗??披着华睿马甲的龙芯??

龙芯3B这种构架 客串DSP问题不大

但是专门做DSP的性能和晶体管/性能 做不过通用cpu 那真是可以撞墙了
龙芯3A1500把MIPS的DSP指令集也集成进去了
===
业界标准处理器架构与数字消费及商业系统应用内核方案领导供应商 MIPS Technologies 近日推出一套针对产业标准 MIPS 架构的全新数字信号处理架构延伸方案——MIPS DSP ASE。这套DSP ASE延伸方案能将嵌入式信号处理性能提高 300%。在现有完整软件开发工具套件与MIPS DSP 库的支持下,DSP ASE 可以让 SoC 设计人员略去硬件逻辑电路,将DSP功能整合至MIPS-Based主处理器,简化设计流程并降低系统成本。
http://lt.cjdby.net/forum.php?mod=viewthread&tid=2001274
龙芯3B这种构架 客串DSP问题不大

但是专门做DSP的性能和晶体管/性能 做不过通用cpu 那真是可以撞墙 ...
现在的DSP还真做不过CPU了,特别是集成了FFT等专用算法优化硬件的CPU
===
http://semi.cena.com.cn/2013-11/07/content_201315.htm

hswz 发表于 2015-6-8 22:53
现在的DSP还真做不过CPU了,特别是集成了FFT等专用算法优化硬件的CPU
===
http://semi.cena.com.cn/2013 ...


这个人的观点基本我不太能同意

通用CPU具备很强的VECTOR UNIT显然可以再特殊指令下达到极高的FLOPS
FLOPS足够的情况下没有理由不能做DSP做得事情
但是
通用CPU的特点是可编程性没有限制
DSP是硬件电路对特定算法 和操作处理最优化 结构单一带来的好处就是晶体管规模可以更小

从晶体管的角度上来说 通用CPU的晶体管效率  在限定类型操作下 一定比不过DSP
现在DSP萎缩的原因主要还是 在现有计数晶体管集成度允许的情况下搭载暴力矢量计算单元的CPU已经可以提供大部分条件下可用 够用的性能
那么只能高速处理专属操作 和算法的DSP生存空间下降得厉害
毕竟低成本高速的代价是丧失了通用性和灵活性


hswz 发表于 2015-6-8 22:53
现在的DSP还真做不过CPU了,特别是集成了FFT等专用算法优化硬件的CPU
===
http://semi.cena.com.cn/2013 ...


这个人的观点基本我不太能同意

通用CPU具备很强的VECTOR UNIT显然可以再特殊指令下达到极高的FLOPS
FLOPS足够的情况下没有理由不能做DSP做得事情
但是
通用CPU的特点是可编程性没有限制
DSP是硬件电路对特定算法 和操作处理最优化 结构单一带来的好处就是晶体管规模可以更小

从晶体管的角度上来说 通用CPU的晶体管效率  在限定类型操作下 一定比不过DSP
现在DSP萎缩的原因主要还是 在现有计数晶体管集成度允许的情况下搭载暴力矢量计算单元的CPU已经可以提供大部分条件下可用 够用的性能
那么只能高速处理专属操作 和算法的DSP生存空间下降得厉害
毕竟低成本高速的代价是丧失了通用性和灵活性


hswz 发表于 2015-6-8 22:37
那些希望调整其它音频/DSP算法的用户,MIPS DSP程序库(MIPS DSP Library)作为MIPS软件工具包的一部分可 ...


说实话 音频这类处理量真的很小
即使是加上一些复杂算法

现在的问题是龙芯3B这种级别的CPU FLOPS已经可以足够对付大部分常规的应用

要是应用环境变成24路 24bit 192k音频 输入 并且进行实时特定混音效果的话
做一个能满足这个应用的高性能向量机CPU 容易  还是制造一款专属DSP来做更容易 成本更低?
而且DSP因为功能向设计的东西 和DA  AD整合度也很高  基于DSP的系统可以更紧凑  但是代价也就是功能向  单一化

其实这个就是需求和最优解的权衡问题
hswz 发表于 2015-6-8 22:37
那些希望调整其它音频/DSP算法的用户,MIPS DSP程序库(MIPS DSP Library)作为MIPS软件工具包的一部分可 ...


说实话 音频这类处理量真的很小
即使是加上一些复杂算法

现在的问题是龙芯3B这种级别的CPU FLOPS已经可以足够对付大部分常规的应用

要是应用环境变成24路 24bit 192k音频 输入 并且进行实时特定混音效果的话
做一个能满足这个应用的高性能向量机CPU 容易  还是制造一款专属DSP来做更容易 成本更低?
而且DSP因为功能向设计的东西 和DA  AD整合度也很高  基于DSP的系统可以更紧凑  但是代价也就是功能向  单一化

其实这个就是需求和最优解的权衡问题
14所的所长罗群做副市长了?
ayanamei 发表于 2015-6-8 00:19
这玩意儿不是龙芯3B的某个马甲版本吧
龙芯的IP做的控制器,然后控制DSP单元
ayanamei 发表于 2015-6-8 23:45
这个人的观点基本我不太能同意

通用CPU具备很强的VECTOR UNIT显然可以再特殊指令下达到极高的FLOPS
...
就是通用CPU越来越强了,原来必须上DSP才能搞定的事,现在稍微定制化的CPU都能搞定,只有在特定要求更高的领域,DSP才不可替代
豆豆911 发表于 2015-6-10 07:37
就是通用CPU越来越强了,原来必须上DSP才能搞定的事,现在稍微定制化的CPU都能搞定,只有在特定要求更高 ...
是的 现在搭配矢量单元和配套指令的通用CPU也可以做到很高的FLOPS
而且对操作类型限制比DSP少 适用性也好  在性能不是极端要求的情况下
这类CPU完全可以代替DSP

DSP优势领域  
极低成本高效实现某些特殊算法  凸出低成本解决
和某些要求极端特殊的应用   通用CPU无法达到的水平

还是专用和通用 两者在不同环境下性价比取舍的问题
ayanamei 发表于 2015-6-8 22:42
龙芯3B这种构架 客串DSP问题不大

但是专门做DSP的性能和晶体管/性能 做不过通用cpu 那真是可以撞墙 ...
华睿2号很可能是3A2000的向量版。。。。。。。
花落庭院 发表于 2015-7-27 15:26
华睿2号很可能是3A2000的向量版。。。。。。。
难道gs464e的向量版不是龙芯3b2000?