华为资助的计算所研制的ARM处理器简介:首款单核4线程64 ...

来源:百度文库 编辑:超级军网 时间:2024/04/26 08:29:01


自我简介
具有三年以上的处理器设计经验,作为核心研发人员参与研制业界首款ARMv8 4SMT处理器微结构及芯片设计,领导团队设计完成ARMv8 4SMT处理器的FPGA原型系统及40核ARMv8 SMT处理器的FPGA原型系统;
具有丰富的处理器设计经验,及FPGA硬件设计经验;精通处理器微结构设计;
具有三年以上的图像处理加速硬件设计经验,参与设计的数字电影实时播放系统曾在2008年北京奥运会开幕式的点火仪式上投入使用;
工作经历
高级工程师
中科院计算所
2008 年 7 月 – 至今 (6 年 10 个月)
荣誉奖项
优秀工程师奖
中科院计算所
2012 年 2 月
优秀员工奖
中科院计算所系统结构重点实验室
2012 年 1 月
卓越团队奖
中科院计算所先进计算机系统研究中心
2015 年 2 月
http://cn.linkedin.com/pub/%E6%9 ... E7%8E%8B/93/860/9b2

自我简介
具有三年以上的处理器设计经验,作为核心研发人员参与研制业界首款ARMv8 4SMT处理器微结构及芯片设计,领导团队设计完成ARMv8 4SMT处理器的FPGA原型系统及40核ARMv8 SMT处理器的FPGA原型系统;
具有丰富的处理器设计经验,及FPGA硬件设计经验;精通处理器微结构设计;
具有三年以上的图像处理加速硬件设计经验,参与设计的数字电影实时播放系统曾在2008年北京奥运会开幕式的点火仪式上投入使用;
工作经历
高级工程师
中科院计算所
2008 年 7 月 – 至今 (6 年 10 个月)
荣誉奖项
优秀工程师奖
中科院计算所
2012 年 2 月
优秀员工奖
中科院计算所系统结构重点实验室
2012 年 1 月
卓越团队奖
中科院计算所先进计算机系统研究中心
2015 年 2 月
http://cn.linkedin.com/pub/%E6%9 ... E7%8E%8B/93/860/9b2
有架构资料吗?
三年经验?高度怀疑

华府小厮 发表于 2015-4-26 16:26
三年经验?高度怀疑


计算所研制的PCIE视频加速卡,1080P H.264 30帧同时解码60路,或同时编码40路,或同时转码20路,功耗不超过19瓦
===
    中科院计算所范东睿博士带领团队开展技术攻关,研制了面向大数据视频加速处理众核芯片SmartChip-Media。该芯片为一款基于通用处理器核的异构众核芯片,其通过片上网络复用、计算部件共享等创新机制,具有高度并发的数据处理能力;通过视频包内容容错设计,提高数据处理的可靠性;通过多种物理设计手段降低芯片功耗,实现了单颗芯片功耗2.5W的目标;从而实现了高计算能力、低功耗、高可靠性、高性价比等优点。基于此芯片研制的一体机SmartSys-M可获得优于现在主流商用服务器Intel Sandybridge30倍以上的能效。为与通用服务器兼容,基于SmartChip-Media研制的加速卡SmartCard-M,在不额外占用空间的情况下,以PCIe加速卡的形式,线性扩展通用服务器的视频处理能力,由此可满足数据中心对计算空间、能耗比、性价比的需求。通过多年的技术与市场应用积累,该团队为视频大数据处理领域提供了从芯片、加速卡到大数据一体机的多层次解决方案。这些解决方案适用于不同编码格式、不同分辨率视频的直接转换;满足不同播放终端对视频格式的要求;满足高清视频对转码实时性的要求;支持主流的音视频编码格式和多种网络传输协议,配置灵活;适用于三屏网络多媒体转换、实时监控、网络电视、IPTV等多种领域,体现出卓越的视频编解码性能

华府小厮 发表于 2015-4-26 16:26
三年经验?高度怀疑


计算所研制的PCIE视频加速卡,1080P H.264 30帧同时解码60路,或同时编码40路,或同时转码20路,功耗不超过19瓦
===
    中科院计算所范东睿博士带领团队开展技术攻关,研制了面向大数据视频加速处理众核芯片SmartChip-Media。该芯片为一款基于通用处理器核的异构众核芯片,其通过片上网络复用、计算部件共享等创新机制,具有高度并发的数据处理能力;通过视频包内容容错设计,提高数据处理的可靠性;通过多种物理设计手段降低芯片功耗,实现了单颗芯片功耗2.5W的目标;从而实现了高计算能力、低功耗、高可靠性、高性价比等优点。基于此芯片研制的一体机SmartSys-M可获得优于现在主流商用服务器Intel Sandybridge30倍以上的能效。为与通用服务器兼容,基于SmartChip-Media研制的加速卡SmartCard-M,在不额外占用空间的情况下,以PCIe加速卡的形式,线性扩展通用服务器的视频处理能力,由此可满足数据中心对计算空间、能耗比、性价比的需求。通过多年的技术与市场应用积累,该团队为视频大数据处理领域提供了从芯片、加速卡到大数据一体机的多层次解决方案。这些解决方案适用于不同编码格式、不同分辨率视频的直接转换;满足不同播放终端对视频格式的要求;满足高清视频对转码实时性的要求;支持主流的音视频编码格式和多种网络传输协议,配置灵活;适用于三屏网络多媒体转换、实时监控、网络电视、IPTV等多种领域,体现出卓越的视频编解码性能
三年经验?高度怀疑
据说帮华为设计arm多线程cpu计算所团队的人巳全部转到苏州POWER8团队
===

阴差阳错的签了这家公司的应届生来说说我知道的信息。
匿了,免得被相关人员认出来。

大背景关键字:棱镜门,openpower。
国家得以自己设计服务器cpu,ibm得以拉人一起搞power架构,各取所需。

谁给出钱:
背景挺复杂的,总之算是有国家背景吧。

人员组成:
说是中科院计算所的cpu组人员停薪留职去苏州,加上社招和校招以及ibm的人员顾问组成。中科院计算所cpu组的人之前在给华为做40核处理器,对,我没听错,你也没听错,40核处理器,完成之后去苏州。

产品和技术:
“公司获得IBMPOWER架构、相关知识产权以及芯片设计工具的许可。”
好吧,rtl和工具以及流程都有了,第一个目标就是把power8自己复现一遍,大家一起学习学习IBM的工具和流程......学的差不多了就可以尝试去修改了。
22nm工艺,650mm平方的面积,即使是复现也不会很容易吧...

有没有前途:
我不知道,嗯,我也想知道。
产品还是挺不错的,短期内也不会差钱,进IC初创公司的机会也不多,公司发展好了对个人也很有利,但是我个人有个忧虑:
中科院计算所的团队到底怎么样?
我觉得办事效率不高,流程不稳定细致,责任不明确这种可能再所难免,但是据认识的人说,中科院计算所里面等级分明,一级压迫一级,实习生最悲惨,加班两三点钟回头早上十点不到就打电话催你;而且有的老师安排任务朝令夕改,对于实习生也根本不现实,辛苦做了半天的东西还会被冷嘲热讽。当然不同的组情况不一样。回头去了苏州那边,如果工作氛围这么恶心,周边和上海IC公司那么多,分分钟跳槽给你看。
---------------------------------------------------------------------------------------------------------------------------------
我为什么来这了?本来实力也只是一般,当初又被很心仪的NV狠狠的耍了,被耍的学生应该遍布各涉及IC的知名高校。再后来我仅剩几家看上的公司要不是我面扯了,要不就是还在等消息...索性先签一个还可以的吧,“不行就跳槽”。
中晟来学生招人的时候,一个白发苍苍美籍华人老工程师,一个IBM前工程师,一个中科院计算所老师一起面的我,英文交流,当时觉得看起来应该不会坑,待遇也还行,就签了。

希望这个单核多线程技术能用在华为手机芯片上,增加一个噱头,卖点
我只想说,这个东西真不算啥。华为自己搞的那个手机用的高级多了。linkedin这个哥们儿比较有眼光。
希望这个单核多线程技术能用在华为手机芯片上,增加一个噱头,卖点
比华为的8核手机芯片如何?
我只想说,这个东西真不算啥。华为自己搞的那个手机用的高级多了。linkedin这个哥们儿比较有眼光。
内幕?消息???
计算所研制的PCIE视频加速卡,1080P H.264 30帧同时解码60路,或同时编码40路,或同时转码20路,功耗不超 ...
这个多核貌似没啥技术含量啊
这个多核貌似没啥技术含量啊
目前国内没有这种产品,做在PCIE卡上的
三年从业经验在华为内还是编码小兵
华为公司在引进ARM64标准设计方案的基础上,完成了国产16核ARM CPU硬化设计和样片流片,成为国内首款16nm工艺流片的芯片,经初步测试性能超过预期目标;完成BIOS和BMC管理软件开发;采用国产ARM64 CPU芯片的双路服务器样机已经开发完成,已经过产品化测试流程多轮正式测试,目前处于生产试产阶段。


hswz 发表于 2015-4-26 18:26
希望这个单核多线程技术能用在华为手机芯片上,增加一个噱头,卖点
相信华为,可以的
soway 发表于 2015-4-26 21:20
我只想说,这个东西真不算啥。华为自己搞的那个手机用的高级多了。linkedin这个哥们儿比较有眼光。
最近华为越来越好,支持一下
华为要是有像果子那样完善体系就好了
minimi001 发表于 2016-1-26 15:47
华为要是有像果子那样完善体系就好了
操作系统是跨不过的门槛。
我只想说,这个东西真不算啥。华为自己搞的那个手机用的高级多了。linkedin这个哥们儿比较有眼光。
囧,我一直以为领英是高端约炮网,还能研究处理器这么高大上
hswz 发表于 2015-4-26 17:48
据说帮华为设计arm多线程cpu计算所团队的人巳全部转到苏州POWER8团队
===
这个在苏州的人说的情况基本上属实但是有一些出入。

计算所有有多个正在做CPU的组,至于有实力做但是没往那条路上走的就更多了,那个给华为做的团队只是其中一个,他这样的说法会让人误以为计算所做CPU的除了龙芯就是这个组然后还全拉到苏州去了,至少我们这个组就没去,哈哈。

他们那个组的情况不代表其他组的情况,他们那个组人特别多而且当时被华为逼的很紧,确实管理上有一些问题。

UltramanTaro 发表于 2016-2-11 00:33
这个在苏州的人说的情况基本上属实但是有一些出入。

计算所有有多个正在做CPU的组,至于有实力做但是 ...
你们有没有在做GPU的啊,貌似微电子所有做GPU的你了解吗

UltramanTaro 发表于 2016-2-11 00:33
这个在苏州的人说的情况基本上属实但是有一些出入。

计算所有有多个正在做CPU的组,至于有实力做但是 ...


还有 ,DPU-m众核处理器
UltramanTaro 发表于 2016-2-11 00:33
这个在苏州的人说的情况基本上属实但是有一些出入。

计算所有有多个正在做CPU的组,至于有实力做但是 ...


还有 ,DPU-m众核处理器
还有 ,DPU-m众核处理器
流片没?性能如何
这个在苏州的人说的情况基本上属实但是有一些出入。

计算所有有多个正在做CPU的组,至于有实力做但是 ...
做众核的范东睿也成立了公司
客户需求是针对于ARM发布的最新ARM指令集,开发一套基于此指令集的处理器模拟评估平台,支持高速功能模拟器和时序精确级性能模拟,支持SMT/SMP,支持Cache、DDR、最新一致性协议等功能,以便于指导ARMv8处理器软硬件的研发,帮助其迅速占领市场,提高最新高性能嵌入式系统服务。
我们的方案:
SmartSimu-HPA模拟器是一个支持最新ARM指令集,可用于时钟精确的乱序流水线性能评估的时序模型。模型支持Tomasulo动态调度算法,支持多发射取指译码,支持Tournament等分支预测,支持执行单元个数快速调整,支持协处理器/加速器扩展模块,支持SMT、SMP等功能。
SmartSimu-HPA提供了两种模拟模式,功能模拟和性能模拟。
功能模拟通过动态二进制翻译的方式模拟ARM指令集,这使得功能模拟的速度可以更加接近真实硬件的速度。模拟器启动后首先启动功能模拟模式,解析输入参数,配置相应的内容,然后加载用户程序,翻译执行,支持异常处理和系统调用等功能。
性能模拟模式完全模拟了乱序核流水线,支持多发射、Tomasolu算法、Tournament分支预测方法、Cache模块、DDRC模块、SMT、SMP等内容,也提供丰富的性能统计功能。
模拟器性能模拟速度可达200KIPS,功能模拟速度可达200MIPS,性能优于其他商用模拟器。
功能模块图如下:

      1. 动态二进制翻译加速
模拟速度慢一直是阻碍模拟器发展的瓶颈之一。针对这个问题,在功能模拟模式下,SmartSimu-HPA采用动态二进制翻译的加速方法进行加速,支持最新的ARM指令集,完成内容包括ARM指令集定义,译码树,通用和浮点寄存器,相关异常处理,动态二进制翻译和系统调用的实现等内容。通过使用动态二进制翻译机制,功能模拟的速度能够达到200MIPS以上。
     2.时钟精确时序模拟
通过Tomasolu算法、保留站、ROB等功能部件实现了乱序流水核原型。流水线各个组成阶段采用高度的模块化和可配置性,流水线发射宽度、保留站大小、各个相关队列大小、提交宽度大小及分支预测模式等可调。性能模拟模块指令翻译采用Basic Block的优化方式,能够大大缩减取值和译码的时间,显著的提高了流水线行执行的速度,指令执行速度能够达到200k/s。

     3.Cache模拟
实现两种cache模拟: 简单cache和一致性cache。
简单cache用于创建单核cache或者多核情况下的共享cache。一致性cache用于模拟多核情况下核的私有cache,实现了两种协议:mesi和moesi。mesi协议使用了snoop监听方式,moesi使用了directory方式。
     4.SMP/SMT模拟
模拟器支持最大256核SMP模拟,每个核支持8线程SMT模拟。
     5.DDR访存接口模拟
SmartSimu-HPA支持集成第三方的DRAM模拟器,比如DRAMsim2这样的成熟模拟器,访存接口模拟模拟了大部分现代主存系统中的元件,例如ranks,banks,命令队列、存储控制器等。

产品主要特征:
功能完备:支持最新的ARM指令集;支持最大256核SMP模拟,每个核支持最大8 SMT模拟;支持时序级的流水线结构模拟;支持全系统运行。
速度快:功能模拟器可达200MIPS;时序精确级模拟可达200KIPS;执行dhrystone性能可达到3DMIPS/MHz。
配置灵活:支持快速功能模拟和精确时序模拟两种模拟模式,并支持快速切换;支持丰富可配置的性能数据统计和输出,可满足乱序超变量结构的高性能处理器结构快速评估需求。
UltramanTaro 发表于 2016-2-11 00:33
这个在苏州的人说的情况基本上属实但是有一些出入。

计算所有有多个正在做CPU的组,至于有实力做但是 ...
华为的这个Arm v8的cpu项目还在继续吗?
华为的这个Arm v8的cpu项目还在继续吗?
见13楼      
华为的这个Arm v8的cpu项目还在继续吗?
名字现在应该可以说了,泰山核
性能指标内部也看到了,还不能说
见13楼

13楼那个CPU,CPU部分还是a57。不过自研核很快了。
华府小厮 发表于 2016-2-12 10:13
名字现在应该可以说了,泰山核
性能指标内部也看到了,还不能说
你们自研的GPU进展咋样了,什么时候出啊
你们自研的GPU进展咋样了,什么时候出啊
这个我就就真不知道了,如果有,应该是终端的项目
名字现在应该可以说了,泰山核
性能指标内部也看到了,还不能说
和a72  小米比咋样?

华府小厮 发表于 2016-2-12 10:13
名字现在应该可以说了,泰山核
性能指标内部也看到了,还不能说


性能的话是不是同频比A57提高46%啊



华府小厮 发表于 2016-2-12 10:13
名字现在应该可以说了,泰山核
性能指标内部也看到了,还不能说


性能的话是不是同频比A57提高46%啊



scxtx 发表于 2016-2-12 12:02
和a72  小米比咋样?


性能的事情现在不能说,我也不敢说。贴吧里倒是有几个胆大的,或许是奉旨泄密,名字也是他们先公开说了我才敢说。不过小米性能新闻刚出来时,海思首席架构师曾经在内部论坛上跟过一次抱怨帖,记得大致意思好像是“他憋的厉害,老大让他封口,封口了还不给他封口费”
scxtx 发表于 2016-2-12 12:02
和a72  小米比咋样?


性能的事情现在不能说,我也不敢说。贴吧里倒是有几个胆大的,或许是奉旨泄密,名字也是他们先公开说了我才敢说。不过小米性能新闻刚出来时,海思首席架构师曾经在内部论坛上跟过一次抱怨帖,记得大致意思好像是“他憋的厉害,老大让他封口,封口了还不给他封口费”
性能的事情现在不能说,我也不敢说。贴吧里倒是有几个胆大的,或许是奉旨泄密,名字也是他们先公开说了 ...
意思是泰山核不比小米核差了?
性能的事情现在不能说,我也不敢说。贴吧里倒是有几个胆大的,或许是奉旨泄密,名字也是他们先公开说了 ...
还有,你评价下 小米核心 呗!
华为真牛,看看美帝良心的联想这些年都干嘛呢,只会收购破烂货客吗。