天河2A的GPDSP

来源：百度文库编辑：超级军网时间：2024/04/16 16:35:49

自我感觉：其实跟AMD的APU很类似

声明：
所有信息来自于一个专利申请：
公开号：CN103714039 A
专利申请号：CN 201310725118
发明者：陈书明, 杨学军, 万江华, 刘仲, 陈海燕, 郭阳
申请人：中国人民解放军国防科学技术大学

http://www.google.com/patents/CN103714039A?cl=zh

【一、数字信号处理器(Digital Signal Processor简称DSP)】
DSP作为一种典型的嵌入式微处理器目前已经被广泛应用于各种嵌入式系统中。尽管当前DSP的体系结构在计算和控制上具有了与中央处理器(CPU)同质的许多特征,但是一般认为以下是DSP区别于CPU的基本特征:
1）计算能力强,关注实时计算胜于关注控制和事务处理;
2）对于典型信号处理有专门硬件支持,如乘加运算、线性寻址;
3）嵌入式微处理器的共性特征:地址和指令通路不多于32位,多数数据通路不多于32位;非精确中断;短期离线调试、长期在线驻留运行的程序工作方式(而非通用CPU调试即运行的方法);
4）集成外设接口以快速外设为主,特别利于在线收发高速AD/DA数据,也支持DSP间高速直连。

【二、DSP用作通用科学计算时存在的问题】
DSP用作通用科学计算时存在如下几个问题:
1）位宽小,使得计算精度和寻址空间不足。通用科学计算应用至少需要64位精度;
2）缺乏任务管理、文件控制、进程调度、中断管理等软硬件支持,或者说缺乏操作系统(OS)硬件环境,给通用、多道计算任务管理带来不便;
3）缺乏统一的高级语言编程模式支持,对多核、向量、数据并行等的支持基本依靠汇编程序编程,不便于通用编程;
4）不支持本地宿主的程序调试模式,仅依靠它机交叉调试仿真。

【三、GPDSP构成】
通用计算数字信号处理器,包括:
1）CPU核单元,包含至少一个CPU核,所述CPU核用于负责包括存储管理、文件控制、进程调度、中断管理任务在内的通用事务管理以及提供对通用操作系统的完整支持;
2）DSP核单元,包含至少一个用于提供对64位运算以及操作系统微内核支持的DSP核; 多层次互连结构,用于连接CPU核与DSP核,为CPU核与DSP核之间提供用于任务调度、启动停止以及同步操作的快速细粒度通信以及通过高速DMA方式实现大粒度的数据通信;片内共享存储阵列,用于为CPU核与DSP核提供高带宽供数支持,并提供包含数据失效和更新在内的硬件直接支持的原子操作来支持高速缓存一致性操作;
3）片外存储接口,用于为CPU核与DSP核实现片外存储扩展;
第一高速输入输出接口,用于实现CPU核的外部数据交换;
第二高速输入输出接口,用于实现DSP核的外部数据交换;
4）片间直连接口,用于支持通用计算数字信号处理器之间的片间直连;
5）核间同步装置,用于提供DSP核间硬件同步机制以支持多核间的同步操作,某个DSP核通过核间同步装置使得其它需要该核新数据的DSP核等待,该DSP核产生新数据并通过数据回写机制写回到片内共享存储阵列,该DSP核21通过核间同步装置使得其它需要该核新数据的DSP核继续运行,其它需要该核新数据的DSP核通过数据作废机制确保没有旧的数据并从片内共享存储阵列中读取新的数据;

【四、GPDSP效果】
1、本发明包括CPU核单元,DSP核单元,多层次互连结构、片内共享存储阵列、片外存储接口、第一高速输入输出接口、第二高速输入输出接口、片间直连接口和同步装置,CPU核与DSP核分别通过多层次互连结构相连形成异构多核的紧密耦合结构与组织方式,CPU核与DSP核之间通过多层次互联机制实现程序控制与数据处理紧密耦合的协作方式:一方面CPU核与DSP核之间设置快速的控制通路以及寄存器级的数据通路,高效支持具有细粒度、强实时性特点的控制与数据交互(如任务调度、启动停止、CPU核与DSP核间的协同程序跳转以及快速同步等);另一方面CPU核与DSP核之间通过直接存储器存取(DMA)通道以及共享存储的方式实现大粒度的数据通信与共享,因此本发明能够从不同的层次上实现了 CPU核与DSP核间的紧密协同配合,将嵌入式信号处理与通用科学计算相结合,既保持DSP嵌入式信号处理中的高度实时计算和低功耗的优点,又实现对通用科学计算的精度和通用性的支持。

2、本发明的DSP核单元包含至少一个用于提供对64位运算以及操作系统微内核支持的DSP核,适合科学计算精度与地址空间的宽数位DSP核结构与组织方式。通过将DSP核的指令、数据位宽64位以上,地址总线40位以上,从而能够支持64位双精度浮点和64位定点算术逻辑计算,特别是支持64位双精度浮点、定点乘加操作,采用包含至少64位位宽的通用寄存器文件和数据总线的数据通路支持高效的数据供给,通过对64位运算的支持,可以实现对计算精度和寻址空间的大幅提升。

3、本发明融合DSP基本特征与通用计算的控制要求,通过CPU核用于负责包括存储管理、文件控制、进程调度、中断管理任务在内的通用事务管理以及提供对通用操作系统的完整支持,通过DSP核提供对64位运算以及对仅具有任务调度以及存储管理等基本功能的操作系统微内核支持,在DSP核中实现对复杂流控结构的适度支持,包括提供对限制向量阵列处理效率的分支指令的支持;提供对OS的多层次、可裁剪的支持方案,支持在片上存储阵列中提供对诸如数据失效、更新等Cache —致性机制的适度支持,采取软件、硬件协同配合的高速缓存的一致性方案,使得本发明能够实现对操作系统的多层次支持,明显提高了本发明对任务管理、文件控制、进程调度、中断管理的软硬件支持,方便了通用任务调度操作,与此同时,多层次的支持方案也带来了硬件实现的灵活性

4、本发明能够支持GPDSP结构的统一并行编程方法,通过编译指导语句描述CPU核间的线程级并行、多DSP核间的任务级并行、CPU核与DSP核之间的线程级并行与同步,并分别标识CPU核与DSP核的代码,在统一的编译框架中分别调用CPU和DSP编译器编译不同的计算代码,并统一链接为单芯片的可执行代码,实现GPDSP中多线程自动并行和向量化的统一并行编程,有利于增强高级语言编程特别是对多核、向量运算阵列等并行资源的开发效率,具有通用性和易用性好、应用范围广的优点。

5、本发明进一步包括JTAG调试接口和PCIE接口,DSP核还包括一个可访问DSP核内程序员可见的所有存储器及寄存器的仿真调试部件,仿真调试部件通过内部总线分别与JTAG调试接口、PCIE接口、CPU核单元相连,既提供本地CPU宿主调试、又同时保持它机交叉仿真调试的调试结构与设计方法,因此能够实现它机宿主与DSP核之间地址资源(诸如寄存器、存储器等资源)准确、高速访问机制,实现对DSP运行状态的准确获取,方便实现对操作系统微内核资源的查看和修改等高级调试,具有调试功能方便且快捷高效的优点。

【五、GPDPS编程】
支持对GPDSP结构进行统一并行编程,具体实现方法是在标准的OpenMP并行编程方法基础上,通过扩充若干DSP编译指导语句,实现对CPU+DSP异构多核处理器中多线程自动并行和向量化的统一并行编程,通过编译指导语句描述CPU核间的线程级并行、多DSP核间的任务级并行、CPU核与DSP核之间的线程级并行与同步,并分别标识CPU核与DSP核的代码,在统一的编译框架中分别调用CPU和DSP编译器编译不同的计算代码,并统一链接为单芯片的可执行代码,实现多线程自动并行和向量化的统一并行编程。如图5所示,本实施例支持的通用计算数字信号处理器的统一并行编程方法的详细步骤如下:
1)程序员使用标准编程语言和语法(如标准C/C++语法)编写应用程序,同时在要求CPU核单元多线程并行执行的语句块前插入OpenMP编译指导语句、在要求DSP核单元执行计算的语句块前插入DSP编译指导语句;
2)在编译应用程序时,OpenMP编译指导语句指导CPU编译器实现多线程自动并行化,DSP编译指导语句指导DSP编译器实现DSP核端的向量化代码编译;
3) CPU端编译器工具对CPU端的目标代码和DSP端的目标代码进行统一编译和链接,最终输出可用于通用计算数字信号处理器执行的可执行代码。

自我感觉：其实跟AMD的APU很类似

声明：
所有信息来自于一个专利申请：
公开号：CN103714039 A
专利申请号：CN 201310725118
发明者：陈书明, 杨学军, 万江华, 刘仲, 陈海燕, 郭阳
申请人：中国人民解放军国防科学技术大学

http://www.google.com/patents/CN103714039A?cl=zh

【一、数字信号处理器(Digital Signal Processor简称DSP)】
DSP作为一种典型的嵌入式微处理器目前已经被广泛应用于各种嵌入式系统中。尽管当前DSP的体系结构在计算和控制上具有了与中央处理器(CPU)同质的许多特征,但是一般认为以下是DSP区别于CPU的基本特征:
1）计算能力强,关注实时计算胜于关注控制和事务处理;
2）对于典型信号处理有专门硬件支持,如乘加运算、线性寻址;
3）嵌入式微处理器的共性特征:地址和指令通路不多于32位,多数数据通路不多于32位;非精确中断;短期离线调试、长期在线驻留运行的程序工作方式(而非通用CPU调试即运行的方法);
4）集成外设接口以快速外设为主,特别利于在线收发高速AD/DA数据,也支持DSP间高速直连。

【二、DSP用作通用科学计算时存在的问题】
DSP用作通用科学计算时存在如下几个问题:
1）位宽小,使得计算精度和寻址空间不足。通用科学计算应用至少需要64位精度;
2）缺乏任务管理、文件控制、进程调度、中断管理等软硬件支持,或者说缺乏操作系统(OS)硬件环境,给通用、多道计算任务管理带来不便;
3）缺乏统一的高级语言编程模式支持,对多核、向量、数据并行等的支持基本依靠汇编程序编程,不便于通用编程;
4）不支持本地宿主的程序调试模式,仅依靠它机交叉调试仿真。

【三、GPDSP构成】
通用计算数字信号处理器,包括:
1）CPU核单元,包含至少一个CPU核,所述CPU核用于负责包括存储管理、文件控制、进程调度、中断管理任务在内的通用事务管理以及提供对通用操作系统的完整支持;
2）DSP核单元,包含至少一个用于提供对64位运算以及操作系统微内核支持的DSP核; 多层次互连结构,用于连接CPU核与DSP核,为CPU核与DSP核之间提供用于任务调度、启动停止以及同步操作的快速细粒度通信以及通过高速DMA方式实现大粒度的数据通信;片内共享存储阵列,用于为CPU核与DSP核提供高带宽供数支持,并提供包含数据失效和更新在内的硬件直接支持的原子操作来支持高速缓存一致性操作;
3）片外存储接口,用于为CPU核与DSP核实现片外存储扩展;
第一高速输入输出接口,用于实现CPU核的外部数据交换;
第二高速输入输出接口,用于实现DSP核的外部数据交换;
4）片间直连接口,用于支持通用计算数字信号处理器之间的片间直连;
5）核间同步装置,用于提供DSP核间硬件同步机制以支持多核间的同步操作,某个DSP核通过核间同步装置使得其它需要该核新数据的DSP核等待,该DSP核产生新数据并通过数据回写机制写回到片内共享存储阵列,该DSP核21通过核间同步装置使得其它需要该核新数据的DSP核继续运行,其它需要该核新数据的DSP核通过数据作废机制确保没有旧的数据并从片内共享存储阵列中读取新的数据;

【四、GPDSP效果】
1、本发明包括CPU核单元,DSP核单元,多层次互连结构、片内共享存储阵列、片外存储接口、第一高速输入输出接口、第二高速输入输出接口、片间直连接口和同步装置,CPU核与DSP核分别通过多层次互连结构相连形成异构多核的紧密耦合结构与组织方式,CPU核与DSP核之间通过多层次互联机制实现程序控制与数据处理紧密耦合的协作方式:一方面CPU核与DSP核之间设置快速的控制通路以及寄存器级的数据通路,高效支持具有细粒度、强实时性特点的控制与数据交互(如任务调度、启动停止、CPU核与DSP核间的协同程序跳转以及快速同步等);另一方面CPU核与DSP核之间通过直接存储器存取(DMA)通道以及共享存储的方式实现大粒度的数据通信与共享,因此本发明能够从不同的层次上实现了 CPU核与DSP核间的紧密协同配合,将嵌入式信号处理与通用科学计算相结合,既保持DSP嵌入式信号处理中的高度实时计算和低功耗的优点,又实现对通用科学计算的精度和通用性的支持。

2、本发明的DSP核单元包含至少一个用于提供对64位运算以及操作系统微内核支持的DSP核,适合科学计算精度与地址空间的宽数位DSP核结构与组织方式。通过将DSP核的指令、数据位宽64位以上,地址总线40位以上,从而能够支持64位双精度浮点和64位定点算术逻辑计算,特别是支持64位双精度浮点、定点乘加操作,采用包含至少64位位宽的通用寄存器文件和数据总线的数据通路支持高效的数据供给,通过对64位运算的支持,可以实现对计算精度和寻址空间的大幅提升。

3、本发明融合DSP基本特征与通用计算的控制要求,通过CPU核用于负责包括存储管理、文件控制、进程调度、中断管理任务在内的通用事务管理以及提供对通用操作系统的完整支持,通过DSP核提供对64位运算以及对仅具有任务调度以及存储管理等基本功能的操作系统微内核支持,在DSP核中实现对复杂流控结构的适度支持,包括提供对限制向量阵列处理效率的分支指令的支持;提供对OS的多层次、可裁剪的支持方案,支持在片上存储阵列中提供对诸如数据失效、更新等Cache —致性机制的适度支持,采取软件、硬件协同配合的高速缓存的一致性方案,使得本发明能够实现对操作系统的多层次支持,明显提高了本发明对任务管理、文件控制、进程调度、中断管理的软硬件支持,方便了通用任务调度操作,与此同时,多层次的支持方案也带来了硬件实现的灵活性

4、本发明能够支持GPDSP结构的统一并行编程方法,通过编译指导语句描述CPU核间的线程级并行、多DSP核间的任务级并行、CPU核与DSP核之间的线程级并行与同步,并分别标识CPU核与DSP核的代码,在统一的编译框架中分别调用CPU和DSP编译器编译不同的计算代码,并统一链接为单芯片的可执行代码,实现GPDSP中多线程自动并行和向量化的统一并行编程,有利于增强高级语言编程特别是对多核、向量运算阵列等并行资源的开发效率,具有通用性和易用性好、应用范围广的优点。

5、本发明进一步包括JTAG调试接口和PCIE接口,DSP核还包括一个可访问DSP核内程序员可见的所有存储器及寄存器的仿真调试部件,仿真调试部件通过内部总线分别与JTAG调试接口、PCIE接口、CPU核单元相连,既提供本地CPU宿主调试、又同时保持它机交叉仿真调试的调试结构与设计方法,因此能够实现它机宿主与DSP核之间地址资源(诸如寄存器、存储器等资源)准确、高速访问机制,实现对DSP运行状态的准确获取,方便实现对操作系统微内核资源的查看和修改等高级调试,具有调试功能方便且快捷高效的优点。

【五、GPDPS编程】
支持对GPDSP结构进行统一并行编程,具体实现方法是在标准的OpenMP并行编程方法基础上,通过扩充若干DSP编译指导语句,实现对CPU+DSP异构多核处理器中多线程自动并行和向量化的统一并行编程,通过编译指导语句描述CPU核间的线程级并行、多DSP核间的任务级并行、CPU核与DSP核之间的线程级并行与同步,并分别标识CPU核与DSP核的代码,在统一的编译框架中分别调用CPU和DSP编译器编译不同的计算代码,并统一链接为单芯片的可执行代码,实现多线程自动并行和向量化的统一并行编程。如图5所示,本实施例支持的通用计算数字信号处理器的统一并行编程方法的详细步骤如下:
1)程序员使用标准编程语言和语法(如标准C/C++语法)编写应用程序,同时在要求CPU核单元多线程并行执行的语句块前插入OpenMP编译指导语句、在要求DSP核单元执行计算的语句块前插入DSP编译指导语句;
2)在编译应用程序时,OpenMP编译指导语句指导CPU编译器实现多线程自动并行化,DSP编译指导语句指导DSP编译器实现DSP核端的向量化代码编译;
3) CPU端编译器工具对CPU端的目标代码和DSP端的目标代码进行统一编译和链接,最终输出可用于通用计算数字信号处理器执行的可执行代码。

下载链接：http://industry.wanfangdata.com.cn/hb/Detail/Patent?id=Patent_CN201310725118.6

喷子是不会看的！

mips64el 发表于 2015-11-13 20:13
下载链接：http://industry.wanfangdata.com.cn/hb/Detail/Patent?id=Patent_CN201310725118.6
强烈建议下载源文件查看：

http://industry.wanfangdata.com.cn/hb/Detail/Patent?id=Patent_CN201310725118.6

编译器和库是重点也是难点

关键还是配套开发环境和库件上面

GPU这么蹩脚的东西愣是CUDA和最新的OPENACC大幅度的提高了编写GPGPU程序的效率

APU是渣渣不要侮辱GPDSP

ayanamei 发表于 2015-11-13 23:43
APU是渣渣不要侮辱GPDSP
编译器和基础库的确是难点也是突破点

我是说GPDSP和APU的思路很像

GPDSP = 通用CPU核心+64bits的DSP核心（共享内存）
APU = 通用CPU核心+GPU核心（共享内存，最起码这是AMD的目标）

基于以上两点，GPDSP和APU难道不一样么？

编译器和基础库的确是难点也是突破点

我是说GPDSP和APU的思路很像

apu的gpu cpu融合度太低

ayanamei 发表于 2015-11-14 12:40
apu的gpu cpu融合度太低
但是我们也不清楚这个GPDSP的融合度如何啊，

mips64el 发表于 2015-11-14 12:48
但是我们也不清楚这个GPDSP的融合度如何啊，

======
CPU核单元,包含至少一个CPU核,所述CPU核用于负责包括存储管理、文件控制、进程调度、中断管理任务在内的通用事务管理以及提供对通用操作系统的完整支持;
2）DSP核单元,包含至少一个用于提供对64位运算以及操作系统微内核支持的DSP核; 多层次互连结构,用于连接CPU核与DSP核,为CPU核与DSP核之间提供用于任务调度、启动停止以及同步操作的快速细粒度通信以及通过高速DMA方式实现大粒度的数据通信;片内共享存储阵列,用于为CPU核与DSP核提供高带宽供数支持,并提供包含数据失效和更新在内的硬件直接支持的原子操作来支持高速缓存一致性操作;
==================

公共的片内share memory 和cache一致性对其这才叫融合
APU那种搞了几代也只是内存地址统一了距离融合还差好几条街

要说融合江南的异质内核众核处理器才是完美融合指令系统都是一致的

======
CPU核单元,包含至少一个CPU核,所述CPU核用于负责包括存储管理、文件控制、进程调度、中断管理 ...
gpdsp也要内存显示拷贝的吧

gpdsp也要内存显示拷贝的吧
内存显示拷贝是啥意思

内存显示拷贝是啥意思

就是不能share memory

通过 pci e 接口传输

scxtx 发表于 2015-11-14 19:50
就是不能share memory

通过 pci e 接口传输
我说的share memory 是片内的一般是SRAM

透过PCI-E访问是系统主内存了

ayanamei 发表于 2015-11-14 12:40
apu的gpu cpu融合度太低
Kaveri APU支持的HSA架构及hUMA技术，让其能够将APU中的CPU单元和GPU单元实现内存统一寻址，这样做的最直接优势在于CPU、GPU能够更灵活的调度资源，提升整体处理器的计算效能，大幅降低因为独立内存寻址带来的延迟效应。
=================================================
AMD不也一直在努力吗

ayanamei 发表于 2015-11-14 19:57
我说的share memory 是片内的一般是SRAM

透过PCI-E访问是系统主内存了
按照这个专利说明书的说法：
1） GPDSP内部集成了 CPU核心+定制DSP核心，CPU核心和DSP核心共享片内存储阵列

2）问题是他这个“片内存储”到底指的是什么？
      (a) 是Cache，那么这个融合程度还是可以的，能达到Cache级别（L3-Cache？？）
      (b) 是类似于显存的片上内存，那么这个融合程度也就APU级别吧
      (c) 他这个DMA通信方式是不是与shared-memory矛盾啊？！

最后，江南所的SW-5的确是完美，片上微异构；但是提供一致的编程模型（指令集）、执行模型、内存模型

最大侠发表于 2015-11-14 22:40
Kaveri APU支持的HSA架构及hUMA技术，让其能够将APU中的CPU单元和GPU单元实现内存统一寻址，这样做的最 ...
APU中的CPU单元和GPU单元实现内存统一寻址只是最大的好处简化编程模型
至于后面一大段你可以理解为广告词
整个融合最基础也是技术难度最低的一部分总算是做了
之前“融合”也仅仅是广告词

mips64el 发表于 2015-11-14 22:45
按照这个专利说明书的说法：
1） GPDSP内部集成了 CPU核心+定制DSP核心，CPU核心和DSP核心共享片内存储 ...
DMA操作是整个加速卡上的本地内存  相当于GPU的本地显存的意义
片内存储
这个片内存储阵列  现在没有具体的资料可以看
但是从描述上来说应该更像是计算阵列之间有共享的本地内存这个内存不是cache 而是纯粹用来交换中间数据和共用复用数据的储存区 kapler中的share memory 就 shader阵列中单独配了一份这样计算线程可以在这里复用和交换一些数据  由SRAM构成的高速读写memroy 没有cache机制对这个SRAM操作也是软件操作下读写

强烈建议下载源文件查看：

http://industry.wanfangdata.com. ... nt_CN201310725118.6

以下为几个截图：截图中编号对应的说明见链接给定的PDF文件

这个跟AMD的APU不一样，思路类似，但是控制和内存管理文件调度都是CPU完成的，跟AMD的CPU GPU统一编指相比还是落后一些，架构并没有什么先进，其实就是给CPU外挂了个DSP，让CPU给DSP发指令，DSP运算完了扔回CPU

weiyijun580 发表于 2016-2-24 00:49
这个跟AMD的APU不一样，思路类似，但是控制和内存管理文件调度都是CPU完成的，跟AMD的CPU GPU统一编指相比 ...
APU也是这样的，CPU是调度者；GPU就相当于这个DSP核心

APU也是这样的，CPU是调度者；GPU就相当于这个DSP核心
还是有区别，APU可以实现异构统一寻址，这个明显不行，更像是些协处理器，两个难度完全不在一个层次上

weiyijun580 发表于 2016-2-26 01:18
还是有区别，APU可以实现异构统一寻址，这个明显不行，更像是些协处理器，两个难度完全不在一个层次上
APU实现的同一寻址，也就是GPU和CPU的逻辑地址空间在一块；至于物理地址空间是否在一块不做要求（但是APU应该是在一块的，因为本来就是用内存充当显存）

这款GPDSP没有看到“同一寻址”的字眼，但是也不能说明不能同一寻址，有可能是没说，有可能是还没做到。

DSP核心本来就可以运行OS（RT-OS），相对于GPU来说更加接近于CPU；和CPU实现同一寻址应该不难。

比实现同一寻址更难的是Cache等的一致性问题。

mips64el 发表于 2016-2-26 09:32
APU实现的同一寻址，也就是GPU和CPU的逻辑地址空间在一块；至于物理地址空间是否在一块不做要求（但是APU ...
不单单是Cache一致性的问题，论文里没写，就应该是没有实现统一寻址，论文谁会实现了不写的，况且公开论文。RT-OS这个更不能说明DSP就接近CPU，完全两个概念，随便一个51单片机都可以运行RT类的OS。跟能不能实现统一寻址的难度是两回事。Cache一致性是大问题，但是内存分配更是问题，特别是动态分配，这个和过去的GPU直接占用单独内存空间是不一样的。这个是CPU和GPU共享空间。难度大多了。

weiyijun580 发表于 2016-2-27 23:22
不单单是Cache一致性的问题，论文里没写，就应该是没有实现统一寻址，论文谁会实现了不写的，况且公开论 ...
内存分配和同一寻址相对不难；

内存分配是有OS负责的，这是软件问题；
同一寻址通过定制MMU和IOMMU（在不同的arch上叫法不同）就可以了吧；

再说NVIDIA的CUDA也支持统一寻址，只不过是从软件层面实现的；

另外，在知乎上关于AMD的HSA和hUMA的问答也基本都不怎么看好AMD（尤其是站在性能角度）；APU这种东西目前来看也就在低功耗等领域有作为；至于HPC领域，目前看不到什么前景

内存分配和同一寻址相对不难；

内存分配是有OS负责的，这是软件问题；

这个东西其实就是把原来挂在外部总线上的设备移到了内部总线上，所以从创新性角度讲基本没什么新意啊，最难的方面一概没做啊，内存分配是软件，寻址是MMU，虽然MMU技术难度并不大，可是他依然没完成。所以并不是APU有多难或者多先进，事实是这个片子的专利没什么新意啊。

weiyijun580 发表于 2016-3-3 09:18
这个东西其实就是把原来挂在外部总线上的设备移到了内部总线上，所以从创新性角度讲基本没什么新意啊，最 ...
这个专利的申请日期是2013年，所以这个芯片原型应该更早一点；那时候就是APU也还没有完整的实现同一寻址吧（或者刚刚实现）；

再说，这个GPDSP面向的是HPC浮点密集型应用，是否实现同一寻址对性能影响不大（知乎上对AMD的HSA和hUMA就是这样评价的）

ayanamei 发表于 2015-11-14 16:18
======
CPU核单元,包含至少一个CPU核,所述CPU核用于负责包括存储管理、文件控制、进程调度、中断管理 ...

我靠，难道我大农企的终极理想在被土共实现？APU当年提出融合我那个兴奋啊，这几年下来一直被人家默秒全

ayanamei 发表于 2015-11-14 16:18
======
CPU核单元,包含至少一个CPU核,所述CPU核用于负责包括存储管理、文件控制、进程调度、中断管理 ...

我靠，难道我大农企的终极理想在被土共实现？APU当年提出融合我那个兴奋啊，这几年下来一直被人家默秒全

马利奥发表于 2016-3-3 11:05
我靠，难道我大农企的终极理想在被土共实现？APU当年提出融合我那个兴奋啊，这几年下来一直被人家默秒 ...
我靠，你的大农企已经被另一个“华夏芯”秒成渣了。虽然这个“华夏芯”连官网都还在建设中...

不过，国防科大的实力还是可以的，尤其是国防科大已经在DSP领域耕耘了很多年，自主飞腾CPU也发展了好几代；

所以国防科大的GPDSP应该还是可以的。虽然国防科的GPDSP（定位于HPC浮点密集型应用）， APU（目前定位于移动，低功耗桌面）还是有很大的不同的。

即使国防科大目前没有实现统一寻址，那么我认为国防科大也是有这个实力的；这个专利是2013年的，距今已有2-3年，不知道这个GPDSP又发展到了什么地步？

天河2A的GPDSP 天河2A的一些消息(Matrix2000协处理器）听到点天河2号的消息 “天河一号A”折桂得益于技术“绝活” 天河2采用Phi 预示着tesla的完蛋华尔街日报：中国天河2号，当之无愧的世界第一天河系统的一些简介纽约时报: 中国天河1A, 世界第一!(补中文翻译!!!!!) 天河一号A 勇夺全球最快超级计算机宝座转帖：大家来看看“天河一号A”细节吧！ “天河一号A”再次蝉联高性能计算机TOP100榜首天河2号的细节已经透露了，使用了INTEL提供的解决方案.. ...