DSP器件与通用处理器(GPP)的定义及其区别详解

fish001

DSP器件与通用处理器(GPP)的定义及其区别详解 [复制链接]

考虑一个数字信号处理的实例，比如有限冲击响应滤波器(FIR)。用数学语言来说，FIR滤波器是做一系列的点积。取一个输入量和一个序数向量，在系数和输入样本的滑动窗口间作乘法，然后将所有的乘积加起来，形成一个输出样本。

　　类似的运算在数字信号处理过程中大量地重复发生，使得为此设计的器件必须提供专门的支持，促成了了DSP器件与通用处理器(GPP)的分流：

　　1 对密集的乘法运算的支持

　　GPP不是设计来做密集乘法任务的，即使是一些现代的GPP，也要求多个指令周期来做一次乘法。而DSP处理器使用专门的硬件来实现单周期乘法。DSP处理器还增加了累加器寄存器来处理多个乘积的和。累加器寄存器通常比其他寄存器宽，增加称为结果bits的额外bits来避免溢出。同时，为了充分体现专门的乘法-累加硬件的好处，几乎所有的DSP的指令集都包含有显式的MAC指令。

　　2 存储器结构

　　传统上，GPP使用冯.诺依曼存储器结构。这种结构中，只有一个存储器空间通过一组总线(一个地址总线和一个数据总线)连接到处理器核。通常，做一次乘法会发生4次存储器访问，用掉至少四个指令周期。

　　大多数DSP采用了哈佛结构，将存储器空间划分成两个，分别存储程序和数据。它们有两组总线连接到处理器核，允许同时对它们进行访问。这种安排将处理器存贮器的带宽加倍，更重要的是同时为处理器核提供数据与指令。在这种布局下，DSP得以实现单周期的MAC指令。

　　还有一个问题，即现在典型的高性能GPP实际上已包含两个片内高速缓存，一个是数据，一个是指令，它们直接连接到处理器核，以加快运行时的访问速度。从物理上说，这种片内的双存储器和总线的结构几乎与哈佛结构的一样了。然而从逻辑上说，两者还是有重要的区别。

　　GPP使用控制逻辑来决定哪些数据和指令字存储在片内的高速缓存里，其程序员并不加以指定(也可能根本不知道)。与此相反，DSP使用多个片内存储器和多组总线来保证每个指令周期内存储器的多次访问。在使用DSP时，程序员要明确地控制哪些数据和指令要存储在片内存储器中。程序员在写程序时，必须保证处理器能够有效地使用其双总线。

　　此外，DSP处理器几乎都不具备数据高速缓存。这是因为DSP的典型数据是数据流。也就是说，DSP处理器对每个数据样本做计算后，就丢弃了，几乎不再重复使用。

　　3 零开销循环

　　如果了解到DSP算法的一个共同的特点，即大多数的处理时间是花在执行较小的循环上，也就容易理解，为什么大多数的DSP都有专门的硬件，用于零开销循环。所谓零开销循环是指处理器在执行循环时，不用花时间去检查循环计数器的值、条件转移到循环的顶部、将循环计数器减1。

　　与此相反，GPP的循环使用软件来实现。某些高性能的GPP使用转移预报硬件，几乎达到与硬件支持的零开销循环同样的效果。

　　4 定点计算

　　大多数DSP使用定点计算，而不是使用浮点。虽然DSP的应用必须十分注意数字的精确，用浮点来做应该容易的多，但是对DSP来说，廉价也是非常重要的。定点机器比起相应的浮点机器来要便宜(而且更快)。为了不使用浮点机器而又保证数字的准确，DSP处理器在指令集和硬件方面都支持饱和计算、舍入和移位。

　　从表面上来看，DSP与标准微处理器有许多共同的地方：一个以ALU为核心的处理器、地址和数据总线、RAM、ROM以及I/O端口，从广义上讲，DSP、微处理器和微控制器(单片机)等都属于处理器，可以说DSP是一种CPU。但DSP和一般的CPU又不同：

　　首先是体系结构：CPU是冯.诺伊曼结构的，而DSP有分开的代码和数据总线即“哈佛结构”，这样在同一个时钟周期内可以进行多次存储器访问——这是因为数据总线也往往有好几组。有了这种体系结构，DSP就可以在单个时钟周期内取出一条指令和一个或者两个(或者更多)的操作数。

　　标准化和通用性：CPU的标准化和通用性做得很好，支持操作系统，所以以CPU为核心的系统方便人机交互以及和标准接口设备通信，非常方便而且不需要硬件开发了;但这也使得CPU外设接口电路比较复杂，DSP主要还是用来开发嵌入式的信号处理系统了，不强调人机交互，一般不需要很多通信接口，因此结构也较为简单，便于开发。如果只是着眼于嵌入式应用的话，嵌入式CPU和DSP的区别应该只在于一个偏重控制一个偏重运算了。

　　流水线结构：大多数DSP都拥有流水结构，即每条指令都由片内多个功能单元分别完成取指、译码、取数、执行等步骤，这样可以大大提高系统的执行效率。但流水线的采用也增加了软件设计的难度，要求设计者在程序设计中考虑流水的需要。

　　快速乘法器：信号处理算法往往大量用到乘加(multiply-accumulate，MAC)运算。DSP有专用的硬件乘法器，它可以在一个时钟周期内完成MAC运算。硬件乘法器占用了DSP芯片面积的很大一部分。(与之相反，通用CPU采用一种较慢的、迭代的乘法技术，它可以在多个时钟周期内完成一次乘法运算，但是占用了较少了硅片资源)。

　　地址发生器：DSP有专用的硬件地址发生单元，这样它可以支持许多信号处理算法所要求的特定数据地址模式。这包括前(后)增(减)、环状数据缓冲的模地址以及FFT的比特倒置地址。地址发生器单元与主ALU和乘法器并行工作，这就进一步增加了DSP可以在一个时钟周期内可以完成的工作量。

　　硬件辅助循环：信号处理算法常常需要执行紧密的指令循环。对硬件辅助循环的支持，可以让DSP高效的循环执行代码块而无需让流水线停转或者让软件来测试循环终止条件。

　　低功耗：DSP的功耗较小，通常在0.5W到4W，采用低功耗的DSP甚至只有0.05W，可用电池供电，很适合嵌入式系统;而CPU的功耗通常在20W以上。