DSP芯片的原理和开发应用（3）

keyan

DSP芯片的原理和开发应用（3） [复制链接]

2.4 TI浮点DSP芯片 2.4.1 TMS320C3X TMS320C3X是TI的第三代产品，也是第一代浮点DSP芯片。TMS320C3X中目前具有TMS320C 30、TMS320C31和TMS320C32三种。TMS320C31是TMS320C30的简化和改进型，它在TMS320 C30的基础上去掉了一般用户不常用的一些资源，降低了成本，是一个性能价格比较高的浮点处理器，在国内已得到了较广泛的应用。TMS320C32是TMS320C31的进一步简化和改进。下面示出了三种芯片的比较。特征 TMS320C30 TMS320C31 TMS320C32 数据/程序总线主总线STRB：32位数据，24位地址扩展总线IOSTRB：32位数据，13位地址 STRB：32位数据，24位地址 STRB0：8/16/32位 STRB1: 8/16/32位IOSTRB：32位内部RAM 2K字 2K字 512字串行I/O口 2个串行口 1个串行口 1个串行口用户程序、数据ROM 4K字/16K字节无无 DMA控制器单通道单通道双通道程序和数据存储器宽度 32位 32位程序16/32位可选数据8/16/32位可选外部中断触发电平触发电平触发电平/边沿可选中断矢量表地址固定固定用户可重定位程序引导无用户可选用户可选 TMS320C30的指令周期为50/60/74ns，TMS320C31的指令周期为33/40/50/60/74ns，TMS3 20C32的指令周期则为33/40/50ns。 2.4.1.1 TMS320C3X的硬件资源 TMS320C30的硬件资源相当丰富。其内部包含了2K×32位的快速RAM块。分开的程序总线、数据总线和DMA总线使得取指、读写数据和DMA操作可并行进行，如CPU可以在一个周期内完成下列操作: 在一个RAM块中存取两个数据值，进行一次外部取指，DMA装入到另一个RAM块。64×32位的指令Cache用来存储经常使用的代码块，这可大大减少片外访问的次数，从而提高程序运行速度。由于主总线的地址总线是24位，因此TMS320C30可以访问多达16M的32位字的存储器空间，程序、数据和I/O空间都包含在TMS320C30这个16M字的空间中。 TMS320C30有一个40/32位的浮点/整数乘法器，这个乘法器可以在单周期内完成24位整数和32位浮点值的乘法，为了达到更高的性能，可以采用并行指令在单周期内完成一次乘法和ALU操作。当乘法器进行浮点乘法时，输入是32位单精度浮点值，而输出则是40位的扩展精度浮点数。整数乘法时，输入是24位，而输出则是32位。 TMS320C30的整数/浮点算术逻辑运算单元ALU可以进行单周期的32位整数、32位逻辑数和 40位的浮点数操作，ALU的运算结果是32位整数或40位浮点数。内部的桶形移位器可以在单周期内进行高达32位的左移或右移。内部总线CPU1/CPU2和REG1/REG2可从存储器中取两个操作数和从寄存器取两个操作数，这就使得对四个操作数进行乘和加/减可以在单周期内完成。TMS320C30内有两个辅助寄存器算术单元（ARAU0和ARAU1），它们可以在单周期内产生两个地址。ARAU 的操作是和乘法器及ALU的操作并行进行的。ARAU支持多种寻址方式。 TMS320C30提供28个寄存器，这些寄存器可以由乘法器和ALU操作，可以用作通用的寄存器。但是，它们也有一些特殊的功能，如8个扩展精度的寄存器（R0~R7）可当累加器使用，特别适合用于存放扩展精度的浮点结果。8个辅助寄存器（AR0~AR7）支持一系列间接寻址方式，并且可以用作通用的32位整数和逻辑寄存器。其他寄存器提供一些系统功能，如寻址、堆栈管理、处理器状态、中断和块重复等。 TMS320C30的外设是通过存储器映射的寄存器对外设总线进行控制的，外设总线由32位数据总线和24位地址总线组成，允许与外设直接通信。TMS320C30的外设包括两个可支持8 /16/24/32位数据交换的串行口和两个32位定时器。串行口的时钟可以由内部产生也可由外部提供，串行口的引脚可以配置为通用的I/O引脚，特殊的握手方式可保证TMS320C30 与串行口的同步。定时器是通用的32位定时器或事件计数器，具有两种信号方式，可由内部或外部提供时钟，每个定时器对应有一个I/O引脚，可作为定时器的输入时钟或输出时钟，也可配置为通用的I/O引脚。片内的DMA功能使得CPU与I/O操作可同时进行。DMA控制器可以在存储器的任何地址进行读写操作而不干扰CPU的操作，因此TMS320C30可与外部的慢速存储器或外设接口而不降低CPU的吞吐量。两个通用的外部引脚（XF0，XF1）可由软件设置为输入或输出，这两个引脚也用作TMS3 20C30的互锁操作，用于多处理器之间的通信。除了主总线之外，TMS320C30还有一条扩展总线。扩展总线的数据线为24位，地址线为1 3位，其操作可与主总线操作同时进行，也可独立于主总线。与主总线相比，扩展总线上的I/O口的读写周期为2个H1周期，即是主总线的2倍。扩展总线通常用于I/O操作，如A/ D、D/A等。TMS320C30内部有4K字的ROM，在微计算机方式下，程序由内部开始运行。 TMS320C31是TMS320C30的简化和改进型，它去掉了扩展总线、一个串行口和内部的4K字 ROM，增加了程序的引导功能。当MCBL/MP\引脚为高电平时，工作于微计算机自引导方式，在这种方式下，TMS320C31可从三个特定的地址装入程序（BOOT1，BOOT2，BOOT3），也可从串行口装入程序。与EPROM接口时，用户可用软件设定等待周期个数，当然也可用硬件来产生等待周期，可设定是按字节（8位）、半字（16位）或字（32位）装入，应用灵活。从串行口装入时，采用固定的32位突发方式。装入方式设置是通过复位之后设四个外部中断之一来实现。 TMS320C32是TMS320C31的简化和改进型。简化主要是将内部的RAM由2K字减少为512字，以降低成本。改进之处包括：外部存储器宽度可变，中断矢量表可重定位，外部中断可由软件选择是电平触发还是边沿触发，DMA控制器增加了一个通道，此外，还增加了两种节电运行方式。TMS320C3X均提供HOLD功能和JTAG仿真功能。 2.4.1.2 TMS320C3X的软件资源 1．丰富的指令系统 TMS320C3X的汇编语言指令集特别适合于数字信号处理。所有指令占一个机器字长，大部分指令是单周器的。指令集共有113条指令，可以分为六类: 数据传送类、二操作数算术 /逻辑类、三操作数算术/逻辑类、程序控制类、互锁操作类及并行操作类。12条数据传送指令可从存储器中读一个字装入寄存器，将一个字从寄存器中存入存储器中及进行堆栈操作。二操作数指令有35条，提供整数、浮点、逻辑运算及多精度算术操作。17条三操作数指令可以在一个指令周期内完成具有三个操作数的运算，其中两个是源操作数，另一个是目的操作数。程序控制指令共16条，它们影响程序的流向，其中有块重复指令 RPTB和单指令重复指令RPTS。除了有标准跳转指令外，还有延迟跳转指令，有些指令具有条件运算功能。5条互锁操作指令主要用来进行多处理器之间的通信。剩下的28条指令都是并行操作指令，每条并行指令由两条指令用符号"||"连接，并行操作指令可使"||" 前后的两条指令并行完成。需要注意的是，并不是任意两条指令都可构成并行指令。 2．灵活的程序控制 TMS320C3X提供相当灵活的程序流控制。软件的程序控制包括重复、跳转、调用、陷阱及返回等。 TMS320C3X重复方式可以实现无开销循环。块重复指令RPTB可以使一块代码重复执行指定的次数，而单指令重复指令RPTS使一条指令重复执行指定的次数，由于RPTS取指次数只有一次，因此减少了总线冲突的机会。这里需要特别注意的是，RPTS指令禁止中断，而 RPTB无此禁忌。因此在需要中断的场合，建议采用RPTB指令代替RPTS指令。 TMS320C3X提供两种类型的跳转：标准跳转和延迟跳转。标准跳转首先将流水线清空然后执行跳转，这可保证程序计数器的正确管理，但却使跳转指令需4个周期才能执行完毕。延迟跳转则相反，它并不将流水线清空，而是保证在程序跳转之前执行它下面的3条指令，这样使得跳转指令本身仅需1个指令周期。当然有些指令（如CALL、RPTB等）不能出现在延迟跳转指令下面的3条指令。延迟跳转指令在它下面3条指令完成前禁止中断。互锁操作可用来实现多个TMS320C3X之间的通信。通过采用外部信号（XF0，XF1），互锁操作指令提供强有力的同步机制，可用来实现忙等待循环、两个TMS320C3X之间的同步（无需额外的硬件支撑）和多个计数器控制等。 3．流水线操作流水线操作是TMS320C3X具有高性能的特性之一。5个功能单元控制TMS320C3X的操作：取指（F）、译码（D）、读操作数（R）、执行（E）和DMA。流水线操作就是一个基本指令的取指、译码、读操作数和执行的并行操作。周期 F D R E m-3 W m-2 X W m-1 Y X W m Z Y X W ←完全重叠 m+1 Z Y X m+2 Z Y m+3 Z 注：W、X、Y、Z代表指令；F、D、R、E分别代表取指、译码、读操作数和执行。图中在m周期，流水线完全重叠，4个单元的操作同时进行。5个功能单元的优先级从高到低依次是E、R、D、F、DMA。当一条指令的处理已经准备好到流水线的下一级，但那一级还没有准备好接收新的输入时，就出现所谓的流水线冲突。在这种情况下，低优先级的单元处于等待状态直到高优先级的单元完成它的当前操作。尽管DMA的优先级最低，但由于DMA控制器具有自己的数据和地址总线，因此，通过合适的数据结构，DMA与CPU的冲突可以减少甚至消除。流水线冲突可以分为下列三大类：跳转冲突、寄存器冲突和存储器冲突。这三类冲突都可以采取相应的一些手段予以解决，如由于标准跳转引起的跳转冲突可以采用延迟跳转的方法来克服。 4．寻址方式多样 TMS320C3X支持5类寻址方式，在这些类中又可采用6种寻址类型。5类寻址方式是：①通用寻址方式；②三操作数寻址方式；③并行寻址方式；④长立即数寻址方式；⑤条件跳转寻址方式。6种寻址类型是：①寄存器寻址；②直接寻址；③间接寻址；④短立即数寻址；⑤长立即数寻址；⑥相对寻址。此外，TMS320C30还有两种数字信号处理中非常有用的寻址方式，一种是圆周寻址方式，主要用于卷积和相关等运算中存储器循环缓冲;另一种寻址方式是比特反转寻址，主要用于FFT运算。 2.4.2 TMS320C4X TMS320C4X系列浮点处理器是专门为实现并行处理和满足其他一些实时应用的需求而设计的。其主要性能包括275 MOPS的惊人速度和320Mbyte/s的吞吐量。 2.4.2.1 TMS320C40的主要特征 (1) 具有6个用于处理器间高速通信的通信口。每个口的最大数据吞吐量可达20Mbyte/s 的异步传输速率。处理器之间可直接对通，应用方便、灵活； (2) 6个DMA通道实现了I/O操作与CPU操作的并行化。每个DMA通道都具备自初始化的能力，无需CPU来完成初始化的工作，从而最大限度地保证了CPU的性能，数据可以在处理器内存映像的任意范围内传递，具有高度的灵活性； (3) CPU的处理能力达275 MOPS，数据吞吐量为320Mbyte/s。由于高度的并行化，TMS32 0C40 的CPU在每个周期内可以完成11次操作。指令周期的时间为40ns和50ns。40/32位的单周期浮点/整数乘法为大运算量的算法提供了高性能。单周期IEEE浮点格式转换为IEE E兼容的处理器提供了一个有效的界面。硬件支持除法和平方根倒数运算。具有字节和半字长控制的能力，以实现快速数据压缩和解压。源代码与TMS320C3X兼容，可移植性好。支持线性、循环和比特反转的寻址方式。单周期跳转、调用和返回，以实现快速程序控制。0～31bit的单周期桶形循环左右移位； (4) 两条分开的外部数据、地址总线支持共享存储器系统和高速数据速率、单周期传输。端口数据传输速率高达100Mbyte/s。16G字连续的程序/数据/外设地址空间为系统设计带来最大的灵活性。状态管脚标明存储器访问类型，以在共享存储器系统中实现快速、智能化的总线仲裁。分离的地址、数据和控制使能管脚可实现高速总线仲裁。4组存储器控制信号支持硬件上不同速率的存储器，使用者可以灵活有效地利用各种高、低速率存储器； (5) 片内分析模块支持高效的并行处理调试。为程序、数据和DMA访问提供了分离的断点比较器，为快速调试和开发提供了片内硬中断的能力。为硬件追踪设置了非连续栈，可方便快速地调试、开发。具有事件计数器。为标准系统连接留有JTAG界面； (6) 片内程序高速缓冲存储器（Cache）和双向存取/单周期RAM提高了存储器访问的性能。片内存储器包括：128字的指令高速缓冲存储器；2K字的单周期双向存取程序/数据RA M；ROM中的引导程序支持从8/16/32位中的任一种存储器通过任一通信端口装入程序； (7) 分开的内部程序、数据和DMA总线使程序和数据的I/O操作高度并行化，最大限度地保证了CPU的性能。 2.4.2.2 TMS320C40的结构 TMS320C40的高性能是通过其高精度、宽动态范围的浮点处理单元，大容量的片内存储器，高度的并行化，以及6个DMA协处理器通道体现出来的。 1．CPU TMS320C40有一个基于寄存器的CPU，其组成部分如下： (1) 浮点/整数乘法器通过高度的并行化措施，TMS320C40可以在一个40ns的指令周期内对32位的整型数或40位的浮点数完成一次乘法操作。若输入为40位的浮点数，则输出也是40位的浮点数；若输入为32位的整型数，则乘积为64位，输出既可以是32个高有效位，也可以是32个低有位。 (2) 算术逻辑单元（ALU） ALU对32位的整型数、32位的逻辑数、40位的浮点数执行单周期操作，包括单周期的整型和浮点转换。桶形移位寄存器用来完成单周期的32位左右移位。内部总线CPU1/CPU2和REG1/REG2分别连接存储器和内部寄存器，这样就允许在单周期内对4个整型或浮点数并行进行加/减和乘法运算。 (3) 辅助寄存器运算单元（ARAU） 2个辅助寄存器运算单元（ARAU0和ARAU1）可在单周期内产生2个地址。ARAU与乘法器及 ALU并行操作。它们支持带有偏移的寻址、变址寄存器（IR0和IR1）寻址、循环寻址和比特反转寻址。 (4) CPU主寄存器组 TMS320C40具有32个主寄存器，其中包括12个40位的扩展精度寄存器（R0～R11），8个3 2位的辅助寄存器（AR0～AR7），1个32位的数据页指针（DP），32位变址寄存器（IR0和 IR1），32位块长寄存器（BK），32位的系统栈指针（SP），状态寄存器（ST），DMA中断允许寄存器（DIE），CPU内部中断允许寄存器（IIE），I/O标志寄存器，32位的重复计数器（RC）及32位的重复起始地址寄存器（RS）和重复终止地址寄存器（RE）。程序计数器（PC）是一个32位寄存器，装有下一条要提取指令的地址。虽然PC不是CPU寄存器组的成员，但用修改程序流的指令可对它进行修改。 (5) CPU扩展寄存器组扩展寄存器组包括2个特殊的指针寄存器：IVTP指向中断矢量表，TVTP指向陷阱矢量表。 2．存储器组织 TMS320C40总的存储器空间可达4G×32位字。程序存储器（片内RAM或ROM和外部存储器）、定时器、通信口和DMA通道等都包含在这一空间内。这样就使得系数、表、程序代码或数据既可存储在RAM中，亦可存储在ROM中，从而使存储器的利用率达到最高，存储器空间可按要求分配地址。通过控制一个外部管脚（ROMEN），存储器起始的1M字节的地址空间（0000 0000h到000F FFFFh）既可以映射到局部地址总线的一部分，也可以在使用装入程序时指向片内ROM 。 (1) RAM、ROM和高速缓冲存储器 TMS320C40的片内包含2个4K字节（1K×32位）的RAM区。片内ROM区保留用作引导程序区。每一个RAM和ROM区都支持单周期内两次存取。分开的程序总线、数据总线和DMA总线，使得指令的读取、数据的读写及DMA操作可以并行进行。例如，在一个周期内CPU可在一个RAM块上存取2个数据，执行一次外部指令的读取，同时DMA可对另一个RAM块作直接存储器存取。一个128×32位的指令高速缓冲存储器用来存储经常重复的代码段，从而大大地减少了必要的片外存取次数。这样就使代码能存储在较慢的、价格较低的片外存储器。外部总线还可被释放，以供DMA、外部存储器操作或系统中的其他设备使用。 (2) 内部总线操作 TMS320C40的高性能在很大程度上归功于其内部总线结构及由之带来的并行性。分开的程序总线、数据总线和DMA总线使指令的读取、数据的存取和DMA操作可以并行进行。这些总线连结C40支持的所有物理空间。程序计数器（PC）与32位的程序地址总线相连，指令寄存器（IR）与32位的程序数据总线相连，在每一个机器周期内可以读取一个指令字。 32位的数据地址总线和32位的数据总线在每一个机器周期中支持两次数据的存储器操作。数据总线通过CPU1和CPU2总线传送数据到CPU。CPU1和CPU2总线在每一机器周期可传送 2个数据存储器操作数到乘法器、ALU及寄存器组。在CPU内部还有2条寄存器总线REG1和 REG2，它们在每一机器周期内，可从寄存器组传送2个数据到乘法器。 DMA控制器由32位地址总线和32位数据总线支持。这些总线使DMA能与数据及程序总线并行地执行存储器操作。 (3) 外部总线操作 TMS320C40具有2个外部接口：全局总线和局部总线。它们都包含1个32位的数据总线、1 个31位的地址总线和2组控制信号。这些总线都可用来对外部程序/数据存储器或I/O进行寻址。这些总线还有一个外部信号，用于等待状态的产生。可在软件控制下插入附加的等待状态。 (4) 外设 TMS320C40的外设是通过存储器映射寄存器，由一专用的外设总线控制。这一外设总线可以直接与外部设备进行通信。TMS320C40的外设包括2个定时器和2个串行口。 (5) 直接存储器访问（DMA） 6个通道的片内DMA控制器可以读写存储器中的任意单元，而不必涉及CPU的操作。因此T MS320C40可以与相对较慢的外部存储器和外设接口而不降低CPU的处理能力。DMA控制器有自己的地址发生器、源地址和目的地址寄存器及传输计数器。专用的DMA地址和数据总线使CPU与DMA控制器之间的冲突降到了最低的程度。一个DMA操作包括对存储器做一块或单个字的存取操作。DMA协处理器的一个关键特性就是它的每一个通道在进行一次数据传输之前都有自动重新初始化的功能。总而言之，由于有一个功能强大的CPU、大规模的存储器以及有足够宽的总线来支持其速度，TMS320C40是一个功能强大的DSP芯片。 3．CPU寄存器、存储器和高速缓冲存储器 CPU主寄存器组包括32个寄存器，用来存放乘法器和ALU的操作数。这个寄存器组包括辅助寄存器、扩展精度寄存器和变址寄存器等。这些寄存器支持寻址、浮点/整型操作、栈操作、处理器状态记录、块重复、分支跳转和中断等功能。 CPU扩展寄存器组包括中断矢量表指针（IVTP）和陷阱矢量表（TVTP）。 TMS320C40能够访问的最大存储器范围为4G个32位字（16G字节）的程序、数据和I/O空间。2个片内RAM块均为1K×32位。片内ROM块包含有自引导程序，每块都支持单周期内2次访问操作。 1个128×32位的指令高速缓存可以装入指令代码中重复率高的部分。高速缓存大大减少了片外操作的次数，这样就允许将指令代码存放在片外的低速、廉价的存储器中而又不降低系统的性能。同时由于高速缓存减少了总线上程序指令的读取次数，使得在同一物理空间内进行的数据存取速度大大加快。CPU状态寄存器中的3个比特控制着高速缓冲存储器的清除、允许和冻结。 (1) CPU寄存器 TMS320C40提供了32个CPU主寄存器（不包括程序计数器PC）和2个扩展寄存器。主寄存器都可以用作32位的通用寄存器，存放乘法器及ALU的操作数。除此之外，还有一些更适合于这些寄存器的特殊功能。例如12个扩展精度特别适用于存放扩展精度的浮点运算结果；8个辅助寄存器支持各种间接寻址方式；其余寄存器提供寻址、堆栈管理、处理器状态、中断和块重复等系统功能。 (2) 存储器分配 TMS320C40总的存储器空间为4G字。有两种地址编排方式，其区别仅在前1M字之内，由部引脚ROMEN的值控制：ROMEN=1时，0000 0000h~0000 0FFFh为一个可访问的片内ROM区（保留用作引导程序），0000 01FFh~000F FFFFh保留；ROMEN=0时，片内ROM不在C40的存储器空间中，0000 0000h～000F FFFFh被映射到局部总线上。 (3) 指令高速缓冲存储器（Cache） 128×32位的指令高速缓存不但减少了片外取指的次数，同时也将外部总线从程序取指中解脱出来，从而可以被DMA或其他系统部件所采用。 Cache能以完全自动的方式工作而无需用户的干预。它使用的是LRU（Least recently used，最近最少使用）算法。 4．数据格式与浮点操作在TMS320C40的体系结构中，数据有3种基本类型：整型、无符号整型和浮点型。TMS320 C40对有符号和无符号整型支持短格式和单精度格式，而对于浮点数则支持短格式、单精度和扩展精度3种格式。浮点操作具有迅速、简单、正确和精度高的特点。特别是TMS320C40可以以整型运算的速度来执行浮点操作，同时还可以避免整型运算中的溢出等问题。 5．寻址 TMS320C40有以下5种寻址类型： (1) 寄存器寻址：在一个CPU的寄存器中包含有操作数; (2) 直接寻址：数据地址由数据页指针（DP）的16个低有效位和指令字中的16个低有效比特组成; (3) 间接寻址：间接寻址是通过一个辅助寄存器和变址寄存器的内容来操作在存储器中的地址。地址运算是由辅助寄存器运算单元来完成的，并且是无符号的。（辅助寄存器和变址寄存器的所有32位都在间接寻址中用到）； (4) 立即寻址：操作数是指令字中的16个低有效位构成的1个16位的立即数； (5) PC相对寻址：PC相对寻址用于分支转移。它用指令字中的16或24个低有效比特来替换程序计数器（PC）的当前值。 TMS320C40的寻址方式包括：通用寻址方式、三操作数寻址方式、并行寻址方式、条件转移寻址方式、圆周寻址方式和比特反转寻址方式。 2.4.3 TMS320C67X 这是TI公司继定点DSP芯片TMS320C62X系列后开发的一种新型浮点DSP芯片。该芯片的内部结构在TMS320C62X的基础上加以改进，内部同样集成了多个功能单元，可同时执行8条指令，其运算能力可达1G FLOPS。除了具有TMS320C62X系列的特点外，其主要特点还有： (1) 运行速度快。指令周期为6ns，峰值运算能力为1336 MIPS，对于单精度运算可达1G FLOPS，对于双精度运算可达250M FLOPS； (2) 硬件支持IEEE格式的32 比特单精度与64比特双精度浮点操作； (3) 集成了32×32 比特的乘法器，其结果可为32或64比特； (4) TMS320C67X的指令集在TMS320C62X的指令集基础上增加了浮点执行能力，可以看作是TMS320C62X指令集的超集。TMS320C62X指令能在TMS320C67X上运行，而无需任何改变。与TMS320C62X系列芯片一样，由于其出色的运算能力、高效的指令集、智能外设、大容量的片内存储器和大范围的寻址能力，这个系列的芯片适合于对运算能力和存储量有高要求的应用场合。

keyan

2.5 多处理器DSP芯片TMS320C8X TI公司除了生产定点和浮点两类DSP芯片之外，还推出了功能强大的多处理器DSP芯片TM S320C80。该芯片内部集成了5个微处理器，处理速度达到每秒20亿次操作，与外部交换数据的速度为每秒400Mbyte，特别适合于会议电视等多媒体应用。 1．TMS320C80结构 TMS320C80是一个多处理器芯片，它集4个可并行处理的高性能DSP芯片、1个RISC主处理器、1个传输控制器、1个视频控制器和50K字节的SRAM等资源于一体，从而使其处理能力达到每秒20亿次操作（2 BOPS）。该芯片可实时实现新一代的视频压缩和解压缩，可广泛应用于会议电视、可视电话、高速电信、多媒体、图像和视频处理、二维和三维图形加速、虚拟现实、保密、雷达和声纳处理等应用场合。 2．并行DSP芯片 TMS320C80上集成了4个高性能的DSP芯片，这4个DSP芯片既可独立运行，也可并行工作。采用64位的指令字，以便于在单个周期内进行多个并行操作。每个处理器具有专用的高速指令缓冲Cache和专用的数据RAM。每个DSP芯片具有4个主要的功能单元，即1个程序控制器（PFC）、1个数据单元和2个地址单元。PFC处理所有的指令执行，包括程序计数器增量、跳转和中断。3组无开销循环控制器跟踪循环计数和循环的起始及结束地址，而不增加额外的开销。循环控制器在1个公共的循环结束地址内可支持多至3个嵌套的循环。数据单元可使单周期乘法和算术逻辑单元（ALU）数据通路操作并行执行。32位的ALU可以分解为2个16位ALU或4个8位ALU，以便于对低精度的数据进行更多的并行操作。ALU数据通路内独特的扩展器单元可复制1个1比特值32次、2个1比特值16次或4个8比特数8次以填满1个32位字。这些特征对于减少图像算法中的软件开销很有帮助。 3．传输控制器 TMS320C80可以每秒400M字节的速度与外部交换数据，这个性能主要依赖于片内的传输控制器。在这里，传输控制器起智能DMA控制器的作用，进行对片外存储器的访问，使主处理器不增加任何负担。传输控制器可对二维图形进行线性和二维寻址，支持三维图形缓冲。直接存储器接口提供了对多种存储器的灵活操作，包括DRAM、SDRAM、VRAM和SRAM。此外，优先级任务管理器支持动态的总线宽度，可支持8至64位数据传输。灵活的总线宽度满足了如会议电视等的宽带应用，而不需专用的接口。 4．RISC主处理器 RISC主处理器（MP）进行整个芯片的管理并协调与系统内其他处理器的通信。该处理器是一个32位的RISC处理器，内部具有一个运算能力为100 MFLOPS 并符合IEEE-754标准的浮点单元（FPU），用以实现高效C语言和作为操作系统的平台。该处理器主要是适应高级语言并协调片内的多处理器资源，可在单周期内完成1个64位数据的访问和1个32位取指。与基本的RISC设计相比，其独特之处在于MP具有完整的浮点指令和一组特殊的矢量浮点指令，这些功能对于图像处理和三维图形来说都是必需的。此外，MP还具有31个 32位的寄存器，为整数和浮点操作提供了极大的便利。 5．存储器Crossbar结构 TMS320C80的一个重要特征是存储器Crossbar结构。TMS320C80内部有50K字节的SRAM，这些存储器被配置为较小的存储器块以便于通过这个独特的Crossbar开关结构实现多个并行的存储器访问。Crossbar开关还便于片内处理器共享板上RAM。在TMS320C80中，Cros sbar在每个时钟周期内可进行5次取指和10次并行数据访问，从而使传输速率达到每秒4 .2G字节。硬件控制的优先级机制使得在同一个周期内仅有一个处理器访问一个特定的R AM。存储器Crossbar结构增强了系统的高速并行性能。 6．视频控制器视频控制器具有2个可编程的帧定时器，可按水平或纵向格式同时捕获和显示图像。帧定时器可用于任何捕获/显示的组合中，对不同速率的图像捕获可按异步或同步方式工作。由于帧定时器是软件可编程的，故可用作通用定时器。在TMS320C80基础上，TI公司还推出了简化型的多处理器芯片TMS320C82，其内部包含2个处理器、44K字节的SRAM，性能为每秒15亿次操作，由于省略了2个处理器和视频控制器，其价格约为TMS320C80的一半。 TMS320C80/C82的主要性能比较芯片 DSP数 RISC主处理器视频控制器传输控制器指令周期（ns）寻址空间（字节）片内RAM（字节）处理能力（BOPS）时钟（MHz） C80 4 1 1 1 20,25 4G 50K 2 50,40 C82 2 1 0 1 20 4G 44K 1.2 50 2.6 其他DSP芯片简介 2.6.1 AD公司DSP芯片美国AD公司在DSP芯片市场上也占有一定的份额。与TI公司相比，AD公司的DSP芯片有自己的特点，如系统时钟一般不经分频直接使用，串行口带有硬件压扩，可从8位EPROM引导程序，可编程等待状态发生器等。 AD公司的DSP芯片可以分为定点DSP芯片和浮点DSP芯片两大类。ADSP21XX系列为定点DSP 芯片，ADSP21XXX系列为浮点DSP芯片。目前，定点DSP芯片主要有ADSP2101/2103/2105， ASDP2111/2115，ADSP2161/2162/2163/2164/2165/2166以及ADSP2171/2173/2181等。浮点DSP芯片主要有ADSP21000/21020，ADSP21060/21062等。 AD公司的定点DSP芯片的程序字长为24位，数据字长为16位。运算速度较快，内部具有较为丰富的硬件资源，一般具有2个串行口、1个内部定时器和3个以上的外部中断源，此外还提供8位EPROM程序引导方式。具有一套高效的指令集，如无开销循环、多功能指令、条件执行等。 ADSP2101的指令周期有80ns、60ns和50ns三种，内部有2K字的程序RAM和1K字的数据RAM 。ADSP2103与ADSP2101相比，指令周期为100ns，工作电压为3.3V。ADSP2105是ADSP210 1的简化，指令周期为72ns，内部的程序RAM为1K字，数据RAM为512字，串行口减为1个。 ADSP216X系列的指令周期为50ns~100ns，与其他定点芯片相比，具有较大的内部程序RO M，如ADSP2161/2163内部提供了8K的程序ROM，ADSP2162/2164内部提供4K程序ROM，工作电压为3.3V，这些芯片的内部数据RAM均为512字。而ADSP2165/2166除了具有1K字的程序 ROM外，还提供了12K字的程序RAM和4K字的数据RAM，其中，ADSP2166的工作电压为3.3V 。 ADSP2171的指令周期为30ns，速度达33.3MIPS，是AD公司DSP芯片中运算速度最快的定点芯片之一。内部具有2K字的程序RAM和2K字的数据RAM。ADSP2173的资源与ADSP2171相同，工作电压为3.3V。目前ADSP的定点DSP芯片中，处理能力最强的当数ADSP2181。这种芯片具有以下几个特点 (1) 运算速度快。指令周期为30ns，运算能力为33.3MIPS； (2) 片内空间大。内部的程序和数据RAM均为16K字，共80K字节； (3) 数据交换速度快。内部具有数据直接存储传输接口（IDMA），便于其他处理器高速存储ADSP2181的片内RAM。为了扩展数据存储能力，设计了字节数据直接存储传输接口（ BDMA），最大可以扩展到4M字节。2个串行口都具有自动数据缓冲功能，并且支持DMA传输； (4) 支持8位EPROM和通过IDMA方式的程序引导； (5) 如果采用基4 FFT做1024点复数FFT运算，运算时间仅为1.07ms。 ADSP2181在一个处理器周期内可以完成以下功能： * 产生下一个程序地址 * 取下一个指令 * 进行1个或2个数据移动 * 更新1个或2个数据地址指针 * 进行1次数据运算与此同时，还可从2个串行口发送或接收数据，通过IDMA或BDMA发送或接收数据以及内部定时器计数。 AD公司的浮点DSP芯片包括ADSP21020、21060和21062等，程序存储器为48位，数据存储器为40位，支持32位单精度和40位扩展精度的IEEE浮点格式，内部具有32×48位的程序 Cache，有3~4个外部中断源。 ADSP21060采用超级的哈佛结构，具有4条独立的总线（2条数据总线、1条程序总线和1条 I/O总线），内部集成了大容量的SRAM和专用I/O总线支持的外设，指令周期为25ns，是一个高性能的浮点DSP芯片。其主要特点包括： (1) 运算速度达40 MIPS和80 MFLOPS ，最高达120 MFLOPS。每条指令均在1个周期内完成； (2) 片内具有4M位的SRAM，可灵活地进行配置，如配置为128K字的数据存储器（32位）和80K字的程序存储器（48位）。可寻址4G字的外部存储器； (3) 具有取模和比特反转的双数据地址产生器； (4) 10个DMA通道。6个点到点连接口，传输速率为240Mbyte/s； (5) 支持多处理器连接，提供与16/32位微处理器的接口。外部微处理器可直接读写内部 RAM； (6) 2个具有m/A律压扩功能的同步串行口； (7) 支持可编程等待状态发生，可用8位EPROM或外部处理器引导程序； (8) 1024点复数FFT的运算时间为 0.46ms； (9) 支持IEEE JTAG 1149.1 标准仿真接口。 2.6.2 AT&T公司DSP芯片 AT&T是第一家推出高性能浮点DSP芯片的公司。AT&T公司的DSP芯片包括定点和浮点两大类。定点DSP芯片中有代表性的主要包括DSP16、DSP16A、DSP16C、DSP1610和DSP1616等。浮点DSP芯片中比较有代表性的包括DSP32、DSP32C和DSP3210等。 AT&T定点DSP芯片的程序和数据字长均为16位，有2个精度为36位的累加器，1个深度为1 5字的指令Cache，支持最多127次的无开销循环。DSP16的指令周期为55ns和75ns，累加器长度为36位，片内有2K字的程序ROM和512字的数据RAM。DSP16A速度最快的版本为25n s的指令周期，片内有12K字的程序ROM和2K字的数据RAM。DSP16C的指令周期为38.5ns和 76.9ns，片内存储器资源与DSP16A相同，增加了片内的Codec，此外，还有1个4引脚的J TAG仿真口。DSP1610片内有512字的引导ROM和8K字的双口RAM，支持硬件和软件等待状态。DSP1616片内有12K字的ROM和2K字的双口RAM，支持软件等待状态。DSP1610和1616提供了仿真接口。 DSP32C是DSP32的增强型，是性能较优的一种浮点DSP芯片。其主要特点包括： (1) 80/100 ns的指令周期； (2) 地址和数据总线可以在单个指令周期内访问4次； (3) 片内具有3个512字的RAM块，或2个512字的RAM块加1个4K字的ROM块。可以寻址4M字的外部存储器； (4) 具有串行和并行I/O接口。串行I/O采用双缓冲，支持8/16/24/32位串行数据传输，外部微处理器可以控制DSP32C的8/16位并行口； (5) 采用专用的浮点格式，可在单周期内与IEEE-754浮点格式进行转换； (6) 具有4个40位精度的累加器和22个通用寄存器； (7) 支持无开销循环和硬件等待状态。 DSP3210内部具有2个1K字的RAM块和512字的引导ROM，外部寻址空间达4G字节，可以用软件编程产生等待状态，具有串行口、定时器、DMA控制器和一个与Motorola和Intel微处理器兼容的32位总线接口。 2.6.3 Motorola公司DSP芯片 Motorola公司的DSP芯片可分为定点、浮点和专用三种。定点DSP芯片以MC56000、MC56001、MC56002为代表。程序和数据字长为24位，有2个精度为56位的累加器。DSP56001的指令周期为60ns和74ns两种。片内具有512字的程序RAM、 512字的数据RAM和512字的数据ROM。三个分开的存储器空间，每个均可寻址64K字。片内 32字的引导程序可以从外部EPROM装入程序。支持8位异步和8~24位同步串行I/O接口。并行接口可与外部微处理器接口，支持硬件和软件等待状态产生。MC56000是ROM型的DSP芯片，内部具有2K字的程序ROM。MC56002则是一个低功耗型芯片，可以在2.0V~5.5V电压范围内工作。浮点DSP芯片以MC96002为代表，采用IEEE-754标准浮点格式，累加器精度达96位，可支持双精度浮点数。该芯片的指令周期为50/60/74ns。片内有3个32位地址总线和5个32位数据总线。内部具有1K字的程序RAM、1K字的数据RAM和1K字的数据ROM。64字的引导ROM 可以从外部8位EPROM引导程序。内部具有10个96位或30个32位基于寄存器的累加器。支持无开销循环、硬件和软件等待状态产生。具有三个独立的存储空间，每个空间可寻址 4G字。 MC56200是一种基于MC56001 DSP核，适合于自适应滤波的专用定点DSP芯片，指令周期为 97.5ns，程序字长和数据字长分别为24位和16位。内部的程序和数据RAM均为256字，累加器精度为40位。MC56156则是一个在片内集成了过取样?-D话带Codec模数转换器和锁相环的DSP芯片，主要用于蜂窝电话等通信应用，其指令周期为33/50ns。除了以上介绍的一些DSP芯片之外，还有一些公司的DSP芯片也较著名。例如NEC公司的m PD77C25、mPD77220定点DSP芯片和mPD77240浮点DSP芯片等。 2.7 小结本章首先介绍了DSP芯片的基本结构，比较详细地介绍了TI公司的系列DSP芯片的基本特征，并简要介绍了AD等公司的DSP芯片。了解DSP芯片的结构和特征是采用DSP芯片设计D SP系统的基础。需要特别指出的是，由于DSP芯片的发展速度很快，用户在选用DSP芯片时，必须根据市场行情选用生产厂家主推的产品。如TI公司目前比较流行的定点DSP芯片是TMS320C2XX、TMS320C54X、TMS320C62X等，即使是同一系列的DSP芯片，如TMS320C54 X，该系列中的某些芯片也已过时，因而建议不要使用。

DSP芯片的原理和开发应用（3） [复制链接]

回复: DSP芯片的原理和开发应用（3）