现在开始学习使用FPGA实现数字信号处理算法。这是第一个算法实现:使用四级流水线,提高64位加法器的速度。
使用流水线提高运算速度是以面积换取速度的做发。算法的思想是:如果使用一个64位的加法器实现,延时肯定比16位的加法器延时要大。也就是说16位的加法器的时钟频率可以更高。(具体高多少,呵呵我也不知道。因为我现在也不知道如何去分析程序的最高频率。这是我以后要解决的问题)
接下来说说具体的实现:
总的思想是,先将64位分为4段,[63:48],[47:32],[31:16],[15:0]。一段一段的计算,这样就将64位分为16位。
速度已经说明,16位的时钟肯定比64位的加法器要高。但是在一个16位的加法运算完成后还有其他段的数据需要保存,这就是要增加面积的原因。
看程序:
module addr(
input clk, rst_n,
input [63 : 0] x, y,
output [64 : 0] sum
);
parameter ADD_WIDTH = 5'd16;
//16bit add and 4 stages
//first stage registers
reg [ADD_WIDTH : 0] r1_r, r2_r;
reg [ADD_WIDTH - 1 : 0] r3_r, r4_r, r5_r, r6_r; //
//second stage registers
reg [ADD_WIDTH : 0] r3_r2, r2_r2;
reg [ADD_WIDTH - 1 : 0] r1_r2, r4_r2, r5_r2; //
//third stage registers
reg [ADD_WIDTH : 0] r3_r3, r4_r3;
reg [ADD_WIDTH - 1 : 0] r1_r3, r2_r3; //
//forth stage registers
reg [ADD_WIDTH : 0] r4_r4;
reg [ADD_WIDTH - 1 : 0] r1_r4, r2_r4, r3_r4; //
always @(posedge clk or negedge rst_n) begin
if(!rst_n) begin
r1_r <= 1'b0;
r2_r <= 1'b0; r3_r <= 1'b0; r4_r <= 1'b0; r5_r <= 1'b0; r6_r <= 1'b0;
end
else begin
//use 4 stages pipline
//first stage:
r1_r <= x[15 : 0] + y[15 : 0];
r2_r <= x[31 : 16] + y[31: 16];
r3_r <= x[47 : 32]; //16b
r4_r <= y[47 : 32]; //16b
r5_r <= x[63 : 48]; //16b
r6_r <= y[63 : 48]; //16b
//second stage
r1_r2 <= r1_r[15 : 0];
r2_r2 <= r2_r + r1_r[16];
r3_r2 <= r3_r + r4_r;
r4_r2 <= r5_r;
r5_r2 <= r6_r;
//thrid stage
r1_r3 <= r1_r2;
r2_r3 <= r2_r2[15 : 0];
r3_r3 <= r3_r2 + r2_r2[16];
r4_r3 <= r4_r2 + r5_r2;
//forth stage
r1_r4 <= r1_r3;
r2_r4 <= r2_r3;
r3_r4 <= r3_r3;
r4_r4 <= r4_r3 + r3_r3[16];
end //rst_n else
end //always
//
assign sum = {r4_r4, r3_r4[15:0], r2_r4[15:0], r1_r4[15:0]};
endmodule
第一层流水线:计算[15:0]的和,计算[31:16]的和但是没有计算进位(进位的计算放在了二级流水线上)。保存高位[47:32],[63:48]。
第二层流水线:计算[31:16]的进位,[47:32]的和(没有计算进位)。保存[15:0],[63:48].
第三层流水线:计算[47:32]的进位,[63:48]的和(没有计算进位)。保存[15:0],[32:16].
第四层流水线:计算[63:48]的进位,保存[15:0],[32:16],[47:32].
至此流水线的加法器分析完成。从中可知每一层的流水线寄存器都要保存当前数据的全部信息。如果由上一层来看数据流。就可以实现,每个时钟周期都可以输入两个64位的数据(但是要4个时钟周期后才有当前输入数据的结果)。但是这里的每个时钟周期可以是16位的最高时钟周期。
这是RTL图:
最后在来一张仿真图来结束: