=====一个简单CPU的设计=====
我们以姜咏江老师的书《自己设计制作CPU与单片机》中一个简单CPU为例子,说明CPU的工作原理和设计过程。 \\
该CPU的程序在设计之初是固定的,并没有设计外部程序输入接口,所以这是一个专用CPU。\\
{{::jdcpu.docx|jdcpu完整代码}}
====CPU的端口描述====
//简单计算机核设计 2009-4-29 解释权姜咏江 Email:accsys@126.com
//参考书:姜咏江.PMC计算机设计与应用.清华大学出版社.2008-5
//说明:这里给出的简单计算机核设计,是初学计算机设计的最好实例。
//基本输入时钟clock
//复位控制:reset_n,低电位有效
//基本输出:o
//程序存储器iram,16位,高5位是类指令代码,用imem16_1.mif初始化
//数据存储器dram,16位,不用数据文件初始化
//用lpm存储器地址数据信号要稳定1拍,才可以读写数据
//指令格式:高5位指令代码,11位地址码,16位立即数(分高低8位)
module jdcpu
(
clock, //系统输入时钟
reset_n, //复位信号,低电平有效
o, //数据输出端口
//调试输出以观察CPU内部变化,设计完成后删除:
opc, //程序计数器观察变量
omar, //数据地址寄存器观察变量
ojp, //CPU节拍观察变量
oqw, //程序存储器输出观察变量
oda, //累加器变化观察
ozf, //累加器为零标志观察
osp //堆栈指针变化观察
);
input clock;
input reset_n;
output [15:0] o;
output [15:0] oqw,oda;
output [10:0] opc,omar,osp;
output [2:0] ojp;
output ozf;
====内部器件和导线描述====
CPU内部一般都包含运算器、各种标志寄存器、通用寄存器、累计器、存储器、指令寄存器、程序计数器、通用指针、堆栈指针、节拍器、地址寄存器、输出寄存器,还包括连接这些部件的各种导线,既有单条线,也有成组的线,也称总线。这些内部部件和导线的定义,直接反映了CPU的组成。\\
存储类型的设备一般用关键字“reg”来定义,属于导线类型的用“wire”关键字来定义。\\
//CPU内部器件和导线
//定义16位的程序存储器输出连接导线和数据存储器输入导线
wire [15:0] q_w,q_data;
//定义保持写数据存储器和写堆栈存储器控制信号的寄存器
reg dwren,swren;
//定义16位用于保持取出指令进行分析的指令寄存器
reg [15:0] ir;
//定义16位的运算器前端寄存器a、b,累加器da,输出寄存器oo和暂存输入数据寄存器ddata
reg [15:0] b,a,da,oo,ddata;
//定义11位的程序计数器pc,地址残存寄存器pc_back,数据存储地址寄存器mar,堆栈指针sp和堆栈输出寄存器q_s
reg [10:0] pc,pc_back,mar,sp,q_s;
//定义3位的CPU节拍寄存器
reg [2:0] jp;
====存储组织描述====
现在的CPU内部都包含有Cache存储器,为了剖析CPU的内部结构,我们将运算器和控制器组成的部分称为执行单元,用PU(Performance Unit)来表示,将PU以外包括存储器和寄存器一类暂时存放数据的设备,统称为存储单元,用MU(Memory Unit)表示。所以一个CPU可以认为由PU和MU构成。
在这个简易CPU中,我们采用程序存储器和数据存储器分开的设计架构,也就是哈佛结构,而且我们将堆栈存储器单独出来,这样该设计中一共有3个存储器,我们通过FPGA厂商提供的Memory IP来生成这些存储器。
//指令存储器:
lpm_rom iram(.address(pc),.inclock(clock),.q(q_w)); //程序存储器
defparam iram.lpm_width = 16;
defparam iram.lpm_widthad = 11;
defparam iram.lpm_outdata = "UNREGISTERED";
defparam iram.lpm_indata = "REGISTERED";
defparam iram.lpm_address_control = "REGISTERED";
defparam iram.lpm_file = "imem16_2013.mif"; //初始化文件,放置程序
//数据存储器:
lpm_ram_dq dram(.data(ddata),.address(mar),.we(dwren),.inclock(clock),.q(q_data)); //数据存储器
defparam dram.lpm_width = 16;
defparam dram.lpm_widthad = 10;
defparam dram.lpm_outdata = "UNREGISTERED";
defparam dram.lpm_indata = "REGISTERED";
defparam dram.lpm_address_control = "REGISTERED";
lpm_ram_dq sram(.data(pc_back),.address(sp),.we(swren),.inclock(clock),.q(q_s)); //堆栈
defparam sram.lpm_width = 11;
defparam sram.lpm_widthad = 10;
defparam sram.lpm_outdata = "UNREGISTERED";
defparam sram.lpm_indata = "REGISTERED";
defparam sram.lpm_address_control = "REGISTERED";
====CPU的行为描述====
CPU的行为描述也就是描述CPU随时间变化的状态,其中包括初始状态和正常运行态。
===初始状态的描述===
该CPU的初始状态用初始化信号变量reset_n来驱动,reset_n信号下降沿有效,在always语句体中敏感信号列表中用negedge来申明。
always @(posedge clock or negedge reset_n)
begin
if (!reset_n)
begin
pc <= 0;
sp <= 0;
lda <= 0;
add <= 0;
out <= 0;
sdal <= 0;
sdah <= 0;
str <= 0;
sub <= 0;
jmp <= 0;
jz <= 0;
jn <= 0;
call <= 0;
ret <= 0;
mult <= 0;
divi <= 0;
jp <= 0;
end
这一段初始化程序描述了CPU复位后的初始状态,如果reset_n从1变为0,那么begin...end块中的语句被执行。被复位的除了指令标志之外,还有程序计数器pc、堆栈指针sp和节拍jp。sp的初值设为0,说明堆栈开口向下,数据入栈后,sp加1,而数据出栈前,sp要减1;程序计数器pc初始化为0,说明CPU开始运行,从程序存储器的0地址取指,节拍jp被赋值0,表示CPU指令的动作从0节拍开始;各条指令标志都为0,表示开始时没有确定是哪一条指令执行。\\
该设计中的全部指令有:
//指令:
reg lda, //取数:从数据单元取数到da
add, //加:da与数据单元相加,结果放入da
out, //输出:将数据单元内容输出到输出寄存器
sdal, //低8位立即数:将8位立即数扩充为16位送da
sdah, //高8位立即数:将8位立即数作为高8位,与原da低8位连接成16位放在da中
str, //da送数据存储单元:
sub, //减:da与数据单元相减,结果放入da
jmp, //跳转
jz, //da为0跳转
jn, //da为负跳转
call, //调用子程序
ret, //返回
mult, //
divi, //
stp; //停止
===取指令周期的描述===
CPU的正常运行状态分为取指周期和执行周期,这主要由时钟节拍和指令标志两部分变量确定。节拍jp表明指令执行动作的顺序,而指令标志是用来指示正在执行的指令。\\
从节拍取指为0开始描述。\\
// 节拍jp指出的状态:
case (jp)
0: begin //空拍,稳定地址寄存器数据需要
jp <= 1; //转到1拍
end
由于jp=0节拍被用于程序计数器pc将值传递到程序存储器的前端地址寄存器(并不是所有的存储器都要求这样),所以这一拍在外被设定为空操作。在这一拍中,将节拍变量赋值1,从而使CPU运行转到下一个节拍为1的状态。\\
===指令分析的描述===
当jp=1时,程序存储器的地址已经被确定好了,所以可以从程序存储器的输出端口得到要取出的指令。一般情况下,应将取出的指令放到指令寄存器ir中分析,目的是防止后面程序存储器的地址有变,从而使输出的指令发生变化。由于我们的设计没有变动存储单元的地址,因而就可以直接对端口输出导线值进行逻辑分析。\\
这样在jp=1的节拍就可以利用程序存储器的输出,识别出是什么指令,从而约束后面节拍执行的指令。在jp=1的描述如下:\\
1: begin //依指令前5位编码来识别指令,并将指令标识置位
case (q_w[15:11])
5'b00001: lda <= 1; //lda:00001
5'b00010: add <= 1; //add:00010
5'b00011: out <= 1; //out:00011
5'b00100: sdal <= 1; //低8位,扩充有符号16位
5'b00101: sdah <= 1; //高8位,与前面低8位输入合成16位
5'b00110: str <= 1; //da送数据单元
5'b00111: sub <= 1;
5'b01000: jmp <= 1;
5'b01001: if (da==0) jz <= 1; //累加器da是0,跳转
5'b01010: if (da[15]==1) jn <= 1; //累加器da为负,跳转
5'b01011: call <= 1;
5'b01100: ret <= 1;
5'b01101: mult <= 1;
5'b01110: divi <= 1;
5'b11111: stp <= 1;
default: jp <= 0;
endcase //节拍区分指令结束
jp <= 2; //转到jp=2的状态
end
q_w[15:0]是全部数据,q_w[15:11]是指令代码,依据这5位的数值来确定是哪一条指令在执行,继而将相应的指令标志赋值1,指令标志指示该条指令是否处于执行状态。在1节拍中,指令jz和jn除了节拍之外还有累加器限制。\\
如果将节拍的0状态称为取指令,1状态称为分析指令,那从节拍2状态开始就进入了指令的执行过程。\\
===指令执行周期的描述===
指令执行周期的详细描述实际上是CPU设计最核心的部分。\\
2: begin //CPU进入jp=2的状态
case (q_w[15:11]) //用指令编码确定指令
5'b00001: begin //lda <= 1;
mar<=q_w[10:0]; //数据地址给到数据地址寄存器
jp <= 3; //转到jp=3的状态
end
5'b00010: begin //add <= 1;
mar<=q_w[10:0];
jp <= 3;
end
5'b00011: begin //out <= 1;
mar<=q_w[10:0];
jp <= 3;
end
5'b00100: begin //sdal <= 1;
da <= {{8{q_w[7]}},q_w[7:0]}; //将指令中写的8位立即数扩充成16位有符号数送到累加器da
sdal<= 0; //sdal指令执行完成
pc <= pc+1; //准备取下一条指令
jp<= 0; //节拍状态复位
end
5'b00101: begin //sdah <= 1;
da[15:0] <= {q_w[7:0],da[7:0]}; //将指令中写的8位数放入累加器的高8位,累加器低8位数不变
sdah <= 0; //sdal指令执行完成
pc <= pc+1; //准备取下一条指令
jp<= 0; //节拍状态复位
end
5'b00110: begin //str <= 1;
mar<=q_w[10:0];
ddata <= da; //累加器da送数据存储器
jp <= 3; //指令str未执行完,转jp=3
end
5'b00111: begin //sub <= 1;
mar<=q_w[10:0];
jp <= 3;
end
5'b01000: begin //jmp <= 1;
pc <= q_w[10:0];//将跳转程序地址送程序计数器
jmp <=0; //跳转指令完成
jp <= 0;
end
5'b01001: begin //jz <= 1;
if (jz) pc <= q_w[10:0];//如果da=0则跳转
else pc <= pc+1; //不然执行下一条指令
jz <=0;
jp <= 0;
end
5'b01010: begin //jn <= 1;
if (jn) pc <= q_w[10:0];
else pc <= pc+1;
jn<=0;
jp <= 0;
end
5'b01011: begin //call <= 1;
pc_back <= pc+1;//保存下一条指令的地址
jp <= 3;
end
5'b01100: begin //ret <= 1;
jp <= 3;
end
5'b01101: begin //mult<= 1;
mar<=q_w[10:0];
jp <= 3;
end
5'b01110: begin //divi <= 1;
mar<=q_w[10:0];
jp <= 3;
end
5'b11111: jp<=0; //stp指令,返回jp=0状态
default: jp <= 0; //其他情况一律节拍返回jp=0状态
endcase
end
jp=2状态结束后,sdal、sdah、jmp、jz、jn等指令就已经执行完成了,这说明这几条指令的指令周期只有3个时钟节拍。指令执行完成后,指令标识和节拍变量切记归零,若不是转移指令,还要讲程序计数器pc加1,以便CPU去取下一条指令;如果没有执行完成,那么将节拍状态改为下一个。\\
节拍状态jp=2之后,没有完成的指令要进入jp=3的状态。如果在jp=2状态中,有向存储器地址寄存器传送了数据的动作,那么就要空操作一拍,即在jp=3的状态中,直接将jp的值设定为4,就此转到下一个节拍。\\
3: begin
case (q_w[15:11])
5'b00001: begin //lda <= 1;
jp <= 4;
end
5'b00010: begin //add <= 1;
jp <= 4;
end
5'b00011: begin //out <= 1;
jp <= 4;
end
5'b00110: begin //str <= 1;
dwren <= 1;
jp <= 4;
end
5'b00111: begin //sub <= 1;
jp <= 4;
end
5'b01011: begin //call <= 1;
pc <= q_w[10:0];//pc接收子程序地址
swren <= 1; //发出写堆栈信号
jp <= 4;
end
5'b01100: begin //ret <= 1;
sp <= sp-1;
jp <= 4;
end
5'b01101: begin //mult <= 1;
jp <= 4;
end
5'b01110: begin //divi <= 1;
jp <= 4;
end
default: jp <= 0;
endcase
end
在这一段描述中,只有call指令有实质性动作,其他指令都是空操作,为什么凡是在上一节拍中向存储器传送地址的指令,在此都要空一拍呢,这是因为我们使用的存储器前端都有特殊寄存器,我们在设计时并不能对这个特殊寄存器进行直接操作,特殊寄存器得到地址数据,还要通过一个时钟节拍传递才行。特殊寄存器接收数据的过程是在存储器内部进行的,设计过程中需要空置一拍。
4: begin
case (q_w[15:11])
5'b00001: begin //lda <= 1;
da<=q_data; //存储单元数据送累加器
pc <= pc+1;
jp <= 0;
lda<= 0; //lda指令执行完成
end
5'b00010: begin //add <= 1;
b<=q_data; //存储单元数据送前端寄存器b
a<=da; //累计器da内容送前端寄存器a
jp <= 5;
end
5'b00011: begin //out <= 1;
oo <= q_data; //将数据存储单元输出
pc <= pc+1;
jp <= 0;
out<= 0;
end
5'b00110: begin //str <= 1;
dwren <= 1; //发出写数据寄存器信号
jp <= 5;
end
5'b00111: begin //sub <= 1;
b<=q_data;
a<=da;
jp <= 5;
end
5'b01011: begin //call <= 1;
sp <= sp+1; //写完堆栈之后,堆栈指针前移一位
swren <= 0; //停止写堆栈信号
jp <= 5;
end
5'b01100: begin //ret <= 1;
pc <= q_s; //返回地址送到程序计数器
ret <= 0;
jp <= 0;
end
5'b01101: begin //mult <= 1;
b<=q_data;
a<=da;
jp <= 5;
end
5'b01110: begin //divi <= 1;
b<=q_data;
a<=da;
jp <= 5;
end
default: jp <= 0;
endcase
end
在这一节拍完成的指令有lda、out、ret,除了ret之外,在结束时都对pc进行了加1操作,目的是让CPU转到下一条指令取指执行。\\
执行到这里,jp=5时就只剩下6条指令了,由于它们执行时基本动作较多,因而占用的时钟节拍也多。\\
5: begin
case (q_w[15:11])
5'b00010: begin //add <= 1;
da <= a+b; //相加结果送累加器da
pc <= pc+1;
add <=0;
jp <= 0;
end
5'b00110: begin //str <= 1;
dwren <= 0; //结束写存储器信号
pc <= pc+1;
str <=0;
jp <= 0;
end
5'b00111: begin //sub <= 1;
da <= a-b; //将减法运算结果送累加器da
pc <= pc+1;
sub<=0;
jp <= 0;
end
5'b01011: begin //call <= 1;
swren <= 0; //结束写堆栈信号
call<=0;
jp<=0;
end
5'b01101: begin //mult <= 1;
da <= a*b; //将乘法运算结果送累加器
pc <= pc+1;
mult <=0;
jp <= 0;
end
5'b01110: begin //divi <= 1;
da <= a/b; //将除法运算结果送累加器
pc <= pc+1;
divi <=0;
jp <= 0;
end
default: jp <= 0;
endcase
end
====让CPU运行软件程序====
如何验证我们设计的CPU是成功的呢?\\
办法只有用CPU指令系统编写程序,运行在这个CPU上面,如果结果是正确的,那说明我们的设计是成功的。\\
这个CPU支持的指令有
//指令:
lda, //取数:从数据单元取数到da
add, //加:da与数据单元相加,结果放入da
out, //输出:将数据单元内容输出到输出寄存器
sdal, //低8位立即数:将8位立即数扩充为16位送da
sdah, //高8位立即数:将8位立即数作为高8位,与原da低8位连接成16位放在da中
str, //da送数据存储单元:
sub, //减:da与数据单元相减,结果放入da
jmp, //跳转
jz, //da为0跳转
jn, //da为负跳转
call, //调用子程序
ret, //返回
mult, //乘:da与数据单元相乘,结果放入da
divi, //除:da除以数据单元,结果放入da
stp; //停止
===设计用于检验的汇编程序===
我们用该CPU的指令系统编写一个能够求出8!(8的阶乘)的汇编程序
start: sdal 1 ;将1送到累加器da的低8位
str one ;累加器内容送到数据存储器的one单元
str result ;将1送到数据存储器的result单元
sdal 8 ;将8送到累加器da的低8位
str x ;将累加器内容送数据存储器x单元
loop: lda x ;将x单元的数据送到累加器da
jz exit ;如果da=0则跳转到exit地址取指令执行
mult result ;da的值乘以result的值,结果送到da
str result ;将da的值回送到result
lda x ;将x单元的值送到da
sub one ;da-1送到da
str x ;再将da值送回x
jmp loop ;转到loop地址取指令执行
exit: out result ;输出最终结果
stp ;停止CPU运行
===用表来编译汇编程序===
现在程序的编译一般都有专门的汇编器,这里我们以人工绘表的方式来编译,这种程序编译表格是最基本的编译工具。\\
{{::自己设计cpu_编译表.png|}}\\
左边“地址”一栏是程序存储器或数据存储器的地址编号,“标号”和“汇编程序”两栏是汇编程序,“二进制编码”一栏是二进制数的机器指令,“编译”一栏是十六进制的机器指令,“数据”一栏是数据变量的位置分配。最后两栏是该设计中的CPU指令和编码。\\
这个汇编程序使用了3个16位的数据变量 one、result、x。它们在存储器中的位置被安排在1,2,3号存储单元。\\
程序计数器pc的初始值是0,我们将标号start定位0号存储单元,依次往下排可以得到loop标注5号存储单元,exit是13号存储单元。\\
二进制编译一栏是对指令操作码和操作数的译码。左面5位是对应指令的编码,如sdal 编码是00100,右面的11位数是对应操作数的编码,其编码依据指令格式来确定。如果操作数是变量型操作数即one,result,x,则对应变量的存储单元地址1,2,3。如果操作数是立即数,则直接使用立即数本身。\\
====仿真检验CPU设计====