机器语言

我们可用结构化（constructively）的方式来描述计算机，给出它的硬件平台，然后解释它是如何由一些底层芯片构建而成的。也可以通过描述和演示机器语言的功能来抽象地描述计算机。事实上，要开始了解一个新计算机系统，先去阅读一些用其机器语言编写的底层程序是十分必要的。这样不仅有助于了解如何通过程序让计算机去执行正确的操作，还可以由此了解为什么其硬件会按某种特定的方式来设计。

机器语言是一种约定的形式，用来对底层程序进行编码，从而形成一系列机器指令。应用这些指令，程序员可以命令处理器执行算术和逻辑操作，在内存中进行存取操作，让数据在寄存器之间传递，验证布尔表达式的值，等等。高级语言的基本设计目标是通用性和较强的表达力，机器语言的设计目标是能直接运行在指定的硬件平台上，并能对这个平台进行全面操控。当然，通用性、表达力和良好的结构仍然是必要的，但这些是仅相对于它所支持并直接运行于其上的硬件平台而言的。

背景知识

机器

机器语言（machine language）

可以被看作是一种约定的形式，它利用处理器和寄存器来操控内存。

内存

内存（memory）的概念是指“用来储存数据和指令的硬件设备”。

从程序员的观点来看，所有的内存具有相同的结构：一个连续的固定宽度的单元序列，也称为字（word）或内存单元，每个内存单元都一个唯一的地址（address）。因此，对于独立的字（word，代表一个数据项或是一个指令），可以通过提供它的地址来描述。

处理器

处理器，通常又称为中央处理器或 CPU（Central Processing Unit），是执行一组固定基本操作的设备。

这些操作通常包括算术操作和逻辑操作，内存存取操作和控制操作（control operation，也称 branching operations）。这些操作的对象是二进制数值，它们来自寄存器和指定的内存单元。类似的，操作的结果（处理器的输出）既可以存储在寄存器内，也可以存储在指定的内存单元。

寄存器

内存访问是相对较慢的操作，需要很长的指令格式（一个地址可能需要32位）。基于此原因，大多数处理器都配有一些寄存器，每个寄存器只存储1 位。它紧挨着处理器，相当于处理器的一个高速本地内存，使得处理器能快速地操控数据和指令。寄存器使得程序员能够尽可能地使用内存访问命令，从而加速程序的执行。

语言

机器语言程序是一系列的编码指令。比如说，在16-位计算机上的典型指令之一是 1010001100011001。为了知道这个指令的意思，就必须知道语言的规则，也就是底层硬件平台的指令集。例如，这样的指令包含四个4比特的位域（fields）：最左边的域是CPU的操作编码，剩下的三个部分表示该操作的操作数。因此根据该硬件平合上的机器语言语法，前面的命令代表 set R3 to R1 + R9。

鉴于二进制码相当晦涩，通常会在机器语言中同时使用二进制码和助记符（symbolicmnemonics）。例如，语言设计者可定义操作码 1010 用add来表示，机器中的寄存器可以使用符号RO、R1、R2等来表示。

将这种符号抽象更进一步发展，我们不仅能够阅读符号表示，而且能实际地利用这些符号命令而不是二进制指令来编写程序。接下来，可以使用文本处理程序，将这些符号命令解析为其内含的意域（助记符或操作数），将每个意域翻译成其对应的二进制表示，然后将生成的代码汇编成二进制机器指令。符号表示也称为汇编语言（assembly language），或简单地说成汇编，而将汇编程序翻译成二进制码的程序则称为汇编编译器（assembler）。

命令

下面介绍所有机器语言都支持的通用命令集合

算术操作和逻辑操作

计算机需要执行基本的算术操作（比如加法和减法），以及基本的布尔操作（比如按位取反、移位等等）。

内存访问

内存访问命令分为两类。

第一类，正如刚才看到的，算术命令和逻辑命令不仅允许操控寄存器，而且还可以操控特定的内存单元。

第二类，所有的计算机都会使用 load 和 store 命令，用来在寄存器和内存之间传递数据。这些访问命令可能会应用某些类型的寻址方式，并在指令中指定目标内存单元的地址。当然，不同的计算机有不同的寻址方式。

下面列出三种绝大多数计算机都支持的寻址方式：

直接寻址（Direct Addressing）最常用的寻址方式，直接表示一个指定内存单元的地址，或者使用一个符号来代表这个指定的地址。
立即寻址（Immediate Addressing）这种寻址方式被用来加载常数，也就是说，加载那些出现在指令代码里面的数值：我们直接将指令数据域中的内容当作要操作的数据装入寄存器，而不是将该数值当作内存单元的地址。
间接寻址（Indirect Addressing）在这种寻址模式中，要访问的内存单元的地址没有直接出现在指令中，而是指令指定的内存单元中的内容代表目标内容单元的地址。这种寻址模式被用来处理指针（pointer）这种语言设施。

控制流程

程序通常以线性方式，一个命令接着一个命令执行，但偶尔也包含分支，执行其他地方的命令。分支能够实现好几种结构，包括反复（repetition，跳回到循环的初始位置）、有条件的执行（conditional execution，如果布尔条件是false，则向前跳到“if-then”语句之后的位置），以及子程序调用（subroutine calling，跳到另一代码段的第一条命令处）。为了支持这些程序结构，各种机器语言都可以有条件（conditional）或无条件（unconditional）地跳转到程序指定的地址。

Hack 机器语言规范

概述

Hack 是一个基于冯•诺伊曼架构的16-位计算机，由一个CPU、两个独立的内存模块（instruction memory 即指令内存和 data memory 即数据内存），以及两个内存映射1/O设备（显示器和键盘）组成。

内存地址空间

Hack 程序员要了解，有两个不同的地址空间：指令地址空间（instruction memory，以下称为指令内存），数据地址空间（data memory，以下称为数据内存）。

两个内存区都是16-位宽，有15-位地址空间，这意味着两个内存可用的最大地址都是32K 的 16-bit word。

寄存器（Registers）

Hack 程序员要接触两个称为D和A的16-位寄存器。这些寄存器能够被算术和逻辑指令显式地操控，比如 A=D-1或 D=！A 。

D 仅用来储存数据值，A既可作为数据寄存器也可作为地址寄存器。也就是说，根据指令的上下文含义，A 中的内容可以被解释为数值或数据存储器中的地址，或者作为指令存储器中的地址。

A 指令

A-指令用来为 A 寄存器设置15-位的值。

A-指令主要有三种不同的用途。首先，在程序控制下，它提供了唯一一种“将常数输入计算机”的方法：其次，通过将目标数据内存单元的地址放入 A 寄存器，来为将对该内存单元进行操作的C-指令提供必要的条件；其三，通过将跳转的目的地址放入A 寄存器来为执行跳转的C-指令提供条件。

C 指令

C-指令是 Hack 平台程序的重点，几乎包含要做的所有事情。

指令代码的描述可以说是对以下三种问题的回答：（a）计算什么；（b）将计算后的值存储到什么地方；（c）下一步做什么。

随同 A-指令一起，这些描述几乎决定了计算机所有可能的操作。

指令编码最左边起第一位为1，则表示该指令是C-指令。接着的两位没有被使用。剩下的位构成了三个域，分别代表指令符号表述的三个部分。

符号指令 dest = comp:jump 的終个语义可以如下表示。

Comp 域告诉 ALU 计算什么。
Dest 域指明计算后的结果（ALU的输出）将被存储到什么地方。
Jump 域描述了转移条件，即接下来要取出并执行哪一条命令。

Computation 规范(计算规范)

Destination 规范(目的地规范)

Jump 规范(跳转规范)

符号

汇编命令可以使用常数或符号来表示内存单元位置（地址）。通过以下三种方式应用到汇编语言中：

预定义符号：包括虚拟寄存器，预定义指针，I/O 指针等。
标签符号
变量符号

项目

乘法程序

// Multiplies R0 and R1 and stores the result in R2.
// (R0, R1, R2 refer to RAM[0], RAM[1], and RAM[2], respectively.)

// Put your code here.
// SET R2=0
@R2
M=0

// RO R1 > 0 
@R0
D=M
@END
D;JLE
@R1
D=M
@END
D;JLE

// SET R3=R1
@R1
D=M
@R3
M=D

// LOOP BODY 
(LOOP)
@R0
D=M
@R2
M=M+D
@R3
M=M-1
@R3
D=M
// R3=0 JUMP END
@END
D;JEQ
// R3>0 JUMP LOOP
@LOOP
D;JGT

// END PROGRAM
(END)
@END
0;JMP

I/O 处理程序

// Runs an infinite loop that listens to the keyboard input. 
// When a key is pressed (any key), the program blackens the screen,
// i.e. writes "black" in every pixel. When no key is pressed, the
// program clears the screen, i.e. writes "white" in every pixel.

// Put your code here.
@i
M=0

(LOOP)
@KBD
D=M
@BLACK
D;JGT    // key>0 JUMP BLACK
@WHITE
D;JEQ    // key=0 JUMP WHITE

(BLACK)
@i
D=M
@8191
D=D-A
@LOOP
D;JGT   // if MAX Then do noting
@i
D=M
@SCREEN
A=D+A
M=-1
@i
M=M+1
@LOOP
0;JMP

(WHITE)
@i
D=M
@RESET
D;JLT   // if MIN Then do noting
@i
D=M
@SCREEN
A=D+A
M=0
@i
M=M-1
@LOOP
0;JMP

(RESET)
@i
M=0
@LOOP
0;JMP

最后更新: December 14, 2025