第15章汇编语言--- 数组与指针

汇编语言是一种低级编程语言，它几乎与特定的计算机架构一一对应。在汇编语言中，数组和指针的概念不像在高级语言（如C或C++）中那样直接存在，但可以通过对内存地址的操作来实现类似的功能。

在汇编语言中，数组可以被看作是一系列连续存储的相同类型的元素，而指针则是用来存放某个变量或数据结构的内存地址的变量。通过改变指针所指向的地址，可以访问不同的数组元素。下面将以x86架构的汇编代码为例，说明如何使用寄存器作为指针来操作数组。

假设我们有一个包含整数的数组，并且想要遍历这个数组以计算所有元素的总和。以下是一个简单的例子：

section .dataarray db 1, 2, 3, 4, 5     ; 定义一个字节型数组length equ $ - array       ; 计算数组长度section .bsssum resb 1                 ; 预留一个字节用于存储求和结果section .textglobal _start_start:mov ecx, length            ; 将数组长度加载到ECX寄存器xor eax, eax               ; 清零EAX寄存器，用于累加求和lea ebx, [array]           ; 加载数组的首地址到EBX寄存器，用作指针sum_loop:add al, [ebx]              ; 将指针指向的数组元素加到AL寄存器inc ebx                    ; 指针递增，指向下一个数组元素loop sum_loop              ; ECX减一并判断是否继续循环mov [sum], al              ; 将求和结果保存到'sum'变量exit_program:; 程序退出代码（略）

在这个例子中，array 是一个定义在 .data 段中的字节数组。我们使用 length 来表示数组的长度。sum 变量是在 .bss 段中预留的一个字节空间，用于存储求和的结果。

在 _start 标签开始的程序部分，我们首先将数组的长度加载到 ECX 寄存器中，然后清零 EAX 寄存器准备进行累加求和。LEA 指令用于加载数组的首地址到 EBX 寄存器，这个寄存器将作为我们的“指针”。

sum_loop 循环中，我们将 EBX 寄存器指向的当前数组元素添加到 AL 寄存器（EAX 的低8位），然后增加 EBX 寄存器的值以指向下一个数组元素。LOOP 指令会自动减少 ECX 寄存器的值并且如果 ECX 不为0的话就跳转回 sum_loop 继续循环。

最后，我们把求和的结果从 AL 移动到 sum 变量中。由于这是一个简化示例，程序结束部分的代码被省略了，但在实际应用中你需要正确地设置退出程序的系统调用。

请注意，这只是一个非常基础的例子，实际的汇编代码可能会根据具体的处理器架构、操作系统以及你想要完成的任务而有很大不同。

当然，我们可以进一步探讨数组与指针在汇编语言中的使用。上一个例子中我们讨论了如何遍历一个字节数组（db定义的数组），现在我们可以扩展这个例子来处理更复杂的情况，比如16位或32位整数数组，或者展示如何访问多维数组。

处理32位整数数组

假设我们现在有一个包含32位整数的数组，并且想要计算所有元素的总和。以下是修改后的代码：

section .dataarray dd 1, 2, 3, 4, 5     ; 定义一个双字（32位）型数组length equ ($ - array) / 4 ; 计算数组长度，每个元素是4个字节section .bsssum resd 1                 ; 预留一个双字用于存储求和结果section .textglobal _start_start:mov ecx, length            ; 将数组长度加载到ECX寄存器xor eax, eax               ; 清零EAX寄存器，用于累加求和lea ebx, [array]           ; 加载数组的首地址到EBX寄存器，用作指针sum_loop:add eax, [ebx]             ; 将指针指向的数组元素加到EAX寄存器add ebx, 4                 ; 指针递增4个字节，指向下一个数组元素loop sum_loop              ; ECX减一并判断是否继续循环mov [sum], eax             ; 将求和结果保存到'sum'变量exit_program:; 程序退出代码（略）

这里我们使用 dd 来定义32位（双字）整数数组，并调整了 length 的计算方法，因为每个元素占用了4个字节。add ebx, 4 是为了每次迭代时让指针前进到下一个32位整数的位置。

访问二维数组

对于二维数组，我们需要理解其在内存中的布局。在C风格的语言中，二维数组是以行优先的方式存储的。例如，一个3x3的二维数组可以被看作是一个有9个连续元素的一维数组，其中前3个元素构成第一行，接下来的3个元素构成第二行，以此类推。

如果我们有一个3x3的32位整数二维数组，我们可以这样定义和访问它：

section .dataarray dd 1, 2, 3,          ; 第一行dd 4, 5, 6,          ; 第二行dd 7, 8, 9           ; 第三行rows equ 3                 ; 行数cols equ 3                 ; 列数section .textglobal _start_start:; 假设我们要访问第二行第三列的元素（即值为6）mov ecx, 1                 ; 第二行 (行索引从0开始)mov edx, 2                 ; 第三列 (列索引从0开始)lea ebx, [array]           ; 加载数组的首地址到EBX寄存器imul ecx, ecx, cols * 4    ; 行偏移 = 行索引 * 列数 * 元素大小add ebx, ecx               ; 增加行偏移量add ebx, edx * 4           ; 再增加列偏移量mov eax, [ebx]             ; 获取指定位置的元素exit_program:; 程序退出代码（略）

在这个例子中，我们通过计算行偏移和列偏移来确定要访问的元素的位置。请注意，由于索引是从0开始的，所以第二行是索引1，第三列是索引2。imul 指令用于进行乘法运算以得到正确的偏移量。

这些例子展示了如何在汇编语言中操作数组和指针。实际应用中，你可能需要根据具体的处理器架构、操作系统及编程需求对代码进行相应的调整。

让我们继续深入探讨汇编语言中数组与指针的使用。这次我们将介绍一些更高级的主题，比如如何在汇编语言中实现动态内存分配、如何处理字符串（可以看作字符数组），以及如何通过指针访问结构体成员。

动态内存分配

在某些情况下，你可能需要在运行时根据程序的需求分配内存。这通常涉及到操作系统提供的系统调用。以下是一个简单的例子，展示如何在Linux环境下使用mmap系统调用来分配一页大小的内存，并初始化为一个整数数组。

section .dataarray_size dd 4096         ; 分配一页大小（4KB）section .bssarray resd 1               ; 预留一个双字用于存储数组地址section .textglobal _start_start:mov eax, 9                 ; mmap 系统调用号 (Linux x86)xor ebx, ebx               ; 地址: NULL (由系统选择)mov ecx, [array_size]      ; 长度: 一页大小mov edx, 7                 ; 保护: PROT_READ | PROT_WRITE | PROT_EXECmov esi, 0x22              ; 标志: MAP_PRIVATE | MAP_ANONYMOUSxor edi, edi               ; 文件描述符: -1 (匿名映射)xor ebp, ebp               ; 偏移量: 0int 0x80                   ; 执行系统调用test eax, eax              ; 检查返回值是否为负数（错误）js error_exit              ; 如果是，则退出mov [array], eax           ; 保存返回的地址到 'array'; 初始化数组...; (省略)exit_program:; 使用 munmap 或 exit 系统调用结束程序 (略)error_exit:; 处理错误并退出 (略)

请注意，这段代码依赖于特定的操作系统和架构（这里是32位Linux）。不同的环境将有不同的系统调用编号和参数格式。

字符串操作

在汇编语言中，字符串通常被当作以零结尾的字符数组来处理。下面的例子展示了如何定义一个字符串，并遍历它直到遇到终止符 \0：

section .datahello db 'Hello, World!', 0  ; 定义一个字符串，以0结尾section .textglobal _start_start:lea ebx, [hello]           ; 获取字符串首地址print_loop:mov al, [ebx]              ; 将当前字符加载到AL寄存器test al, al                ; 检查是否为终止符jz print_done              ; 如果是，结束循环; 打印字符的代码 (略)inc ebx                    ; 移动到下一个字符jmp print_loop             ; 继续循环print_done:; 结束打印 (略)exit_program:; 程序退出代码 (略)

访问结构体成员

假设我们有一个包含两个字段的简单结构体：一个字符和一个整数。我们可以像这样定义和访问它：

section .datastruct_format db 'c', 4 dup(0)   ; 字符串 "c" 后跟四个填充字节struct dd 0                       ; 整数部分section .textglobal _start_start:; 访问字符成员mov al, [struct_format]           ; 直接访问第一个字节; 访问整数成员mov eax, [struct]                 ; 加载整个双字到EAX; 修改结构体成员的代码 (略)exit_program:; 程序退出代码 (略)

在这个例子中，struct_format 是一个模拟结构体布局的数据项，其中 struct 代表结构体中的整数成员。实际应用中，结构体的定义可能会更加复杂，但基本原理是一样的：直接使用偏移量或指针算术来访问成员。

这些例子说明了如何在汇编语言中使用指针和数组进行更复杂的操作。汇编编程需要对计算机体系结构有深刻的理解，并且代码高度依赖于具体的硬件和操作系统平台。对于更复杂的任务，如多线程编程、网络通信等，还需要掌握更多的系统调用和底层细节。