诚然,我不明白。假设您有一个内存,内存字的长度为1字节。为什么你不能访问一个4字节长的变量在一个内存访问上一个未对齐的地址(即。不能被4整除,就像对齐地址的情况一样?


当前回答

@joshperry has given an excellent answer to this question. In addition to his answer, I have some numbers that show graphically the effects which were described, especially the 2X amplification. Here's a link to a Google spreadsheet showing what the effect of different word alignments look like. In addition here's a link to a Github gist with the code for the test. The test code is adapted from the article written by Jonathan Rentzsch which @joshperry referenced. The tests were run on a Macbook Pro with a quad-core 2.8 GHz Intel Core i7 64-bit processor and 16GB of RAM.

其他回答

你可以使用一些处理器(nehalem可以这样做),但以前所有的内存访问都是在64位(或32位)行上对齐的,因为总线是64位宽的,你必须一次获取64位,并且在对齐的64位“块”中获取这些要容易得多。

如果你想获取一个字节,你获取64位块,然后屏蔽掉你不想要的位。如果您的字节位于右端,这很简单,也很快速,但如果它位于64位块的中间,则必须屏蔽不需要的位,然后将数据转移到正确的位置。更糟糕的是,如果您想要一个2字节的变量,但它被分成了2个块,那么这就需要双倍的内存访问。

因此,当每个人都认为内存很便宜时,他们只是让编译器在处理器的块大小上对齐数据,这样你的代码以浪费内存为代价运行得更快更有效。

这是许多底层处理器的限制。它通常可以通过进行4次低效的单字节读取来解决,而不是进行一次高效的单词读取,但许多语言说明符认为,直接禁止它们并强制所有内容对齐会更容易。

OP在这个链接中发现了更多的信息。

@joshperry has given an excellent answer to this question. In addition to his answer, I have some numbers that show graphically the effects which were described, especially the 2X amplification. Here's a link to a Google spreadsheet showing what the effect of different word alignments look like. In addition here's a link to a Github gist with the code for the test. The test code is adapted from the article written by Jonathan Rentzsch which @joshperry referenced. The tests were run on a Macbook Pro with a quad-core 2.8 GHz Intel Core i7 64-bit processor and 16GB of RAM.

现代处理器上的内存子系统仅限于按其字大小的粒度和对齐方式访问内存;出现这种情况的原因有很多。

速度

现代处理器有多层高速缓存,数据必须通过这些缓存读取;支持单字节读取将使内存子系统的吞吐量与执行单元的吞吐量紧密绑定(又名cpu绑定);这一切都让人联想到,在硬盘驱动器中,由于许多相同的原因,DMA模式是如何超越PIO模式的。

CPU总是按它的字大小读取(32位处理器上是4字节),所以当你在支持它的处理器上进行未对齐地址访问时,处理器将读取多个字。CPU将读取请求地址横跨的内存中的每个字。这将导致访问所请求数据所需的内存事务数增加到2倍。

因此,读取两个字节很容易比读取四个字节慢。例如,你在内存中有一个结构体,它看起来像这样:

struct mystruct {
    char c;  // one byte
    int i;   // four bytes
    short s; // two bytes
}

在32位处理器上,它很可能像下面所示的那样对齐:

处理器可以在一个事务中读取这些成员。

假设你有一个结构的打包版本,可能是从网络中打包的,它是为了传输效率;它可能看起来像这样:

读取第一个字节是一样的。

当你要求处理器从0x0005中给你16位时,它将不得不从0x0004中读取一个字,并左移1字节,将其放入16位寄存器;一些额外的工作,但大多数人可以在一个周期内处理。

当您从0x0001请求32位时,您将得到2X放大。处理器将从0x0000读入结果寄存器并左移1字节,然后再次从0x0004读入临时寄存器,右移3字节,然后将其与结果寄存器OR。

范围

For any given address space, if the architecture can assume that the 2 LSBs are always 0 (e.g., 32-bit machines) then it can access 4 times more memory (the 2 saved bits can represent 4 distinct states), or the same amount of memory with 2 bits for something like flags. Taking the 2 LSBs off of an address would give you a 4-byte alignment; also referred to as a stride of 4 bytes. Each time an address is incremented it is effectively incrementing bit 2, not bit 0, i.e., the last 2 bits will always continue to be 00.

这甚至会影响系统的物理设计。如果地址总线需要少2位,那么CPU上可以少2个引脚,电路板上也可以少2个走线。

原子性

CPU可以原子地操作一个对齐的内存字,这意味着没有其他指令可以中断该操作。这对于许多无锁数据结构和其他并发范例的正确操作至关重要。

结论

处理器的内存系统比这里描述的要复杂和复杂得多;关于x86处理器如何实际处理内存的讨论可能会有所帮助(许多处理器的工作方式类似)。

在这篇IBM文章中,您可以读到坚持内存对齐的更多好处。

计算机的主要用途是转换数据。现代内存架构和技术已经经过了几十年的优化,以便以高度可靠的方式在更多更快的执行单元之间获取更多数据。

好处:缓存

我前面提到的另一种为性能而调整的方法是对缓存线进行调整(例如,在某些cpu上)。

要了解更多关于利用缓存可以获得多少性能的信息,请查看处理器缓存效果画廊;从这个关于缓存线大小的问题

理解缓存线对于某些类型的程序优化是很重要的。例如,数据的对齐方式可以决定一个操作是涉及一条还是两条缓存线。正如我们在上面的例子中看到的,这很容易意味着在不对齐的情况下,操作将慢一倍。

如果您有一个32位数据总线,连接到内存的地址总线地址行将从A2开始,因此在单个总线周期中只能访问32位对齐的地址。

因此,如果一个字跨越了一个地址对齐边界——即A0(16/32位数据)或A1(32位数据)不为零,则需要两个总线周期来获取数据。

一些架构/指令集不支持未对齐的访问,并且会在这种尝试时生成异常,因此编译器生成的未对齐访问代码不仅需要额外的总线周期,还需要额外的指令,使其效率更低。