什么是“缓存友好”代码？

“缓存友好代码”和“缓存友好”代码之间有什么区别？

如何确保编写缓存高效的代码？

当前回答

除了@Marc Claesen的答案之外，我认为缓存不友好代码的一个有启发性的经典例子是按列而不是按行扫描C二维数组（例如位图图像）的代码。

在一行中相邻的元素在内存中也是相邻的，因此按顺序访问它们意味着按升序访问它们；这是缓存友好的，因为缓存倾向于预取连续的内存块。

相反，按列访问这样的元素对缓存不友好，因为同一列上的元素在内存中彼此相距很远（特别是，它们的距离等于行的大小），所以当您使用这种访问模式时，您在内存中跳跃，可能会浪费缓存检索内存中附近元素的努力。

而破坏表演所需的一切就是

// Cache-friendly version - processes pixels which are adjacent in memory
for(unsigned int y=0; y<height; ++y)
{
    for(unsigned int x=0; x<width; ++x)
    {
        ... image[y][x] ...
    }
}

// Cache-unfriendly version - jumps around in memory for no good reason
for(unsigned int x=0; x<width; ++x)
{
    for(unsigned int y=0; y<height; ++y)
    {
        ... image[y][x] ...
    }
}

在具有小缓存和/或使用大阵列的系统中（例如，当前机器上的10+百万像素24bpp图像），这种效果可能非常显著（速度上有几个数量级）；因此，如果您必须进行多次垂直扫描，通常最好先将图像旋转90度，然后再执行各种分析，将缓存不友好的代码限制在旋转范围内。

2013-05-22 19:51:33

其他回答

请注意，缓存不只是缓存连续内存。它们有多行（至少4行），因此不连续和重叠的记忆通常可以同样有效地存储。

以上所有示例中缺少的是衡量基准。关于表演有很多神话。除非你测量它，否则你不知道。除非有明显的改进，否则不要使代码复杂化。

2017-02-27 04:42:54

欢迎来到面向数据设计的世界。基本的口头禅是“排序”、“消除分支”、“批处理”和“消除虚拟呼叫”，所有这些步骤都是为了更好地定位。

既然你用C++标记了这个问题，这里是强制性的典型C++废话。托尼·阿尔布雷希特（Tony Albrecht）的《面向对象编程的陷阱》也是对这一主题的一个很好的介绍。

2013-05-22 21:03:38

除了@Marc Claesen的答案之外，我认为缓存不友好代码的一个有启发性的经典例子是按列而不是按行扫描C二维数组（例如位图图像）的代码。

在一行中相邻的元素在内存中也是相邻的，因此按顺序访问它们意味着按升序访问它们；这是缓存友好的，因为缓存倾向于预取连续的内存块。

而破坏表演所需的一切就是

// Cache-friendly version - processes pixels which are adjacent in memory
for(unsigned int y=0; y<height; ++y)
{
    for(unsigned int x=0; x<width; ++x)
    {
        ... image[y][x] ...
    }
}

// Cache-unfriendly version - jumps around in memory for no good reason
for(unsigned int x=0; x<width; ++x)
{
    for(unsigned int y=0; y<height; ++y)
    {
        ... image[y][x] ...
    }
}

2013-05-22 19:51:33

简单来说：缓存不友好代码与缓存友好代码的典型例子是矩阵乘法的“缓存阻塞”。

朴素矩阵乘法看起来像：

for(i=0;i<N;i++) {
   for(j=0;j<N;j++) {
      dest[i][j] = 0;
      for( k=0;k<N;k++) {
         dest[i][j] += src1[i][k] * src2[k][j];
      }
   }
}

如果N较大，例如，如果N*sizeof（elemType）大于缓存大小，则对src2[k][j]的每次访问都将是缓存未命中。

有许多不同的方法可以优化缓存。这里有一个非常简单的示例：不要在内部循环中读取每个缓存行一个项，而是使用所有项：

int itemsPerCacheLine = CacheLineSize / sizeof(elemType);

for(i=0;i<N;i++) {
   for(j=0;j<N;j += itemsPerCacheLine ) {
      for(jj=0;jj<itemsPerCacheLine; jj+) {
         dest[i][j+jj] = 0;
      }
      for( k=0;k<N;k++) {
         for(jj=0;jj<itemsPerCacheLine; jj+) {
            dest[i][j+jj] += src1[i][k] * src2[k][j+jj];
         }
      }
   }
}

如果缓存行大小为64字节，并且我们使用32位（4字节）浮点运算，那么每个缓存行有16个项目。仅通过这种简单的转换，缓存未命中的数量就减少了大约16倍。

Fancier变换对2D平铺进行操作，优化多个缓存（L1、L2、TLB），等等。

谷歌搜索“缓存阻塞”的一些结果：

http://stumptown.cc.gt.atl.ga.us/cse6230-hpcta-fa11/slides/11a-matmul-goto.pdf

http://software.intel.com/en-us/articles/cache-blocking-techniques

一个经过优化的缓存阻塞算法的视频动画。

http://www.youtube.com/watch?v=IFWgwGMMrh0

循环平铺关系非常密切：

http://en.wikipedia.org/wiki/Loop_tiling

2013-05-29 03:50:48

正如@Marc Claesen提到的，编写缓存友好代码的方法之一是利用存储数据的结构。除此之外，编写缓存友好代码的另一种方法是：更改数据的存储方式；然后编写新代码以访问存储在该新结构中的数据。

这在数据库系统如何线性化表的元组并存储它们的情况下是有意义的。存储表的元组有两种基本方法，即行存储和列存储。行存储，顾名思义，元组是按行存储的。假设存储的名为Product的表具有3个属性，即int32_t key、char name[56]和int32_tprice，因此元组的总大小为64字节。

我们可以通过创建一个大小为N的Product结构数组来模拟主内存中非常基本的行存储查询执行，其中N是表中的行数。这种内存布局也称为结构数组。因此Product的结构可以是：

struct Product
{
   int32_t key;
   char name[56];
   int32_t price'
}

/* create an array of structs */
Product* table = new Product[N];
/* now load this array of structs, from a file etc. */

类似地，我们可以通过创建3个大小为N的数组，为Product表的每个属性创建一个数组，来模拟主内存中非常基本的列存储查询执行。这种内存布局也称为数组结构。因此，Product每个属性的3个数组可以是：

/* create separate arrays for each attribute */
int32_t* key = new int32_t[N];
char* name = new char[56*N];
int32_t* price = new int32_t[N];
/* now load these arrays, from a file etc. */

现在，在加载结构数组（行布局）和3个单独的数组（列布局）之后，我们在内存中的表Product上有行存储和列存储。

现在我们转到缓存友好的代码部分。假设我们表上的工作负载是这样的，即我们对price属性有一个聚合查询。例如

SELECT SUM(price)
FROM PRODUCT

对于行存储，我们可以将上面的SQL查询转换为

int sum = 0;
for (int i=0; i<N; i++)
   sum = sum + table[i].price;

对于列存储，我们可以将上面的SQL查询转换为

int sum = 0;
for (int i=0; i<N; i++)
   sum = sum + price[i];

在这个查询中，列存储的代码将比行布局的代码更快，因为它只需要属性的子集，而在列布局中，我们只是这样做，即只访问价格列。

假设缓存行大小为64字节。

在读取缓存行时的行布局情况下，仅读取1（cacheline_size/product_struct_size=64/64=1）元组的价格值，因为我们的结构大小为64字节，并且它填充了整个缓存行，因此在行布局的情况下，每个元组都会发生缓存未命中。

在列布局的情况下，当读取缓存行时，读取16个（cacheline_size/price_int_size=64/4=16）元组的价格值，因为存储在内存中的16个连续价格值被带到缓存中，因此在列布局情况下，每十六个元组都会出现缓存未命中。

因此，在给定查询的情况下，列布局将更快，而在表的列子集上的此类聚合查询中，列布局会更快。您可以使用TPC-H基准测试中的数据自己进行这样的实验，并比较两种布局的运行时间。维基百科关于面向列的数据库系统的文章也很好。

因此，在数据库系统中，如果预先知道查询工作负载，我们可以将数据存储在适合工作负载中查询的布局中，并从这些布局中访问数据。在上面的示例中，我们创建了一个列布局，并将代码更改为计算和，使其变得缓存友好。

2017-03-30 02:19:41

什么是“缓存友好”代码？

推荐文章

最新文章

标签