假设a1、b1、c1和d1指向堆内存,我的数字代码具有以下核心循环。

const int n = 100000;

for (int j = 0; j < n; j++) {
    a1[j] += b1[j];
    c1[j] += d1[j];
}

该循环通过另一个外部for循环执行10000次。为了加快速度,我将代码更改为:

for (int j = 0; j < n; j++) {
    a1[j] += b1[j];
}

for (int j = 0; j < n; j++) {
    c1[j] += d1[j];
}

在Microsoft Visual C++10.0上编译,经过完全优化,并在Intel Core 2 Duo(x64)上启用了32位SSE2,第一个示例耗时5.5秒,双循环示例仅需1.9秒。

第一个循环的反汇编基本上是这样的(在整个程序中,这个块重复了大约五次):

movsd       xmm0,mmword ptr [edx+18h]
addsd       xmm0,mmword ptr [ecx+20h]
movsd       mmword ptr [ecx+20h],xmm0
movsd       xmm0,mmword ptr [esi+10h]
addsd       xmm0,mmword ptr [eax+30h]
movsd       mmword ptr [eax+30h],xmm0
movsd       xmm0,mmword ptr [edx+20h]
addsd       xmm0,mmword ptr [ecx+28h]
movsd       mmword ptr [ecx+28h],xmm0
movsd       xmm0,mmword ptr [esi+18h]
addsd       xmm0,mmword ptr [eax+38h]

双循环示例的每个循环都会生成此代码(以下块重复大约三次):

addsd       xmm0,mmword ptr [eax+28h]
movsd       mmword ptr [eax+28h],xmm0
movsd       xmm0,mmword ptr [ecx+20h]
addsd       xmm0,mmword ptr [eax+30h]
movsd       mmword ptr [eax+30h],xmm0
movsd       xmm0,mmword ptr [ecx+28h]
addsd       xmm0,mmword ptr [eax+38h]
movsd       mmword ptr [eax+38h],xmm0
movsd       xmm0,mmword ptr [ecx+30h]
addsd       xmm0,mmword ptr [eax+40h]
movsd       mmword ptr [eax+40h],xmm0

事实证明,这个问题无关紧要,因为行为严重依赖于数组(n)和CPU缓存的大小。因此,如果有进一步的兴趣,我会重新表述这个问题:

您能否深入了解导致不同缓存行为的细节,如下图中的五个区域所示?通过为这些CPU提供类似的图表,指出CPU/缓存架构之间的差异可能也很有趣。

这是完整的代码。它使用TBB Tick_Count进行更高分辨率的计时,可以通过不定义TBB_timing宏来禁用:

#include <iostream>
#include <iomanip>
#include <cmath>
#include <string>

//#define TBB_TIMING

#ifdef TBB_TIMING   
#include <tbb/tick_count.h>
using tbb::tick_count;
#else
#include <time.h>
#endif

using namespace std;

//#define preallocate_memory new_cont

enum { new_cont, new_sep };

double *a1, *b1, *c1, *d1;


void allo(int cont, int n)
{
    switch(cont) {
      case new_cont:
        a1 = new double[n*4];
        b1 = a1 + n;
        c1 = b1 + n;
        d1 = c1 + n;
        break;
      case new_sep:
        a1 = new double[n];
        b1 = new double[n];
        c1 = new double[n];
        d1 = new double[n];
        break;
    }

    for (int i = 0; i < n; i++) {
        a1[i] = 1.0;
        d1[i] = 1.0;
        c1[i] = 1.0;
        b1[i] = 1.0;
    }
}

void ff(int cont)
{
    switch(cont){
      case new_sep:
        delete[] b1;
        delete[] c1;
        delete[] d1;
      case new_cont:
        delete[] a1;
    }
}

double plain(int n, int m, int cont, int loops)
{
#ifndef preallocate_memory
    allo(cont,n);
#endif

#ifdef TBB_TIMING   
    tick_count t0 = tick_count::now();
#else
    clock_t start = clock();
#endif
        
    if (loops == 1) {
        for (int i = 0; i < m; i++) {
            for (int j = 0; j < n; j++){
                a1[j] += b1[j];
                c1[j] += d1[j];
            }
        }
    } else {
        for (int i = 0; i < m; i++) {
            for (int j = 0; j < n; j++) {
                a1[j] += b1[j];
            }
            for (int j = 0; j < n; j++) {
                c1[j] += d1[j];
            }
        }
    }
    double ret;

#ifdef TBB_TIMING   
    tick_count t1 = tick_count::now();
    ret = 2.0*double(n)*double(m)/(t1-t0).seconds();
#else
    clock_t end = clock();
    ret = 2.0*double(n)*double(m)/(double)(end - start) *double(CLOCKS_PER_SEC);
#endif
    
#ifndef preallocate_memory
    ff(cont);
#endif

    return ret;
}


void main()
{   
    freopen("C:\\test.csv", "w", stdout);

    char *s = " ";

    string na[2] ={"new_cont", "new_sep"};

    cout << "n";

    for (int j = 0; j < 2; j++)
        for (int i = 1; i <= 2; i++)
#ifdef preallocate_memory
            cout << s << i << "_loops_" << na[preallocate_memory];
#else
            cout << s << i << "_loops_" << na[j];
#endif
            
    cout << endl;

    long long nmax = 1000000;

#ifdef preallocate_memory
    allo(preallocate_memory, nmax);
#endif
    
    for (long long n = 1L; n < nmax; n = max(n+1, long long(n*1.2)))
    {
        const long long m = 10000000/n;
        cout << n;

        for (int j = 0; j < 2; j++)
            for (int i = 1; i <= 2; i++)
                cout << s << plain(n, m, j, i);
        cout << endl;
    }
}

它显示了n的不同值的FLOP/s。


当前回答

第二个循环涉及的缓存活动更少,因此处理器更容易跟上内存需求。

其他回答

第二个循环涉及的缓存活动更少,因此处理器更容易跟上内存需求。

这不是因为不同的代码,而是因为缓存:RAM比CPU寄存器慢,并且CPU内部有一个缓存,以避免每次变量发生变化时都写入RAM。但是缓存并不像RAM那么大,因此它只映射了其中的一小部分。

第一个代码在每个循环中交替修改远程内存地址,因此需要不断地使缓存无效。

第二个代码不交替:它只在相邻地址上流动两次。这使得所有作业都在缓存中完成,只有在第二个循环开始后才使其无效。

它可能是旧的C++和优化。在我的电脑上,我获得了几乎相同的速度:

单回路:1.577 ms

两个回路:1.507 ms

我在E5-1620 3.5 GHz处理器和16 GB RAM上运行Visual Studio 2015。

假设您正在一台机器上工作,其中n正好是一个正确的值,它只可能同时在内存中存储两个阵列,但通过磁盘缓存,可用的总内存仍然足以存储所有四个阵列。

假设一个简单的LIFO缓存策略,下面的代码:

for(int j=0;j<n;j++){
    a[j] += b[j];
}
for(int j=0;j<n;j++){
    c[j] += d[j];
}

首先将a和b加载到RAM中,然后完全在RAM中工作。当第二个循环开始时,c和d将从磁盘加载到RAM并在其上运行。

另一个回路

for(int j=0;j<n;j++){
    a[j] += b[j];
    c[j] += d[j];
}

每次循环时,都会调出两个数组并调入另两个数组。这显然要慢得多。

您可能在测试中没有看到磁盘缓存,但可能看到了其他形式缓存的副作用。


这里似乎有一点困惑/误解,所以我将尝试用一个例子来阐述一点。

假设n=2,我们正在处理字节。在我的场景中,我们只有4个字节的RAM,而我们的内存的其余部分则要慢得多(比如100倍的访问时间)。

假设一个相当愚蠢的缓存策略,即如果字节不在缓存中,那么将其放在那里,并在我们进行时获得以下字节,您将得到类似这样的场景:

具有对于(int j=0;j<n;j++){a[j]+=b[j];}对于(int j=0;j<n;j++){c[j]+=d[j];}缓存a[0]和a[1],然后是b[0]和b[1],并在缓存中设置a[0]=a[0]+b[0]-缓存中现在有四个字节,a[0]、a[1]和b[0]、b[1]。成本=100+100。在缓存中设置a[1]=a[1]+b[1]。成本=1+1。对c和d重复上述步骤。总成本=(100+100+1+1)*2=404具有对于(int j=0;j<n;j++){a[j]+=b[j];c[j]+=d[j];}缓存a[0]和a[1],然后是b[0]和b[1],并在缓存中设置a[0]=a[0]+b[0]-缓存中现在有四个字节,a[0]、a[1]和b[0]、b[1]。成本=100+100。从缓存和缓存c[0]和c[1]中弹出a[0]、a[1]、b[0]和b[1],然后是d[0]和d[1],并在缓存中设置c[0]=c[0]+d[0]。成本=100+100。我怀疑你开始明白我要去哪里了。总成本=(100+100+100+100)*2=800

这是一个经典的缓存抖动场景。

这是因为CPU没有太多缓存未命中(它必须等待来自RAM芯片的阵列数据)。您可以不断调整数组的大小,使其超过CPU的一级缓存(L1)和二级缓存(L2)的大小,并根据数组的大小绘制代码执行所需的时间。图表不应该像你期望的那样是一条直线。