#include <stdio.h>
int main(void)
{
int i = 0;
i = i++ + ++i;
printf("%d\n", i); // 3
i = 1;
i = (i++);
printf("%d\n", i); // 2 Should be 1, no ?
volatile int u = 0;
u = u++ + ++u;
printf("%d\n", u); // 1
u = 1;
u = (u++);
printf("%d\n", u); // 2 Should also be one, no ?
register int v = 0;
v = v++ + ++v;
printf("%d\n", v); // 3 (Should be the same as u ?)
int w = 0;
printf("%d %d\n", ++w, w); // shouldn't this print 1 1
int x[2] = { 5, 8 }, y = 0;
x[y] = y ++;
printf("%d %d\n", x[0], x[1]); // shouldn't this print 0 8? or 5 0?
}
当前回答
你的问题可能不是“为什么这些构念在C语言中是未定义的行为?”你的问题可能是,“为什么这段代码(使用++)没有给我预期的值?”,有人将你的问题标记为重复,并将你发送到这里。
这个答案试图回答这个问题:为什么您的代码没有给您预期的答案,以及您如何学会识别(和避免)不能按预期工作的表达式。
我假设您已经听说了C的c++和——操作符的基本定义,以及前缀形式++x与后缀形式x++的区别。但是这些运算符很难理解,所以为了确保你理解了,也许你写了一个很小的测试程序,涉及到
int x = 5;
printf("%d %d %d\n", x, ++x, x++);
但是,让你惊讶的是,这个程序并没有帮助你理解——它输出了一些奇怪的、无法解释的输出,这表明++可能做了一些完全不同的事情,完全不是你想的那样。
或者,也许你正在看到一个难以理解的表达,比如
int x = 5;
x = x++ + ++x;
printf("%d\n", x);
也许有人把代码作为谜题给你。这段代码也没有意义,特别是在运行它的时候——如果在两个不同的编译器下编译和运行它,可能会得到两个不同的答案!这是怎么回事?哪个答案是正确的?(答案是两者都是,或者都不是。)
正如您现在所听到的,这些表达式是未定义的,这意味着C语言不能保证它们将做什么。这是一个奇怪而令人不安的结果,因为您可能认为您可以编写的任何程序,只要它编译并运行,就会生成一个唯一的、定义良好的输出。但在未定义行为的情况下,就不是这样了。
什么使表达式没有定义?包含++和——的表达式总是未定义的吗?当然不是:这些都是有用的运算符,如果使用得当,它们的定义是完美的。
对于我们正在讨论的表达式,当同时发生太多事情时,当我们无法说出事情发生的顺序,但当顺序对我们得到的结果很重要时,它们就没有定义了。
让我们回到我在这个回答中使用的两个例子。当我写的时候
printf("%d %d %d\n", x, ++x, x++);
the question is, before actually calling printf, does the compiler compute the value of x first, or x++, or maybe ++x? But it turns out we don't know. There's no rule in C which says that the arguments to a function get evaluated left-to-right, or right-to-left, or in some other order. So we can't say whether the compiler will do x first, then ++x, then x++, or x++ then ++x then x, or some other order. But the order clearly matters, because depending on which order the compiler uses, we'll clearly get a different series of numbers printed out.
那么这个疯狂的表达呢?
x = x++ + ++x;
The problem with this expression is that it contains three different attempts to modify the value of x: (1) the x++ part tries to take x's value, add 1, store the new value in x, and return the old value; (2) the ++x part tries to take x's value, add 1, store the new value in x, and return the new value; and (3) the x = part tries to assign the sum of the other two back to x. Which of those three attempted assignments will "win"? Which of the three values will actually determine the final value of x? Again, and perhaps surprisingly, there's no rule in C to tell us.
You might imagine that precedence or associativity or left-to-right evaluation tells you what order things happen in, but they do not. You may not believe me, but please take my word for it, and I'll say it again: precedence and associativity do not determine every aspect of the evaluation order of an expression in C. In particular, if within one expression there are multiple different spots where we try to assign a new value to something like x, precedence and associativity do not tell us which of those attempts happens first, or last, or anything.
有了这些背景知识和介绍,如果你想确保你所有的程序都是定义良好的,哪些表达式可以写,哪些表达式不能写?
这些表达都不错:
y = x++;
z = x++ + y++;
x = x + 1;
x = a[i++];
x = a[i++] + b[j++];
x[i++] = a[j++] + b[k++];
x = *p++;
x = *p++ + *q++;
这些表达式都是未定义的:
x = x++;
x = x++ + ++x;
y = x + x++;
a[i] = i++;
a[i++] = i;
printf("%d %d %d\n", x, ++x, x++);
最后一个问题是,你如何分辨哪些表达式是定义良好的,哪些表达式是未定义的?
就像我之前说的,未定义表达式是那些同时有太多事情发生的表达式,你不能确定事情发生的顺序,以及顺序在哪里很重要:
如果有一个变量在两个或多个不同的地方被修改(赋值给),您如何知道哪个修改先发生? 如果有一个变量在一个地方被修改,而它的值在另一个地方被使用,你怎么知道它使用的是旧值还是新值?
以#1为例,在表达式中
x = x++ + ++x;
有三次修改x的尝试。
作为#2的例子,在表达式中
y = x + x++;
我们都使用x的值,并修改它。
所以这就是答案:确保在您编写的任何表达式中,每个变量最多被修改一次,如果一个变量被修改,您也不要试图在其他地方使用该变量的值。
还有一件事。您可能想知道如何“修复”我在回答这个问题时提出的未定义表达式。
在printf("%d %d %d\n", x, ++x, x++);的情况下,这很简单-只需将它写成三个独立的printf调用:
printf("%d ", x);
printf("%d ", ++x);
printf("%d\n", x++);
现在行为已经完全定义好了,您将得到合理的结果。
另一方面,在x = x++ + ++x的情况下,没有办法修复它。没有办法编写它来保证它的行为符合您的期望——但这没关系,因为无论如何在实际程序中都不会编写像x = x++ + ++x这样的表达式。
其他回答
只要编译和反汇编你的代码行,如果你如此倾向于知道它是如何得到你所得到的。
这是我从我的机器上得到的,以及我认为正在发生的事情:
$ cat evil.c
void evil(){
int i = 0;
i+= i++ + ++i;
}
$ gcc evil.c -c -o evil.bin
$ gdb evil.bin
(gdb) disassemble evil
Dump of assembler code for function evil:
0x00000000 <+0>: push %ebp
0x00000001 <+1>: mov %esp,%ebp
0x00000003 <+3>: sub $0x10,%esp
0x00000006 <+6>: movl $0x0,-0x4(%ebp) // i = 0 i = 0
0x0000000d <+13>: addl $0x1,-0x4(%ebp) // i++ i = 1
0x00000011 <+17>: mov -0x4(%ebp),%eax // j = i i = 1 j = 1
0x00000014 <+20>: add %eax,%eax // j += j i = 1 j = 2
0x00000016 <+22>: add %eax,-0x4(%ebp) // i += j i = 3
0x00000019 <+25>: addl $0x1,-0x4(%ebp) // i++ i = 4
0x0000001d <+29>: leave
0x0000001e <+30>: ret
End of assembler dump.
(我…假设0x00000014指令是某种编译器优化?)
在https://stackoverflow.com/questions/29505280/incrementing-array-index-in-c网站上,有人问了这样一个句子:
int k[] = {0,1,2,3,4,5,6,7,8,9,10};
int i = 0;
int num;
num = k[++i+k[++i]] + k[++i];
printf("%d", num);
打印7…OP期望它打印6。
++i增量不能保证在剩余的计算之前全部完成。事实上,不同的编译器会得到不同的结果。在您提供的示例中,执行前2个++i,然后读取k[]的值,然后读取最后一个++i,然后读取k[]。
num = k[i+1]+k[i+2] + k[i+3];
i += 3
现代编译器可以很好地优化这一点。事实上,可能比您最初编写的代码更好(假设它按您希望的方式工作)。
虽然像a = a++或a++ + a++这样的表达式的语法是合法的,但这些结构的行为是未定义的,因为在C标准中不遵守shall。C99 6.5 p2:
在前一个序列点和下一个序列点之间,通过表达式求值,对象的存储值最多修改一次。[72]此外,前面的值只能被读取,以确定要存储的值[73]
脚注73进一步澄清
本段给出了未定义的语句表达式,如 I = ++ I + 1; A [i++] = i; 同时允许 I = I + 1; A [i] = i;
各序列点列于C11(和C99)的附件C:
The following are the sequence points described in 5.1.2.3: Between the evaluations of the function designator and actual arguments in a function call and the actual call. (6.5.2.2). Between the evaluations of the first and second operands of the following operators: logical AND && (6.5.13); logical OR || (6.5.14); comma , (6.5.17). Between the evaluations of the first operand of the conditional ? : operator and whichever of the second and third operands is evaluated (6.5.15). The end of a full declarator: declarators (6.7.6); Between the evaluation of a full expression and the next full expression to be evaluated. The following are full expressions: an initializer that is not part of a compound literal (6.7.9); the expression in an expression statement (6.8.3); the controlling expression of a selection statement (if or switch) (6.8.4); the controlling expression of a while or do statement (6.8.5); each of the (optional) expressions of a for statement (6.8.5.3); the (optional) expression in a return statement (6.8.6.4). Immediately before a library function returns (7.1.4). After the actions associated with each formatted input/output function conversion specifier (7.21.6, 7.29.2). Immediately before and immediately after each call to a comparison function, and also between any call to a comparison function and any movement of the objects passed as arguments to that call (7.22.5).
C11同一段的措词是:
如果标量对象上的副作用相对于同一标量对象上的不同副作用或使用同一标量对象的值进行的值计算没有排序,则行为未定义。如果一个表达式的子表达式有多个允许的顺序,那么如果这种未排序的副作用出现在任意一个顺序中,则该行为是未定义的。
您可以在程序中检测此类错误,例如使用带有-Wall和-Werror的最新版本的GCC,然后GCC将直接拒绝编译您的程序。gcc (Ubuntu 6.2.0-5ubuntu12) 6.2.0 20161005的输出如下:
% gcc plusplus.c -Wall -Werror -pedantic
plusplus.c: In function ‘main’:
plusplus.c:6:6: error: operation on ‘i’ may be undefined [-Werror=sequence-point]
i = i++ + ++i;
~~^~~~~~~~~~~
plusplus.c:6:6: error: operation on ‘i’ may be undefined [-Werror=sequence-point]
plusplus.c:10:6: error: operation on ‘i’ may be undefined [-Werror=sequence-point]
i = (i++);
~~^~~~~~~
plusplus.c:14:6: error: operation on ‘u’ may be undefined [-Werror=sequence-point]
u = u++ + ++u;
~~^~~~~~~~~~~
plusplus.c:14:6: error: operation on ‘u’ may be undefined [-Werror=sequence-point]
plusplus.c:18:6: error: operation on ‘u’ may be undefined [-Werror=sequence-point]
u = (u++);
~~^~~~~~~
plusplus.c:22:6: error: operation on ‘v’ may be undefined [-Werror=sequence-point]
v = v++ + ++v;
~~^~~~~~~~~~~
plusplus.c:22:6: error: operation on ‘v’ may be undefined [-Werror=sequence-point]
cc1: all warnings being treated as errors
重要的部分是知道什么是序列点,什么是序列点,什么不是。例如,逗号操作符是一个序列点,所以
j = (i ++, ++ i);
定义良好,并将I加1,得到旧值,丢弃旧值;然后在逗号运算符,解决副作用;然后将I加1,结果值就变成了表达式的值——也就是说,这只是一种写j = (I += 2)的人为方法,这也是一种“聪明”的写法
i += 2;
j = i;
然而,函数参数列表中的,不是逗号操作符,并且在不同参数的计算之间没有序列点;相反,他们对彼此的评价是没有顺序的;函数调用
int i = 0;
printf("%d %d\n", i++, ++i, i);
具有未定义的行为,因为在函数参数中i++和++i的计算之间没有序列点,因此i的值在前一个序列点和下一个序列点之间被i++和++i修改了两次。
你的问题可能不是“为什么这些构念在C语言中是未定义的行为?”你的问题可能是,“为什么这段代码(使用++)没有给我预期的值?”,有人将你的问题标记为重复,并将你发送到这里。
这个答案试图回答这个问题:为什么您的代码没有给您预期的答案,以及您如何学会识别(和避免)不能按预期工作的表达式。
我假设您已经听说了C的c++和——操作符的基本定义,以及前缀形式++x与后缀形式x++的区别。但是这些运算符很难理解,所以为了确保你理解了,也许你写了一个很小的测试程序,涉及到
int x = 5;
printf("%d %d %d\n", x, ++x, x++);
但是,让你惊讶的是,这个程序并没有帮助你理解——它输出了一些奇怪的、无法解释的输出,这表明++可能做了一些完全不同的事情,完全不是你想的那样。
或者,也许你正在看到一个难以理解的表达,比如
int x = 5;
x = x++ + ++x;
printf("%d\n", x);
也许有人把代码作为谜题给你。这段代码也没有意义,特别是在运行它的时候——如果在两个不同的编译器下编译和运行它,可能会得到两个不同的答案!这是怎么回事?哪个答案是正确的?(答案是两者都是,或者都不是。)
正如您现在所听到的,这些表达式是未定义的,这意味着C语言不能保证它们将做什么。这是一个奇怪而令人不安的结果,因为您可能认为您可以编写的任何程序,只要它编译并运行,就会生成一个唯一的、定义良好的输出。但在未定义行为的情况下,就不是这样了。
什么使表达式没有定义?包含++和——的表达式总是未定义的吗?当然不是:这些都是有用的运算符,如果使用得当,它们的定义是完美的。
对于我们正在讨论的表达式,当同时发生太多事情时,当我们无法说出事情发生的顺序,但当顺序对我们得到的结果很重要时,它们就没有定义了。
让我们回到我在这个回答中使用的两个例子。当我写的时候
printf("%d %d %d\n", x, ++x, x++);
the question is, before actually calling printf, does the compiler compute the value of x first, or x++, or maybe ++x? But it turns out we don't know. There's no rule in C which says that the arguments to a function get evaluated left-to-right, or right-to-left, or in some other order. So we can't say whether the compiler will do x first, then ++x, then x++, or x++ then ++x then x, or some other order. But the order clearly matters, because depending on which order the compiler uses, we'll clearly get a different series of numbers printed out.
那么这个疯狂的表达呢?
x = x++ + ++x;
The problem with this expression is that it contains three different attempts to modify the value of x: (1) the x++ part tries to take x's value, add 1, store the new value in x, and return the old value; (2) the ++x part tries to take x's value, add 1, store the new value in x, and return the new value; and (3) the x = part tries to assign the sum of the other two back to x. Which of those three attempted assignments will "win"? Which of the three values will actually determine the final value of x? Again, and perhaps surprisingly, there's no rule in C to tell us.
You might imagine that precedence or associativity or left-to-right evaluation tells you what order things happen in, but they do not. You may not believe me, but please take my word for it, and I'll say it again: precedence and associativity do not determine every aspect of the evaluation order of an expression in C. In particular, if within one expression there are multiple different spots where we try to assign a new value to something like x, precedence and associativity do not tell us which of those attempts happens first, or last, or anything.
有了这些背景知识和介绍,如果你想确保你所有的程序都是定义良好的,哪些表达式可以写,哪些表达式不能写?
这些表达都不错:
y = x++;
z = x++ + y++;
x = x + 1;
x = a[i++];
x = a[i++] + b[j++];
x[i++] = a[j++] + b[k++];
x = *p++;
x = *p++ + *q++;
这些表达式都是未定义的:
x = x++;
x = x++ + ++x;
y = x + x++;
a[i] = i++;
a[i++] = i;
printf("%d %d %d\n", x, ++x, x++);
最后一个问题是,你如何分辨哪些表达式是定义良好的,哪些表达式是未定义的?
就像我之前说的,未定义表达式是那些同时有太多事情发生的表达式,你不能确定事情发生的顺序,以及顺序在哪里很重要:
如果有一个变量在两个或多个不同的地方被修改(赋值给),您如何知道哪个修改先发生? 如果有一个变量在一个地方被修改,而它的值在另一个地方被使用,你怎么知道它使用的是旧值还是新值?
以#1为例,在表达式中
x = x++ + ++x;
有三次修改x的尝试。
作为#2的例子,在表达式中
y = x + x++;
我们都使用x的值,并修改它。
所以这就是答案:确保在您编写的任何表达式中,每个变量最多被修改一次,如果一个变量被修改,您也不要试图在其他地方使用该变量的值。
还有一件事。您可能想知道如何“修复”我在回答这个问题时提出的未定义表达式。
在printf("%d %d %d\n", x, ++x, x++);的情况下,这很简单-只需将它写成三个独立的printf调用:
printf("%d ", x);
printf("%d ", ++x);
printf("%d\n", x++);
现在行为已经完全定义好了,您将得到合理的结果。
另一方面,在x = x++ + ++x的情况下,没有办法修复它。没有办法编写它来保证它的行为符合您的期望——但这没关系,因为无论如何在实际程序中都不会编写像x = x++ + ++x这样的表达式。
回答这个问题的另一种方法是,不要陷入序列点和未定义行为的神秘细节中,而是简单地问,它们应该是什么意思?程序员试图做什么?
第一个片段,i = i++ + ++i,在我的书中很明显是疯狂的。没有人会把它写进真正的程序中,它的功能并不明显,没有人会尝试编写的算法会导致这种特殊的人为操作序列。因为你我都不清楚它应该做什么,所以在我的书中,如果编译器不能弄清楚它应该做什么也没关系。
第二个片段i = i++比较容易理解。很明显,有人试图增加i,并将结果赋值回给i。但是在c中有几种方法可以做到这一点。将1加到i,并将结果赋值回给i,这在几乎任何编程语言中都是相同的:
i = i + 1
当然,C有一个方便的快捷方式:
i++
这意味着,“将1加到i,并将结果赋给i”。所以如果我们通过写作来构造一个两者的大杂烩
i = i++
我们真正说的是“给i加1,然后把结果赋给i,再把结果赋给i”我们感到困惑,所以如果编译器也感到困惑,也不会太困扰我。
实际上,只有当人们将这些疯狂的表达式用作c++应该如何工作的人为示例时,才会写出这些疯狂的表达式。当然,理解++的工作原理也很重要。但使用++的一个实际规则是,“如果使用++的表达式的含义不明显,就不要写它。”
我们曾经在comp.lang.c上花了无数个小时讨论这样的表达式以及为什么它们是未定义的。我的两个较长的回答,试图真正解释为什么,被存档在网络上:
为什么标准没有定义它们的作用? 运算符的优先级不是决定求值的顺序吗?
请参见问题3.8和C常见问题列表第三部分的其他问题。