“u”和“r”字符串前缀到底做什么，什么是原始字符串文字？

实际上没有任何“原始字符串”；有一些原始字符串文字，它们正好是在开头引号前用“r”标记的字符串文字。

“原始字符串文字”是字符串文字的一种稍有不同的语法，其中反斜杠\被视为“仅反斜杠”的意思（除非它正好在引号之前，否则会终止文字）——没有“转义序列”来表示换行符、制表符、退格符、表单提要等。在正常字符串文字中，每个反斜杠必须加倍，以避免作为转义序列的开始。

这种语法变体之所以存在，主要是因为正则表达式模式的语法中有大量的反斜杠（但永远不会在末尾，所以上面的“except”子句无关紧要），并且当您避免将它们中的每一个都加倍时，它看起来会更好一些——仅此而已。它还流行于表示本机Windows文件路径（使用反斜杠代替其他平台上的正斜杠），但这很少需要（因为通常的斜杠在Windows上也很好），而且不完美（由于上面的“except”子句）。

r'…'是字节字符串（在Python 2.*中），ur'…'是一个Unicode字符串（在Python 2.*中也是如此），其他三种引号中的任何一种都会产生完全相同类型的字符串（例如，r'…'、r'…''…''、r“…”、r“”…“”都是字节字符串，依此类推）。

不知道你所说的“后退”是什么意思——没有本质上的后退和前进方向，因为没有原始字符串类型，它只是一种替代语法，可以表达完全正常的字符串对象，字节或unicode。

是的，在Python 2.*中，u'…'当然总是不同于“…”——前者是unicode字符串，后者是字节字符串。文字的编码方式是一个完全正交的问题。

例如，考虑（Python 2.6）：

>>> sys.getsizeof('ciao')
28
>>> sys.getsizeof(u'ciao')
34

当然，Unicode对象占用了更多的内存空间（很明显，对于非常短的字符串，差异很小；-）。

2010-01-17 16:38:39

实际上没有任何“原始字符串”；有一些原始字符串文字，它们正好是在开头引号前用“r”标记的字符串文字。

“原始字符串文字”是字符串文字的一种稍有不同的语法，其中反斜杠\被视为“仅反斜杠”的意思（除非它正好在引号之前，否则会终止文字）——没有“转义序列”来表示换行符、制表符、退格符、表单提要等。在正常字符串文字中，每个反斜杠必须加倍，以避免作为转义序列的开始。

这种语法变体之所以存在，主要是因为正则表达式模式的语法中有大量的反斜杠（但永远不会在末尾，所以上面的“except”子句无关紧要），并且当您避免将它们中的每一个都加倍时，它看起来会更好一些——仅此而已。它还流行于表示本机Windows文件路径（使用反斜杠代替其他平台上的正斜杠），但这很少需要（因为通常的斜杠在Windows上也很好），而且不完美（由于上面的“except”子句）。

r'…'是字节字符串（在Python 2.*中），ur'…'是一个Unicode字符串（在Python 2.*中也是如此），其他三种引号中的任何一种都会产生完全相同类型的字符串（例如，r'…'、r'…''…''、r“…”、r“”…“”都是字节字符串，依此类推）。

不知道你所说的“后退”是什么意思——没有本质上的后退和前进方向，因为没有原始字符串类型，它只是一种替代语法，可以表达完全正常的字符串对象，字节或unicode。

是的，在Python 2.*中，u'…'当然总是不同于“…”——前者是unicode字符串，后者是字节字符串。文字的编码方式是一个完全正交的问题。

例如，考虑（Python 2.6）：

>>> sys.getsizeof('ciao')
28
>>> sys.getsizeof(u'ciao')
34

当然，Unicode对象占用了更多的内存空间（很明显，对于非常短的字符串，差异很小；-）。

2010-01-17 16:38:39

让我简单解释一下：在python 2中，可以将字符串存储为两种不同的类型。

第一个是ASCII，它是python中的str类型，它使用1字节的内存。（256个字符，主要存储英文字母和简单符号）

第二种类型是UNICODE，它是python中的UNICODE类型。Unicode存储所有类型的语言。

默认情况下，python更喜欢str类型，但如果您想以unicode类型存储字符串，可以将u放在文本前面，如u'text'，也可以通过调用unicode（'text'）

所以u只是调用函数将str转换为unicode的一种简单方法。就是这样！

现在是r部分，你把它放在文本前面，告诉计算机文本是原始文本，反斜杠不应该是转义字符。r“\n”将不会创建新行字符。它只是包含2个字符的纯文本。

如果您想将str转换为unicode并将原始文本放入其中，请使用ur，因为ru会引发错误。

现在，重要的部分是：

不能使用r存储一个反斜杠，这是唯一的例外。因此，此代码将产生错误：r“\”

要存储反斜杠（仅一个），需要使用“\\”

如果您想存储1个以上的字符，您仍然可以使用r，如r“\\”，将按预期生成2个反斜杠。

我不知道r不能与一个反斜杠存储一起工作的原因，但目前还没有人描述原因。我希望这是一个bug。

2015-08-25 21:01:29

也许这是显而易见的，也许不是，但是您可以通过调用x=chr（92）来创建字符串“\”

x=chr(92)
print type(x), len(x) # <type 'str'> 1
y='\\'
print type(y), len(y) # <type 'str'> 1
x==y   # True
x is y # False

2017-05-15 07:37:24

Unicode字符串文字

Python 3中不再使用Unicode字符串文字（前缀为u的字符串文字）。它们仍然有效，但只是为了与Python 2兼容。

生字符串

如果你想创建一个字符串文字，它只包含英文字母或数字等容易键入的字符，你可以简单地键入它们：“helloworld”。但是，如果您还想包含一些更具异国情调的角色，则必须使用一些变通方法。

其中一个解决方法是Escape序列。这样，例如，只需在字符串文字中添加两个易于键入的字符，就可以在字符串中表示新行。因此，当您打印“hello\nworld”字符串时，单词将打印在单独的行上。这很方便！

另一方面，有时您可能希望在字符串中包含实际的字符\和n–您可能不希望它们被解释为新行。看看这些例子：

'New updates are ready in c:\windows\updates\new'
'In this lesson we will learn what the \n escape sequence does.'

在这种情况下，您只需在字符串文字前面加上r字符即可：r'hello\nworld'，Python不会解释转义序列。字符串将按照您创建的方式打印。

原始字符串文字不是完全“原始”的？

许多人希望原始字符串文字是原始的，因为“Python会忽略引号之间的任何内容”。这不是真的。Python仍然可以识别所有的转义序列，它只是不解释它们，而是保持它们不变。这意味着原始字符串文本仍然必须是有效的字符串文本。

从字符串文字的词法定义：

string     ::=  "'" stringitem* "'"
stringitem ::=  stringchar | escapeseq
stringchar ::=  <any source character except "\" or newline or the quote>
escapeseq  ::=  "\" <any source character>

很明显，包含空引号字符“hello'world”或以反斜杠“helloworld\”结尾的字符串文本（原始或非原始）无效。

2019-07-23 14:15:42

“原始字符串”意味着它按显示方式存储。例如，“\”只是反斜杠而不是转义。

2012-03-06 01:21:38

“u”和“r”字符串前缀到底做什么，什么是原始字符串文字？

推荐文章

最新文章

标签