我在我的网站的<title>中使用了HTML5和UTF-8的“&”符号。谷歌在其serp上显示与号fine,所有浏览器在其标题中也是如此。

http://validator.w3.org给了我这个:

&没有开始字符引用。(&可能应该被转义为&。)

我真的需要做&

我并不在意我的页面为了验证而验证,但我很好奇人们对这个问题的看法,以及它是否重要以及为什么重要。


当前回答

HTML5规则不同于HTML4。在HTML5中它不是必需的——除非&号看起来像一个参数名的开头。"&copy=2"仍然是一个问题,例如,因为&copy;是版权符号。

然而,在我看来,决定编码或不编码取决于下面的文本是更困难的工作。所以最简单的方法就是一直编码。

其他回答

好吧,如果它来自用户输入,那么绝对是,因为显而易见的原因。想想如果这个网站没有这样做:这个问题的标题会显示为:我真的需要将“&”编码为“&”吗?

如果它只是echo '<title>Dolce & Gabbana</title>';严格来说,你不需要这么做。这样会更好,但如果你不这样做,没有用户会注意到区别。

如果你说的是静态文本

<title>Foo & Bar</title>

存储在硬盘上的某个文件中并直接由服务器提供,那么是的:它可能不需要转义。

然而,由于现在很少有HTML内容是完全静态的,我将添加以下免责声明,假设HTML内容是从其他来源生成的(数据库内容、用户输入、web服务调用结果、遗留API结果,……):

如果你不转义一个简单的&,那么很可能你也不转义&或a &nbsp;或<b>或<script src="http://attacker.com/evil.js">或任何其他无效文本。这意味着您最多只能错误地显示您的内容,并且更有可能受到XSS攻击。

换句话说:当您已经检查和转义其他更有问题的情况时,那么几乎没有理由留下没有完全损坏但仍然有点可疑的独立&未转义的情况。

在HTML中,&标记引用的开始,无论是字符引用还是实体引用。从那时起,解析器期望一个表示字符引用的#,或者一个表示实体引用的实体名称,两者后跟一个;。这是正常的行为。

但如果引用名或引用开头的&后面跟着空格或其他分隔符,如",',<,>,&,则结尾;甚至一个表示普通符号的引用&也可以省略:

<p title="&amp;">foo &amp; bar</p>
<p title="&amp">foo &amp bar</p>
<p title="&">foo & bar</p>

只有在这些情况下,才能结束;或者甚至引用本身被省略(至少在HTML 4中)。我认为HTML 5需要结尾;。

但是规范建议总是使用字符引用&#38;或者实体引用&为了避免混淆:

作者应该使用“&”(ASCII十进制38)而不是“&”,以避免与字符引用(实体引用打开分隔符)的开头混淆。作者还应该在属性值中使用“&”,因为CDATA属性值中允许使用字符引用。

是的。正如错误所示,在HTML中,属性是#PCDATA,这意味着它们被解析了。这意味着您可以在属性中使用字符实体。使用&本身是错误的,如果不是因为浏览器宽容,而且这是HTML而不是XHTML,就会破坏解析。转义为&一切都会好起来的。

HTML5允许你不转义它,但只有当后面的数据看起来不像一个有效的字符引用。但是,最好是忽略这个符号的所有实例,而不是担心哪些应该是,哪些不需要是。

记住这一点;如果你没有转义&到&,这对你创建的数据来说已经很糟糕了(代码很可能是无效的),你也可能没有转义标记分隔符,这对用户提交的数据来说是一个巨大的问题,这很可能导致HTML和脚本注入,cookie窃取和其他漏洞。

请转义你的代码。这将在将来为您省去很多麻烦。

是的,如果可能的话,您应该尝试提供有效的代码。

大多数浏览器会无声地纠正这个错误,但是依赖浏览器中的错误处理存在一个问题。对于如何处理不正确的代码没有标准,因此每个浏览器供应商都要尝试找出如何处理每个错误,结果可能会有所不同。

一些浏览器可能会有不同反应的例子是,如果你把元素放在表格中,但在表格单元格之外,或者你把链接嵌套在彼此之间。

对于您的特定示例,它不太可能导致任何问题,但是浏览器中的错误更正可能会导致浏览器从标准兼容模式变为怪癖模式,这可能会使您的布局完全崩溃。

因此,您应该在代码中纠正这样的错误,如果没有其他错误,则可以使验证器中的错误列表保持简短,以便您可以发现更严重的问题。