在XML中什么是无效字符

我正在使用一些包含字符串的XML:

<node>This is a string</node>

我传递给节点的一些字符串将有&，#，$等字符:

<node>This is a string & so is this</node>

由于&，这是无效的。

我不能在CDATA中包装这些字符串，因为它们需要这样。我尝试寻找一个字符列表，这些字符不能放在XML节点中，而不能放在CDATA中。

有人能给我指个方向或者给我一份非法字符的列表吗?

当前回答

好的，让我们把角色的问题分开

在任何XML文档中都无效。需要逃脱。

“https://stackoverflow.com/questions/730133/invalid-characters-in-xml/5110103#5110103”中@dolmen提供的答案仍然有效，但需要使用XML 1.1规范进行更新。

1. 无效字符

这里描述的字符是允许在XML文档中插入的所有字符。

1.1. 在XML 1.0中

参考:参见XML推荐1.0，§2.2字符

允许字符的全局列表是:

[2] Char::= #x9 | #xA | #xD | [#x20-#xD7FF] | [#xE000-#xFFFD] | [#x10000-#x10FFFF] /*任何Unicode字符，不包括代理块FFFE和FFFF。* /

基本上，控制字符和超出Unicode范围的字符是不允许的。这也意味着调用字符实体是被禁止的。

1.2. XML 1.1中

参考:参见XML推荐1.1、§2.2字符和1.3 XML 1.1的基本原理和更改列表

允许字符的全局列表是:

[2] Char::= [#x1-#xD7FF] | [#xE000-#xFFFD] | [#x10000-#x10FFFF] /*任何Unicode字符，不包括代理块FFFE和FFFF。* /

(2a) RestrictedChar ::= [# 已发现x1 - x8] | [# - # xC] | [/ xE - x1F] | [/ x7F - x84] | [/ x86 - x9F]

XML建议的修订扩展了允许的字符，因此允许使用控制字符，并考虑到Unicode标准的新修订，但仍然不允许使用这些字符:NUL (x00)、xFFFE、xFFFF……

但是，不鼓励使用控制字符和未定义的Unicode字符。

还可以注意到，并非所有解析器都考虑到这一点，带有控制字符的XML文档可能会被拒绝。

2. 需要转义的字符(以获得格式良好的文档):

<必须用&#60转义;实体，因为它被假定为标记的开始。

&必须用&#38转义;实体，因为它被假定为实体引用的开始

>应该用>实体。它不是强制性的——它取决于上下文——但强烈建议避免使用它。

'应该用'Entity——在单引号内定义的属性中是强制的，但强烈建议总是转义它。

"应该用"Entity——在双引号中定义的属性中是强制的，但强烈建议总是转义它。

2015-01-26 14:59:29

其他回答

预先声明的字符是:

& < > " '

有关更多信息，请参阅“XML中的特殊字符是什么?”

2009-04-08 13:59:20

这是一个c#代码，用于从字符串中删除XML无效字符并返回一个新的有效字符串。

public static string CleanInvalidXmlChars(string text) 
{ 
    // From xml spec valid chars: 
    // #x9 | #xA | #xD | [#x20-#xD7FF] | [#xE000-#xFFFD] | [#x10000-#x10FFFF]     
    // any Unicode character, excluding the surrogate blocks, FFFE, and FFFF. 
    string re = @"[^\x09\x0A\x0D\x20-\uD7FF\uE000-\uFFFD\u10000-\u10FFFF]"; 
    return Regex.Replace(text, re, ""); 
}

2013-01-14 17:31:18

ampersand (&) is escaped to &amp;

double quotes (") are escaped to &quot;

single quotes (') are escaped to &apos; 

less than (<) is escaped to &lt; 

greater than (>) is escaped to &gt;

在c#中，使用system . security . securyelement.escape或System.Net.WebUtility.HtmlEncode来转义这些非法字符。

string xml = "<node>it's my \"node\" & i like it 0x12 x09 x0A  0x09 0x0A <node>";
string encodedXml1 = System.Security.SecurityElement.Escape(xml);
string encodedXml2= System.Net.WebUtility.HtmlEncode(xml);


encodedXml1
"&lt;node&gt;it&apos;s my &quot;node&quot; &amp; i like it 0x12 x09 x0A  0x09 0x0A &lt;node&gt;"

encodedXml2
"&lt;node&gt;it&#39;s my &quot;node&quot; &amp; i like it 0x12 x09 x0A  0x09 0x0A &lt;node&gt;"

2016-11-17 17:55:43

除了potame的答案，如果你想转义使用CDATA块。

如果你把你的文本放在一个CDATA块，那么你不需要使用转义。在这种情况下，您可以使用以下范围内的所有字符:

注意:除此之外，您不允许使用]]>字符序列。因为它将匹配CDATA块的末尾。

如果仍然存在无效字符(例如控制字符)，那么可能最好使用某种编码(例如base64)。

2017-01-30 14:07:36

好的，让我们把角色的问题分开

在任何XML文档中都无效。需要逃脱。

“https://stackoverflow.com/questions/730133/invalid-characters-in-xml/5110103#5110103”中@dolmen提供的答案仍然有效，但需要使用XML 1.1规范进行更新。

1. 无效字符

这里描述的字符是允许在XML文档中插入的所有字符。

1.1. 在XML 1.0中

参考:参见XML推荐1.0，§2.2字符

允许字符的全局列表是:

[2] Char::= #x9 | #xA | #xD | [#x20-#xD7FF] | [#xE000-#xFFFD] | [#x10000-#x10FFFF] /*任何Unicode字符，不包括代理块FFFE和FFFF。* /

基本上，控制字符和超出Unicode范围的字符是不允许的。这也意味着调用字符实体是被禁止的。

1.2. XML 1.1中

参考:参见XML推荐1.1、§2.2字符和1.3 XML 1.1的基本原理和更改列表

允许字符的全局列表是:

[2] Char::= [#x1-#xD7FF] | [#xE000-#xFFFD] | [#x10000-#x10FFFF] /*任何Unicode字符，不包括代理块FFFE和FFFF。* /

(2a) RestrictedChar ::= [# 已发现x1 - x8] | [# - # xC] | [/ xE - x1F] | [/ x7F - x84] | [/ x86 - x9F]

XML建议的修订扩展了允许的字符，因此允许使用控制字符，并考虑到Unicode标准的新修订，但仍然不允许使用这些字符:NUL (x00)、xFFFE、xFFFF……

但是，不鼓励使用控制字符和未定义的Unicode字符。

还可以注意到，并非所有解析器都考虑到这一点，带有控制字符的XML文档可能会被拒绝。

2. 需要转义的字符(以获得格式良好的文档):

<必须用&#60转义;实体，因为它被假定为标记的开始。

&必须用&#38转义;实体，因为它被假定为实体引用的开始

>应该用>实体。它不是强制性的——它取决于上下文——但强烈建议避免使用它。

'应该用'Entity——在单引号内定义的属性中是强制的，但强烈建议总是转义它。

"应该用"Entity——在双引号中定义的属性中是强制的，但强烈建议总是转义它。

2015-01-26 14:59:29

在XML中什么是无效字符

推荐文章

最新文章

标签