URL中允许的字符

有人知道可以在GET中使用而不经过编码的完整字符列表吗?目前我使用A-Z - A-Z和0-9…但我想知道完整的名单。

我也感兴趣的是，是否会发布关于即将添加中文、阿拉伯语url的规范(显然这将对我的问题产生很大影响)。

当前回答

66个无保留字符的完整列表在RFC3986中，请访问:https://www.rfc-editor.org/rfc/rfc3986#section-2.3

这是以下正则表达式集中的任何字符:

[A-Za-z0-9_.\-~]

其他回答

URI中允许的字符要么是保留的，要么是不保留的(或者是百分比字符作为百分比编码的一部分)。

http://en.wikipedia.org/wiki/Percent-encoding#Types_of_URI_characters

说这些是RFC 3986非保留字符(第2.3节)，以及保留字符(第2.2节)，如果他们需要保留他们的特殊含义。还有一个百分比字符作为百分比编码的一部分。

我测试它通过请求我的网站(apache)与所有可用的字符在我的德语键盘作为URL参数:

http://example.com/?^1234567890ß´qwertzuiopü+asdfghjklöä#<yxcvbnm,.-°!"§$%&/()=? `QWERTZUIOPÜ*ASDFGHJKLÖÄ\'>YXCVBNM;:_²³{[]}\|µ@€~

这些没有被编码:

^0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ,.-!/()=?`*;:_{}[]\|~

urlencode()后未编码:

0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ.-_

rawurlencode()后未编码:

0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ.-_~

注意:在PHP 5.3.0之前，rawurlencode()编码~，因为RFC 1738。但它被RFC 3986所取代，所以现在可以安全使用了。但我不明白为什么{}是通过rawurlencode()编码的，因为RFC 3986中没有提到它们。

我做的另一个测试是关于邮件文本中的自动链接。我测试了Mozilla Thunderbird, aol.com, outlook.com, gmail.com, gmx.de和yahoo.de，他们完全链接包含这些字符的url:

0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ.-_~+#,%&=*;:@

当然?也有联系，但只有用过一次。

有些人现在建议只使用rawurlencode()字符，但您是否听说过有人在打开这些网站时遇到问题?

星号 http://wayback.archive.org/web/ * / http://google.com

结肠 https://en.wikipedia.org/wiki/Wikipedia:About

+ https://plus.google.com/+google

@号，冒号，逗号和感叹号 https://www.google.com/maps/place/USA/@36.2218457,…

正因为如此，这些字符应该可以在没有编码的情况下使用。当然你不应该使用&;因为编码序列像&。同样的原因也适用于%，因为它通常用于编码字符。和=，因为它为参数名赋值。

最后，我想说的是，可以使用这些未编码的:

0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ.-_~!+,*:@

但如果你希望随机生成url，你不应该使用标点符号。!，因为一些邮件应用程序不会自动链接它们:

http://example.com/?foo=bar !<最后一个字符未链接

这些都列在RFC3986中。请参阅收集的ABNF中的URI，以了解在哪里允许什么，以及用于解析/验证的正则表达式。

66个无保留字符的完整列表在RFC3986中，请访问:https://www.rfc-editor.org/rfc/rfc3986#section-2.3

这是以下正则表达式集中的任何字符:

[A-Za-z0-9_.\-~]

从这里

因此，只有字母数字，特殊字符$-_.+!*'()，以及用于their的保留字符保留目的可以在URL中未经编码使用。

推荐文章