我正在做一个有文章的网站,我需要文章有“友好”的url,基于标题。

例如,如果我的文章标题是“文章测试”,我希望URL是http://www.example.com/articles/article_test。

但是,文章标题(与任何字符串一样)可以包含多个特殊字符,这些字符不可能直接放在我的URL中。比如说,我知道?或#需要被替换,但我不知道所有其他。

url中允许使用哪些字符?什么东西是安全的?


当前回答

总是安全的

在理论上和规范上,除了域名之外,这些基本在任何地方都是安全的。对未列出的内容进行百分比编码,就可以开始了。

    A-Z a-z 0-9 - . _ ~ ( ) ' ! * : @ , ;

有时安全

只有在特定URL组件中使用才安全;小心使用。

    Paths:     + & =
    Queries:   ? /
    Fragments: ? / # + & =
    

不安全的

根据URI规范(RFC 3986),所有其他字符必须用百分比编码。这包括:

    <space> <control-characters> <extended-ascii> <unicode>
    % < > [ ] { } | \ ^
    

如果最大兼容性是一个问题,限制字符集为a-z a-z 0-9 - _。(仅对文件名扩展名使用句点)。

牢记语境

即使根据规范有效,URL仍然可能是“不安全的”,这取决于上下文。例如包含无效文件名字符的file:/// URL,或者不用作分隔符时包含“?”、“=”和“&”的查询组件。这些情况的正确处理通常取决于您的脚本,并且可以解决,但这是需要记住的事情。

其他回答

总是安全的

在理论上和规范上,除了域名之外,这些基本在任何地方都是安全的。对未列出的内容进行百分比编码,就可以开始了。

    A-Z a-z 0-9 - . _ ~ ( ) ' ! * : @ , ;

有时安全

只有在特定URL组件中使用才安全;小心使用。

    Paths:     + & =
    Queries:   ? /
    Fragments: ? / # + & =
    

不安全的

根据URI规范(RFC 3986),所有其他字符必须用百分比编码。这包括:

    <space> <control-characters> <extended-ascii> <unicode>
    % < > [ ] { } | \ ^
    

如果最大兼容性是一个问题,限制字符集为a-z a-z 0-9 - _。(仅对文件名扩展名使用句点)。

牢记语境

即使根据规范有效,URL仍然可能是“不安全的”,这取决于上下文。例如包含无效文件名字符的file:/// URL,或者不用作分隔符时包含“?”、“=”和“&”的查询组件。这些情况的正确处理通常取决于您的脚本,并且可以解决,但这是需要记住的事情。

您需要注意两组字符:保留字符和不安全字符。

保留字符为:

&(“&”) 美元(美元) 加号(“+”) 逗号(,) 正斜杠("/") 冒号(“:”) 分号(“;”) = (" = ") 问号(“?”) “At”符号(“@”) 英镑(“#”)。

一般认为不安全的字符有:

空格(" ") 小于大于("<>") 左右括号("[]") 前后大括号("{}") 管(“|”) 反斜杠(\) 插入符号(“^”) 百分比(%)

我可能忘记了一个或多个,这导致我重复卡尔V的答案。从长远来看,您最好使用允许字符的“白名单”,然后对字符串进行编码,而不是试图与服务器和系统不允许的字符保持一致。

您最好只保留一些字符(白名单),而不是删除某些字符(黑名单)。

从技术上讲,你可以允许任何字符,只要你正确地编码它。但是,为了回答这个问题的精神,你应该只允许这些字符:

小写字母(将大写字母转换为小写字母) 数字,0到9 破折号或下划线_ 波浪号~

其他的一切都有潜在的特殊意义。例如,您可能认为可以使用+,但可以用空格替换。&也是危险的,特别是在使用一些重写规则时。

与其他注释一样,请查看标准和规范以获得完整的详细信息。

unreserved = ALPHA / DIGIT / "-" / "."/ "_" / "~"

从SEO的角度来看,连字符比下划线更受欢迎。转换为小写,删除所有撇号,然后用一个连字符替换所有非字母数字字符字符串。修剪多余的连字符从开始和结束。