说我有一个URL
http://example.com/query?q=
并且用户输入了一个查询,例如:
随机词£500银行$
我希望结果是正确编码的URL:
http://example.com/query?q=random%20word%20%A3500%20bank%20%24
实现这一目标的最佳方式是什么?我尝试了URLEncoder并创建了URI/URL对象,但没有一个完全正确。
说我有一个URL
http://example.com/query?q=
并且用户输入了一个查询,例如:
随机词£500银行$
我希望结果是正确编码的URL:
http://example.com/query?q=random%20word%20%A3500%20bank%20%24
实现这一目标的最佳方式是什么?我尝试了URLEncoder并创建了URI/URL对象,但没有一个完全正确。
当前回答
我不会使用URLEncoder。除了命名错误(URLEncoder与URL无关)、效率低下(它使用StringBuffer而不是Builder,并执行一些其他缓慢的操作),它也太容易出错。
相反,我将使用URIBuilder或Spring的org.springframework.web.util.UriUtils.encodeQuery或Commons Apache HttpClient。原因是您必须以不同于参数值的方式转义查询参数名称(即BalusC的答案q)。
上面的唯一缺点(我痛苦地发现)是URL不是URI的真正子集。
示例代码:
import org.apache.http.client.utils.URIBuilder;
URIBuilder ub = new URIBuilder("http://example.com/query");
ub.addParameter("q", "random word £500 bank \$");
String url = ub.toString();
// Result: http://example.com/query?q=random+word+%C2%A3500+bank+%24
其他回答
您需要首先创建一个URI,如:
String urlStr = "http://www.example.com/CEREC® Materials & Accessories/IPS Empress® CAD.pdf"
URL url = new URL(urlStr);
URI uri = new URI(url.getProtocol(), url.getUserInfo(), url.getHost(), url.getPort(), url.getPath(), url.getQuery(), url.getRef());
然后将该URI转换为ASCII字符串:
urlStr = uri.toASCIIString();
现在,URL字符串已完全编码。首先,我们进行了简单的URL编码,然后将其转换为ASCII字符串,以确保字符串中没有US-ASCII以外的字符。浏览器就是这样做的。
URLEncoder是未来之路。您只需要记住,只对单个查询字符串参数名称和/或值进行编码,而不是对整个URL进行编码,当然也不要对查询字符串参数分隔符字符&或参数名称值分隔符字符=进行编码。
String q = "random word £500 bank $";
String url = "https://example.com?q=" + URLEncoder.encode(q, StandardCharsets.UTF_8);
如果您还没有使用Java 10或更高版本,请使用StandardCharsets.UTF_8.toString()作为字符集参数,或者如果您还未使用Java 7或更高的版本,则使用“UTF-8”。
请注意,查询参数中的空格由+表示,而不是%20,这是合法的。%20通常用于表示URI本身(URI查询字符串分隔符字符?之前的部分)中的空格,而不是查询字符串(?之后的部分)。
还要注意,有三种encode()方法。一个没有Charset作为第二个参数,另一个使用String作为第二参数,这会引发选中的异常。不推荐使用不带Charset参数的。永远不要使用它,并始终指定Charset参数。javadoc甚至明确建议使用RFC3986和W3C规定的UTF-8编码。
所有其他字符都是不安全的,首先使用某种编码方案将其转换为一个或多个字节。然后,每个字节由3个字符的字符串“%xy”表示,其中xy是字节的两位十六进制表示。建议使用UTF-8编码方案。但是,出于兼容性原因,如果未指定编码,则使用平台的默认编码。
另请参见:
每个web开发人员都必须了解URL编码
在Android中,我会使用以下代码:
Uri myUI = Uri.parse("http://example.com/query").buildUpon().appendQueryParameter("q", "random word A3500 bank 24").build();
其中Uri是android.net.Uri
我不会使用URLEncoder。除了命名错误(URLEncoder与URL无关)、效率低下(它使用StringBuffer而不是Builder,并执行一些其他缓慢的操作),它也太容易出错。
相反,我将使用URIBuilder或Spring的org.springframework.web.util.UriUtils.encodeQuery或Commons Apache HttpClient。原因是您必须以不同于参数值的方式转义查询参数名称(即BalusC的答案q)。
上面的唯一缺点(我痛苦地发现)是URL不是URI的真正子集。
示例代码:
import org.apache.http.client.utils.URIBuilder;
URIBuilder ub = new URIBuilder("http://example.com/query");
ub.addParameter("q", "random word £500 bank \$");
String url = ub.toString();
// Result: http://example.com/query?q=random+word+%C2%A3500+bank+%24
代码
URL url = new URL("http://example.com/query?q=random word £500 bank $");
URI uri = new URI(url.getProtocol(), url.getUserInfo(), IDN.toASCII(url.getHost()), url.getPort(), url.getPath(), url.getQuery(), url.getRef());
String correctEncodedURL = uri.toASCIIString();
System.out.println(correctEncodedURL);
打印
http://example.com/query?q=random%20word%20%C2%A3500%20bank%20$
这里发生了什么?
1.将URL拆分为结构部分。对其使用java.net.URL。
2.正确编码每个结构部件!
3.使用IDN.toASCII(putDomainNameHere)对主机名进行Punycode编码!
4.使用java.net.URI.toASCIIString()对NFC编码的Unicode进行百分比编码(最好是NFKC!)。有关详细信息,请参阅:如何正确编码此URL
在某些情况下,建议检查URL是否已编码。还将“+”编码空格替换为“%20”编码空格。
下面是一些同样可以正常工作的示例
{
"in" : "http://نامهای.com/",
"out" : "http://xn--mgba3gch31f.com/"
},{
"in" : "http://www.example.com/‥/foo",
"out" : "http://www.example.com/%E2%80%A5/foo"
},{
"in" : "http://search.barnesandnoble.com/booksearch/first book.pdf",
"out" : "http://search.barnesandnoble.com/booksearch/first%20book.pdf"
}, {
"in" : "http://example.com/query?q=random word £500 bank $",
"out" : "http://example.com/query?q=random%20word%20%C2%A3500%20bank%20$"
}
该解决方案通过了Web平台测试提供的大约100个测试用例。