在Java中,我想转换这个:
https%3A%2F%2Fmywebsite%2Fdocs%2Fenglish%2Fsite%2Fmybook.do%3Frequest_type
:
https://mywebsite/docs/english/site/mybook.do&request_type
这是我目前所拥有的:
class StringUTF
{
public static void main(String[] args)
{
try{
String url =
"https%3A%2F%2Fmywebsite%2Fdocs%2Fenglish%2Fsite%2Fmybook.do" +
"%3Frequest_type%3D%26type%3Dprivate";
System.out.println(url+"Hello World!------->" +
new String(url.getBytes("UTF-8"),"ASCII"));
}
catch(Exception E){
}
}
}
但这并不正确。这些%3A和%2F格式被称为什么?我如何转换它们?
这个问题之前已经回答过了(尽管这个问题是第一个!):
“你应该使用java.net.URI来做这件事,因为URLDecoder类做的是x-www-form-urlencoded解码,这是错误的(尽管它的名字,它是为表单数据)。”
如URL类文档所述:
管理url编码和解码的建议方法是
使用URI,并使用toURI()和在这两个类之间进行转换
URI.toURL()。
URLEncoder和URLDecoder类也可以使用,但仅用于
HTML表单编码,这与编码方案不同
在RFC2396中定义。
基本上:
String url = "https%3A%2F%2Fmywebsite%2Fdocs%2Fenglish%2Fsite%2Fmybook.do%3Frequest_type";
System.out.println(new java.net.URI(url).getPath());
会给你:
https://mywebsite/docs/english/site/mybook.do?request_type
这与UTF-8或ASCII等字符编码没有任何关系。这里的字符串是URL编码的。这种编码与字符编码完全不同。
试试这样做:
try {
String result = java.net.URLDecoder.decode(url, StandardCharsets.UTF_8.name());
} catch (UnsupportedEncodingException e) {
// not going to happen - value came from JDK's own StandardCharsets
}
Java 10在API中增加了对Charset的直接支持,这意味着不需要捕获UnsupportedEncodingException:
String result = java.net.URLDecoder.decode(url, StandardCharsets.UTF_8);
注意,字符编码(如UTF-8或ASCII)决定字符到原始字节的映射。有关字符编码的介绍,请参阅本文。