从字符串中删除HTML标签

如果用户输入hey!， do you want display hey!或hey!?如果是第一个，转义小于号和html编码的&号(可选的还有引号)，就没问题了。对代码进行修改以实现第二个选项将是:

replaceAll("\\<[^>]*>","")

但是如果用户输入一些格式不正确的东西，比如<bhey!，就会遇到问题。

你也可以检查JTidy，它将解析“脏”html输入，并应该给你一种方法来删除标签，保留文本。

尝试剥离html的问题是浏览器具有非常宽松的解析器，比您能找到的任何库都要宽松，因此即使您尽力剥离所有标记(使用上面的替换方法、DOM库或JTidy)，您仍然需要确保对任何剩余的html特殊字符进行编码，以保证输出的安全。

2008-10-27 17:00:33

你可以简单地使用Android默认的HTML过滤器

    public String htmlToStringFilter(String textToFilter){

    return Html.fromHtml(textToFilter).toString();

    }

上面的方法将为您的输入返回经过HTML过滤的字符串。

2019-03-29 08:37:20

如果用户输入hey!， do you want display hey!或hey!?如果是第一个，转义小于号和html编码的&号(可选的还有引号)，就没问题了。对代码进行修改以实现第二个选项将是:

replaceAll("\\<[^>]*>","")

但是如果用户输入一些格式不正确的东西，比如<bhey!，就会遇到问题。

你也可以检查JTidy，它将解析“脏”html输入，并应该给你一种方法来删除标签，保留文本。

尝试剥离html的问题是浏览器具有非常宽松的解析器，比您能找到的任何库都要宽松，因此即使您尽力剥离所有标记(使用上面的替换方法、DOM库或JTidy)，您仍然需要确保对任何剩余的html特殊字符进行编码，以保证输出的安全。

2008-10-27 17:00:33

我经常发现我只需要去掉注释和脚本元素。这已经为我可靠地工作了15年，可以很容易地扩展到处理HTML或XML中的任何元素名称:

// delete all comments
response = response.replaceAll("<!--[^>]*-->", "");
// delete all script elements
response = response.replaceAll("<(script|SCRIPT)[^+]*?>[^>]*?<(/script|SCRIPT)>", "");

2020-08-23 21:14:52

我知道这是旧的，但我只是在一个项目，需要我过滤HTML，这工作得很好:

noHTMLString.replaceAll("\\&.*?\\;", "");

而不是这样:

html = html.replaceAll("&nbsp;","");
html = html.replaceAll("&amp;"."");

2011-06-07 14:13:22

我的5美分:

String[] temp = yourString.split("&amp;");
String tmp = "";
if (temp.length > 1) {

    for (int i = 0; i < temp.length; i++) {
        tmp += temp[i] + "&";
    }
    yourString = tmp.substring(0, tmp.length() - 1);
}

2011-08-09 14:40:15

从字符串中删除HTML标签

推荐文章

最新文章

标签