从字符串中删除HTML标签

是否有一个好方法从Java字符串中删除HTML ?一个简单的正则表达式

replaceAll("\\<.*?>", "")

会起作用，但有些东西像&将不能正确地转换，并且两个尖括号之间的非html将被删除(即。*?在正则表达式中将消失)。

当前回答

你可以简单地用多个replaceAll()方法像

String RemoveTag(String html){
   html = html.replaceAll("\\<.*?>","")
   html = html.replaceAll("&nbsp;","");
   html = html.replaceAll("&amp;"."");
   ----------
   ----------
   return html;
}

使用这个链接，你需要的最常见的替换: http://tunes.org/wiki/html_20special_20characters_20and_20symbols.html

这很简单，但很有效。我使用这个方法首先删除垃圾，但不是第一行，即replaceAll(“\<.*?>”，“”)，然后我使用特定的关键字搜索索引，然后使用.substring(开始，结束)方法去除不必要的东西。因为这更健壮，你可以在整个html页面中准确地指出你需要什么。

2010-11-17 01:44:07

其他回答

〇应该可以

使用这个

  text.replaceAll('<.*?>' , " ") -> This will replace all the html tags with a space.

这

  text.replaceAll('&.*?;' , "")-> this will replace all the tags which starts with "&" and ends with ";" like &nbsp;, &amp;, &gt; etc.

2017-06-30 11:42:51

classeString.replaceAll("\\<(/?[^\\>]+)\\>", "\\ ").replaceAll("\\s+", " ").trim()

2018-01-26 12:27:26

如果用户输入hey!， do you want display hey!或hey!?如果是第一个，转义小于号和html编码的&号(可选的还有引号)，就没问题了。对代码进行修改以实现第二个选项将是:

replaceAll("\\<[^>]*>","")

但是如果用户输入一些格式不正确的东西，比如<bhey!，就会遇到问题。

你也可以检查JTidy，它将解析“脏”html输入，并应该给你一种方法来删除标签，保留文本。

尝试剥离html的问题是浏览器具有非常宽松的解析器，比您能找到的任何库都要宽松，因此即使您尽力剥离所有标记(使用上面的替换方法、DOM库或JTidy)，您仍然需要确保对任何剩余的html特殊字符进行编码，以保证输出的安全。

2008-10-27 17:00:33

这里有另一种方法:

public static String removeHTML(String input) {
    int i = 0;
    String[] str = input.split("");

    String s = "";
    boolean inTag = false;

    for (i = input.indexOf("<"); i < input.indexOf(">"); i++) {
        inTag = true;
    }
    if (!inTag) {
        for (i = 0; i < str.length; i++) {
            s = s + str[i];
        }
    }
    return s;
}

2011-10-16 11:37:58

也可以使用Apache Tika来实现这个目的。默认情况下，它保留了被剥离的html中的空白，这在某些情况下可能是需要的:

InputStream htmlInputStream = ..
HtmlParser htmlParser = new HtmlParser();
HtmlContentHandler htmlContentHandler = new HtmlContentHandler();
htmlParser.parse(htmlInputStream, htmlContentHandler, new Metadata())
System.out.println(htmlContentHandler.getBodyText().trim())

2012-09-04 08:42:58

从字符串中删除HTML标签

推荐文章

最新文章

标签