从字符串中删除HTML标签

是否有一个好方法从Java字符串中删除HTML ?一个简单的正则表达式

replaceAll("\\<.*?>", "")

会起作用，但有些东西像&将不能正确地转换，并且两个尖括号之间的非html将被删除(即。*?在正则表达式中将消失)。

当前回答

使用HTML解析器而不是正则表达式。这对于Jsoup来说非常简单。

public static String html2text(String html) {
    return Jsoup.parse(html).text();
}

Jsoup还支持根据可定制的白名单删除HTML标记，如果您只想允许， 和，这是非常有用的。

参见:

RegEx匹配打开标记，但XHTML自包含标记除外主要的Java HTML解析器的优缺点是什么? JSP/Servlet web应用中的跨站防护

2010-06-30 13:24:48

其他回答

也可以使用Apache Tika来实现这个目的。默认情况下，它保留了被剥离的html中的空白，这在某些情况下可能是需要的:

InputStream htmlInputStream = ..
HtmlParser htmlParser = new HtmlParser();
HtmlContentHandler htmlContentHandler = new HtmlContentHandler();
htmlParser.parse(htmlInputStream, htmlContentHandler, new Metadata())
System.out.println(htmlContentHandler.getBodyText().trim())

2012-09-04 08:42:58

听起来好像您想从HTML转换为纯文本。如果是这样的话，请查看www.htmlparser.org。下面是一个示例，它从URL中找到的html文件中剥离所有标记。它使用org.htmlparser.beans.StringBean。

static public String getUrlContentsAsText(String url) {
    String content = "";
    StringBean stringBean = new StringBean();
    stringBean.setURL(url);
    content = stringBean.getStrings();
    return content;
}

2009-01-18 02:16:17

〇应该可以

使用这个

  text.replaceAll('<.*?>' , " ") -> This will replace all the html tags with a space.

这

  text.replaceAll('&.*?;' , "")-> this will replace all the tags which starts with "&" and ends with ";" like &nbsp;, &amp;, &gt; etc.

2017-06-30 11:42:51

您可能希望在剥离HTML之前将 和标记替换为换行符，以防止它像Tim建议的那样变得难以识别。

我能想到的唯一方法是删除HTML标记，但在尖括号之间留下非HTML标记，将检查HTML标记列表。沿着这条线……

replaceAll("\\<[\s]*tag[^>]*>","")

然后html解码特殊字符，如&结果不应该被认为是消毒的。

2008-10-27 23:52:37

在Android上试试这个:

String result = Html.fromHtml(html).toString();

2015-05-04 04:29:30

从字符串中删除HTML标签

推荐文章

最新文章

标签