从字符串中删除HTML标签

是否有一个好方法从Java字符串中删除HTML ?一个简单的正则表达式

replaceAll("\\<.*?>", "")

会起作用，但有些东西像&将不能正确地转换，并且两个尖括号之间的非html将被删除(即。*?在正则表达式中将消失)。

当前回答

也可以使用Apache Tika来实现这个目的。默认情况下，它保留了被剥离的html中的空白，这在某些情况下可能是需要的:

InputStream htmlInputStream = ..
HtmlParser htmlParser = new HtmlParser();
HtmlContentHandler htmlContentHandler = new HtmlContentHandler();
htmlParser.parse(htmlInputStream, htmlContentHandler, new Metadata())
System.out.println(htmlContentHandler.getBodyText().trim())

2012-09-04 08:42:58

其他回答

另一种方法是使用com.google.gdata.util.common.html.HtmlToText类就像

MyWriter.toConsole(HtmlToText.htmlToPlainText(htmlResponse));

虽然这不是防弹代码，但当我在维基百科条目上运行它时，我也得到了风格信息。然而，我相信对于小/简单的工作，这将是有效的。

2010-08-06 18:23:34

有时html字符串来自xml，带有这样的&lt。在使用Jsoup时，我们需要解析它，然后清理它。

Document doc = Jsoup.parse(htmlstrl);
Whitelist wl = Whitelist.none();
String plain = Jsoup.clean(doc.text(), wl);

而仅使用Jsoup.parse(htmlstrl).text()不能删除标签。

2020-09-03 09:03:15

classeString.replaceAll("\\<(/?[^\\>]+)\\>", "\\ ").replaceAll("\\s+", " ").trim()

2018-01-26 12:27:26

使用Jericho也非常简单，并且可以保留一些格式(例如换行符和链接)。

    Source htmlSource = new Source(htmlText);
    Segment htmlSeg = new Segment(htmlSource, 0, htmlSource.length());
    Renderer htmlRend = new Renderer(htmlSeg);
    System.out.println(htmlRend.toString());

2011-08-05 21:11:49

或者，可以使用HtmlCleaner:

private CharSequence removeHtmlFrom(String html) {
    return new HtmlCleaner().clean(html).getText();
}

2014-02-17 20:19:48

从字符串中删除HTML标签

推荐文章

最新文章

标签