是否有一个好方法从Java字符串中删除HTML ?一个简单的正则表达式

replaceAll("\\<.*?>", "") 

会起作用,但有些东西像&将不能正确地转换,并且两个尖括号之间的非html将被删除(即。*?在正则表达式中将消失)。


当前回答

有时html字符串来自xml,带有这样的&lt。在使用Jsoup时,我们需要解析它,然后清理它。

Document doc = Jsoup.parse(htmlstrl);
Whitelist wl = Whitelist.none();
String plain = Jsoup.clean(doc.text(), wl);

而仅使用Jsoup.parse(htmlstrl).text()不能删除标签。

其他回答

这里是如何替换所有(HTML标签| HTML实体|空白的HTML内容)的另一个变体

content.replaceAll ("(<.*?>)|(&.*?;)|([ ]{ 2 ,})", "");其中content是一个字符串。

如果你是为Android编写程序,你可以这样做……

androidx.core.text.HtmlCompat.fromHtml(指令,HtmlCompat.FROM_HTML_MODE_LEGACY) .toString ()

使用HTML解析器而不是正则表达式。这对于Jsoup来说非常简单。

public static String html2text(String html) {
    return Jsoup.parse(html).text();
}

Jsoup还支持根据可定制的白名单删除HTML标记,如果您只想允许<b>, <i>和<u>,这是非常有用的。

参见:

RegEx匹配打开标记,但XHTML自包含标记除外 主要的Java HTML解析器的优缺点是什么? JSP/Servlet web应用中的跨站防护

另一种方法是使用com.google.gdata.util.common.html.HtmlToText类 就像

MyWriter.toConsole(HtmlToText.htmlToPlainText(htmlResponse));

虽然这不是防弹代码,但当我在维基百科条目上运行它时,我也得到了风格信息。然而,我相信对于小/简单的工作,这将是有效的。

这里有另一种方法:

public static String removeHTML(String input) {
    int i = 0;
    String[] str = input.split("");

    String s = "";
    boolean inTag = false;

    for (i = input.indexOf("<"); i < input.indexOf(">"); i++) {
        inTag = true;
    }
    if (!inTag) {
        for (i = 0; i < str.length; i++) {
            s = s + str[i];
        }
    }
    return s;
}