从字符串中删除HTML标签

是否有一个好方法从Java字符串中删除HTML ?一个简单的正则表达式

replaceAll("\\<.*?>", "")

会起作用，但有些东西像&将不能正确地转换，并且两个尖括号之间的非html将被删除(即。*?在正则表达式中将消失)。

当前回答

另一种方法是使用javax.swing.text.html.HTMLEditorKit来提取文本。

import java.io.*;
import javax.swing.text.html.*;
import javax.swing.text.html.parser.*;

public class Html2Text extends HTMLEditorKit.ParserCallback {
    StringBuffer s;

    public Html2Text() {
    }

    public void parse(Reader in) throws IOException {
        s = new StringBuffer();
        ParserDelegator delegator = new ParserDelegator();
        // the third parameter is TRUE to ignore charset directive
        delegator.parse(in, this, Boolean.TRUE);
    }

    public void handleText(char[] text, int pos) {
        s.append(text);
    }

    public String getText() {
        return s.toString();
    }

    public static void main(String[] args) {
        try {
            // the HTML to convert
            FileReader in = new FileReader("java-new.html");
            Html2Text parser = new Html2Text();
            parser.parse(in);
            in.close();
            System.out.println(parser.getText());
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

ref:从文件中删除HTML标记，只提取文本

2009-01-18 14:16:52

其他回答

如果用户输入hey!， do you want display hey!或hey!?如果是第一个，转义小于号和html编码的&号(可选的还有引号)，就没问题了。对代码进行修改以实现第二个选项将是:

replaceAll("\\<[^>]*>","")

但是如果用户输入一些格式不正确的东西，比如<bhey!，就会遇到问题。

你也可以检查JTidy，它将解析“脏”html输入，并应该给你一种方法来删除标签，保留文本。

尝试剥离html的问题是浏览器具有非常宽松的解析器，比您能找到的任何库都要宽松，因此即使您尽力剥离所有标记(使用上面的替换方法、DOM库或JTidy)，您仍然需要确保对任何剩余的html特殊字符进行编码，以保证输出的安全。

2008-10-27 17:00:33

我经常发现我只需要去掉注释和脚本元素。这已经为我可靠地工作了15年，可以很容易地扩展到处理HTML或XML中的任何元素名称:

// delete all comments
response = response.replaceAll("<!--[^>]*-->", "");
// delete all script elements
response = response.replaceAll("<(script|SCRIPT)[^+]*?>[^>]*?<(/script|SCRIPT)>", "");

2020-08-23 21:14:52

值得注意的是，如果您试图在Service Stack项目中完成此操作，那么它已经是一个内置的字符串扩展

using ServiceStack.Text;
// ...
"The <b>quick</b> brown <p> fox </p> jumps over the lazy dog".StripHtml();

2020-07-15 17:53:29

这里是如何替换所有(HTML标签| HTML实体|空白的HTML内容)的另一个变体

content.replaceAll ("(<.*?>)|(&.*?;)|([ ]{ 2 ,})", "");其中content是一个字符串。

2018-06-20 07:36:44

HTML转义真的很难做对-我绝对建议使用库代码来做这件事，因为它比你想象的要微妙得多。在Apache的StringEscapeUtils中有一个非常好的库，可以在Java中处理这个问题。

2008-10-27 17:03:56

从字符串中删除HTML标签

推荐文章

最新文章

标签