如何实现一个好的脏话过滤器?

我们中的许多人都需要处理用户输入、搜索查询以及输入文本可能包含亵渎或不受欢迎的语言的情况。通常情况下，这需要过滤掉。

在哪里可以找到各种语言和方言的粗口?

源代码中是否有包含好的列表的api ?或者可能是一个API，用一些参数简单地说“是的，这是干净的”或“不，这是脏的”?

有什么好方法可以捕捉那些试图欺骗系统的人，比如$$、azz或a55?

如果您为PHP提供了解决方案，则会有加分。：）

编辑:回答简单地说，避免程序问题:

我认为，当用户可以使用公共图像搜索来查找添加到敏感社区池的图片时，这种过滤器是有一席之地的。如果他们可以搜索“阴茎”，那么他们可能会得到很多照片，是的。如果我们不想要照片，那么阻止这个词作为搜索词是一个很好的把关者，尽管不可否认这不是一个万无一失的方法。真正的问题是首先获得单词列表。

我指的是一种方法来判断单个令牌是否脏，然后简单地禁止它。我不会费心去阻止那种完全滑稽的“长脖子长颈鹿”的说法。你在那里什么也做不了。：）

当前回答

一个亵渎过滤系统永远不会是完美的，即使程序员很自信，并跟上所有裸露的开发

也就是说，任何“淘气词”列表都可能表现得和其他列表一样好，因为潜在的问题是语言理解，这在当前的技术条件下是相当棘手的

所以，唯一可行的解决方案是双重的:

准备好经常更新你的字典雇佣一个人工编辑来纠正误报(例如:“clbuttic”而不是“classic”)和假阴性(哎呀!错过一个!)

2008-11-07 22:27:08

其他回答

我同意hanclininto在讨论中发表的文章。我通常使用正则表达式来匹配输入文本。这是徒劳的努力，就像你最初提到的那样，你必须明确地在你的“阻止”列表中解释网络上流行的每一种写作技巧。

另一方面，当其他人在讨论审查的道德问题时，我必须同意在网络上有某种形式是必要的。有些人只是喜欢发表粗俗的文章，因为它可以立即冒犯到很多人，而且作者完全不需要思考。

谢谢你的建议。

HanClinto规则!

2009-02-24 20:30:20

看看CDYNE的亵渎过滤器Web服务

测试网址

2008-11-07 20:27:24

我同意这个主题的徒劳，但如果你必须有一个过滤器，看看宁泽涛的黄杨木:

Boxwood是一个PHP扩展，用于快速替换一段文本中的多个单词。支持区分大小写和不区分大小写的匹配。它要求它所操作的文本被编码为UTF-8。

更多细节请参见这篇博客文章:

快速多字符串替换PHP

使用Boxwood，你可以让你的搜索词列表想多长就多长——搜索和替换算法不会因为单词列表上有更多的单词而变慢。它的工作原理是建立一个包含所有搜索词的三元组，然后只扫描你的主题文本一次，遍历三元组中的元素，并将它们与文本中的字符进行比较。它支持US-ASCII和UTF-8，区分大小写或不敏感的匹配，并具有一些以英语为中心的单词边界检查逻辑。

2010-09-30 09:01:18

我有点晚了，但我有一个解决方案，可能对一些读到这篇文章的人有用。它是用javascript而不是php编写的，但这是有原因的。

完全披露，我写了这个插件…

不管怎样。

我采用的方法是允许用户“选择加入”他们的亵渎过滤。基本上，默认情况下允许使用脏话，但如果我的用户不想读，他们也可以不读。这也有助于解决“l33t sp3@k”问题。

这个概念是一个简单的jquery插件，如果客户端的帐户启用了脏话过滤，服务器就会注入这个插件。从这里开始，就只有几行简单的文字，用来掩盖誓言。

这是演示页面 https://chaseflorell.github.io/jQuery.ProfanityFilter/demo/

<div id="foo">
    ass will fail but password will not
</div>

<script>
    // code:
    $('#foo').profanityFilter({
        customSwears: ['ass']
    });
</script>

结果

***将失败，但密码不会

2012-10-29 03:22:52

我不知道有什么好的库可以做到这一点，但无论你做什么，都要确保你在让东西通过的方向上犯了错误。我曾经遇到过不允许我使用“mpassell”作为用户名的系统，因为它包含“ass”作为子字符串。这是一种疏远用户的好方法!

2008-11-07 20:26:00

如何实现一个好的脏话过滤器?

推荐文章

最新文章

标签