如何实现一个好的脏话过滤器?

我们中的许多人都需要处理用户输入、搜索查询以及输入文本可能包含亵渎或不受欢迎的语言的情况。通常情况下，这需要过滤掉。

在哪里可以找到各种语言和方言的粗口?

源代码中是否有包含好的列表的api ?或者可能是一个API，用一些参数简单地说“是的，这是干净的”或“不，这是脏的”?

有什么好方法可以捕捉那些试图欺骗系统的人，比如$$、azz或a55?

如果您为PHP提供了解决方案，则会有加分。：）

编辑:回答简单地说，避免程序问题:

我认为，当用户可以使用公共图像搜索来查找添加到敏感社区池的图片时，这种过滤器是有一席之地的。如果他们可以搜索“阴茎”，那么他们可能会得到很多照片，是的。如果我们不想要照片，那么阻止这个词作为搜索词是一个很好的把关者，尽管不可否认这不是一个万无一失的方法。真正的问题是首先获得单词列表。

我指的是一种方法来判断单个令牌是否脏，然后简单地禁止它。我不会费心去阻止那种完全滑稽的“长脖子长颈鹿”的说法。你在那里什么也做不了。：）

当前回答

注意本地化问题:在一种语言中是脏话的词在另一种语言中可能是完全正常的词。

目前的一个例子是:ebay使用字典的方法从反馈中过滤“坏词”。如果你试图输入德语翻译的“this was a perfect transaction”(“das war eine perfekte Transaktion”)，ebay将会因为用词不当而拒绝反馈。

为什么?因为“was”的德语单词是“war”，而“war”在ebay的“坏词”词典中。

所以要注意本土化问题。

2010-04-27 12:55:55

其他回答

注意本地化问题:在一种语言中是脏话的词在另一种语言中可能是完全正常的词。

为什么?因为“was”的德语单词是“war”，而“war”在ebay的“坏词”词典中。

所以要注意本土化问题。

2010-04-27 12:55:55

不喜欢。

因为:

Clbuttic 亵渎不是OMG邪恶亵渎不能被有效地定义大多数人很可能不喜欢被“保护”免受亵渎

编辑:虽然我同意评论者所说的“审查制度是错误的”，但这不是这个答案的本质。

2008-11-07 20:22:31

关于“欺骗系统”子问题，您可以在进行搜索之前通过规范化“坏词”列表和用户输入的文本来处理它。例如，使用一系列正则表达式(如果PHP有，可以使用tr)将[z$5]转换为“s”，[4@]转换为“a”，等等，然后将规范化的“坏词”列表与规范化的文本进行比较。请注意，规范化可能会导致额外的假阳性，尽管目前我想不出任何实际情况。

更大的挑战是想出一种方法，让人们在引用“笔比剑更强大”的同时屏蔽“pen is”。

2008-11-08 01:35:13

不喜欢。这只会导致问题。我个人有一次使用脏话过滤器的经历是，有一次我在IRC频道上提到我“要去汉考克的桥上呆几个小时”或类似的事情，就被踢/禁止进入。

2008-11-07 20:37:46

坦率地说，我会让他们把“欺骗系统”的字眼去掉，取而代之的是禁止他们，这只是我的想法。但它也使编程更简单。

我要做的是实现一个正则表达式过滤器，像这样:/[\s]dooby (doo?)[\s]/ I，或者这个单词在其他单词上有前缀，/[\s]doob(er|ed|est)[\s]/。这将阻止过滤单词，如assuaged，这是完全有效的，但也需要其他变体的知识，并更新实际的过滤器，如果你学习了一个新的。显然，这些都是例子，但你必须自己决定如何做。

我不会把我知道的所有单词都打出来，尤其是当我并不想知道它们的时候。

2008-11-07 20:25:28

如何实现一个好的脏话过滤器?

推荐文章

最新文章

标签