我们中的许多人都需要处理用户输入、搜索查询以及输入文本可能包含亵渎或不受欢迎的语言的情况。通常情况下,这需要过滤掉。

在哪里可以找到各种语言和方言的粗口?

源代码中是否有包含好的列表的api ?或者可能是一个API,用一些参数简单地说“是的,这是干净的”或“不,这是脏的”?

有什么好方法可以捕捉那些试图欺骗系统的人,比如$$、azz或a55?

如果您为PHP提供了解决方案,则会有加分。:)

编辑:回答简单地说,避免程序问题:

我认为,当用户可以使用公共图像搜索来查找添加到敏感社区池的图片时,这种过滤器是有一席之地的。如果他们可以搜索“阴茎”,那么他们可能会得到很多照片,是的。如果我们不想要照片,那么阻止这个词作为搜索词是一个很好的把关者,尽管不可否认这不是一个万无一失的方法。真正的问题是首先获得单词列表。

我指的是一种方法来判断单个令牌是否脏,然后简单地禁止它。我不会费心去阻止那种完全滑稽的“长脖子长颈鹿”的说法。你在那里什么也做不了。:)


当前回答

坦率地说,我会让他们把“欺骗系统”的字眼去掉,取而代之的是禁止他们,这只是我的想法。但它也使编程更简单。

我要做的是实现一个正则表达式过滤器,像这样:/[\s]dooby (doo?)[\s]/ I,或者这个单词在其他单词上有前缀,/[\s]doob(er|ed|est)[\s]/。这将阻止过滤单词,如assuaged,这是完全有效的,但也需要其他变体的知识,并更新实际的过滤器,如果你学习了一个新的。显然,这些都是例子,但你必须自己决定如何做。

我不会把我知道的所有单词都打出来,尤其是当我并不想知道它们的时候。

其他回答

我有点晚了,但我有一个解决方案,可能对一些读到这篇文章的人有用。它是用javascript而不是php编写的,但这是有原因的。

完全披露,我写了这个插件…

不管怎样。

我采用的方法是允许用户“选择加入”他们的亵渎过滤。基本上,默认情况下允许使用脏话,但如果我的用户不想读,他们也可以不读。这也有助于解决“l33t sp3@k”问题。

这个概念是一个简单的jquery插件,如果客户端的帐户启用了脏话过滤,服务器就会注入这个插件。从这里开始,就只有几行简单的文字,用来掩盖誓言。

这是演示页面 https://chaseflorell.github.io/jQuery.ProfanityFilter/demo/

<div id="foo">
    ass will fail but password will not
</div>

<script>
    // code:
    $('#foo').profanityFilter({
        customSwears: ['ass']
    });
</script>

结果

***将失败,但密码不会

坦率地说,我会让他们把“欺骗系统”的字眼去掉,取而代之的是禁止他们,这只是我的想法。但它也使编程更简单。

我要做的是实现一个正则表达式过滤器,像这样:/[\s]dooby (doo?)[\s]/ I,或者这个单词在其他单词上有前缀,/[\s]doob(er|ed|est)[\s]/。这将阻止过滤单词,如assuaged,这是完全有效的,但也需要其他变体的知识,并更新实际的过滤器,如果你学习了一个新的。显然,这些都是例子,但你必须自己决定如何做。

我不会把我知道的所有单词都打出来,尤其是当我并不想知道它们的时候。

如果你能做一些像Digg/Stackoverflow那样的事情,让用户可以投票/标记淫秽内容……这样做。

然后你所需要做的就是审查那些“淘气”的用户,如果他们违反了规则,就把他们屏蔽掉。

不喜欢。

因为:

Clbuttic 亵渎不是OMG邪恶 亵渎不能被有效地定义 大多数人很可能不喜欢被“保护”免受亵渎

编辑:虽然我同意评论者所说的“审查制度是错误的”,但这不是这个答案的本质。

虽然我知道这个问题相当古老,但这是一个经常发生的问题……

使用脏话过滤器既有原因,也有明显的需求(见维基百科词条),但由于非常明显的原因,它们往往达不到100%的准确性;语境和准确性。

这(完全)取决于你想要达到什么目的——最基本的,你可能想要掩盖“七个脏话”,然后……一些企业需要过滤最基本的脏话:基本的脏话、url甚至个人信息等等,但其他企业需要防止非法账户命名(Xbox live就是一个例子)或更多……

用户生成的内容不仅包含潜在的脏话,还可能包含冒犯性的引用:

性行为 性取向 宗教 种族 等等……

而且可能是多种语言。迄今为止,Shutterstock已经开发了10种语言的基本脏话列表,但它仍然是基本的,非常面向他们的“标签”需求。网上还有很多其他的列表。

我同意一个公认的答案,即它不是一门被定义的科学,因为语言是一个不断发展的挑战,但90%的捕获率总比0%好。这完全取决于你的目标——你想要达到什么目标,你得到的支持程度,以及删除不同类型的脏话有多重要。

在构建过滤器时,你需要考虑以下元素以及它们与你的项目的关系:

词汇/短语 首字母缩写(FOAD/LMFAO等) 误报(像“mishit”、“scunthorpe”和“titsworth”这样的单词、地点和名字) url(色情网站是一个明显的目标) 个人信息(电子邮件,地址,电话等-如适用) 语言选择(默认为英文) 适度(如果有的话,如何与用户生成的内容进行交互,以及可以用它做什么)

你可以很容易地建立一个过滤90%以上的脏话的过滤器,但你永远不会达到100%。这是不可能的。你越想达到100%,就越难……在过去建立了一个复杂的脏话引擎,每天处理超过500K条实时消息,我提供以下建议:

一个基本的过滤器包括:

建立一个适用的脏话列表 开发一种处理脏话衍生的方法

一个中等复杂的文件归档器将包括,(除了一个基本的过滤器):

使用复杂的模式匹配来处理扩展派生(使用高级正则表达式) 处理Leetspeak (l33t) 处理误报

一个复杂的过滤器将包括以下一些(除了一个中等的过滤器):

白名单和黑名单 短语/术语的朴素贝叶斯推理过滤 Soundex函数(一个词听起来像另一个词) Levenshtein距离 阻止 人类版主帮助引导过滤引擎通过例子学习,或者在没有指导的情况下匹配不够准确(自我/持续改进的系统) 也许是某种形式的AI引擎