我们中的许多人都需要处理用户输入、搜索查询以及输入文本可能包含亵渎或不受欢迎的语言的情况。通常情况下,这需要过滤掉。

在哪里可以找到各种语言和方言的粗口?

源代码中是否有包含好的列表的api ?或者可能是一个API,用一些参数简单地说“是的,这是干净的”或“不,这是脏的”?

有什么好方法可以捕捉那些试图欺骗系统的人,比如$$、azz或a55?

如果您为PHP提供了解决方案,则会有加分。:)

编辑:回答简单地说,避免程序问题:

我认为,当用户可以使用公共图像搜索来查找添加到敏感社区池的图片时,这种过滤器是有一席之地的。如果他们可以搜索“阴茎”,那么他们可能会得到很多照片,是的。如果我们不想要照片,那么阻止这个词作为搜索词是一个很好的把关者,尽管不可否认这不是一个万无一失的方法。真正的问题是首先获得单词列表。

我指的是一种方法来判断单个令牌是否脏,然后简单地禁止它。我不会费心去阻止那种完全滑稽的“长脖子长颈鹿”的说法。你在那里什么也做不了。:)


当前回答

我同意hanclininto在讨论中发表的文章。我通常使用正则表达式来匹配输入文本。这是徒劳的努力,就像你最初提到的那样,你必须明确地在你的“阻止”列表中解释网络上流行的每一种写作技巧。

另一方面,当其他人在讨论审查的道德问题时,我必须同意在网络上有某种形式是必要的。有些人只是喜欢发表粗俗的文章,因为它可以立即冒犯到很多人,而且作者完全不需要思考。

谢谢你的建议。

HanClinto规则!

其他回答

我同意hanclininto在讨论中发表的文章。我通常使用正则表达式来匹配输入文本。这是徒劳的努力,就像你最初提到的那样,你必须明确地在你的“阻止”列表中解释网络上流行的每一种写作技巧。

另一方面,当其他人在讨论审查的道德问题时,我必须同意在网络上有某种形式是必要的。有些人只是喜欢发表粗俗的文章,因为它可以立即冒犯到很多人,而且作者完全不需要思考。

谢谢你的建议。

HanClinto规则!

如果你能做一些像Digg/Stackoverflow那样的事情,让用户可以投票/标记淫秽内容……这样做。

然后你所需要做的就是审查那些“淘气”的用户,如果他们违反了规则,就把他们屏蔽掉。

在我的一次面试中,面试我的公司首席技术官试用了我用Java编写的文字/网页游戏。在整个牛津英语词典的单词列表中,第一个被猜出来的单词是什么?

当然,这是英语中最脏的词。

不知怎的,我还是得到了这份工作,但我后来找到了一个亵渎词列表(和这个一样),并写了一个快速脚本来生成一个没有所有脏话的新字典(甚至不需要查看列表)。

对于你的特殊情况,我认为比较搜索和真实的单词听起来像一个单词列表的方式。另一种风格/标点符号需要更多的工作,但我怀疑用户会经常使用它,成为一个问题。

坦率地说,我会让他们把“欺骗系统”的字眼去掉,取而代之的是禁止他们,这只是我的想法。但它也使编程更简单。

我要做的是实现一个正则表达式过滤器,像这样:/[\s]dooby (doo?)[\s]/ I,或者这个单词在其他单词上有前缀,/[\s]doob(er|ed|est)[\s]/。这将阻止过滤单词,如assuaged,这是完全有效的,但也需要其他变体的知识,并更新实际的过滤器,如果你学习了一个新的。显然,这些都是例子,但你必须自己决定如何做。

我不会把我知道的所有单词都打出来,尤其是当我并不想知道它们的时候。

一个亵渎过滤系统永远不会是完美的,即使程序员很自信,并跟上所有裸露的开发

也就是说,任何“淘气词”列表都可能表现得和其他列表一样好,因为潜在的问题是语言理解,这在当前的技术条件下是相当棘手的

所以,唯一可行的解决方案是双重的:

准备好经常更新你的字典 雇佣一个人工编辑来纠正误报(例如:“clbuttic”而不是“classic”)和假阴性(哎呀!错过一个!)