如何防止网站刮取?

我有一个相当大的音乐网站，有一个很大的艺术家数据库。我一直注意到其他音乐网站在窃取我们网站的数据(我在这里和那里输入假艺人的名字，然后进行谷歌搜索)。

如何防止屏幕刮擦?这可能吗?

当前回答

好吧，正如所有帖子所说，如果你想让它对搜索引擎友好，那么机器人肯定会刮。

但你仍然可以做一些事情，它可能适用于60% - 70%的抓取机器人。

制作如下所示的检查器脚本。

如果一个特定的IP地址访问非常快，那么在几次访问(5-10次)后，将其IP地址+浏览器信息保存在文件或数据库中。

下一步

(这将是一个后台进程，并一直运行或在几分钟后调度。)制作另一个脚本，继续检查那些可疑的IP地址。

案例1。如果用户代理是一个已知的搜索引擎，如谷歌，Bing, Yahoo(你可以通过Google找到更多关于用户代理的信息)。那么你一定会看到http://www.iplists.com/。这个列表，并尝试匹配模式。如果它看起来像一个假的用户代理，那么要求在下次访问时填写验证码。(你需要多研究一下机器人的IP地址。我知道这是可以实现的，也尝试了IP地址的whois。这是有帮助的。)

例2。没有搜索机器人的用户代理:只需在下次访问时要求填写验证码。

2010-07-01 21:12:42

其他回答

从技术角度来看: 只需模拟谷歌在一次使用太多查询时的情况。这应该能让很多人停止。

从法律角度看: 听起来你发布的数据并不是私有的。这意味着你发布的名字、数据和其他信息是不受版权保护的。

如果是这种情况，刮刮器通过重新分发您的艺术家姓名等信息并没有侵犯版权。然而，当他们将你的网站加载到内存中时，他们可能侵犯了版权，因为你的网站包含了可版权的元素(如布局等)。

我建议你阅读Facebook诉Power.com的文章，看看Facebook如何阻止屏幕抓取。有很多合法的方法可以阻止别人窃取你的网站。他们可以影响深远，富有想象力。有时法院会相信这些论点。有时他们不会。

但是，假设你发布的是不受版权保护的公共领域信息，比如名字和基本数据……你应该以言论自由和开放数据的名义让它随风而逝。这就是网络的意义所在。

2011-03-13 09:34:03

将你的内容放在验证码后面意味着机器人将很难访问你的内容。然而，人类会不方便，所以这可能是不可取的。

2010-07-01 20:53:30

不幸的是，您最好的选择是手动的:寻找您认为指示抓取和禁止其IP地址的流量模式。