如何防止网站刮取?

我有一个相当大的音乐网站，有一个很大的艺术家数据库。我一直注意到其他音乐网站在窃取我们网站的数据(我在这里和那里输入假艺人的名字，然后进行谷歌搜索)。

如何防止屏幕刮擦?这可能吗?

当前回答

如果你想看一个很好的例子，请访问http://www.bkstr.com/。他们使用j/s算法来设置cookie，然后重新加载页面，以便它可以使用cookie来验证请求是否正在浏览器中运行。一个为抓取而构建的桌面应用程序绝对可以做到这一点，但它会阻止大多数cURL类型的抓取。

2011-03-07 18:25:29

其他回答

提供一个XML API来访问您的数据;以一种易于使用的方式。如果人们想要你的数据，他们就会得到，你不妨全力以赴。

通过这种方式，您可以以有效的方式提供功能子集，至少确保刮刮器不会消耗HTTP请求和大量带宽。

然后，您所要做的就是说服想要您的数据的人使用API。；）

2010-07-01 21:01:50

好吧，正如所有帖子所说，如果你想让它对搜索引擎友好，那么机器人肯定会刮。

但你仍然可以做一些事情，它可能适用于60% - 70%的抓取机器人。

制作如下所示的检查器脚本。

如果一个特定的IP地址访问非常快，那么在几次访问(5-10次)后，将其IP地址+浏览器信息保存在文件或数据库中。

下一步

(这将是一个后台进程，并一直运行或在几分钟后调度。)制作另一个脚本，继续检查那些可疑的IP地址。

案例1。如果用户代理是一个已知的搜索引擎，如谷歌，Bing, Yahoo(你可以通过Google找到更多关于用户代理的信息)。那么你一定会看到http://www.iplists.com/。这个列表，并尝试匹配模式。如果它看起来像一个假的用户代理，那么要求在下次访问时填写验证码。(你需要多研究一下机器人的IP地址。我知道这是可以实现的，也尝试了IP地址的whois。这是有帮助的。)

例2。没有搜索机器人的用户代理:只需在下次访问时要求填写验证码。

2010-07-01 21:12:42

我已经做了很多网络抓取，并在我的博客上总结了一些技巧来阻止网络抓取，基于我觉得讨厌的东西。

这是你的用户和刮刀者之间的权衡。如果你限制IP，使用验证码，要求登录，等等，你会给刮刀器带来困难。但这也可能会赶走真正的用户。

2011-04-11 23:23:37

我同意上面的大部分帖子，我想补充的是，你的网站对搜索引擎越友好，它就越容易被抓取。你可以尝试做一些让刮刀器更难的事情，但它也可能影响你的搜索能力……当然，这取决于你想让你的网站在搜索引擎上排名有多好。

2010-07-01 20:55:45

可能对初学者不利的事情:

IP封锁大量使用ajax 检查引用请求头需要登录

通常会有帮助的事情:

每周改变你的布局 robots . txt

有帮助但会让你的用户讨厌你的东西: