如何防止网站刮取?

我有一个相当大的音乐网站，有一个很大的艺术家数据库。我一直注意到其他音乐网站在窃取我们网站的数据(我在这里和那里输入假艺人的名字，然后进行谷歌搜索)。

如何防止屏幕刮擦?这可能吗?

当前回答

你真的没有什么办法可以完全防止这种情况。刮刮者可以伪造他们的用户代理，使用多个IP地址等，并以正常用户的身份出现。你唯一能做的就是让文本在页面加载时不可用——用图像、flash或JavaScript加载。然而，前两个都是糟糕的想法，如果JavaScript没有为一些常规用户启用，最后一个将是可访问性问题。

如果他们对你的网站进行了猛烈的攻击，并且浏览了你所有的页面，你可以做一些速率限制。

不过还是有希望的。刮刮器依赖于您的网站的数据是一致的格式。如果你能随机分配，它可能会打碎他们的刮刀。比如在每次加载时更改页面元素的ID或类名等。但这需要做很多工作，我不确定是否值得。即便如此，只要有足够的投入，他们可能就能解决这个问题。

2010-07-01 20:51:53

其他回答

大多数已经说过了，但是你考虑过CloudFlare的保护吗?我的意思是:

其他公司可能也这么做，CloudFlare是我知道的唯一一家。

我很确定这会使他们的工作复杂化。我还曾经因为速率限制而试图废弃一个受CloudFlare保护的网站的数据(我使用了简单的AJAX请求循环)，导致IP被自动禁用了4个月。

2016-02-03 10:09:44

如果你想看一个很好的例子，请访问http://www.bkstr.com/。他们使用j/s算法来设置cookie，然后重新加载页面，以便它可以使用cookie来验证请求是否正在浏览器中运行。一个为抓取而构建的桌面应用程序绝对可以做到这一点，但它会阻止大多数cURL类型的抓取。

2011-03-07 18:25:29

将你的内容放在验证码后面意味着机器人将很难访问你的内容。然而，人类会不方便，所以这可能是不可取的。

2010-07-01 20:53:30

提供一个XML API来访问您的数据;以一种易于使用的方式。如果人们想要你的数据，他们就会得到，你不妨全力以赴。

通过这种方式，您可以以有效的方式提供功能子集，至少确保刮刮器不会消耗HTTP请求和大量带宽。

然后，您所要做的就是说服想要您的数据的人使用API。；）

2010-07-01 21:01:50

从技术角度来看: 只需模拟谷歌在一次使用太多查询时的情况。这应该能让很多人停止。

从法律角度看: 听起来你发布的数据并不是私有的。这意味着你发布的名字、数据和其他信息是不受版权保护的。

如果是这种情况，刮刮器通过重新分发您的艺术家姓名等信息并没有侵犯版权。然而，当他们将你的网站加载到内存中时，他们可能侵犯了版权，因为你的网站包含了可版权的元素(如布局等)。

我建议你阅读Facebook诉Power.com的文章，看看Facebook如何阻止屏幕抓取。有很多合法的方法可以阻止别人窃取你的网站。他们可以影响深远，富有想象力。有时法院会相信这些论点。有时他们不会。

但是，假设你发布的是不受版权保护的公共领域信息，比如名字和基本数据……你应该以言论自由和开放数据的名义让它随风而逝。这就是网络的意义所在。

2011-03-13 09:34:03

如何防止网站刮取?

推荐文章

最新文章

标签