如何防止网站刮取?

我有一个相当大的音乐网站，有一个很大的艺术家数据库。我一直注意到其他音乐网站在窃取我们网站的数据(我在这里和那里输入假艺人的名字，然后进行谷歌搜索)。

如何防止屏幕刮擦?这可能吗?

当前回答

我同意上面的大部分帖子，我想补充的是，你的网站对搜索引擎越友好，它就越容易被抓取。你可以尝试做一些让刮刀器更难的事情，但它也可能影响你的搜索能力……当然，这取决于你想让你的网站在搜索引擎上排名有多好。

其他回答

我假定您已经设置了robots.txt。

正如其他人所提到的，刮刮器可以伪造其活动的几乎每个方面，并且可能很难识别来自坏人的请求。

我会考虑:

建立一个页面/jail.html。禁止访问robots.txt中的页面(因此尊敬的蜘蛛永远不会访问)。在你的一个页面上放置一个链接，用CSS隐藏它(display: none)。记录访问者的IP地址到/jail.html。

这可以帮助您快速识别来自scraper的请求，这些请求公然无视您的robots.txt。

你可能还想让你的/jail.html成为一个完整的网站，它拥有与正常页面相同的标记，但是使用假数据(/jail/album/63ajdka， /jail/track/3aads8等)。这样，在你有机会完全阻止它们之前，糟糕的抓取程序不会被提醒“异常输入”。

将你的内容放在验证码后面意味着机器人将很难访问你的内容。然而，人类会不方便，所以这可能是不可取的。

对不起，这真的很难做到……

我建议你礼貌地要求他们不要使用你的内容(如果你的内容是受版权保护的)。

如果是这样，他们不把它撤下来，那么你可以采取进一步的行动，给他们发一封停止通知信。

一般来说，无论你做什么来防止抓取可能最终会产生更负面的影响，例如可访问性，机器人/蜘蛛等。

如果你想看一个很好的例子，请访问http://www.bkstr.com/。他们使用j/s算法来设置cookie，然后重新加载页面，以便它可以使用cookie来验证请求是否正在浏览器中运行。一个为抓取而构建的桌面应用程序绝对可以做到这一点，但它会阻止大多数cURL类型的抓取。

生成HTML, CSS和JavaScript。编写生成器比编写解析器更容易，因此可以以不同的方式生成每个服务页面。这样就不能再使用缓存或静态内容了。

推荐文章