如何防止网站刮取?

我有一个相当大的音乐网站，有一个很大的艺术家数据库。我一直注意到其他音乐网站在窃取我们网站的数据(我在这里和那里输入假艺人的名字，然后进行谷歌搜索)。

如何防止屏幕刮擦?这可能吗?

当前回答

生成HTML, CSS和JavaScript。编写生成器比编写解析器更容易，因此可以以不同的方式生成每个服务页面。这样就不能再使用缓存或静态内容了。

其他回答

不，不可能停止(以任何方式) 拥抱它。为什么不发布为RDFa，成为超级搜索引擎友好，并鼓励重复使用数据?人们会感谢你，并在适当的时候提供信用(以musicbrainz为例)。

这可能不是你想要的答案，但为什么要隐藏你想要公开的东西呢?

大多数已经说过了，但是你考虑过CloudFlare的保护吗?我的意思是:

其他公司可能也这么做，CloudFlare是我知道的唯一一家。

我很确定这会使他们的工作复杂化。我还曾经因为速率限制而试图废弃一个受CloudFlare保护的网站的数据(我使用了简单的AJAX请求循环)，导致IP被自动禁用了4个月。

与其将机器人列入黑名单，不如将它们列入白名单。如果你不想让你的搜索结果失去前几个引擎，你可以把他们的用户代理字符串列入白名单，这通常是广为人知的。不那么道德的机器人倾向于伪造流行网络浏览器的用户代理字符串。排名靠前的几个搜索引擎应该会为你带来95%以上的流量。

识别机器人本身应该是相当简单的，使用其他帖子建议的技术。

我已经做了很多网络抓取，并在我的博客上总结了一些技巧来阻止网络抓取，基于我觉得讨厌的东西。

这是你的用户和刮刀者之间的权衡。如果你限制IP，使用验证码，要求登录，等等，你会给刮刀器带来困难。但这也可能会赶走真正的用户。

我假定您已经设置了robots.txt。

正如其他人所提到的，刮刮器可以伪造其活动的几乎每个方面，并且可能很难识别来自坏人的请求。

我会考虑:

建立一个页面/jail.html。禁止访问robots.txt中的页面(因此尊敬的蜘蛛永远不会访问)。在你的一个页面上放置一个链接，用CSS隐藏它(display: none)。记录访问者的IP地址到/jail.html。

这可以帮助您快速识别来自scraper的请求，这些请求公然无视您的robots.txt。

你可能还想让你的/jail.html成为一个完整的网站，它拥有与正常页面相同的标记，但是使用假数据(/jail/album/63ajdka， /jail/track/3aads8等)。这样，在你有机会完全阻止它们之前，糟糕的抓取程序不会被提醒“异常输入”。

推荐文章