如何防止网站刮取?

我有一个相当大的音乐网站，有一个很大的艺术家数据库。我一直注意到其他音乐网站在窃取我们网站的数据(我在这里和那里输入假艺人的名字，然后进行谷歌搜索)。

如何防止屏幕刮擦?这可能吗?

当前回答

提供一个XML API来访问您的数据;以一种易于使用的方式。如果人们想要你的数据，他们就会得到，你不妨全力以赴。

通过这种方式，您可以以有效的方式提供功能子集，至少确保刮刮器不会消耗HTTP请求和大量带宽。

然后，您所要做的就是说服想要您的数据的人使用API。；）

其他回答

提供一个XML API来访问您的数据;以一种易于使用的方式。如果人们想要你的数据，他们就会得到，你不妨全力以赴。

通过这种方式，您可以以有效的方式提供功能子集，至少确保刮刮器不会消耗HTTP请求和大量带宽。

然后，您所要做的就是说服想要您的数据的人使用API。；）

当然，这是可能的。为了100%的成功，让你的网站离线。

在现实中，你可以做一些事情，让抓取变得更加困难。谷歌进行浏览器检查，以确保您不是一个抓取搜索结果的机器人(尽管这和大多数其他事情一样，可以被欺骗)。

你可以做一些事情，比如在第一次连接到你的网站和随后的点击之间需要几秒钟。我不确定理想的时间是什么，也不知道具体怎么做，但这是另一个想法。

我相信还有其他一些人有更多的经验，但我希望这些想法至少有一定的帮助。

与其将机器人列入黑名单，不如将它们列入白名单。如果你不想让你的搜索结果失去前几个引擎，你可以把他们的用户代理字符串列入白名单，这通常是广为人知的。不那么道德的机器人倾向于伪造流行网络浏览器的用户代理字符串。排名靠前的几个搜索引擎应该会为你带来95%以上的流量。

识别机器人本身应该是相当简单的，使用其他帖子建议的技术。

苏' em。

说正经的:如果你有钱，就找个懂网络的年轻律师谈谈。你真的可以在这里有所作为。根据网站所在地的不同，你可以让律师在你的国家写一份终止协议或类似的文件。你至少能吓到那些混蛋。

记录插入的虚拟值。插入明确(但模糊)指向你的虚拟值。我认为这是电话簿公司的普遍做法，在德国，我想已经有几个例子，抄袭者通过1:1复制的虚假条目被破获。

如果这将导致您弄乱HTML代码，拖低SEO，有效性和其他事情，那将是一种耻辱(即使一个模板系统在对相同页面的每个请求使用略微不同的HTML结构可能已经帮助了很多抓取程序，总是依赖HTML结构和类/ID名称来获取内容)。

这类案件正是版权法所擅长的。剽窃别人的诚实工作来赚钱是你应该能够反对的事情。

不幸的是，您最好的选择是手动的:寻找您认为指示抓取和禁止其IP地址的流量模式。

既然你谈论的是一个公共网站，那么让网站对搜索引擎友好也会让网站对抓取友好。如果一个搜索引擎可以抓取和刮除你的网站，那么恶意刮除者也可以。这是一条微妙的界线。

推荐文章