如何防止网站刮取?

我有一个相当大的音乐网站，有一个很大的艺术家数据库。我一直注意到其他音乐网站在窃取我们网站的数据(我在这里和那里输入假艺人的名字，然后进行谷歌搜索)。

如何防止屏幕刮擦?这可能吗?

当前回答

大多数已经说过了，但是你考虑过CloudFlare的保护吗?我的意思是:

其他公司可能也这么做，CloudFlare是我知道的唯一一家。

我很确定这会使他们的工作复杂化。我还曾经因为速率限制而试图废弃一个受CloudFlare保护的网站的数据(我使用了简单的AJAX请求循环)，导致IP被自动禁用了4个月。

2016-02-03 10:09:44

其他回答

如果你想看一个很好的例子，请访问http://www.bkstr.com/。他们使用j/s算法来设置cookie，然后重新加载页面，以便它可以使用cookie来验证请求是否正在浏览器中运行。一个为抓取而构建的桌面应用程序绝对可以做到这一点，但它会阻止大多数cURL类型的抓取。

2011-03-07 18:25:29

我假定您已经设置了robots.txt。

正如其他人所提到的，刮刮器可以伪造其活动的几乎每个方面，并且可能很难识别来自坏人的请求。

我会考虑:

建立一个页面/jail.html。禁止访问robots.txt中的页面(因此尊敬的蜘蛛永远不会访问)。在你的一个页面上放置一个链接，用CSS隐藏它(display: none)。记录访问者的IP地址到/jail.html。

这可以帮助您快速识别来自scraper的请求，这些请求公然无视您的robots.txt。

你可能还想让你的/jail.html成为一个完整的网站，它拥有与正常页面相同的标记，但是使用假数据(/jail/album/63ajdka， /jail/track/3aads8等)。这样，在你有机会完全阻止它们之前，糟糕的抓取程序不会被提醒“异常输入”。

2010-07-01 21:09:07

一种方法是将内容作为XML属性、URL编码的字符串、使用HTML编码的JSON预格式化的文本或数据uri提供，然后在客户机上将其转换为HTML。以下是一些这样做的网站:

Skechers: XML <document filename="" height="" width="" title="SKECHERS" linkType="" linkUrl="" imageMap="" href="http://www.bobsfromskechers.com" alt="BOBS from Skechers" title="BOBS from Skechers" /> Chrome Web Store: JSON <script type="text/javascript" src="https://apis.google.com/js/plusone.js">{"lang": "en", "parsetags": "explicit"}</script> Bing News: data URL <script type="text/javascript"> //<![CDATA[ (function() { var x;x=_ge('emb7'); if(x) { x.src='data:image/jpeg;base64,/*...*/'; } }() ) Protopage: URL Encoded Strings unescape('Rolling%20Stone%20%3a%20Rock%20and%20Roll%20Daily') TiddlyWiki : HTML Entities + preformatted JSON <pre> {"tiddlers": { "GettingStarted": { "title": "GettingStarted", "text": "Welcome to TiddlyWiki, } } } </pre> Amazon: Lazy Loading amzn.copilot.jQuery=i;amzn.copilot.jQuery(document).ready(function(){d(b);f(c,function() {amzn.copilot.setup({serviceEndPoint:h.vipUrl,isContinuedSession:true})})})},f=function(i,h){var j=document.createElement("script");j.type="text/javascript";j.src=i;j.async=true;j.onload=h;a.appendChild(j)},d=function(h){var i=document.createElement("link");i.type="text/css";i.rel="stylesheet";i.href=h;a.appendChild(i)}})(); amzn.copilot.checkCoPilotSession({jsUrl : 'http://z-ecx.images-amazon.com/images/G/01/browser-scripts/cs-copilot-customer-js/cs-copilot-customer-js-min-1875890922._V1_.js', cssUrl : 'http://z-ecx.images-amazon.com/images/G/01/browser-scripts/cs-copilot-customer-css/cs-copilot-customer-css-min-2367001420._V1_.css', vipUrl : 'https://copilot.amazon.com' XMLCalabash: Namespaced XML + Custom MIME type + Custom File extension <p:declare-step type="pxp:zip"> <p:input port="source" sequence="true" primary="true"/> <p:input port="manifest"/> <p:output port="result"/> <p:option name="href" required="true" cx:type="xsd:anyURI"/> <p:option name="compression-method" cx:type="stored|deflated"/> <p:option name="compression-level" cx:type="smallest|fastest|default|huffman|none"/> <p:option name="command" select="'update'" cx:type="update|freshen|create|delete"/> </p:declare-step>

如果查看上述任何一个的源代码，就会看到抓取只会返回元数据和导航。

2013-12-23 18:00:27

从技术角度来看: 只需模拟谷歌在一次使用太多查询时的情况。这应该能让很多人停止。

从法律角度看: 听起来你发布的数据并不是私有的。这意味着你发布的名字、数据和其他信息是不受版权保护的。

如果是这种情况，刮刮器通过重新分发您的艺术家姓名等信息并没有侵犯版权。然而，当他们将你的网站加载到内存中时，他们可能侵犯了版权，因为你的网站包含了可版权的元素(如布局等)。

我建议你阅读Facebook诉Power.com的文章，看看Facebook如何阻止屏幕抓取。有很多合法的方法可以阻止别人窃取你的网站。他们可以影响深远，富有想象力。有时法院会相信这些论点。有时他们不会。

但是，假设你发布的是不受版权保护的公共领域信息，比如名字和基本数据……你应该以言论自由和开放数据的名义让它随风而逝。这就是网络的意义所在。

2011-03-13 09:34:03

苏' em。

说正经的:如果你有钱，就找个懂网络的年轻律师谈谈。你真的可以在这里有所作为。根据网站所在地的不同，你可以让律师在你的国家写一份终止协议或类似的文件。你至少能吓到那些混蛋。

记录插入的虚拟值。插入明确(但模糊)指向你的虚拟值。我认为这是电话簿公司的普遍做法，在德国，我想已经有几个例子，抄袭者通过1:1复制的虚假条目被破获。

如果这将导致您弄乱HTML代码，拖低SEO，有效性和其他事情，那将是一种耻辱(即使一个模板系统在对相同页面的每个请求使用略微不同的HTML结构可能已经帮助了很多抓取程序，总是依赖HTML结构和类/ID名称来获取内容)。

这类案件正是版权法所擅长的。剽窃别人的诚实工作来赚钱是你应该能够反对的事情。

2010-07-01 22:57:24

如何防止网站刮取?

推荐文章

最新文章

标签