谷歌Web搜索API已弃用,由自定义搜索API取代(参见http://code.google.com/apis/websearch/)。
我想搜索整个网络,但看起来有了新的API,只有自定义网站可以搜索。
有没有一种方法可以通过编程的方式搜索整个网络?我可以从Java程序中使用JSON查询旧的API。
谷歌Web搜索API已弃用,由自定义搜索API取代(参见http://code.google.com/apis/websearch/)。
我想搜索整个网络,但看起来有了新的API,只有自定义网站可以搜索。
有没有一种方法可以通过编程的方式搜索整个网络?我可以从Java程序中使用JSON查询旧的API。
当前回答
有一个叫做JFreeWebSearch的免费Java API,它使用了前面提到的Faroo: http://www.ke.tu-darmstadt.de/resources/jfreewebsearch
其他回答
我刚从《普通爬行》上看到这个。
http://www.commoncrawl.org/
也许这就是我们都在寻找的答案!!
您可以从谷歌自定义搜索主页(http://www.google.com/cse/)创建“无处不在”自定义搜索引擎。 在添加新引擎时,您只需单击“高级”。在这里您可以提供Schema.org站点类型。“Thing”是最通用的类型,它涵盖了整个网络。
是的,谷歌自定义搜索现在已经取代了旧的搜索API,但你仍然可以使用谷歌自定义搜索来搜索整个网络,尽管从自定义搜索设置的步骤并不明显。
创建一个谷歌自定义搜索引擎,搜索整个网络:
From the Google Custom Search homepage ( http://www.google.com/cse/ ), click Create a Custom Search Engine. Type a name and description for your search engine. Under Define your search engine, in the Sites to Search box, enter at least one valid URL (For now, just put www.anyurl.com to get past this screen. More on this later ). Select the CSE edition you want and accept the Terms of Service, then click Next. Select the layout option you want, and then click Next. Click any of the links under the Next steps section to navigate to your Control panel. In the left-hand menu, under Control Panel, click Basics. In the Search Preferences section, select Search the entire web but emphasize included sites. Click Save Changes. In the left-hand menu, under Control Panel, click Sites. Delete the site you entered during the initial setup process.
现在您的自定义搜索引擎将搜索整个网络。
定价
谷歌自定义搜索每天免费提供100个查询。 之后,每1000次查询支付5美元。 每天最多有10,000个查询。
来源:https://developers.google.com/custom-search/json-api/v1/overview定价
搜索质量远远低于正常的谷歌搜索(没有同义词,“智能”等) 谷歌甚至计划完全关闭这项服务。
在文档上面有个备注
注:谷歌Web搜索API有 已正式弃用 2010年11月1日。它将继续 按照我们的弃用政策工作 但是请求的数量 每天制作的数量是有限的。 因此,我们鼓励您搬到 新的自定义搜索API。
弃用策略说他们将继续运行API 3年。因此,如果您已经有了一个使用旧API的应用程序,您还不必急于进行更改。如果您正在编写一个新的应用程序,请使用自定义搜索API。关于如何在Python中做到这一点,请参阅我的回答,但任何语言的想法都是一样的。
有一个叫做JFreeWebSearch的免费Java API,它使用了前面提到的Faroo: http://www.ke.tu-darmstadt.de/resources/jfreewebsearch