我正在用Node和Cheerio构建一个网页刮板,对于某个网站,我得到以下错误(它只发生在这一个网站上,没有其他我试图刮的网站。

它每次都发生在不同的位置,所以有时是url x抛出错误,其他时候url x是好的,它是一个完全不同的url:

    Error!: Error: socket hang up using [insert random URL, it's different every time]

Error: socket hang up
    at createHangUpError (http.js:1445:15)
    at Socket.socketOnEnd [as onend] (http.js:1541:23)
    at Socket.g (events.js:175:14)
    at Socket.EventEmitter.emit (events.js:117:20)
    at _stream_readable.js:910:16
    at process._tickCallback (node.js:415:13)

这是非常棘手的调试,我真的不知道从哪里开始。首先,什么是套接字挂起错误?是404错误还是类似的错误?或者仅仅意味着服务器拒绝连接?

我在任何地方都找不到解释!

编辑:下面是(有时)返回错误的代码示例:

function scrapeNexts(url, oncomplete) {
    request(url, function(err, resp, body) {

        if (err) {
            console.log("Uh-oh, ScrapeNexts Error!: " + err + " using " + url);
            errors.nexts.push(url);
        }
        $ = cheerio.load(body);
        // do stuff with the '$' cheerio content here
    });
}

没有直接调用关闭连接,但我使用节点请求(据我所知)使用http。get所以这是不需要的,如果我错了纠正我!

编辑2:下面是一段实际使用的代码,它会导致错误。prodURL和其他变量主要是前面定义的jquery选择器。这使用了Node的异步库。

function scrapeNexts(url, oncomplete) {
    request(url, function (err, resp, body) {

        if (err) {
            console.log("Uh-oh, ScrapeNexts Error!: " + err + " using " + url);
            errors.nexts.push(url);
        }
        async.series([
                function (callback) {
                    $ = cheerio.load(body);
                    callback();
                },
                function (callback) {
                    $(prodURL).each(function () {
                        var theHref = $(this).attr('href');
                        urls.push(baseURL + theHref);
                    });
                    var next = $(next_select).first().attr('href');
                    oncomplete(next);
                }
            ]);
    });
}

当前回答

我在nodejs中使用axios,在从url获取数据时面临sokcet挂起错误。

const response = await axios.get(url)

结果显示,这是因为超时错误,我没有处理错误。

因此,我添加了超时和错误处理,如下面的代码片段所示。

const response = await axios
      .get(url, { timeout: 10000 })
      .catch((error) => {
         if (axios.isAxiosError(error)) {
           const axiosError = error as AxiosError;
           console.log(message, axiosError.message);
           console.log(axiosError.response);
      });

因此,处理错误和指定超时为我解决了套接字挂起的问题。

其他回答

我在使用Nano库连接Couch DB时也遇到了同样的问题。我尝试使用keepaliveagent库微调连接池,它一直失败的套接字挂起消息。

var KeepAliveAgent = require('agentkeepalive');

var myagent = new KeepAliveAgent({
    maxSockets: 10,
    maxKeepAliveRequests: 0,
    maxKeepAliveTime: 240000
});

nano = new Nano({
    url : uri,
    requestDefaults : {
        agent : myagent
    }
});

经过一番努力,我终于解决了这个问题——结果发现这是一个非常非常简单的错误。我通过HTTPS协议连接到数据库,但是我一直向我的nano对象传递一个keepalive代理,作为使用这个库显示的示例创建(它们依赖于一些使用http的默认值)。

使用httpagent时做了一个简单的改变:

var KeepAliveAgent = require('agentkeepalive').HttpsAgent;

扩展Blender的答案,这在很多情况下都会发生。我遇到的最常见的问题是:

服务器崩溃。 服务器拒绝您的连接,很可能被用户代理阻塞。

socketCloseListener,正如Blender的回答中所概述的那样,并不是创建挂机错误的唯一地方。

例如,可以在这里找到:

function socketOnEnd() {
  var socket = this;
  var req = this._httpMessage;
  var parser = this.parser;

  if (!req.res) {
    // If we don't have a response then we know that the socket
    // ended prematurely and we need to emit an error on the request.
    req.emit('error', createHangUpError());
    req._hadError = true;
  }
  if (parser) {
    parser.finish();
    freeParser(parser, req);
  }
  socket.destroy();
}

你可以用curl来处理从Node发出的头信息,看看你是否得到响应。如果您没有使用curl得到响应,但在浏览器中得到响应,那么您的User-Agent头很可能被阻塞。

我认为“套接字挂起”是一个相当普遍的错误,表明连接已从服务器端终止。换句话说,用于维护客户端和服务器之间连接的套接字已经断开。(虽然我确信上面提到的许多观点对不同的人都有帮助,但我认为这是更普遍的答案。)

In my case, I was sending a request with a payload in excess of 20K. This was rejected by the server. I verified this by removing text and retrying until the request succeeded. After determining the maximum acceptable length, I verified that adding a single character caused the error to manifest. I also confirmed that the client wasn't the issue by sending the same request from a Python app and from Postman. So anyway, I'm confident that, in my case, the length of the payload was my specific problem.

同样,问题的根源是坊间传闻。常见的问题是“服务器说不”。

经过长时间的调试到节点js代码,mongodb连接字符串,检查CORS等,对我来说,只是切换到不同的端口号server.listen(端口);成功了,邮差,你也试试。不更改代理设置,只更改默认值。

对于请求模块用户

超时 有两种主要类型的超时:连接超时和读取超时。如果在客户端试图建立到远程机器的连接(对应于套接字上的connect()调用)时超时,则会发生连接超时。当服务器太慢而无法发送回部分响应时,就会发生读超时。

注意,连接超时发出一个ETIMEDOUT错误,读取超时发出一个ECONNRESET错误。