Node.js:将文本文件读入数组。(每一行都是数组中的一项。)

我想把一个非常非常大的文件读入node。js中的JavaScript数组。

所以，如果文件是这样的:

first line
two 
three
...
...

我有一个数组:

['first line','two','three', ... , ... ]

函数看起来是这样的:

var array = load(filename);

因此，将其全部作为字符串加载，然后将其拆分的想法是不可接受的。

当前回答

如果你能把最终的数据放入一个数组，那么你不也能把它放入一个字符串中并分割它吗? 在任何情况下，如果你想一次处理一行文件，你也可以尝试这样做:

var fs = require('fs');

function readLines(input, func) {
  var remaining = '';

  input.on('data', function(data) {
    remaining += data;
    var index = remaining.indexOf('\n');
    while (index > -1) {
      var line = remaining.substring(0, index);
      remaining = remaining.substring(index + 1);
      func(line);
      index = remaining.indexOf('\n');
    }
  });

  input.on('end', function() {
    if (remaining.length > 0) {
      func(remaining);
    }
  });
}

function func(data) {
  console.log('Line: ' + data);
}

var input = fs.createReadStream('lines.txt');
readLines(input, func);

编辑:(回应phopkins的评论)我认为(至少在新版本中)substring不复制数据，而是创建一个特殊的SlicedString对象(从v8源代码中快速浏览)。在任何情况下，这里有一个修改，避免了提到的子字符串(在一个文件上测试了几个兆字节的“只工作不玩耍，聪明的孩子会变傻”):

function readLines(input, func) {
  var remaining = '';

  input.on('data', function(data) {
    remaining += data;
    var index = remaining.indexOf('\n');
    var last  = 0;
    while (index > -1) {
      var line = remaining.substring(last, index);
      last = index + 1;
      func(line);
      index = remaining.indexOf('\n', last);
    }

    remaining = remaining.substring(last);
  });

  input.on('end', function() {
    if (remaining.length > 0) {
      func(remaining);
    }
  });
}

2011-07-26 16:00:17

其他回答

同步:

var fs = require('fs');
var array = fs.readFileSync('file.txt').toString().split("\n");
for(i in array) {
    console.log(array[i]);
}

异步:

var fs = require('fs');
fs.readFile('file.txt', function(err, data) {
    if(err) throw err;
    var array = data.toString().split("\n");
    for(i in array) {
        console.log(array[i]);
    }
});

2011-07-26 14:59:47

使用BufferedReader，但函数应该是异步的:

var load = function (file, cb){
    var lines = [];
    new BufferedReader (file, { encoding: "utf8" })
        .on ("error", function (error){
            cb (error, null);
        })
        .on ("line", function (line){
            lines.push (line);
        })
        .on ("end", function (){
            cb (null, lines);
        })
        .read ();
};

load ("file", function (error, lines){
    if (error) return console.log (error);
    console.log (lines);
});

2012-04-26 09:08:17

我有同样的问题，我已经解决了它与模块逐行

https://www.npmjs.com/package/line-by-line

至少对我来说，无论是在同步模式还是异步模式下，它都很有魅力。

同样，行终止不终止\n的问题可以用选项解决:

{ encoding: 'utf8', skipEmptyLines: false }

行同步处理:

var LineByLineReader = require('line-by-line'),
    lr = new LineByLineReader('big_file.txt');

lr.on('error', function (err) {
    // 'err' contains error object
});

lr.on('line', function (line) {
    // 'line' contains the current line without the trailing newline character.
});

lr.on('end', function () {
    // All lines are read, file is closed now.
});

2015-05-11 19:21:46

另一个答案是使用npm包。nexline包允许用户逐行异步读取文件:

"use strict";

import fs from 'fs';
import nexline from 'nexline';

const lines = [];
const reader = nexline({
    input: fs.createReadStream(`path/to/file.ext`)
});

while(true) {
    const line = await reader.next();
    if(line === null) break; // line is null if we reach the end
    if(line.length === 0) continue; // Ignore empty lines
    
    // Process the line here - below is just an example
    lines.push(line);
}

即使您的文本文件大于允许的最大字符串长度，这种方法也可以工作，从而避免“错误:不能创建超过0x1fffffe8个字符的字符串”错误。

2022-04-08 17:56:56

使用readline(文档)。下面是一个例子，读取一个CSS文件，解析图标并将它们写入json

var results = [];
  var rl = require('readline').createInterface({
    input: require('fs').createReadStream('./assets/stylesheets/_icons.scss')
  });


  // for every new line, if it matches the regex, add it to an array
  // this is ugly regex :)
  rl.on('line', function (line) {
    var re = /\.icon-icon.*:/;
    var match;
    if ((match = re.exec(line)) !== null) {
      results.push(match[0].replace(".",'').replace(":",''));
    }
  });


  // readline emits a close event when the file is read.
  rl.on('close', function(){
    var outputFilename = './icons.json';
    fs.writeFile(outputFilename, JSON.stringify(results, null, 2), function(err) {
        if(err) {
          console.log(err);
        } else {
          console.log("JSON saved to " + outputFilename);
        }
    });
  });

2015-12-02 02:37:41

Node.js:将文本文件读入数组。(每一行都是数组中的一项。)

推荐文章

最新文章

标签