从文件中获取第n行的Bash工具

有没有一种“规范”的方法？我一直在使用head-n|tail-1来完成这个任务，但我一直在想是否有一个Bash工具专门从文件中提取一行（或一系列行）。

我所说的“规范”是指一个主要功能就是这样做的程序。

当前回答

有了awk，速度相当快：

awk 'NR == num_line' file

如果为true，则执行awk的默认行为：｛print$0｝。

替代版本

如果您的文件恰好很大，最好在读取所需的行后退出。这样可以节省CPU时间请参见答案末尾的时间比较。

awk 'NR == num_line {print; exit}' file

如果要从bash变量中给出行号，可以使用：

awk 'NR == n' n=$num file
awk -v n=$num 'NR == n' file   # equivalent

查看使用exit节省了多少时间，特别是如果该行恰好位于文件的第一部分：

# Let's create a 10M lines file
for ((i=0; i<100000; i++)); do echo "bla bla"; done > 100Klines
for ((i=0; i<100; i++)); do cat 100Klines; done > 10Mlines

$ time awk 'NR == 1234567 {print}' 10Mlines
bla bla

real    0m1.303s
user    0m1.246s
sys 0m0.042s
$ time awk 'NR == 1234567 {print; exit}' 10Mlines
bla bla

real    0m0.198s
user    0m0.178s
sys 0m0.013s

因此，两者的差异是0.198秒对1.303秒，大约快了6倍。

2014-01-22 09:49:02

其他回答

您也可以使用sed打印并退出：

sed -n '10{p;q;}' file   # print line 10

2011-05-17 11:49:24

使用其他人提到的内容，我希望这是我的bash shell中一个快速而出色的函数。

创建文件：~/.functions

添加内容：

getline（）{行=$1sed$line'q；2美元}

然后将其添加到~/.bash_profile中：

source~/.函数

现在，当您打开一个新的bash窗口时，您可以这样调用函数：

获取行441 myfile.txt

2018-01-17 14:19:49

如果有多行由\n分隔（通常为新行）。您也可以使用“cut”：

echo "$data" | cut -f2 -d$'\n'

您将从文件中获得第二行-f3给你第三行。

2016-01-07 16:27:53

我有一个独特的情况，我可以对本页上提出的解决方案进行基准测试，因此我将此答案作为所提出解决方案的合并，并包含每个解决方案的运行时间。

设置

我有一个3.261千兆字节的ASCII文本数据文件，每行有一个键值对。该文件共包含3339550320行，无法在我尝试过的任何编辑器中打开，包括使用Vim。我需要对这个文件进行子集，以便调查我发现的一些值，这些值仅从第~500000000行开始。

因为文件有很多行：

我只需要提取行的一个子集，就可以对数据进行任何有用的操作。通读每一行，得出我所关心的值，需要很长时间。如果解决方案读取了我关心的行，并继续读取文件的其余部分，那么将浪费时间读取近30亿个不相关的行，所需时间将比需要的时间长6倍。

我最好的方案是只从文件中提取一行，而不读取文件中的任何其他行，但我想不出如何在Bash中实现这一点。

为了我的理智，我不会试图阅读我自己的问题所需要的全部500000000行。相反，我将尝试从3339550320中提取第50000000行（这意味着读取整个文件需要比所需时间长60倍）。

我将使用内置的时间对每个命令进行基准测试。

基线

首先，让我们看看头尾解决方案是如何实现的：

$ time head -50000000 myfile.ascii | tail -1
pgm_icnt = 0

real    1m15.321s

5000万行的基线是00:01:15.321，如果我直冲5亿行，大概需要12.5分钟。

cut

我对这一点半信半疑，但值得一试：

$ time cut -f50000000 -d$'\n' myfile.ascii
pgm_icnt = 0

real    5m12.156s

这只跑了00:05:12.156，比基线慢得多！我不确定它是在停止之前读取整个文件还是仅读取5000万行，但无论如何，这似乎不是解决问题的可行方案。

AWK

我只使用出口运行解决方案，因为我不打算等待完整文件运行：

$ time awk 'NR == 50000000 {print; exit}' myfile.ascii
pgm_icnt = 0

real    1m16.583s

这段代码运行时间为00:01:16.583，仅慢了约1秒，但与基线相比仍没有改善。按照这个速度，如果退出命令被排除，那么读取整个文件可能需要大约76分钟！

Perl

我还运行了现有的Perl解决方案：

$ time perl -wnl -e '$.== 50000000 && print && exit;' myfile.ascii
pgm_icnt = 0

real    1m13.146s

该代码在00:01:13.146运行，比基线快了约2秒。如果我用5000万美元来运行它，可能需要大约12分钟。

sed

上面的答案是我的结果：

$ time sed "50000000q;d" myfile.ascii
pgm_icnt = 0

real    1m12.705s

这段代码以00:01:12.705运行，比基线快3秒，比Perl快0.4秒。如果我在整个500000000行上运行它，可能需要大约12分钟。

映射文件

我有bash 3.1，因此无法测试mapfile解决方案。

结论

看起来，在大多数情况下，很难改进头尾解决方案。最好情况下，sed解决方案可提高约3%的效率。

（使用公式%=（运行时/基线-1）*100计算的百分比）

第50000000行

00:01:12.705（-00:00:02.616=-3.47%）秒00:01:13.146（00:00:02.175=-2.89%）perl00:01:15.321（+00:00:00.000=+0.00%）头部|尾部00:01:16.583（+00:00:01.262=+1.68%）awk00:05:12.156（+000:03:56.835=+314.43%）切割

第500000000行

00:12:07.050（-00:00:26.160）秒00:12:11.460（-00:00:21.750）佩尔00:12:33.210（+00:00:00.000）头|尾00:12:45.830（+00:00:12.620）awk00:52:01.560（+00:40:31.650）切割

行3338559320

01:20:54.599（-00:03:05.327）秒01:21:24.045（-00:02:25.227）佩尔01:23:49.273（+00:00:00.000）头|尾01:25:13.548（+000:02:35.735）awk05:47:23.026（+04:24:26.246）切割

2016-08-30 00:29:15

在查看了顶部答案和基准之后，我实现了一个小助手函数：

function nth {
    if (( ${#} < 1 || ${#} > 2 )); then
        echo -e "usage: $0 \e[4mline\e[0m [\e[4mfile\e[0m]"
        return 1
    fi
    if (( ${#} > 1 )); then
        sed "$1q;d" $2
    else
        sed "$1q;d"
    fi
}

基本上，您可以以两种方式使用它：

nth 42 myfile.txt
do_stuff | nth 42

2020-05-12 08:45:00

从文件中获取第n行的Bash工具

推荐文章

最新文章

标签