有没有一种“规范”的方法?我一直在使用head-n|tail-1来完成这个任务,但我一直在想是否有一个Bash工具专门从文件中提取一行(或一系列行)。

我所说的“规范”是指一个主要功能就是这样做的程序。


当前回答

以上所有答案都直接回答了这个问题。但这是一个不那么直接的解决方案,但可能是一个更重要的想法,可以引起人们的思考。

由于行长度是任意的,因此需要读取文件第n行之前的所有字节。如果您有一个巨大的文件或需要多次重复此任务,并且此过程非常耗时,那么您应该认真考虑是否应该首先以不同的方式存储数据。

真正的解决方案是有一个索引,例如在文件的开头,指示行开始的位置。您可以使用数据库格式,或者在文件开头添加一个表。或者,创建一个单独的索引文件,与大型文本文件一起使用。

例如,您可以为换行符创建一个字符位置列表:

awk 'BEGIN{c=0;print(c)}{c+=length()+1;print(c+1)}' file.txt > file.idx

然后用tail读取,它实际上直接查找文件中的适当点!

例如获得线1000:

tail -c +$(awk 'NR=1000' file.idx) file.txt | head -1

这可能不适用于2字节/多字节字符,因为awk是“字符识别”的,但tail不是。我还没有对一个大文件进行测试。另请参阅此答案。或者,将文件拆分为更小的文件!

其他回答

大文件的最快解决方案始终是尾部|头部,前提是两个距离:

从文件开头到开始行。我们称之为S从最后一行到文件结尾的距离。是E吗

是已知的。然后,我们可以使用这个:

mycount="$E"; (( E > S )) && mycount="+$S"
howmany="$(( endline - startline + 1 ))"
tail -n "$mycount"| head -n "$howmany"

多少只是所需的行数。

更多详情请参见https://unix.stackexchange.com/a/216614/79743

保存两次按键,不使用括号打印第N行:

sed  -n  Np  <fileName>
      ^   ^
       \   \___ 'p' for printing
        \______ '-n' for not printing by default 

例如,要打印第100行:

sed -n 100p foo.txt      

UPDATE 1:在awk中找到了更快的方法

仅需5.353秒即可获得133.6 mn以上的行:

行号='133668997';(时间(pvE0<~/master_primelist_18a.txt|LC_ALL=C mawk2-F'^$'-v\_=“${rownum}”--'_{exit}!--_'))

in0: 5.45GiB 0:00:05 [1.02GiB/s] [1.02GiB/s] [======> ] 71%            
     ( pvE 0.1 in0 < ~/master_primelist_18a.txt | 
     LC_ALL=C mawk2 -F'^$' -v  -- ; )  5.01s user 

1.21s系统116%cpu 5.353总计

77.37219=195591955519519519559551=0x296B0FA7D668C4A64F7F=

===============================================

我想质疑perl比awk更快的观点:

因此,虽然我的测试文件的行数没有那么多,但它的大小也是原来的两倍,为7.58GB-

我甚至给了perl一些内置的优势——比如行号中的硬编码,并且还排在第二位,从而从OS缓存机制中获得了任何潜在的加速(如果有的话)

 f="$( grealpath -ePq  ~/master_primelist_18a.txt )"
 rownum='133668997'
 fg;fg; pv < "${f}" | gwc -lcm 
 echo; sleep 2; 
 echo; 
 ( time ( pv -i 0.1 -cN in0 < "${f}" | 
        
    LC_ALL=C mawk2 '_{exit}_=NR==+__' FS='^$' __="${rownum}" 

 ) ) | mawk 'BEGIN { print } END { print _ } NR' 
 sleep 2
 ( time ( pv -i 0.1 -cN in0 < "${f}" | 

    LC_ALL=C perl -wnl -e '$.== 133668997 && print && exit;' 

 ) ) | mawk 'BEGIN { print }  END { print _ } NR' ;

fg: no current job
fg: no current job
7.58GiB 0:00:28 [ 275MiB/s] [============>] 100%
        
148,110,134 8,134,435,629 8,134,435,629   <<<< rows, chars, and bytes 
                                               count as reported by gnu-wc



      in0: 5.45GiB 0:00:07 [ 701MiB/s] [=> ] 71%            
( pv -i 0.1 -cN in0 < "${f}" | LC_ALL=C mawk2 '_{exit}_=NR==+__' FS='^$' ; )  
   6.22s user 2.56s system 110% cpu 7.966 total
   77.37219=195591955519519519559551=0x296B0FA7D668C4A64F7F=


      in0: 5.45GiB 0:00:17 [ 328MiB/s] [=> ] 71%            
( pv -i 0.1 -cN in0 < "${f}" | LC_ALL=C perl -wnl -e ; )  
   14.22s user 3.31s system 103% cpu 17.014 total
   77.37219=195591955519519519559551=0x296B0FA7D668C4A64F7F=

我可以用perl5.36甚至perl-6重新运行测试,如果你认为这会有所不同(也没有安装)

7.966秒(mawk2)与17.014秒(perl 5.34)

在这两者之间,后者是前者的两倍多,显然哪一种在ASCII文件中获取单行数据确实更快。

This is perl 5, version 34, subversion 0 (v5.34.0) built for darwin-thread-multi-2level

Copyright 1987-2021, Larry Wall


mawk 1.9.9.6, 21 Aug 2016, Copyright Michael D. Brennan
sed -n '2p' < file.txt

将打印第二行

sed -n '2011p' < file.txt

2011线

sed -n '10,33p' < file.txt

第10行到第33行

sed -n '1p;3p' < file.txt

第1和第3行

等等

对于使用sed添加行,您可以选中此项:

sed:在某个位置插入一行

我有一个独特的情况,我可以对本页上提出的解决方案进行基准测试,因此我将此答案作为所提出解决方案的合并,并包含每个解决方案的运行时间。

设置

我有一个3.261千兆字节的ASCII文本数据文件,每行有一个键值对。该文件共包含3339550320行,无法在我尝试过的任何编辑器中打开,包括使用Vim。我需要对这个文件进行子集,以便调查我发现的一些值,这些值仅从第~500000000行开始。

因为文件有很多行:

我只需要提取行的一个子集,就可以对数据进行任何有用的操作。通读每一行,得出我所关心的值,需要很长时间。如果解决方案读取了我关心的行,并继续读取文件的其余部分,那么将浪费时间读取近30亿个不相关的行,所需时间将比需要的时间长6倍。

我最好的方案是只从文件中提取一行,而不读取文件中的任何其他行,但我想不出如何在Bash中实现这一点。

为了我的理智,我不会试图阅读我自己的问题所需要的全部500000000行。相反,我将尝试从3339550320中提取第50000000行(这意味着读取整个文件需要比所需时间长60倍)。

我将使用内置的时间对每个命令进行基准测试。

基线

首先,让我们看看头尾解决方案是如何实现的:

$ time head -50000000 myfile.ascii | tail -1
pgm_icnt = 0

real    1m15.321s

5000万行的基线是00:01:15.321,如果我直冲5亿行,大概需要12.5分钟。

cut

我对这一点半信半疑,但值得一试:

$ time cut -f50000000 -d$'\n' myfile.ascii
pgm_icnt = 0

real    5m12.156s

这只跑了00:05:12.156,比基线慢得多!我不确定它是在停止之前读取整个文件还是仅读取5000万行,但无论如何,这似乎不是解决问题的可行方案。

AWK

我只使用出口运行解决方案,因为我不打算等待完整文件运行:

$ time awk 'NR == 50000000 {print; exit}' myfile.ascii
pgm_icnt = 0

real    1m16.583s

这段代码运行时间为00:01:16.583,仅慢了约1秒,但与基线相比仍没有改善。按照这个速度,如果退出命令被排除,那么读取整个文件可能需要大约76分钟!

Perl

我还运行了现有的Perl解决方案:

$ time perl -wnl -e '$.== 50000000 && print && exit;' myfile.ascii
pgm_icnt = 0

real    1m13.146s

该代码在00:01:13.146运行,比基线快了约2秒。如果我用5000万美元来运行它,可能需要大约12分钟。

sed

上面的答案是我的结果:

$ time sed "50000000q;d" myfile.ascii
pgm_icnt = 0

real    1m12.705s

这段代码以00:01:12.705运行,比基线快3秒,比Perl快0.4秒。如果我在整个500000000行上运行它,可能需要大约12分钟。

映射文件

我有bash 3.1,因此无法测试mapfile解决方案。

结论

看起来,在大多数情况下,很难改进头尾解决方案。最好情况下,sed解决方案可提高约3%的效率。

(使用公式%=(运行时/基线-1)*100计算的百分比)

第50000000行

00:01:12.705(-00:00:02.616=-3.47%)秒00:01:13.146(00:00:02.175=-2.89%)perl00:01:15.321(+00:00:00.000=+0.00%)头部|尾部00:01:16.583(+00:00:01.262=+1.68%)awk00:05:12.156(+000:03:56.835=+314.43%)切割

第500000000行

00:12:07.050(-00:00:26.160)秒00:12:11.460(-00:00:21.750)佩尔00:12:33.210(+00:00:00.000)头|尾00:12:45.830(+00:00:12.620)awk00:52:01.560(+00:40:31.650)切割

行3338559320

01:20:54.599(-00:03:05.327)秒01:21:24.045(-00:02:25.227)佩尔01:23:49.273(+00:00:00.000)头|尾01:25:13.548(+000:02:35.735)awk05:47:23.026(+04:24:26.246)切割