如何从Unix上的文本文件中提取预先确定的行范围?

我有一个~23000行的SQL转储，其中包含几个数据库的数据价值。我需要提取这个文件的某个部分(即单个数据库的数据)，并将其放在一个新文件中。我知道我想要的数据的开始行号和结束行号。

谁知道一个Unix命令(或一系列命令)可以从文件中提取16224到16482行之间的所有行，然后将它们重定向到一个新文件中?

当前回答

sed -n '16224,16482 p' orig-data-file > new-file

其中16224、16482是起始行号和结束行号，包括。这是1索引。-n抑制将输入回显为输出，这显然不是你想要的;数字表示要执行以下命令的行范围;命令p输出相关的行。

2008-09-17 13:46:37

其他回答

我正准备发布头部/尾部技巧，但实际上我可能只是启动emacs。: -)

Esc-x goto-line ret 16224 马克(ctrl-space) Esc-x goto-line ret 16482 esc-w

打开新的输出文件ctl-y 保存

让我看看发生了什么。

2008-09-17 13:49:50

我想从一个使用变量的脚本中做同样的事情，并通过在$变量周围加上引号来分隔变量名和p来实现:

sed -n "$first","$count"p imagelist.txt >"$imageblock"

我想把一个列表分成不同的文件夹，找到最初的问题和答案，这是一个有用的步骤。(分裂命令不是旧操作系统上的选项，我必须将代码移植到)。

2017-10-28 09:35:10

只是对上面给出的3个解决方案进行了基准测试，这对我来说是可行的:

awk sed “头+尾”

3个解决方案的积分归属:

@boxxar @avandeursen @wds @manveru @sibaz @SOFe @fedorqui“所以停止伤害” @Robin A. Meade

我正在使用我在服务器上找到的一个巨大的文件:

# wc fo2debug.1.log
   10421186    19448208 38795491134 fo2debug.1.log

38gb, 1040万行。

是的，我有一个对数问题。:))

下注吧!

从文件开始获取256行。

# time sed -n '1001,1256p;1256q' fo2debug.1.log | wc -l
256

real    0m0,003s
user    0m0,000s
sys     0m0,004s

# time head -1256 fo2debug.1.log | tail -n +1001 | wc -l
256

real    0m0,003s
user    0m0,006s
sys     0m0,000s

# time awk 'NR==1001, NR==1256; NR==1256 {exit}' fo2debug.1.log | wc -l
256

real    0m0,002s
user    0m0,004s
sys     0m0,000s

Awk赢了。在sed和“头+尾”之间，技术并列第二。

在文件的前三分之一处获得256行。

# time sed -n '3473001,3473256p;3473256q' fo2debug.1.log | wc -l
256

real    0m0,265s
user    0m0,242s
sys     0m0,024s

# time head -3473256 fo2debug.1.log | tail -n +3473001 | wc -l
256

real    0m0,308s
user    0m0,313s
sys     0m0,145s

# time awk 'NR==3473001, NR==3473256; NR==3473256 {exit}' fo2debug.1.log | wc -l
256

real    0m0,393s
user    0m0,326s
sys     0m0,068s

Sed赢了。接着是“head+tail”，最后是awk。

在文件的第二个三分之一处获得256行。

# time sed -n '6947001,6947256p;6947256q' fo2debug.1.log | wc -l
A256

real    0m0,525s
user    0m0,462s
sys     0m0,064s

# time head -6947256 fo2debug.1.log | tail -n +6947001 | wc -l
256

real    0m0,615s
user    0m0,488s
sys     0m0,423s

# time awk 'NR==6947001, NR==6947256; NR==6947256 {exit}' fo2debug.1.log | wc -l
256

real    0m0,779s
user    0m0,650s
sys     0m0,130s

同样的结果。

Sed赢了。接着是“head+tail”，最后是awk。

在文件末尾获得256行。

# time sed -n '10420001,10420256p;10420256q' fo2debug.1.log | wc -l
256

real    1m50,017s
user    0m12,735s
sys     0m22,926s

# time head -10420256 fo2debug.1.log | tail -n +10420001 | wc -l
256

real    1m48,269s
user    0m42,404s
sys     0m51,015s

# time awk 'NR==10420001, NR==10420256; NR==10420256 {exit}' fo2debug.1.log | wc -l
256

real    1m49,106s
user    0m12,322s
sys     0m18,576s

突然，一个转折!

“头+尾”赢了。接着是awk，最后是sed。

(几个小时后……)

对不起伙计们!

我上面的分析是做分析时一个基本缺陷的例子。

缺陷在于不深入了解用于分析的资源。

在本例中，我使用了一个日志文件来分析其中特定行数的搜索性能。

使用3种不同的技术，在文件中的不同位置进行搜索，比较每个位置上技术的性能，并检查搜索结果是否随着文件中进行搜索的位置而变化。

我的错误在于假定日志文件中的内容具有某种同质性。

实际情况是，长行更频繁地出现在文件的末尾。

因此，对于一种给定的技术，较长的搜索(接近文件末尾)更好的明显结论可能是有偏见的。事实上，这种技术在处理较长的队伍时可能会更好。还有待证实。

2020-09-09 19:11:36

在这种情况下，您可以使用sed命令，它非常快。

如前所述，让我们假设范围是:在16224和16482行之间

#get the lines from 16224 to 16482 and prints the values into filename.txt file
        sed -n '16224 ,16482p' file.txt > filename.txt 
    
#Additional Info to showcase other possible scenarios:
    
#get the 16224 th line and writes the value to filename.txt

        sed -n '16224p' file.txt > filename.txt 

#get the 16224 and 16300 line values only and write to filename.txt. 

        sed -n '16224p;16300p;' file.txt > filename.txt

2022-10-15 05:01:06

站在拳击手的肩膀上，我喜欢这样:

sed -n '<first line>,$p;<last line>q' input

e.g.

sed -n '16224,$p;16482q' input

$表示“最后一行”，因此第一个命令使sed打印从第16224行开始的所有行，第二个命令使sed在打印第16428行之后退出。(在boxxar的解决方案中，为q范围添加1似乎没有必要。)

我喜欢这个变体，因为我不需要两次指定结束行号。而且我认为使用$不会对性能产生不利影响。

2019-02-14 13:52:12

如何从Unix上的文本文件中提取预先确定的行范围?

推荐文章

最新文章

标签