Shell命令查找两个文件中的公共行

为了补充Perl的一行代码，下面是它在awk中的等价代码:

awk 'NR==FNR{arr[$0];next} $0 in arr' file1 file2

这将把file1中的所有行读入数组arr[]，然后检查file2中的每一行是否已经存在于数组中(即file1)。找到的行将按照它们在file2中出现的顺序打印出来。请注意，arr中的比较使用从file2开始的整行作为数组的索引，因此它只报告整行上的精确匹配。

2014-10-11 21:50:39

你要找的命令是通讯

comm -12 1.sorted.txt 2.sorted.txt

在这里:

-1:删除列1 (1.sort .txt中唯一的行)

-2:删除列2 (2.sort .txt中唯一的行)

2008-12-17 06:40:58

在受限版本的Linux上(比如我正在开发的QNAP (NAS)):

Comm并不存在正如@ChristopherSchultz所说，grep -f -f file1 file2可能会导致一些问题，使用grep -f -f file1 file2真的很慢(超过5分钟-没有完成-在超过20mb的文件上使用下面的方法超过2-3秒)

这就是我所做的:

sort file1 > file1.sorted
sort file2 > file2.sorted

diff file1.sorted file2.sorted | grep "<" | sed 's/^< *//' > files.diff
diff file1.sorted files.diff | grep "<" | sed 's/^< *//' > files.same.sorted

如果files.same.sorted应该与原始文件的顺序相同，那么添加这一行与file1的顺序相同:

awk 'FNR==NR {a[$0]=$0; next}; $0 in a {print a[$0]}' files.same.sorted file1 > files.same

或者，对于与file2相同的顺序:

awk 'FNR==NR {a[$0]=$0; next}; $0 in a {print a[$0]}' files.same.sorted file2 > files.same

2016-03-20 09:05:42

这不是你想问的，但我认为这对于描述一个稍微不同的场景还是有用的

如果你只是想快速确定一堆文件之间是否有重复的行，你可以使用这个快速解决方案:

cat a_bunch_of_files* | sort | uniq | wc

如果你得到的行数比你得到的少

cat a_bunch_of_files* | wc

然后是一些重复的线条。

2022-03-07 10:33:09

为了补充Perl的一行代码，下面是它在awk中的等价代码:

awk 'NR==FNR{arr[$0];next} $0 in arr' file1 file2

这将把file1中的所有行读入数组arr[]，然后检查file2中的每一行是否已经存在于数组中(即file1)。找到的行将按照它们在file2中出现的顺序打印出来。请注意，arr中的比较使用从file2开始的整行作为数组的索引，因此它只报告整行上的精确匹配。

2014-10-11 21:50:39

awk 'NR==FNR{a[$1]++;next} a[$1] ' file1 file2

2016-08-14 10:16:56

Shell命令查找两个文件中的公共行

推荐文章

最新文章

标签