Shell命令查找两个文件中的公共行

我确信我曾经发现过一个shell命令，它可以从两个或多个文件中打印公共行。它叫什么名字?

它比diff简单多了。

你要找的命令是通讯

comm -12 1.sorted.txt 2.sorted.txt

在这里:

-1:删除列1 (1.sort .txt中唯一的行)

-2:删除列2 (2.sort .txt中唯一的行)

2008-12-17 06:40:58

也许你指的是通讯?

逐行比较排序文件FILE1和FILE2。在没有选项的情况下，生成三列输出。列一个包含FILE1列特有的行 Two包含唯一的行 FILE2和第三列包含两个文件的公共行。

找到这些信息的秘密是信息页。对于GNU程序，它们比手册页要详细得多。尝试info coreutils，它会列出所有有用的小utils。

2008-12-17 06:41:40

perl -ne 'print if ($seen{$_} .= @ARGV) =~ /10$/'  file1 file2

2013-07-17 15:05:36

rm file3.txt

cat file1.out | while read line1
do
        cat file2.out | while read line2
        do
                if [[ $line1 == $line2 ]]; then
                        echo $line1 >>file3.out
                fi
        done
done

这个应该可以了。

2013-09-01 09:34:41

有关如何为多个文件执行此操作，请参阅跨多个文件查找匹配行的链接答案。

结合这两个答案(答案1和答案2)，我认为你可以得到你需要的结果，而不需要对文件进行排序:

#!/bin/bash
ans="matching_lines"

for file1 in *
do 
    for file2 in *
        do 
            if  [ "$file1" != "$ans" ] && [ "$file2" != "$ans" ] && [ "$file1" != "$file2" ] ; then
                echo "Comparing: $file1 $file2 ..." >> $ans
                perl -ne 'print if ($seen{$_} .= @ARGV) =~ /10$/' $file1 $file2 >> $ans
            fi
         done 
done

只需保存它，赋予它执行权限(chmod +x compareFiles.sh)并运行它。它将获取当前工作目录中的所有文件，并进行all-vs-all比较，将结果留在“matching_lines”文件中。

需要改进的地方:

跳过目录避免将所有文件进行两次比较(file1 vs file2和file2 vs file1)。可以在匹配的字符串旁边添加行号

2013-11-08 14:33:07

要轻松地将comm命令应用到未排序的文件，请使用Bash的进程替换:

$ bash --version
GNU bash, version 3.2.51(1)-release
Copyright (C) 2007 Free Software Foundation, Inc.
$ cat > abc
123
567
132
$ cat > def
132
777
321

因此，文件abc和def有一行相同的行，即带有“132”的行。对未排序的文件使用comm:

$ comm abc def
123
    132
567
132
    777
    321
$ comm -12 abc def # No output! The common line is not found
$

最后一行没有输出，公共行没有被发现。

现在使用comm对已排序的文件进行排序，使用进程替换对文件进行排序:

$ comm <( sort abc ) <( sort def )
123
            132
    321
567
    777
$ comm -12 <( sort abc ) <( sort def )
132

现在我们到了132线!

2014-07-20 13:57:34

为了补充Perl的一行代码，下面是它在awk中的等价代码:

awk 'NR==FNR{arr[$0];next} $0 in arr' file1 file2

这将把file1中的所有行读入数组arr[]，然后检查file2中的每一行是否已经存在于数组中(即file1)。找到的行将按照它们在file2中出现的顺序打印出来。请注意，arr中的比较使用从file2开始的整行作为数组的索引，因此它只报告整行上的精确匹配。

2014-10-11 21:50:39

而

fgrep -v -f 1.txt 2.txt > 3.txt

给出了两个文件的区别(在2.txt和不在1.txt中的文件)，你可以很容易地做一个

fgrep -f 1.txt 2.txt > 3.txt

收集所有公共行，这应该为您的问题提供一个简单的解决方案。如果你已经对文件进行了排序，你仍然应该使用通信。的问候!

注意:你可以用grep -F代替fgrep。

2015-01-20 17:21:16

在受限版本的Linux上(比如我正在开发的QNAP (NAS)):

Comm并不存在正如@ChristopherSchultz所说，grep -f -f file1 file2可能会导致一些问题，使用grep -f -f file1 file2真的很慢(超过5分钟-没有完成-在超过20mb的文件上使用下面的方法超过2-3秒)

这就是我所做的:

sort file1 > file1.sorted
sort file2 > file2.sorted

diff file1.sorted file2.sorted | grep "<" | sed 's/^< *//' > files.diff
diff file1.sorted files.diff | grep "<" | sed 's/^< *//' > files.same.sorted

如果files.same.sorted应该与原始文件的顺序相同，那么添加这一行与file1的顺序相同:

awk 'FNR==NR {a[$0]=$0; next}; $0 in a {print a[$0]}' files.same.sorted file1 > files.same

或者，对于与file2相同的顺序:

awk 'FNR==NR {a[$0]=$0; next}; $0 in a {print a[$0]}' files.same.sorted file2 > files.same

2016-03-20 09:05:42

awk 'NR==FNR{a[$1]++;next} a[$1] ' file1 file2

2016-08-14 10:16:56

如果这两个文件还没有排序，你可以使用:

comm -12 <(sort a.txt) <(sort b.txt)

它将工作，避免错误消息comm: file 2不是有序的当执行comm -12 a.t xxb .txt时。

2017-07-21 11:14:14

这不是你想问的，但我认为这对于描述一个稍微不同的场景还是有用的

如果你只是想快速确定一堆文件之间是否有重复的行，你可以使用这个快速解决方案:

cat a_bunch_of_files* | sort | uniq | wc

如果你得到的行数比你得到的少

cat a_bunch_of_files* | wc

然后是一些重复的线条。

2022-03-07 10:33:09

Shell命令查找两个文件中的公共行

推荐文章

最新文章

标签