我有一个很大的文件a(由电子邮件组成),每封邮件一行。我还有另一个文件B,其中包含另一组邮件。

我将使用哪个命令从文件A中删除文件B中出现的所有地址。

因此,如果文件A包含:

A
B
C

文件B包含:

B    
D
E

那么文件A应该剩下:

A
C

现在我知道这是一个可能经常被问到的问题,但我只在网上找到一个命令,它给我一个错误的分隔符。

任何帮助都将不胜感激!肯定有人会想出一个聪明的俏皮话,但我不是shell专家。


当前回答

你可以使用Python:

python -c '
lines_to_remove = set()
with open("file B", "r") as f:
    for line in f.readlines():
        lines_to_remove.add(line.strip())

with open("file A", "r") as f:
    for line in [line.strip() for line in f.readlines()]:
        if line not in lines_to_remove:
            print(line)
'

其他回答

如果文件已经排序(在你的例子中):

comm -23 file1 file2

-23抑制两个文件中的行,或仅在文件2中。如果文件没有排序,那么首先将它们通过sort管道…

点击这里查看手册页

另一种方法来做同样的事情(也需要排序输入):

join -v 1 fileA fileB

在Bash中,如果文件没有预先排序:

join -v 1 <(sort fileA) <(sort fileB)

对于非常大的文件,@karakfa的答案的改进可能会明显更快。与这个答案一样,两个文件都不需要排序,但是由于awk的关联数组,速度得到了保证。只有查找文件保存在内存中。

这个公式还允许在比较中只使用输入文件中的一个特定字段($N)。

# Print lines in the input unless the value in column $N
# appears in a lookup file, $LOOKUP;
# if $N is 0, then the entire line is used for comparison.

awk -v N=$N -v lookup="$LOOKUP" '
  BEGIN { while ( getline < lookup ) { dictionary[$0]=$0 } }
  !($N in dictionary) {print}'

(这种方法的另一个优点是很容易修改比较标准,例如,修剪开头和结尾的空白。)

要删除两个文件之间的公共行,可以使用grep、comm或join命令。

Grep只适用于小文件。使用-v和-f。

grep -vf file2 file1 

这将显示file1中与file2中任何行不匹配的行。

Comm是一个实用命令,用于按词法排序的文件。它 以两个文件作为输入,并产生三个文本列作为输出: 只在第一个文件中的行;只在第二个文件中的行;和线 在两个文件中。可以使用-1、-2来抑制任何列的打印 或相应的-3选项。

comm -1 -3 file2 file1

这将显示file1中与file2中任何行不匹配的行。

最后是join,这是一个执行相等操作的实用命令 在指定文件上连接。它的-v选项也允许删除 两个文件之间的公共行。

join -v1 -v2 file1 file2

这是一个使用grep和lynx输出网站并删除导航元素的一行程序!你可以用cat FileA替换lynx,用FileB替换unwanted-elements.txt。

lynx -dump -accept_all_cookies -nolist -width 1000 https://stackoverflow.com/ | grep -Fxvf unwanted-elements.txt