我在目录树中寻找字符串foo=在文本文件中。在一个普通的Linux机器上,我有bash shell:

grep -ircl "foo=" *

目录中还有许多匹配“foo=”的二进制文件。由于这些结果不相关并降低了搜索速度,所以我希望grep跳过搜索这些文件(主要是JPEG和PNG图像)。我该怎么做呢?

我知道有——exclude=PATTERN和——include=PATTERN选项,但模式格式是什么?grep的手册页说:

--include=PATTERN     Recurse in directories only searching file matching PATTERN.
--exclude=PATTERN     Recurse in directories skip file matching PATTERN.

搜索grep包括,grep包括排除,grep排除和变体没有找到任何相关的

如果有更好的方法只在某些文件中进行grepping,我完全赞成;移动有问题的文件是行不通的。我不能只搜索某些目录(目录结构很混乱,到处都是东西)。此外,我不能安装任何东西,所以我必须使用常用工具(如grep或建议的find)。


使用shell globbing语法:

grep pattern -r --include=\*.cpp --include=\*.h rootdir

——exclude的语法是相同的。

注意,星号用反斜杠进行转义,以防止它被shell展开(引用它,例如——include="*.cpp",也同样有效)。否则,如果当前工作目录中有任何与该模式匹配的文件,命令行将展开为类似grep模式的内容-r——include=foo.cpp——include=bar.cpp rootdir,这将只搜索名为foo.cpp和bar.cpp的文件,这很可能不是您想要的。

更新2021-03-04

我编辑了原始答案,删除了大括号展开的使用,大括号展开是Bash和zsh等几个shell提供的功能,用于简化这样的模式;但请注意,大括号展开并不符合POSIX shell。

最初的例子是:

grep pattern -r --include=\*.{cpp,h} rootdir

查找根目录rootdir下的所有.cpp和.h文件。


我发现grepping grep的输出有时非常有用:

grep -rn "foo=" . | grep -v "Binary file"

不过,这实际上并没有阻止它搜索二进制文件。


Find和xargs是你的朋友。使用它们来过滤文件列表,而不是grep的——exclude

试试这样的方法

find . -not -name '*.png' -o -type f -print | xargs grep -icl "foo="

习惯这一点的好处是,它可以扩展到其他用例,例如计算所有非png文件中的行数:

find . -not -name '*.png' -o -type f -print | xargs wc -l

删除所有非png文件。

find . -not -name '*.png' -o -type f -print | xargs rm

etc.

正如评论中指出的,如果某些文件的名称中可能有空格,请使用-print0和xargs -0代替。


试试这个:

 $ find . -name "*.txt" -type f -print | xargs file | grep "foo=" | cut -d: -f1

创立于:http://www.unix.com/shell-programming-scripting/42573-search-files-excluding-binary-files.html


如果您只想跳过二进制文件,我建议您查看-I(大写I)选项。它忽略二进制文件。我经常使用以下命令:

grep -rI --exclude-dir="\.svn" "pattern" *

它会递归搜索,忽略二进制文件,并且不会在Subversion隐藏文件夹中查找我想要的任何模式。我在我工作的盒子上用"grepsvn"作为别名。


请看看ack,它正是为这些情况而设计的。你的例子

grep -ircl --exclude=*.{png,jpg} "foo=" *

ack as完成了吗

ack -icl "foo="

因为ack在默认情况下从不在二进制文件中查找,而-r在默认情况下是打开的。如果您只想要CPP和H文件,那么就这样做

ack -icl --cpp "foo="

这些脚本并不能解决所有的问题……试试这个吧:

du -ha | grep -i -o "\./.*" | grep -v "\.svn\|another_file\|another_folder" | xargs grep -i -n "$1"

这个脚本非常好,因为它使用“真正的”正则表达式来避免目录搜索。只需在grep -v上用“\|”分隔文件夹或文件名即可

享受它! 在我的Linux shell上找到!XD


建议的命令:

grep -Ir --exclude="*\.svn*" "pattern" *

在概念上是错误的,因为——exclude作用于basename。换句话说,它将只跳过当前目录中的.svn。


Grep 2.5.3引入了——exclude-dir参数,它将以您想要的方式工作。

grep -rI --exclude-dir=\.svn PATTERN .

你也可以设置一个环境变量:GREP_OPTIONS="——exclude-dir=\.svn"

不过我支持安迪投ack,这是最好的。


GNU grep的——binary-files=without-match选项使其跳过二进制文件。(相当于其他地方提到的-I开关。)

(这可能需要最新版本的grep;至少2.5.3版本有。)


我是一个业余爱好者,这是我的~/。bash_profile看起来:

export GREP_OPTIONS="-orl --exclude-dir=.svn --exclude-dir=.cache --color=auto" GREP_COLOR='1;32'

注意,要排除两个目录,我必须使用——exclude-dir两次。


在grep 2.5.1中,您必须将这一行添加到~/。Bashrc或~/。bash配置文件

export GREP_OPTIONS="--exclude=\*.svn\*"

忽略grep的所有二进制结果

grep -Ri "pattern" * | awk '{if($1 != "Binary") print $0}'

awk部分将过滤掉所有二进制文件foo匹配的行


看这个。

grep --exclude="*\.svn*" -rn "foo=" * | grep -v Binary | grep -v tags

试试这个:

在currdir ..下创建一个名为“——F”的文件夹。(或链接另一个文件夹重命名为“-F”,即双减F。 #> grep -i——exclude-dir="\-\- f " "pattern" * .


如果你不反对使用find,我喜欢它的-prune特性: 查找[目录]\ name "pattern_to_exclude" -prune \ -o -name "another_pattern_to_exclude" -prune \ -o -name "pattern_to_INCLUDE" -print0 \ | xargs -0 -I FILENAME grep -IR "pattern"文件名

在第一行中,指定要搜索的目录。例如,(当前目录)是一个有效路径。

在第二和第三行,使用"*.png", "*.gif", "*.jpg",以此类推。使用尽可能多的-o -name "…"-修剪结构,因为你有模式。

在第4行,您需要另一个-o(它指定“或”来查找),这是您确实想要的模式,并且您需要在它的末尾使用-print或-print0。如果你只是想要修剪*.gif, *.png等图像后剩下的“其他所有东西”,那么使用 -o -print0,第四行就完成了。

最后,在第5行是通往xargs的管道,该管道接收每个结果文件并将它们存储在变量FILENAME中。然后它将-IR标志,即“模式”传递给grep,然后FILENAME被xargs扩展为find找到的文件名列表。

对于你的特定问题,陈述可能是这样的: 找到。\ -prune \ . name "*.png -o -name "*.gif" -prune \ -o -name "*。Svn " -修剪\ -o -print0 | xargs -0 -I FILES grep -IR "foo=" FILES


适用于TCSH .alias文件:

alias gisrc 'grep -I -r -i --exclude="*\.svn*" --include="*\."{mm,m,h,cc,c} \!* *'

花了我一段时间才弄清楚{mm,m,h,cc,c}部分不应该在引号内。 ~基斯


我在很长一段时间后发现,你可以添加多个包含和排除,比如:

grep "z-index" . --include=*.js --exclude=*js/lib/* --exclude=*.min.js

在CentOS 6.6/Grep 2.6.3上,我必须这样使用它:

grep "term" -Hnir --include \*.php --exclude-dir "*excluded_dir*"

注意缺少等号“=”(否则——include,——exclude, include-dir和——exclude-dir将被忽略)


如果非递归搜索,则可以使用glop模式来匹配文件名。

grep "foo" *.{html,txt}

包括HTML和txt。它只在当前目录中搜索。

在子目录中搜索:

   grep "foo" */*.{html,txt}

在子目录中:

   grep "foo" */*/*.{html,txt}

在目录中还有许多二进制文件。我不能只搜索某些目录(目录结构是一个大混乱)。有没有更好的方法只在特定的文件中进行grepping ?

ripgrep

这是设计用于递归搜索当前目录的最快工具之一。它是用Rust编写的,构建在Rust的正则表达式引擎之上,以获得最大的效率。点击这里查看详细分析。

所以你可以运行:

rg "some_pattern"

它尊重你的.gitignore和自动跳过隐藏文件/目录和二进制文件。

您仍然可以使用-g/——glob自定义包含或排除文件和目录。Globbing规则匹配。gitignore globs。联系rg寻求帮助。

有关更多示例,请参见:如何使用grep排除与某些扩展名不匹配的文件?

在macOS上,你可以通过brew install ripgrep进行安装。


git grep

使用git grep,它针对性能进行了优化,旨在搜索特定的文件。

默认情况下,它忽略二进制文件,并尊重你的.gitignore。如果你不使用Git结构,你仍然可以通过传递——no-index来使用它。

示例语法:

git grep --no-index "some_pattern"

更多示例请参见:

如何排除某些目录/文件从git grep搜索。 检查文件中是否存在多个字符串或正则表达式