如何搜索多个pdf文件的内容?

如何在目录/子目录中搜索PDF文件的内容?我在找一些命令行工具。grep似乎不能搜索PDF文件。

当前回答

我喜欢@sjr的答案，但我更喜欢xargs vs -exec。我发现xargs更通用。例如，使用-P，我们可以在必要时利用多个cpu。

find . -name '*.pdf' | xargs -P 5 -I % pdftotext % - | grep --with-filename --label="{}" --color "pattern"

其他回答

有一个开源的通用资源grep工具crgrep，它可以在PDF文件中搜索，也可以搜索其他资源，比如嵌套在档案中的内容、数据库表、图像元数据、POM文件依赖关系和web资源——以及这些资源的组合，包括递归搜索。

Files选项卡下的完整描述几乎涵盖了该工具支持的内容。

我开发的crgrep是一个开源工具。

如果你想用pdftotext查看文件名，使用以下命令:

find . -name '*.pdf' -exec echo {} \; -exec pdftotext {} - \; | grep "pattern\|pdf"

我的实际版本的pdfgrep(1.3.0)允许以下:

pdfgrep -HiR 'pattern' /path

当执行pdfgrep——help时:

H:打印每个匹配项的文件名。 i:忽略大小写区别。 R:递归搜索目录。

它在我的Ubuntu上运行得很好。

试着在一个简单的脚本中使用'acroread'，就像上面那样

你需要一些工具，如pdf2text，首先将pdf转换为文本文件，然后在文本中搜索。(您可能会错过一些信息或符号)。

如果你正在使用一种编程语言，很可能有专门为此目的编写的pdf库。例如:http://search.cpan.org/dist/CAM-PDF/ for Perl

推荐文章