如何搜索多个pdf文件的内容?

如何在目录/子目录中搜索PDF文件的内容?我在找一些命令行工具。grep似乎不能搜索PDF文件。

当前回答

首先将所有pdf文件转换为文本文件:

for file in *.pdf;do pdftotext "$file"; done

然后像往常一样使用grep。这是特别好的，因为当您有多个查询和许多PDF文件时，它是快速的。

2016-01-02 22:07:10

其他回答

使用pdfgrep:

pdfgrep -HinR 'FWCOSP' DatenModel/

在这个命令中，我在DatenModel/文件夹中搜索单词FWCOSP。

正如你在输出中看到的，你可以有文件名和行号:

我使用的选项是:

-i : Ignores, case for matching
-H : print the file name for each match
-n : prefix each match with the number of the page where it is found
-R : same as -r, but it also follows all symlinks.

2022-02-17 16:22:29

如果你想用pdftotext查看文件名，使用以下命令:

find . -name '*.pdf' -exec echo {} \; -exec pdftotext {} - \; | grep "pattern\|pdf"

2013-01-24 17:17:48

首先将所有pdf文件转换为文本文件:

for file in *.pdf;do pdftotext "$file"; done

然后像往常一样使用grep。这是特别好的，因为当您有多个查询和许多PDF文件时，它是快速的。

2016-01-02 22:07:10

有一个开源的通用资源grep工具crgrep，它可以在PDF文件中搜索，也可以搜索其他资源，比如嵌套在档案中的内容、数据库表、图像元数据、POM文件依赖关系和web资源——以及这些资源的组合，包括递归搜索。

Files选项卡下的完整描述几乎涵盖了该工具支持的内容。

我开发的crgrep是一个开源工具。

2013-10-23 12:04:51

我也遇到了同样的问题，因此我写了一个脚本，搜索指定文件夹中的所有pdf文件的字符串，并打印匹配查询字符串的pdf文件。

也许这对你有帮助。

你可以在这里下载

2012-06-24 14:04:41

如何搜索多个pdf文件的内容?

推荐文章

最新文章

标签