如何搜索多个pdf文件的内容?

如何在目录/子目录中搜索PDF文件的内容?我在找一些命令行工具。grep似乎不能搜索PDF文件。

当前回答

如果你想用pdftotext查看文件名，使用以下命令:

find . -name '*.pdf' -exec echo {} \; -exec pdftotext {} - \; | grep "pattern\|pdf"

2013-01-24 17:17:48

其他回答

使用pdfgrep:

pdfgrep -HinR 'FWCOSP' DatenModel/

在这个命令中，我在DatenModel/文件夹中搜索单词FWCOSP。

正如你在输出中看到的，你可以有文件名和行号:

我使用的选项是:

-i : Ignores, case for matching
-H : print the file name for each match
-n : prefix each match with the number of the page where it is found
-R : same as -r, but it also follows all symlinks.

2022-02-17 16:22:29

首先将所有pdf文件转换为文本文件:

for file in *.pdf;do pdftotext "$file"; done

然后像往常一样使用grep。这是特别好的，因为当您有多个查询和许多PDF文件时，它是快速的。

2016-01-02 22:07:10

还有另一个实用程序叫做ripgrep-all，它是基于ripgrep的。

它不仅可以处理PDF文档，比如Office文档和电影，而且作者声称它比pdfgrep更快。

递归搜索当前目录的命令语法，第二个命令只限制PDF文件:

rga 'pattern' .
rga --type pdf 'pattern' .

2019-07-29 09:06:56

还有pdfgrep，它做的正是它的名字所暗示的。

pdfgrep -R 'a pattern to search recursively from path' /some/path

我用它做过简单的搜索，效果很好。

(Debian、Ubuntu和Fedora中都有软件包。)

从1.3.0版本开始，pdfgrep支持递归搜索。这个版本从Ubuntu 12.10 (Quantal)开始在Ubuntu中可用。

2011-03-25 15:42:11

你需要一些工具，如pdf2text，首先将pdf转换为文本文件，然后在文本中搜索。(您可能会错过一些信息或符号)。

如果你正在使用一种编程语言，很可能有专门为此目的编写的pdf库。例如:http://search.cpan.org/dist/CAM-PDF/ for Perl

2011-01-10 03:43:07

如何搜索多个pdf文件的内容?

推荐文章

最新文章

标签