如何搜索多个pdf文件的内容?

如何在目录/子目录中搜索PDF文件的内容?我在找一些命令行工具。grep似乎不能搜索PDF文件。

当前回答

我写了这个破坏性的小脚本。祝你玩得开心。

function pdfsearch()
{
    find . -iname '*.pdf' | while read filename
    do
        #echo -e "\033[34;1m// === PDF Document:\033[33;1m $filename\033[0m"
        pdftotext -q -enc ASCII7 "$filename" "$filename."; grep -s -H --color=always -i $1 "$filename."
        # remove it!  rm -f "$filename."
    done
}

2011-06-10 15:48:49

其他回答

我的实际版本的pdfgrep(1.3.0)允许以下:

pdfgrep -HiR 'pattern' /path

当执行pdfgrep——help时:

H:打印每个匹配项的文件名。 i:忽略大小写区别。 R:递归搜索目录。

它在我的Ubuntu上运行得很好。

2014-05-22 04:40:01

你需要一些工具，如pdf2text，首先将pdf转换为文本文件，然后在文本中搜索。(您可能会错过一些信息或符号)。

如果你正在使用一种编程语言，很可能有专门为此目的编写的pdf库。例如:http://search.cpan.org/dist/CAM-PDF/ for Perl

2011-01-10 03:43:07

你的发行版应该提供一个名为pdftotext的实用程序:

find /path -name '*.pdf' -exec sh -c 'pdftotext "{}" - | grep --with-filename --label="{}" --color "your pattern"' \;

如果要将pdftotext输出到标准输出，而不是输出到文件，则必须使用“-”。 ——with-filename和——label=选项将把文件名放在grep的输出中。可选的——color标志很好，它告诉grep在终端上使用颜色输出。

(在Ubuntu中，pdftotext是由xpdf-utils或poppler-utils包提供的。)

如果您想使用GNU grep中pdfgrep不支持的特性，这种使用pdftotext和grep的方法比pdfgrep更有优势。注意:pdfgrep - 1.3。x支持-C选项打印上下文行。

2011-01-10 03:43:22

还有pdfgrep，它做的正是它的名字所暗示的。

pdfgrep -R 'a pattern to search recursively from path' /some/path

我用它做过简单的搜索，效果很好。

(Debian、Ubuntu和Fedora中都有软件包。)

从1.3.0版本开始，pdfgrep支持递归搜索。这个版本从Ubuntu 12.10 (Quantal)开始在Ubuntu中可用。

2011-03-25 15:42:11

有一个开源的通用资源grep工具crgrep，它可以在PDF文件中搜索，也可以搜索其他资源，比如嵌套在档案中的内容、数据库表、图像元数据、POM文件依赖关系和web资源——以及这些资源的组合，包括递归搜索。

Files选项卡下的完整描述几乎涵盖了该工具支持的内容。

我开发的crgrep是一个开源工具。

2013-10-23 12:04:51

如何搜索多个pdf文件的内容?

推荐文章

最新文章

标签