将PDF转换为高分辨率的图像

我正在尝试使用命令行程序转换将PDF转换为图像(JPEG或PNG)。这是我正在转换的pdf文件之一。

我想让程序去掉多余的空白，并返回足够高质量的图像，以便上标可以轻松读取。

这是我目前最好的尝试。正如你所看到的，修剪工作很好，我只是需要锐化的分辨率相当多。这是我正在使用的命令:

convert -trim 24.pdf -resize 500% -quality 100 -sharpen 0x1.0 24-11.jpg

我试着做了以下有意识的决定:

调整它的大小(对分辨率没有影响) 尽可能提高质量使用-锐化(我已经尝试了一系列值)

任何建议，请在最终的PNG/JPEG图像的分辨率更高，将非常感谢!

当前回答

我使用开源java pdf引擎icepdf。检查办公室演示。

package image2pdf;

import org.icepdf.core.exceptions.PDFException;
import org.icepdf.core.exceptions.PDFSecurityException;
import org.icepdf.core.pobjects.Document;
import org.icepdf.core.pobjects.Page;
import org.icepdf.core.util.GraphicsRenderingHints;
import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.awt.image.RenderedImage;
import java.io.File;
import java.io.FileNotFoundException;
import java.io.IOException;

public class pdf2image {

   public static void main(String[] args) {

      Document document = new Document();
      try {
         document.setFile("C:\\Users\\Dell\\Desktop\\test.pdf");
      } catch (PDFException ex) {
         System.out.println("Error parsing PDF document " + ex);
      } catch (PDFSecurityException ex) {
         System.out.println("Error encryption not supported " + ex);
      } catch (FileNotFoundException ex) {
         System.out.println("Error file not found " + ex);
      } catch (IOException ex) {
         System.out.println("Error IOException " + ex);
      }

      // save page captures to file.
      float scale = 1.0f;
      float rotation = 0f;

      // Paint each pages content to an image and
      // write the image to file
      for (int i = 0; i < document.getNumberOfPages(); i++) {
         try {
         BufferedImage image = (BufferedImage) document.getPageImage(
             i, GraphicsRenderingHints.PRINT, Page.BOUNDARY_CROPBOX, rotation, scale);

         RenderedImage rendImage = image;
         try {
            System.out.println(" capturing page " + i);
            File file = new File("C:\\Users\\Dell\\Desktop\\test_imageCapture1_" + i + ".png");
            ImageIO.write(rendImage, "png", file);
         } catch (IOException e) {
            e.printStackTrace();
         }
         image.flush();
         }catch(Exception e){
             e.printStackTrace();
         }
      }

      // clean up resources
      document.dispose();
   }
}

我也尝试过imagemagick和pdftoppm, pdftoppm和icepdf的分辨率都比imagemagick高。

2019-07-08 11:29:44

其他回答

我发现，当使用转换使用的底层gs(又名Ghostscript)命令将大型pdf批量处理为png和jpg时，它既更快又更稳定。

你可以在convert -verbose的输出中看到这个命令，还有一些可能的调整(YMMV)，这些调整很难/不可能直接通过convert访问。

然而，这将很难做你的修剪和锐化使用gs，所以，正如我所说的，YMMV!

2013-04-19 11:30:38

在mac电脑上使用预览其实很容易做到。你所要做的就是在预览中打开文件，并另存(或导出)png或jpeg格式，但要确保你在窗口底部使用至少300 dpi来获得高质量的图像。

2018-07-07 21:38:41

我个人喜欢这个。

convert -density 300 -trim test.pdf -quality 100 test.jpg

文件大小是原来的两倍多一点，但在我看来好多了。

-density 300设置PDF渲染的dpi。

-trim删除任何与角落像素相同颜色的边缘像素。

-quality 100将JPEG压缩质量设置为最高质量。

像-锐化这样的东西不能很好地处理文本，因为它们撤消了字体渲染系统为使文本更易读而做的工作。

如果你真的想放大它，在这里使用resize，可能是一个更大的dpi值，比如targetDPI * scalingFactor，这将以你想要的分辨率/大小渲染PDF。

imagemagick.org上的参数描述在这里

2012-12-09 04:52:34

另一个建议是您可以使用GIMP。

只需在GIMP->中加载PDF文件，另存为.xcf，然后你就可以对图像做任何你想做的事情了。

2013-10-24 11:11:32

我使用的是pdf2image。一个简单的python库，工作起来很有魅力。

首先在非linux机器上安装poppler。你可以下载压缩包。在“程序文件”中解压，并将bin添加到“机器路径”中。

之后，你可以像这样在python类中使用pdf2image:

from pdf2image import convert_from_path, convert_from_bytes
images_from_path = convert_from_path(
   inputfile,
   output_folder=outputpath,
   grayscale=True, fmt='jpeg')

我不擅长python，但能够使它的exe。稍后，您可以使用带有文件输入和输出参数的exe。我已经在c#中使用了它，事情工作得很好。

图像质量好。OCR工作正常。

2020-05-29 06:19:47

将PDF转换为高分辨率的图像

推荐文章

最新文章

标签