我正在尝试使用命令行程序转换将PDF转换为图像(JPEG或PNG)。这是我正在转换的pdf文件之一。
我想让程序去掉多余的空白,并返回足够高质量的图像,以便上标可以轻松读取。
这是我目前最好的尝试。正如你所看到的,修剪工作很好,我只是需要锐化的分辨率相当多。这是我正在使用的命令:
convert -trim 24.pdf -resize 500% -quality 100 -sharpen 0x1.0 24-11.jpg
我试着做了以下有意识的决定:
调整它的大小(对分辨率没有影响)
尽可能提高质量
使用-锐化(我已经尝试了一系列值)
任何建议,请在最终的PNG/JPEG图像的分辨率更高,将非常感谢!
通常我在原生分辨率下用'pdfimages'提取嵌入图像,然后使用ImageMagick的转换为所需的格式:
$ pdfimages -list fileName.pdf
$ pdfimages fileName.pdf fileName # save in .ppm format
$ convert fileName-000.ppm fileName-000.png
这将生成最佳和最小的结果文件。
注意:对于有损的JPG嵌入图像,你必须使用-j:
$ pdfimages -j fileName.pdf fileName # save in .jpg format
最近的“poppler-util”(0.50+,2016),你可以使用-所有保存有损为jpg和无损为png,所以一个简单的:
$ pdfimages -all fileName.pdf fileName
从PDF中提取总是最好的质量内容。
在很少提供的Win平台上,您必须下载最近的(0.68,2018)' popler -util'二进制从:
http://blog.alivate.com.au/poppler-windows/
我使用的是pdf2image。一个简单的python库,工作起来很有魅力。
首先在非linux机器上安装poppler。你可以下载压缩包。在“程序文件”中解压,并将bin添加到“机器路径”中。
之后,你可以像这样在python类中使用pdf2image:
from pdf2image import convert_from_path, convert_from_bytes
images_from_path = convert_from_path(
inputfile,
output_folder=outputpath,
grayscale=True, fmt='jpeg')
我不擅长python,但能够使它的exe。
稍后,您可以使用带有文件输入和输出参数的exe。我已经在c#中使用了它,事情工作得很好。
图像质量好。OCR工作正常。