我有一个HTML(而不是XHTML)文档,可以在Firefox3和IE7中显示良好。它使用相当基本的CSS来设置样式,并在HTML中呈现良好的效果。

我现在正在寻找一种将其转换为PDF的方法。我尝试过:

DOMPDF:它在表格方面存在巨大问题。我分解了我的大型嵌套表,这有助于(之前它只消耗了128M的内存,然后就死了——这是我在php.ini中的内存限制),但它把表弄得一团糟,而且似乎没有图像。这些表格只是一些基本的东西,带有一些边框样式,可以在各个点添加一些线条;HTML2PDF和HTML2PS:实际上我在这方面运气更好。它呈现了一些图像(所有图像都是Google Chart URL),表格格式要好得多,但它似乎有一些复杂性问题,我还没有弄清楚,并且一直因未知的node_type()错误而死亡。不知道从这里去哪里;和Htmldoc:这在基本的HTML上似乎很好,但几乎不支持CSS,所以你必须用HTML做所有的事情(我没有意识到在Htmldoc领域还是2001年…),所以这对我来说是无用的。

我尝试了一个名为Html2Pdf Pilot的Windows应用程序,它确实做得很好,但我需要至少在Linux上运行,最好通过Web服务器上的PHP按需运行的应用程序。

我缺少什么,或者如何解决这个问题?


精细渲染并不意味着什么。它是否有效?

所有浏览器都尽其所能在屏幕上显示一些内容,无论输入有多糟糕。当然,他们不会做同样的事情。如果需要与FireFox相同的渲染,可以使用其渲染引擎。它有pdf生成器,但工作量很大。


也许您可以在将文件交给转换器之前尝试使用Tidy。如果其中一个渲染器遇到HTML问题(如未关闭的标记),可能会有所帮助。


Zend的devzone上有一个关于在没有任何外部库的情况下从php生成pdf的教程(第1部分,第2部分)。我从未实现过这种解决方案,但由于它都是php,所以您可能会发现它更灵活地实现和调试。


如果你想找到一个完美的XHTML+CSS到PDF转换器库,那就忘掉它吧。因为这就像找到一个完美的浏览器(XHTML+CSS渲染引擎)。我们有吗?IE还是FF?

我在DOMPDF方面取得了一些成功。问题是,您必须修改HTML+CSS代码以符合库的工作方式。除此之外,我的成绩还不错。

见下文:

原始HTML

将HTML转换为PDF


经过一些调查和一般的头发拉扯,解决方案似乎是HTML2PDF。DOMDF在表格、边框甚至是中等复杂的布局方面做得很糟糕,htmldoc看起来相当健壮,但几乎完全不了解CSS,我不想只为该程序而回到没有CSS的HTML布局。

HTML2PDF看起来是最有前途的,但我一直有一个关于node_type的空引用参数的奇怪错误。我终于找到了解决办法。基本上,PHP5.1.x在任何大小的字符串上都可以使用正则表达式替换(preg_replace_*)。PHP 5.2.1引入了一个名为pcre.backtrack_limit的PHP.ini配置指令。此配置参数的作用是限制匹配所需的字符串长度。我不知道为什么要这样做。默认值选择为100000。为什么值这么低?同样,不知道。

针对PHP 5.2.1提出了一个bug,该bug在近两年后仍然开放。

最可怕的是,当超过限制时,替换就会默默地失败。至少,如果一个错误被引发并记录下来,你会知道发生了什么,为什么,以及要修改什么来修复它。

所以我有一个70k的HTML文件要转换成PDF。它需要以下php.ini设置:

pcre.backtrack_limit=2000000;#可能比我需要的更多,但没关系内存限制=1024M;#是的,1千兆字节;和最大执行时间=600;#是的,10分钟。

现在精明的读者可能已经注意到我的HTML文件小于100k。我可以猜测为什么会遇到这个问题的唯一原因是,作为过程的一部分,html2pdf将转换为xhtml。也许这让我着迷了(尽管近50%的膨胀似乎很奇怪)。不管是什么情况,上述方法都奏效了。

现在,html2pdf是一个资源占用者。我的70k文件需要大约5分钟和至少500-600M的RAM才能创建一个35页的PDF文件。不幸的是,对于实时下载来说(到目前为止)还不够快,内存使用率使内存使用率达到1000比1(70k文件需要600M RAM)的量级,这是非常荒谬的。

不幸的是,这是我想出的最好的办法。


重要信息:请注意,此答案写于2009年,在2019年,它可能不是当今最具成本效益的解决方案。今天的在线替代方案比当年更好。

以下是您可以使用的一些在线服务:

PDF移位重新包装PDF图层DocRaptor公司HTMLPDFAPIHTML到PDF Rocket


看看PrinceXML。

它绝对是最好的HTML/CSS到PDF转换器,虽然它不是免费的(但是,嘿,你的编程可能也不是免费的,所以如果它为你节省了10个小时的工作,你就可以在家里自由使用了(因为你还需要考虑到,替代解决方案将需要你用正确的软件设置一个专用服务器)

哦,是的,我有没有提到这是第一个(可能也是唯一一个)实现完整ACID2的HTML2PDF解决方案?

PrinceXML示例


为了突出线程,我尝试了DOMPDF,它工作得很好。我使用了DIV和其他块级元素来定位所有内容,我严格使用了CSS2.1,它的播放效果非常好。


我使用fpdf使用PHP生成PDF文件。到目前为止,制作简单的输出对我来说效果很好。


签出TCPDF。它有一些HTML到PDF的功能,可能足以满足您的需要。它也是免费的!


我不认为php类是用css渲染xHtml页面的最佳方法。

当一个新的css规则出现时会发生什么?(很快css 3.0…)

显然,呈现html页面的最佳方式是浏览器。Firefox 3.0可以原生地以pdf格式“打印”,torissuent开发了一个扩展(命令行打印)来使用它。

无论如何,firefox作为pdf转换器仍有许多问题。。。

目前,我认为wkhtmltopdf是最好的(这是safari浏览器使用的),速度快,速度快。是的,也是开源的。。。看一看


看看wkhtmltopdf。它是开源的,基于webkit和免费。

我们在这里写了一个小教程。

编辑(2017):

如果今天要建造一些东西,我就不会再走那条路了。但会使用http://pdfkit.org/相反可能会剥离它所有的nodejs依赖项,以便在浏览器中运行。


为什么不试试mPDF 2.0版?我用它来创建PDF文档。它工作得很好。

同时,mPDF版本为5.7,与HTML2PS/HTML2PDF相比,它得到了积极维护

但请记住,文档确实很难处理。例如,查看此页面:https://mpdf.github.io/.

使用这个库可以完成从html到pdf的非常基本的任务,但更复杂的任务需要一些时间阅读和“理解”文档。


Darryl Hein在上面提到TCPDF可能是一个好主意。Nicola Asuni的代码非常方便和强大。唯一的杀手是,如果你计划将PDF文件与生成的PDF合并,那么它就没有这些功能。您必须创建PDF,然后使用Sid Steward的PDFTK(www.pdflabs.com/tools/PDFTK the PDF toolkit/)进行合并。


我建议DocRaptor(使用PrinceXML作为“引擎”)


尝试获取最新的夜间dompdf构建-我使用的是一个旧版本,这是一个可怕的资源占用,并花费了很长时间来渲染我的pdf。在这里度过了一个夜晚。

只花了几秒钟就生成了PDF,而且它的渲染效果与PrinceXML/Docraptor一样好。自从我上次使用dompdf代码以来,他们似乎已经认真优化了它!


好消息!精炼的

Snappy是一个非常简单的开源PHP5库,允许从url或html页面生成缩略图、快照或PDF。和它使用了优秀的基于webkit的wkhtmltopdf

享受^_^


这个问题已经很老了,但还没有人提到CutyCapt,所以我会:)

可爱的卡通

CutyCapt是一个小型的跨平台命令行实用程序,用于捕获WebKit将网页呈现为各种矢量位图格式,包括SVG、PDF、PS、PNG、JPEG、TIFF、GIF和BMP


不是PHP,而是一个Java库,它执行以下操作:

Flying Saucer采用XML或XHTML并应用CSS 2.1兼容样式表,以便呈现为PDF

它可以通过system()或类似的调用从PHP中使用。尽管它要求输入的XML格式良好。


上面已经提到了,但我想确认一下,mpdf是目前最简单、最强大、最免费的HTML-to-pdf转换器。天空真的是极限。您甚至可以生成用户生成的动态数据的pdf。

例如,一个客户想要一个CMS系统,这样他就可以更新他在俱乐部播放的音乐的曲目列表。这没什么问题,但他也希望用户能够下载播放列表的.pdf,因此这个可下载的pdf也必须由cms进行更新。多亏了mpdf,通过一些简单的循环和穿插的变量,我可以做到这一点。我以为要花上几周时间的事情真的花了我几分钟。

很好的文章帮助我开始了。


我建议按照TCPDF或DOMPDF的顺序。


我已经为PHP尝试了很多不同的库。我尝试过的所有列表。在我看来,TCPDF库是最佳的性能/可用性折衷方案。它的安装和使用非常简单,在中小型应用中也具有良好的性能。如果您需要高性能和非常大的PDF文档,请使用Zend_PDF模块,但要做好编码的准备!


HTML到PDF的转换真的需要使用PHP在服务器端进行吗?

我刚刚遇到了jsPDF,一个使用HTML5/JavaScript的客户端解决方案。MIT授权代码也在GitHub上。


使用MPDF!==

a) 在文件夹中提取

b) 在您的文件夹中创建file.php并插入以下代码:

<?php
include('../mpdf.php');
$mpdf=new mPDF();
$mpdf->WriteHTML('<p style="color:red;">Hallo World<br/>Fisrt sentencee</p>');
$mpdf->Output();   exit;
 ?>

c) 从浏览器中打开file.php

2) 使用pdfToHtml!

将pdftohtml.exe解压缩到根文件夹:在该文件夹的anyfile.php文件中,输入以下代码(假设也有一个源example.pdf):输入FinalFolder,将有转换后的文件(与源PDF一样多的页面)


TCPDF工作正常,无依赖性,是免费的,并不断修正错误。如果提供的HTML/CSS内容格式良好,则速度合理。我通常从50-300kB的HTML输入(包括CSS)生成,并在1-3秒内获得10-15个PDF页面的PDF输出。

我强烈建议在将任何内容发送到TCPDF之前,使用整洁的库作为HTML漂亮的格式化程序。


Web API

如果有人总是搜索这种东西,有一个免费的网站可以让你将html代码和页面转换为pdf。还有一个(非常小的)api,允许您从url获取pdf文件。

在这里检查


虽然已经提供了许多解决方案,但我建议使用以下两种:

HTM2PDF-提供了一个将HTML转换为PDF的API,还具有一个PHP SDK,这使得它非常容易在PHP中实现;它提供了欧洲、亚洲和美国的服务器位置选择PDFmyURL-提供了一个API,可以将URL和HTML转换为PDF,功能与HTM2PDF大致相同,但在负载平衡的环境下工作,并且使用时间稍长

这两个API与前面提到的所有解决方案的不同之处在于,除了使用CSS和JavaScript将HTML转换为PDF之外,它还提供PDF权限管理、水印和加密。因此,这是一个为那些想要开始跑步的人提供的一体化解决方案。

免责声明:我在Kaiomi工作,这家公司同时运营这两个网站。


如果您可以访问命令行,则可以使用PhantomJS从URL(远程或本地)创建PDF。

它工作得很好,是一个免费的解决方案。

看看这个为这个问题制作的示例脚本。


最初在开场白中提到的HTML2PDF和HTML2PS是在谈论2009年的一个带有此链接的包

但还有更好的HTML2PDF

它是基于TCPDF的,尽管部分是法语。

您可以有在页面上重复的页眉或页脚,并有页码和总页数。参见其示例。我已经使用它三年多了,并推荐它。


就成本而言,在许多情况下,使用web服务(API)可能是更明智的方法。此外,通过外包这一过程,您可以减轻自己的基础设施/后端负担,并且-如果您使用的是信誉良好的服务-确保与调整web标准、正常运行时间、短处理时间和快速内容交付的兼容性。

我已经对目前市场上的大多数web服务进行了一些研究,请在下面找到我认为值得在这个线程中提及的API,按照价格/价值比的顺序排列。所有这些都提供预先编写的PHP类和包。

pdflayer.com-成本:$-质量:☆☆☆☆docraptor.com-成本:$$-质量:☆☆☆☆☆pdfcrowd.com-成本:$$-质量:☆☆☆

质量:

DocRaptor以高质量的引擎PrinceML为主干,显然提供了最佳的PDF质量,返回了经过高度抛光和良好转换的PDF文档。然而,pdflayer API服务在这里非常接近。Pdfcrowd不一定以质量得分,而是以处理速度得分。

成本:

pdflayer.com-如上所述,这里最具成本效益的选择是pdflaye.com,它提供100个月PDF的完全免费订阅计划,以及9.99美元至119.99美元不等的溢价订阅。每月10000份PDF文档的价格为39.99美元。

docraptor.com-提供7天免费试用期。高级订阅计划从15美元到2250美元不等。每月10000份PDF文档的价格约为300.00美元。

pdfcrowd.com-免费提供100个PDF。高级订阅计划从9美元到89美元不等。每月10000份PDF文档的价格约为49.00美元。

我已经使用了这三种方法,这段文字应该可以帮助任何人做出决定,而无需支付所有费用。本文并非为任何一种产品背书,我与任何产品都没有关联。


我开发了一个公共API来从网页构建PDF文件。它有一个很好的PHP客户端类,使用起来非常简单。它使用wkhtmltopdf在云中渲染PDF。

不需要HTML中的任何特殊内容。在images/css/js链接中不需要绝对URL。也可以在本地主机(开发机器)上工作。

目前,该服务在4个Azure地区拥有端点:美国东部、美国西部、欧盟北部和东南亚。

它很快,因为它使用专有协议将网页内容发送到API以转换为PDF。

它是可靠的,因为所有端点都是负载平衡的。

免费帐户可用于测试或低使用率。网站上的详细信息:

https://rotativahq.com