我正在设置一个新的服务器,并希望在我的web应用程序中完全支持UTF-8。我过去曾在现有的服务器上尝试过这种方法,但似乎总是不得不回到ISO-8859-1。

我到底需要在哪里设置编码/字符集?我知道我需要配置Apache、MySQL和PHP来做到这一点-是否有一些标准的检查表,我可以遵循,或者排除哪里发生了不匹配?

这是一个新的Linux服务器,运行MySQL 5, PHP, 5和Apache 2。


当前回答

对于chazomaticus的精彩回答,我想补充一点:

也不要忘记META标签(像这样,或者它的HTML4或XHTML版本):

<meta charset="utf-8">

这看起来微不足道,但IE7以前就给过我这样的问题。

我做的每件事都是对的;数据库、数据库连接和内容类型HTTP头都被设置为UTF-8,在所有其他浏览器中都能正常工作,但ie仍然坚持使用“西欧”编码。

结果发现这个页面缺少META标签。加上这个,问题就解决了。

编辑:

W3C实际上有相当大的一部分专门讨论I18N。他们有很多关于这个问题的文章——描述HTTP, (X)HTML和CSS方面的事情:

常见问题:更改(X)HTML页面编码为UTF-8 在HTML中声明字符编码 教程:XHTML, HTML和CSS中的字符集和编码 设置HTTP字符集参数

他们建议同时使用HTTP报头和HTML元标记(或者在XHTML作为XML的情况下使用XML声明)。

其他回答

首先,如果你使用的是5.3之前的PHP,那就不需要了。你有一大堆问题要解决。

我很惊讶没有人提到intl库,这个库很好地支持Unicode、字母、字符串操作、本地化等等,见下文。

我将引用Elizabeth Smith在PHPBenelux'14上的幻灯片中关于PHP中Unicode支持的一些信息

INTL

好:

ICU库的包装 标准化区域设置,每个脚本设置区域 数字格式 货币格式 消息格式化(替换gettext) 日历,日期,时区和时间 Transliterator Spoofchecker 资源包 转换器 印度尼西亚的支持 字母 排序 迭代器

Bad:

不支持zend_multibyte 不支持HTTP输入输出转换 不支持函数重载

mb_string

启用zend_多字节支持 支持透明的HTTP in/out编码 为strtoupper等功能提供一些包装器

ICONV

主要用于字符集转换 输出缓冲区处理程序 Mime编码功能 转换 一些字符串助手(len, substr, strpos, strrpos) 流过滤器stream_filter_append($fp, 'convert.iconv.ISO-2022-JP/EUC-JP')

数据库

MySQL:表和连接上的字符集和排序规则(不是排序规则)。另外,不要使用mysql - mysqli或PDO postgresql: pg_set_client_encoding sqlite(3):确保它是在Unicode和intl支持下编译的

其他一些陷阱

除非使用第三部分扩展,否则不能在PHP和windows中使用Unicode文件名。 如果使用exec、proc_open和其他命令行调用,则以ASCII格式发送所有内容 纯文本不是纯文本,文件有编码 你可以用iconv过滤器转换文件

PHP中的Unicode支持仍然是一个巨大的混乱。虽然它能够将ISO 8859字符串(它在内部使用)转换为UTF-8,但它缺乏原生处理Unicode字符串的能力,这意味着所有的字符串处理函数都会破坏和破坏您的字符串。

因此,您必须使用单独的库来获得适当的UTF-8支持,或者自己重写所有字符串处理函数。

简单的部分是在HTTP头文件和数据库中指定字符集,但如果PHP代码没有输出有效的UTF-8,这些都无关紧要。这是最困难的部分,PHP在这方面几乎没有提供任何帮助。(我认为PHP 6应该能解决最糟糕的问题,但这还需要一段时间。)

我唯一想要补充的是,强调以UTF-8编码保存文件,我注意到浏览器接受这个属性,而不是设置UTF-8作为代码编码。任何像样的文本编辑器都会显示这一点。例如,notepad++有一个用于文件编码的菜单选项,它会显示当前的编码并允许您更改它。对于我所有的PHP文件,我使用UTF-8没有BOM。

前一段时间,有人让我为别人设计的PHP和MySQL应用程序添加UTF-8支持。我注意到所有的文件都是用ANSI编码的,所以我必须使用iconv来转换所有的文件,将数据库表更改为使用UTF-8字符集和utf8_general_ci排序,在连接后将' set NAMES utf8'添加到数据库抽象层(如果使用5.3.6或更早的版本)。否则,您必须在连接字符串中使用charset=utf8)并更改字符串函数以使用等价的PHP多字节字符串函数。

警告:此答案适用于PHP 5.3.5及以下版本。不要在PHP 5.3.6版本(2011年3月发布)或更高版本中使用它。 比较Palec的回答PDO + MySQL和破碎的UTF-8编码。


我发现了一个问题,有人使用PDO,答案是使用这个PDO连接字符串:

$pdo = new PDO(
    'mysql:host=mysql.example.com;dbname=example_db',
    "username",
    "password",
    array(PDO::MYSQL_ATTR_INIT_COMMAND => "SET NAMES utf8"));

在PHP中,您需要使用多字节函数,或者打开mbstring.func_overload。这样,如果你的字符超过一个字节,像strlen这样的东西就可以工作。

你还需要确定你的回答的字符集。您可以像上面一样使用AddDefaultCharset,也可以编写返回标头的PHP代码。(或者你可以在你的HTML文档中添加一个META标签。)