我正在设置一个新的服务器,并希望在我的web应用程序中完全支持UTF-8。我过去曾在现有的服务器上尝试过这种方法,但似乎总是不得不回到ISO-8859-1。

我到底需要在哪里设置编码/字符集?我知道我需要配置Apache、MySQL和PHP来做到这一点-是否有一些标准的检查表,我可以遵循,或者排除哪里发生了不匹配?

这是一个新的Linux服务器,运行MySQL 5, PHP, 5和Apache 2。


当前回答

警告:此答案适用于PHP 5.3.5及以下版本。不要在PHP 5.3.6版本(2011年3月发布)或更高版本中使用它。 比较Palec的回答PDO + MySQL和破碎的UTF-8编码。


我发现了一个问题,有人使用PDO,答案是使用这个PDO连接字符串:

$pdo = new PDO(
    'mysql:host=mysql.example.com;dbname=example_db',
    "username",
    "password",
    array(PDO::MYSQL_ATTR_INIT_COMMAND => "SET NAMES utf8"));

其他回答

上面的答案很好。以下是我在常规Debian、PHP和MySQL设置中所做的:

// Storage
// Debian. Apparently already UTF-8

// Retrieval
// The MySQL database was stored in UTF-8,
// but apparently PHP was requesting ISO 8859-1. This worked:
// ***notice "utf8", without dash, this is a MySQL encoding***
mysql_set_charset('utf8');

// Delivery
// File *php.ini* did not have a default charset,
// (it was commented out, shared host) and
// no HTTP encoding was specified in the Apache headers.
// This made Apache send out a UTF-8 header
// (and perhaps made PHP actually send out UTF-8)
// ***notice "utf-8", with dash, this is a php encoding***
ini_set('default_charset','utf-8');

// Submission
// This worked in all major browsers once Apache
// was sending out the UTF-8 header. I didn’t add
// the accept-charset attribute.

// Processing
// Changed a few commands in PHP, like substr(),
// to mb_substr()

就这些!

数据存储:

在数据库中的所有表和文本列上指定utf8mb4字符集。这使得MySQL在物理上存储和检索原生UTF-8编码的值。注意,如果指定了utf8mb4_*排序规则(没有任何显式字符集),MySQL将隐式使用utf8mb4编码。 在MySQL的旧版本(< 5.5.3)中,不幸的是,您只能使用utf8,它只支持Unicode字符的一个子集。我希望我是在开玩笑。

数据访问:

在您的应用程序代码(例如PHP)中,无论您使用何种数据库访问方法,都需要将连接字符集设置为utf8mb4。通过这种方式,MySQL在将数据传递给应用程序时不会从其原生UTF-8进行转换,反之亦然。 一些驱动程序提供了自己的机制来配置连接字符集,它既更新自己的内部状态,又通知MySQL要在连接上使用的编码——这通常是首选的方法。在PHP中: 如果你使用PHP≥5.3.6的PDO抽象层,你可以在DSN中指定字符集: $dbh = new PDO('mysql:charset=utf8mb4'); 如果你正在使用mysqli,你可以调用set_charset(): mysqli - > set_charset(“utf8mb4”);//面向对象的样式 mysqli_set_charset(链接,美元“utf8mb4”);//程序风格 如果你只能使用普通的mysql,但碰巧运行的PHP≥5.2.3,你可以调用mysql_set_charset。 如果驱动程序没有提供自己的机制来设置连接字符集,你可能必须发出一个查询来告诉MySQL你的应用程序期望连接上的数据如何编码:set NAMES 'utf8mb4'。 对于utf8mb4/utf8,同样的考虑也适用于上面。

输出:

在HTTP报头中应该设置UTF-8,例如Content-Type: text/html;charset = utf - 8。你可以通过在php.ini中设置default_charset来实现(首选),或者手动使用header()函数。 如果您的应用程序将文本传输到其他系统,它们也需要被告知字符编码。对于web应用程序,必须通知浏览器发送数据的编码(通过HTTP响应报头或HTML元数据)。 当使用json_encode()对输出进行编码时,添加JSON_UNESCAPED_UNICODE作为第二个参数。

输入:

浏览器将以文档指定的字符集提交数据,因此不需要对输入进行任何操作。 如果您对请求编码有疑问(以防它可能被篡改),您可以在尝试存储它或在任何地方使用它之前验证每个接收到的字符串是否为有效的UTF-8。PHP的mb_check_encoding()可以做到这一点,但您必须认真使用它。实际上没有办法绕过这个问题,因为恶意客户端可以以它们想要的任何编码提交数据,而且我还没有找到让PHP可靠地为您做这件事的技巧。

其他代码注意事项:

显然,您将提供的所有文件(PHP、HTML、JavaScript等)都应该使用有效的UTF-8编码。 您需要确保每次处理UTF-8字符串时都是安全的。不幸的是,这是最难的部分。您可能希望大量使用PHP的mbstring扩展。 PHP的内置字符串操作在默认情况下不是UTF-8安全的。使用普通的PHP字符串操作(如连接)可以安全地完成一些事情,但对于大多数事情,您应该使用等效的mbstring函数。 要知道你在做什么(不要搞砸),你真的需要知道UTF-8以及它是如何在尽可能低的级别上工作的。查看utf8.com上的任何链接,获取一些好的资源,学习你需要知道的一切。

如果你想让MySQL服务器来决定字符集,而不是PHP作为客户端(旧行为;最好,在我看来),尝试添加skip-character-set-client-handshake到my.cnf,在[mysqld]下,并重新启动mysql。

如果您使用的不是UTF-8,这可能会带来麻烦。

我唯一想要补充的是,强调以UTF-8编码保存文件,我注意到浏览器接受这个属性,而不是设置UTF-8作为代码编码。任何像样的文本编辑器都会显示这一点。例如,notepad++有一个用于文件编码的菜单选项,它会显示当前的编码并允许您更改它。对于我所有的PHP文件,我使用UTF-8没有BOM。

前一段时间,有人让我为别人设计的PHP和MySQL应用程序添加UTF-8支持。我注意到所有的文件都是用ANSI编码的,所以我必须使用iconv来转换所有的文件,将数据库表更改为使用UTF-8字符集和utf8_general_ci排序,在连接后将' set NAMES utf8'添加到数据库抽象层(如果使用5.3.6或更早的版本)。否则,您必须在连接字符串中使用charset=utf8)并更改字符串函数以使用等价的PHP多字节字符串函数。

在我的例子中,我使用的是mb_split,它使用正则表达式。因此,我还必须手动确保正则表达式编码是UTF-8通过做mb_regex_encoding('UTF-8');

作为旁注,我还通过运行mb_internal_encoding()发现内部编码不是UTF-8,我通过运行mb_internal_encoding("UTF-8");来改变这一点。