检测编码并使所有内容都为UTF-8

我从各种RSS订阅中阅读大量文本，并将它们插入到我的数据库中。

当然，在提要中使用了几种不同的字符编码，例如UTF-8和ISO 8859-1。

不幸的是，文本的编码有时会有问题。例子:

“Fußball”中的“ß”在我的数据库中应该是这样的:“ÂŸ”。如果是“ÂŸ”，则显示正确。有时，“Fußball”中的“ß”在我的数据库中看起来像这样:“ÃƒÂŸ”。当然，这样就会显示错误。在其他情况下，“ß”被保存为“ß”-因此没有任何变化。然后它也会被错误地显示。

我怎么做才能避免情况2和3?

我如何使所有的编码相同，最好是UTF-8?什么时候我必须使用utf8_encode()，什么时候我必须使用utf8_decode()(很清楚的效果是什么，但什么时候我必须使用函数?)，什么时候我必须对输入什么都不做?

如何让所有编码都相同呢?也许使用函数mb_detect_encoding()?我能写一个函数吗?所以我的问题是:

如何找出文本使用的编码? 我如何将其转换为UTF-8 -无论旧的编码是什么?

这样的函数可行吗?

function correct_encoding($text) {
    $current_encoding = mb_detect_encoding($text, 'auto');
    $text = iconv($current_encoding, 'UTF-8', $text);
    return $text;
}

我已经测试过了，但是不行。有什么问题吗?

当前回答

提醒一下。您说在您的数据库中“ß”应该显示为“ÂŸ”。

这可能是因为你正在使用一个Latin-1字符编码的数据库，或者你的PHP-MySQL连接设置错误，也就是说，P认为你的MySQL设置为使用UTF-8，所以它发送数据为UTF-8，但你的MySQL认为PHP发送的数据编码为ISO 8859-1，所以它可能再次尝试将你发送的数据编码为UTF-8，造成这种麻烦。

看一下mysql_set_charset。它可能对你有帮助。

2011-06-27 16:12:12

其他回答

这很简单:当您得到一些不是UTF-8的东西时，您必须将其编码为UTF-8。

因此，当你获取某个ISO 8859-1的提要时，通过utf8_encode解析它。

但是，如果您正在获取UTF-8提要，则不需要做任何事情。

2009-05-26 13:55:14

制定RSS提要的字符编码似乎很复杂。即使是普通的网页也经常忽略或谎报它们的编码。

因此，您可以尝试使用正确的方法来检测编码，然后退回到某种形式的自动检测(猜测)。

2009-05-26 14:02:41

提醒一下。您说在您的数据库中“ß”应该显示为“ÂŸ”。

看一下mysql_set_charset。它可能对你有帮助。

2011-06-27 16:12:12

哈帕克斯的回答对我很管用。对我来说，这就足够了:

if (isUTF8($str)) {
    echo $str;
}
else
{
    echo iconv("ISO-8859-1", "UTF-8//TRANSLIT", $str);
}

2011-07-26 22:21:58

关于mb_detect_encoding和mb_convert_encoding有趣的事情是，您建议的编码顺序确实很重要:

// $input is actually UTF-8

mb_detect_encoding($input, "UTF-8", "ISO-8859-9, UTF-8");
// ISO-8859-9 (WRONG!)

mb_detect_encoding($input, "UTF-8", "UTF-8, ISO-8859-9");
// UTF-8 (OK)

因此，在指定预期的编码时，您可能希望使用特定的顺序。不过，请记住，这并非万无一失。

2012-03-11 17:58:32

检测编码并使所有内容都为UTF-8

推荐文章

最新文章

标签