我无法理解std::string和std::wstring之间的区别。我知道wstring支持Unicode字符等宽字符。我有以下问题:
什么时候应该使用std::wstring而不是std::string?std::string可以保存整个ASCII字符集,包括特殊字符吗?所有流行的C++编译器都支持std::wstring吗?什么是“宽字符”?
我无法理解std::string和std::wstring之间的区别。我知道wstring支持Unicode字符等宽字符。我有以下问题:
什么时候应该使用std::wstring而不是std::string?std::string可以保存整个ASCII字符集,包括特殊字符吗?所有流行的C++编译器都支持std::wstring吗?什么是“宽字符”?
当前回答
1) 正如Greg所提到的,wstring有助于国际化,这意味着您将以英语以外的语言发布产品
4) 检查此项以获取宽字符http://en.wikipedia.org/wiki/Wide_character
其他回答
1) 正如Greg所提到的,wstring有助于国际化,这意味着您将以英语以外的语言发布产品
4) 检查此项以获取宽字符http://en.wikipedia.org/wiki/Wide_character
所以,现在在座的每一位读者都应该清楚地了解事实和情况。如果没有,那么你必须阅读帕塞巴尔非常全面的回答[顺便说一句:谢谢!]。
我的务实结论非常简单:所有C++(和STL)“字符编码”的东西基本上都是残缺不全的。不管是否归咎于微软,这都无济于事。
经过深入调查后,我的解决方案是:
接受,你必须自己负责编码和转换的事情(你会发现很多事情都很琐碎)对任何UTF-8编码字符串使用std::string(仅为typedef std::字符串UTF8String)接受这样一个UTF8String对象只是一个愚蠢但廉价的容器。永远不要直接访问和/或操作其中的字符(不要搜索、替换等)。你可以,但你真的不想浪费时间为多字节字符串编写文本操作算法!即使其他人已经做了如此愚蠢的事情,也不要这样做!顺其自然!(好吧,在某些情况下,这是合理的……只需使用ICU图书馆即可)。对UCS-2编码字符串使用std::wstring(typedef std::wstring UCS2String)-这是一种妥协,也是对WIN32 API引入的混乱的让步)。UCS-2对我们大多数人来说已经足够了(稍后将详细介绍…)。每当需要逐字符访问(读取、操作等)时,请使用UCS2String实例。任何基于字符的处理都应该在非多字节表示中完成。它简单、快速、容易。添加两个实用函数以在UTF-8和UCS-2之间来回转换:UCS2字符串转换为UCS2(const UTF8String&str);UTF8字符串转换为UTF8(常量UCS2String&str);
转换很简单,谷歌应该在这里提供帮助。。。
就是这样。在内存非常宝贵的地方以及所有UTF-8 I/O都使用UTF8String。在必须解析和/或操作字符串的地方使用UCS2String。您可以随时在这两种表示之间进行转换。
替代方案和改进
从&到单字节字符编码(例如ISO-8859-1)的转换可以借助于普通转换表来实现,例如const wchar_ttt_iso88951[256]={0,1,2,…};以及用于转换到UCS2和从UCS2转换的适当代码。如果UCS-2不够,则切换到UCS-4(typedef std::basic_string<uint32_t>UCS2String)
ICU或其他unicode库?
先进的东西。
如果应用程序不满足256个不同的字符,则可以选择使用宽字符(超过8位)或可变长度编码(C++术语中的多字节编码),如UTF-8。宽字符通常比可变长度编码需要更多的空间,但处理速度更快。处理大量文本的多语言应用程序通常在处理文本时使用宽字符,但在将文本存储到磁盘时将其转换为UTF-8。
字符串和wstring之间的唯一区别是它们存储的字符的数据类型。字符串存储的字符大小保证至少为8位,因此您可以使用字符串来处理例如ASCII、ISO-8859-15或UTF-8文本。该标准没有说明字符集或编码。
实际上,每个编译器都使用一个字符集,其前128个字符与ASCII对应。使用UTF-8编码的编译器也是如此。在UTF-8或其他可变长度编码中使用字符串时,需要注意的重要一点是,索引和长度是以字节而不是字符来度量的。
wstring的数据类型是wchar_t,其大小在标准中没有定义,除了它必须至少与一个字符一样大,通常是16位或32位。wstring可用于处理实现定义的宽字符编码中的文本。因为标准中没有定义编码,所以在字符串和wstring之间进行转换并不简单。也不能假设wstring具有固定长度编码。
如果您不需要多语言支持,那么可以只使用常规字符串。另一方面,如果您正在编写图形应用程序,则API通常只支持宽字符。然后,您可能希望在处理文本时使用相同的宽字符。请记住,UTF-16是一种可变长度编码,这意味着您不能假定length()返回字符数。如果API使用固定长度编码,例如UCS-2,则处理变得容易。在宽字符和UTF-8之间进行转换很难以可移植的方式进行,但话说回来,您的用户界面API可能支持这种转换。
什么时候不应该使用宽字符?
当你在1990年之前编写代码时。
很明显,我很生气,但事实上,现在是21世纪。127个字符早已不再足够。是的,你可以使用UTF8,但为什么要头疼呢?
如果保持字符串的可移植性,则可以使用tstring,tchar。这是很久以前广泛使用的技术。在这个示例中,我使用了自定义的TCHAR,但您可以在internet上找到linux的TCHAR.h实现。
这个想法意味着windows上使用wstring/wchar_t/UTF-16,Linux上使用string/char/UTF-8(或ASCII..)。
在下面的示例中,英语/日语多字节混合字符串的搜索在两个windows/linux平台上都运行良好。
#include <locale.h>
#include <stdio.h>
#include <algorithm>
#include <string>
using namespace std;
#ifdef _WIN32
#include <tchar.h>
#else
#define _TCHAR char
#define _T
#define _tprintf printf
#endif
#define tstring basic_string<_TCHAR>
int main() {
setlocale(LC_ALL, "");
tstring s = _T("abcあいうえおxyz");
auto pos = s.find(_T("え"));
auto r = s.substr(pos);
_tprintf(_T("r=%s\n"), r.c_str());
}