構造UTF8的std::string – JAVA編程語言程序開發技術文章

在VC++的世界裡,MS比較鼓勵使用_UNICODE,std::wstring。而在Web, XML則提倡用UTF8。當在C++的程序裡要保存/讀取XML數據,就存在wstring與string之間的轉換。C++11裡提供方便的轉換工具(參照:std::wstring_convert處理UTF8 )

有人說,MS引入_UNICODE就是個錯誤,STL引入wstring也是個錯誤;而鼓勵使用UTF8 string做為程序內部string存儲格式。在與GUI交互的時候,轉換為wstring(假定GUI使用的是_UNICODE)。這樣做至少有一個好處:相對的可以減少程序運行時占用內存的大小。當然現在內存資源也不是個什麼大問題,我更關心的是保存/讀取XML數據的效率。

VC++默認構造std::string的時候是ANSI格式,如
std::string nstr = "123,我是誰?我愛十八大!";  

為瞭構造個UTF8的string,總不能這樣寫吧
inline std::string ToUTF8(const wchar_t* wideStr)
{
   std::wstring_convert<std::codecvt_utf8<wchar_t>> conv;
   return conv.to_bytes(wideStr);
}

std::string nstr = ToUTF8(L"123,我是誰?我愛十八大!");

這樣寫能Work,但總感覺有問題。

VC++ 2008 SP1提供瞭個編譯選項,可以默認就構造出UTF8的string,不需要上述轉換。
#pragma execution_character_set("utf-8")

這樣string就是utf8。
那wstring的編碼格式會變嗎?若變,會變成啥呢?
std::wstring str = L"123,我是誰?";

另外C++11定義瞭u8,類似L
  std::string nstr = u8"123,我是誰?";
但VS2010SP1並不支持。

註:
以上說的都是VC++的事兒。而Clang,據說默認就是utf8(有待驗證)。

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *