UTF-8
統一碼編碼不同的字節倍數 / 維基百科,自由的 百科全書
UTF-8(8-bit Unicode Transformation Format)是一種針對Unicode的可變長度字元編碼,也是一種前綴碼。它可以用一至四個字節對Unicode字符集中的所有有效編碼點進行編碼,屬於Unicode標准的一部分,最初由肯·湯普遜和羅布·派克提出。[2][3]由於較小值的編碼點一般使用頻率較高,直接使用Unicode編碼效率低下,大量浪費內存空間。UTF-8就是為了解決向後兼容ASCII碼而設計,Unicode中前128個字符,使用與ASCII碼相同的二進制值的單個字節進行編碼,而且字面與ASCII碼的字面一一對應,這使得原來處理ASCII字元的軟體無須或只須做少部份修改,即可繼續使用。因此,它逐漸成為電子郵件、網頁及其他儲存或傳送文字優先採用的編碼方式。
語言 | 國際 |
---|---|
標准 | Unicode |
分類 | EASCII 變長編碼 Unicode轉換格式 |
拓展自 | US-ASCII |
變換/編碼 | ISO 10646 (Unicode) |
前用 | UTF-1 |

自2009年以來,UTF-8一直是全球資訊網的最主要的編碼形式(對所有,而不僅是Unicode范圍內的編碼)(並由WHATWG宣布為強制性的「適用於所有事物(for all things)」,[4]截止到2019年11月, 在所有網頁中,UTF-8編碼應用率高達94.3%(其中一些僅是ASCII編碼,因為它是UTF-8的子集),而在排名最高的1000個網頁中占96%。[5] 第二熱門的多字節編碼方式Shift JIS和GB 2312分別具有0.3%和0.2%的占有率。[6][7][1]Internet郵件聯盟( Internet Mail Consortium, IMC)建議所有電子郵件程序都能夠使用UTF-8展示和創建郵件,[8] W3C建議UTF-8作為XML文件和HTML文件的默認編碼方式。[9]網際網路工程工作小組(IETF)要求所有網際網路協議都必須支持UTF-8編碼[10]。互聯網郵件聯盟(IMC)建議所有電子郵件軟件都支持UTF-8編碼。[11]