UTF-8
統一碼編碼不同的字節倍數 / 維基百科,自由的 encyclopedia
UTF-8(8-bit Unicode Transformation Format)是一種針對Unicode的可變長度字元編碼,也是一種字首碼。它可以用一至四個位元組對Unicode字元集中的所有有效編碼點進行編碼,屬於Unicode標準的一部分,最初由肯·湯普遜和羅布·派克提出。[2][3]由於較小值的編碼點一般使用頻率較高,直接使用Unicode編碼效率低下,大量浪費內存空間。UTF-8就是為了解決向下相容ASCII碼而設計,Unicode中前128個字元,使用與ASCII碼相同的二進制值的單個位元組進行編碼,而且字面與ASCII碼的字面一一對應,這使得原來處理ASCII字元的軟件無須或只須做少部份修改,即可繼續使用。因此,它逐漸成為電子郵件、網頁及其他儲存或傳送文字優先採用的編碼方式。
此條目需要補充更多來源。 (2018年12月27日) |
此條目翻譯品質不佳。 |
自2009年以來,UTF-8一直是萬維網的最主要的編碼形式(對所有,而不僅是Unicode範圍內的編碼)(並由WHATWG宣佈為強制性的「適用於所有事物(for all things)」,[4]截止到2019年11月, 在所有網頁中,UTF-8編碼應用率高達94.3%(其中一些僅是ASCII編碼,因為它是UTF-8的子集),而在排名最高的1000個網頁中佔96%。[5] 第二熱門的多位元組編碼方式Shift JIS和GB 2312分別具有0.3%和0.2%的佔有率。[6][7][1]Internet郵件聯盟( Internet Mail Consortium, IMC)建議所有電子郵件程式都能夠使用UTF-8展示和建立郵件,[8] W3C建議UTF-8作為XML檔案和HTML檔案的預設編碼方式。[9]互聯網工程工作小組(IETF)要求所有互聯網協定都必須支援UTF-8編碼[10]。互聯網郵件聯盟(IMC)建議所有電子郵件軟件都支援UTF-8編碼。[11]