說明:特殊字母與符號
維基百科,自由的 encyclopedia
在MediaWiki 1.5中,所有的專案都使用了Unicode(UTF-8)字元編碼。如果你的作業系統和瀏覽器不支援Unicode(如網景瀏覽器或Mac版Internet Explorer),或者沒有安裝可以顯示某些Unicode字元的字型,你將無法正確瀏覽、編輯帶有這類字元的文章。典型的狀況是:把不能顯示的字元被顯示成內有數字的小方框,編輯框內不能顯示的字元被顯示成一組組字元代碼。本文章的下列章節會給出具體的介紹。
維基百科使用手冊 |
本頁面有特殊字元,作業系統及瀏覽器須支援特殊字母與符號才能正確顯示,否則可能變成亂碼、問號、空格等其它符號。 |
概述
你可在在#顯示和#相關字型的下載與安裝這2章節找到有關的解決方案。
字元編碼系統
到2005年6月底,當這個新的版本開始在維基媒體上使用時,英國、荷蘭、丹麥和瑞典的維基百科已經使用了windows-1252編碼(他們宣佈用的是ISO-8859-1編碼,但實際上瀏覽器把二者辨識為同一種,而且Mediawiki並沒有限制使用windows-1252的歷史)。在資料庫中準備升級的wiki文件將始終以windows-1252編碼儲存,並且在載入時轉換。此後的更新將作為UTF-8編碼儲存在資料庫內。載入時轉換的過程對於用戶來說是不可見的。
- Unicode(UTF-8)
- 各字元位元組數可變
- 中日韓統一表意文字等特殊字元都可以在網頁和編輯框正常顯示,亦可用多字元代碼,且不會在編輯框自動轉換。
- ISO 8859-1
- 各字元僅一位元組
- 在此字元集中不可用的特殊字元以多字元代碼形式儲存,它們通常有兩到三個等價表示,例如:€,可表示為€,或€,或€。
- 包含最常見的特殊字元,比如é,也可表示為é,但這樣沒必要。
注意到Special:Export輸出時使用UTF-8,無論資料庫使用的是哪種編碼。
若想了解某維基使用的編碼系統,打開瀏覽器的「察看原始碼」,找以下字串:
<meta http-equiv="Content-type" content="text/html; charset=iso-8859-1" />
或
<meta http-equiv="Content-type" content="text/html; charset=utf-8" />
編輯
多數電腦鍵盤的佈局都繼承自一八六八年由幾位美國人發明的打字機,其鍵位佈局都只為英文而設,當中只取廿六鍵位對應廿六字母,無考慮其他語言文字的字素數,二十世紀發明的美國標準資訊交換碼(ASCII)收的字素字元亦只有廿六英字,現今主流的鍵盤如無軟件輔助都打不出其他語言的文字,但許多不在ASCII的字元都對維基十分重要。非ASCII字元有幾種方法輸入:
- 使用編輯框下的特殊字元以插入文章,但有可能無法顯示部分字元。
- 按住ALT鍵並從數字鍵區依次輸入三位數輸入EASCII字元,但超出EASCII範圍的數字會轉成SOH符號(U+0001)。
- 直接使用特種鍵盤、該語言的輸入法或字元對映程式。在ISO-8859-1的維基將把字元集以外的字元轉換為HTML數字字元實體(見下)。
- 使用HTML命名字元實體參照,比如
à
。這對於不同的字元集來說都能非常正確的表達指定字元,即使無法顯示。不過可能引起搜尋的困難(見下)。 - 使用HTML數字字元參照,比如
¡
。這是輸入未命名實體Unicode值的唯一辦法,比如土耳其字元。代碼點128到159在ISO-8859-1和Unicode中都未使用,因此其間的字元參照是錯誤的,「非法的」,會引起多種問題。
總的來說,西歐語言一般不出現問題。
為了搜尋的成功,特殊字元最好不用字元實體參照,否則搜尋會出現問題。比如「Odiliënberg」,伺服器只會以「Odili」、「euml」或「nberg」進行搜尋。這其實是個bug,應該被修正。參見:Help:搜尋。