文字 (Unicode)
来自维基百科,自由的百科全书
在Unicode中,一種文字(script)是字母和其他書面符號的一個集合,用於在一個或多個書寫系統(writing system)中表示文本信息。[1]有些文字只支持一種書寫系統和語言,例如亞美尼亞語。其他文字支持許多不同的書寫系統:例如,拉丁文字支持英語、法語、德語、意大利語、越南語、拉丁語本身以及其他多種語言。一些語言有多種可選的書寫系統,因而也就使用多種文字:例如,在土耳其語中,阿拉伯文字在20世紀之前使用,但在20世紀初過渡到拉丁文字。有關每種文字支持的語言列表,請參閱按文字列出的語言列表。符號和Unicode控制字符某種程度上與文字互補。
統一化後的變音字符和標點字符經常具有「通用」或「繼承」的文字屬性。然而,獨立的文字往往有自己的標點和變音符號,以至於許多文字不僅包含字母,還包含變音符號等標記、標點、數字,甚至還有自己的特殊符號和空格字符。
Unicode 15.0定義了161種獨立的文字,包括94種現代文字和67種古代或歷史文字。[2][3]更多的文字正在編碼過程中,有的已被臨時分配予計劃中的編碼。[4]
定義和分類
當多種語言使用相同的文字時,經常會出現一些差異,特別是在變音符號和其他標記方面。例如,瑞典語和英語都使用拉丁文字。但是,瑞典語包括字符å(有時稱為瑞典語的O),而英語沒有這樣的字符。英語也沒有使用變音符號「組合用上圓圈」來表示任何字符。通常,共享相同文字的語言共享許多相同的字符。儘管瑞典語和英語書寫系統存在這些外圍差異,但它們被認為使用同一種拉丁文字。因而,Unicode對文字的抽象是一種基本的組織手段。不同字母或書寫系統之間的差異仍然存在,並通過Unicode靈活的文字、組合標記和校對算法得到支持。
書寫系統有時被視為文字的同義詞。但是,它也可以指一種文字所支持的具體的具體書寫系統。例如,拉丁文字支持越南語書寫系統。一個書寫系統也可能涵蓋多種文字;例如,日本的書寫系統使用漢字、平假名和片假名。
大多數書寫系統可以大致分為幾類:象形(logographic)、音節(syllabic)、字母(alphabetic,亦稱segmental)、元音附標(abugida)、輔音音素(abjad)和特徵(featural);然而,這些分類的所有特徵都可能以不同的比例出現在任何給定的書寫系統中,這導致通常很難對一個系統進行純粹的分類。術語複雜系統有時用於分類有困難的混合系統。
Unicode通過其眾多的文字支持所有這些類型的書寫系統。Unicode還為字符添加了更多屬性,以幫助區分各種字符以及它們在Unicode文本處理算法中的行為方式。
除了顯式或特定的文字屬性外,Unicode還使用三個特殊值:[5]
- 通用
- Unicode只能將通用字符集中的一個字符分配給一種文字。但是,許多字符(不屬於正式的自然語言書寫系統的一部分,或在許多書寫系統中統一的字符)可能用於多種文字(例如貨幣符號、規約符號、數字和標點符號)。在這些情況下,Unicode將它們定義為屬於「通用」文字(ISO 15924代碼
Zyyy
)。 - 繼承
- 許多變音符號和非間距組合字符可以應用於來自多種文字的字符。在這些情況下,Unicode 將它們分配給「繼承」文字(ISO 15924 代碼
Zinh
),這意味着它們屬於與它們所組合的主要字符相同的文字類型,因此在不同的上下文中它們可能被視為屬於不同的文字。例如,U+0308 ̈ COMBINING DIAERESIS(組合用分音符)既可以與U+0065 e LATIN SMALL LETTER E(小寫拉丁字母E)組合為拉丁字母ë,也可以與U+0435 е CYRILLIC SMALL LETTER IE(小寫西里爾字母IE)組合為西里爾字母ё。在前一個例子中,它繼承了主要字符的拉丁文字屬性,而在後一個例子中繼承了西里爾文字屬性。 - 未知
- 「未知」文字值(ISO 15924 代碼
Zzzz
)被賦予未分配的、私用的、非字符的以及代理用的碼點。
文字中的字符類別
Unicode為每個字符提供了一個通用的類別屬性。所以每個字符除了屬於一種文字之外,還從屬於一個類別。通常的文字由字母字符組成,包括:大寫字母、小寫字母和修飾字母。一些字符被認為是一些預組的連字的標題字母,例如Dz(U+01F2)。此類標題連字均採用拉丁語和希臘語文字,並且都是兼容字符,因此Unicode不鼓勵使用它們。將來不太可能添加新的標題字母。
大多數書寫系統不區分大小寫字母。對於這些文字,所有字母都歸類為「其他字母」或「修飾字母」。中日韓統一表意文字等表意文字也被歸類為「其他字母」。然而,一些文字確實區分了大寫和小寫:拉丁文字、西里爾文字、希臘文字、亞美尼亞文字、格魯吉亞文字和沙漠文字,但即使對於這些文字,也有一些字母既不是大寫也不是小寫。
文字還可以包含任何其他一般類別字符,例如標記(變音符號和其他)、數字(數字)、標點符號、分隔符(單詞分隔符,例如空格)、符號和非圖形格式字符。當它們僅被特定文字使用時,它們會包含在特定文字中,否則通常會被統一化並包含在標點符號或變音符號區塊中。但是,任何文字(除了「通用」和「繼承:文字)中的大部分字符都是字母。
Unicode中的文字列表
Unicode中缺少的文字
參見
參考資料
外部連結
Wikiwand - on
Seamless Wikipedia browsing. On steroids.