상위 질문
타임라인
채팅
관점
문자 (유니코드)
위키백과, 무료 백과사전
Remove ads
유니코드에서 문자 또는 스크립트(script)는 하나 이상의 문자 체계에서 텍스트 정보를 나타내는 데 사용되는 자모 및 기타 서면 기호 모음이다.[1] 일부 문자는 아르메니아어와 같이 하나의 문자 체계와 문자 언어만 지원한다. 다른 문자는 많은 다른 문자 체계를 지원한다. 예를 들어, 라틴 문자는 영어, 프랑스어, 독일어, 이탈리아어, 베트남어, 라틴어 자체 및 여러 다른 언어를 지원한다. 일부 언어는 여러 대체 문자 체계를 사용하므로 여러 문자도 사용한다. 예를 들어, 튀르키예어에서는 20세기 이전에 아랍계 문자가 사용되었지만 20세기 초에 라틴어로 전환되었다. 문자와 다소 보완적인 것은 기호와 유니코드 제어 문자이다.
통합 발음 구별 기호와 통합 문장 부호는 자주 "공통" 또는 "상속" 문자 속성을 가진다. 그러나 개별 문자는 종종 자체 문장 부호와 발음 구별 기호를 가지므로 많은 문자는 자모뿐만 아니라 발음 구별 기호 및 기타 표시, 문장 부호, 숫자 및 심지어 자체 특유의 기호와 공백 문자도 포함한다.
유니코드 는 102개의 현대 문자 및 70개의 고대 또는 역사적 문자를 포함하여 172개의 개별 문자를 정의한다.[2][3] 더 많은 문자가 인코딩 과정에 있거나 로드맵에 잠정적으로 인코딩이 할당되었다.[4]
Remove ads
정의 및 분류
요약
관점
여러 언어가 같은 문자를 사용할 때, 특히 발음 구별 기호 및 기타 표시에 있어서 자주 약간의 차이가 있다. 예를 들어, 스웨덴어와 영어는 모두 라틴 문자를 사용한다. 그러나 스웨덴어에는 문자 å (때로는 스웨덴어 O라고 불림)가 포함되어 있는 반면, 영어에는 그런 문자가 없다. 또한 영어는 어떤 문자에도 결합 링 위 발음 구별 기호를 사용하지 않는다. 일반적으로 같은 문자를 공유하는 언어는 많은 같은 문자를 공유한다. 스웨덴어와 영어 쓰기 체계의 이러한 주변적인 차이에도 불구하고, 이들은 같은 라틴 문자를 사용한다고 말한다. 따라서 유니코드 문자의 추상화는 기본적인 조직 기술이다. 다른 알파벳 또는 쓰기 체계 간의 차이는 여전히 존재하며 유니코드의 유연한 문자, 결합 표시 및 정렬 알고리즘을 통해 지원된다.
문자 대 문자 체계
문자는 때때로 "문자"의 동의어로 취급된다. 그러나 이는 문자가 지원하는 특정 구체적인 문자 체계로도 사용될 수 있다. 예를 들어, 베트남어 문자 체계는 라틴 문자에 의해 지원된다. 문자 체계는 또한 하나 이상의 문자를 포함할 수 있다. 예를 들어, 일본어 문자 체계는 한자, 히라가나 및 가타카나 문자를 사용한다.
대부분의 문자 체계는 크게 여러 범주로 나눌 수 있다. 표어문자, 음절문자, 음소문자 (또는 분절문자), 아부기다, 아브자드 및 자질문자. 그러나 이들 중 어떤 기능도 주어진 문자 체계에서 다양한 비율로 발견될 수 있으며, 종종 시스템을 순수하게 분류하기 어렵게 만든다. 혼합물이 분류를 어렵게 만드는 시스템을 설명하기 위해 때때로 복잡계라는 용어가 사용된다.
유니코드는 수많은 문자를 통해 이러한 모든 유형의 문자 체계를 지원한다. 유니코드는 또한 다양한 문자와 유니코드 텍스트 처리 알고리즘 내에서 작동하는 방식을 구별하는 데 도움이 되는 추가 속성을 문자에 추가한다.
특별 문자 속성 값
명시적 또는 특정 문자 속성 외에도 유니코드는 세 가지 특별한 값을 사용한다.[5]
- 공통 (Common)
- 유니코드는 UCS의 문자를 단일 문자에만 할당할 수 있다. 그러나 많은 문자—정식 자연어 쓰기 체계의 일부가 아니거나 많은 쓰기 체계에 걸쳐 통합된 문자—는 둘 이상의 문자에 사용될 수 있다 (예: 통화 기호, 기호, 숫자 및 문장 부호). 이러한 경우 유니코드는 이들을 "공통" 문자 (ISO 15924 코드 "Zyyy")에 속하는 것으로 정의한다.
- 상속 (Inherited)
- 많은 발음 구별 기호 및 비간격 결합 문자는 둘 이상의 문자의 문자에 적용될 수 있다. 이러한 경우 유니코드는 이들을 "상속" 문자 (ISO 15924 코드 Zinh)에 할당한다. 이는 이들이 결합하는 기본 문자와 동일한 문자 클래스를 가지며, 따라서 다른 컨텍스트에서는 다른 문자에 속하는 것으로 처리될 수 있음을 의미한다. 예를 들어, U+0308 ̈ combining diaeresis는 U+0065 e latin small letter e와 결합하여 라틴어 ë를 생성하거나 키릴어 ё를 위해 U+0435 е cyrillic small letter ie와 결합할 수 있다. 전자의 경우, 기본 문자의 라틴 문자를 상속하는 반면, 후자의 경우, 기본 문자의 키릴 문자를 상속한다.
- 알 수 없음 (Unknown)
- "알 수 없음" 문자 값 (ISO 15924 코드 Zzzz)은 할당되지 않은, 개인 사용, 비문자 및 대리 코드 포인트에 부여된다.
Remove ads
문자 내 문자 범주
유니코드는 각 문자에 대한 일반 범주 속성을 제공한다. 따라서 문자에 속하는 것 외에도 모든 문자는 일반 범주를 가진다. 일반적으로 문자는 대문자, 소문자 및 수정자 문자를 포함한 문자 문자를 포함한다. 일부 문자는 Dz (U+01F2)와 같은 몇 가지 미리 구성된 합자체의 제목 대문자 문자로 간주된다. 이러한 제목 대문자 합자체는 모두 라틴어 및 그리스어 문자에 있으며 모두 호환성 문자이므로 유니코드는 작성자가 이들을 사용하지 않도록 권장한다. 미래에 새로운 제목 대문자 문자가 추가될 가능성은 낮다.
대부분의 문자 체계는 대문자와 소문자를 구별하지 않는다. 이러한 문자의 경우 모든 문자는 "기타 문자" 또는 "수정자 문자"로 분류된다. 유니한 한자와 같은 표의문자도 "기타 문자"로 분류된다. 그러나 라틴어, 키릴어, 그리스어, 아르메니아어, 조지아어 및 데저렛과 같이 대문자와 소문자를 구별하는 몇 가지 문자가 있다. 이러한 문자에서도 대문자도 소문자도 아닌 일부 문자가 있다.
문자는 또한 표시 (발음 구별 기호 및 기타), 숫자 (숫자), 문장 부호, 구분자 (공백과 같은 단어 구분자), 기호 및 비그래픽 서식 문자와 같은 다른 일반 범주 문자를 포함할 수 있다. 이들은 해당 문자에 고유할 때 특정 문자에 포함된다. 이러한 다른 문자는 일반적으로 통합되어 문장 부호 또는 발음 구별 기호 블록에 포함된다. 그러나 어떤 문자 (공통 및 상속 문자 제외)의 문자 대부분은 자모이다.
Remove ads
인코딩된 문자 목록
version 16.0 기준[update] 유니코드는 ISO 15924 목록을 기반으로 168개의 문자를 정의한다 ("별칭" 또는 "속성 값 별칭"이라고 함). 또한 유니코드는 미정 문자에 대한 ISO 15924의 Zyyy
코드에 "Common"을, 상속 문자에 대한 ISO 15924의 Zinh
코드에 "Inherited"를, 인코딩되지 않은 문자에 대한 ISO 15924의 Zzzz
코드에 "Unknown"을 할당한다. ISO 15924에 의해 정의되었지만 유니코드에서 사용되지 않는 문자 코드에는 Zsym
(기호) 및 Zmth
(수학 표기법)이 있다.
유니코드에 없는 문자
캘리포니아 대학교 버클리의 Mainz University of Applied Sciences, Nancy의 L’Atelier national de recherche typographique (ANRT)의 기여자들이 참여한 "Missing Scripts" 프로젝트는 현재 연구 상태에 따르면 총 294개의 인식된 문자 중에서 유니코드 표준에 아직 인코딩되지 않은 131개의 문자 목록을 작성했다.[6]
같이 보기
- 유니코드 라틴 문자
- 유니코드 문자
- 유니코드 기호
- 음소 및 음성 문자법
각주
외부 링크
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads