Top-Fragen
Zeitleiste
Chat
Kontext

Liste der Unicodeblöcke

benachbarter Bereich von Unicode-Codepunkten Aus Wikipedia, der freien Enzyklopädie

Remove ads

Die Liste der Unicodeblöcke listet alle Ebenen und Blöcke des aktuellen Unicode-Standards auf.

Diese Blöcke (blocks) werden zu Ebenen (planes) zusammengefasst, bei denen das dritte und vierte Byte gleich sind. Jede dieser 17 Ebenen enthält daher 216 = 65.536 mögliche Codierungen, von denen die beiden letzten (FFFEhex und FFFFhex) nicht für die Zuordnung von Zeichen genutzt werden können, da sonst die Byte Order Mark nicht mehr erkennbar ist. Damit hat eine Ebene 65.534 mögliche Codepoints.

Zurzeit ist nur ein geringer Teil der Codepoints bereits definiert. So sind Ebenen 4 bis 13 noch völlig ohne definierte Blöcke.

Blockgrößen sind immer Vielfache von 16, ausgenommen der letzte Block einer Ebene, welcher stets vor den beiden letzten Codes einer Ebene endet. Auch deswegen enthalten viele Blöcke Plätze ohne definierte Zeichen, die nicht mehr für andere Blöcke zur Verfügung stehen. Verfügbar ist nur, was einstweilen noch nicht von Blöcken belegt ist. Selbst wenn in Blöcken gar keine Zeichen definiert sind, sind diese Codepoints nicht mehr für andere Zwecke verfügbar.

Zahlreiche Erweiterungen befinden sich in verschiedenen Stadien der Planung, zum Teil sind bereits die Blockbereiche vorgesehen. Erweiterungsblöcke, deren Etablierung gemäß den Roadmaps[1] zu erwarten ist, sind hier als geplant vorgemerkt. Die folgende Übersicht zeigt die aktuelle Belegung der Ebenen und Blöcke, entsprechend dem Versionsstand Unicode 17.0.0 (September 2025).

Remove ads

Ebenen

Zusammenfassung
Kontext

Für jede Ebene sind der Bereich, der Gesamtumfang aller belegten Blöcke, die Anzahl der verfügbaren Codepoints, die Anzahl der definierten Codepoints, und die Anzahl der innerhalb der Blöcke noch undefinierten Codepoints angegeben.

Mit Stand Unicode Version 16.0.0 (September 2024) sind insgesamt von 1.114.112 möglichen Codepoints 294.645 (26,45 %) Blöcken zugeordnet und 819.467 (73,55 %) nicht. Von den zugeordneten Codepoints sind:


Weitere Informationen Ebene und Bezeichnung, belegt ...
  1. Benannte Zeichen sind Grafikzeichen und Formatzeichen. Diesen Zeichen wird jeweils ein eindeutiger und unveränderlicher Zeichenname zugewiesen
  2. Steuerzeichen sind Zeichen der allgemeinen Kategorie „Cc“. Dies sind unsichtbare Zeichen, die eine bestimmte Funktion erfüllen, die durch ein anderes Protokoll oder einen anderen Standard als Unicode definiert ist (sie wurden von bereits existierenden 8-Bit-Standards übernommen). Dazu gehören bekannte Zeichen wie Tabulator, Wagenrücklauf und Zeilenvorschub, die für das Schreiben von Unicode unerlässlich sind, sowie viele Zeichen, die Sie niemals im Klartext sehen sollten (der vollständige Bereich der Steuerzeichen ist 0000..001F und 007F..009F). Steuerzeichen werden keine Zeichennamen zugewiesen, obwohl sie Zeichennamen-Aliase haben, die ihre ursprüngliche Funktion widerspiegeln.
  3. Private Use Characters sind Codepunkte, die als Zeichen für den privaten Austausch zugewiesen sind. Der Unicode-Standard weist diesen Zeichen keine Semantik zu und ihnen werden keine Zeichennamen zugewiesen. Es gibt drei Private Use Areas: E000..F8FF (6.400 Zeichen); F0000..FFFFF (65.534 Zeichen); und 100000..10FFFF (65.534 Zeichen).
  4. Noncharacters ("Nicht-Zeichen") sind Codepunkte, die dauerhaft reserviert sind und garantiert nie als Zeichen zugewiesen werden. Dies sind die 34 Codepunkte, die auf (X)XXFE und (X)XXFF enden, sowie die 32 Codepunkte im Bereich FDD0..FDEF.
  5. ohne nicht belegbare Codepunkte
Remove ads

Liste der Blöcke

Zusammenfassung
Kontext

Für jeden festgelegten Block ist die Ebene, die Schreibrichtung, die in der deutschsprachigen Wikipedia verwendete (aber nicht standardisierte) Übersetzung des standardisierten englischen Blocknamens, der Bereich, der Gesamtumfang und die Anzahl der darin definierten Codepoints angegeben. Bei den nicht festgelegten Bereichen ist entweder „KEIN BLOCK“ oder ein Planungshinweis angegeben. Die enthaltenen Codepoints gelten als verfügbar.

Eine Besonderheit stellen die Blöcke „High Surrogates“ und „Low Surrogates“ dar. Diese Codierungen werden für das Unicode Transformation Format benötigt und stehen für die Zuordnung zu Zeichen nicht zur Verfügung.

Weitere Informationen Ebene, überwiegende Schreib­richtung ...
Remove ads
Commons: Unicodeblöcke – Darstellungen der Glyphen
Portal: Unicode – Übersicht zu Wikipedia-Inhalten zum Thema Unicode

Einzelnachweise

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads