Top-Fragen
Zeitleiste
Chat
Kontext

DIN 91379

Unicode-Teilmenge für Europa Aus Wikipedia, der freien Enzyklopädie

Remove ads

Die DIN-Norm DIN 91379 Zeichen und definierte Zeichensequenzen in Unicode für die elektronische Verarbeitung von Namen und den Datenaustausch in Europa, mit CD-ROM[1] definiert einen Zeichensatz, der aus einer normativen Teilmenge von Unicode-Zeichen sowie aus Sequenzen von Grundzeichen und diakritischen Zeichen besteht („normative Schriftzeichen“). Dieser enthält lateinische Buchstaben sowie Sonderzeichen für die Benutzung in Namen im weiteren Sinne, z. B. Personennamen, Namen von juristischen Personen, Produkten, Straßen, Orten, Titeln usw.; außerdem sind alle zur lateinschriftlichen Transliteration weltweit gängiger Schriftsysteme benötigten Zeichen enthalten.

Schnelle Fakten

Weiterhin definiert die Norm eine normative Abbildung aller in diesem Zeichensatz enthaltenen lateinischen Buchstaben auf die Grundbuchstaben A–Z („Suchform“) als Erweiterung der Empfehlungen der ICAO.[2]

Im informativen Teil der Norm wird eine Menge von erweiterten Schriftzeichen definiert, die griechische und kyrillische Buchstaben sowie weitere Sonderzeichen für Namen juristischer Personen und Produktnamen enthält.

Remove ads

Unterstützte Sprachen und Schriftsysteme

Zusammenfassung
Kontext

Die Norm unterstützt alle offiziellen Sprachen der Europäischen Union, von Island, Liechtenstein, Norwegen, Schweiz, sowie die deutschen Minderheitssprachen.

Zur Unterstützung anderer Sprachen, die nicht das lateinische Schriftsystem verwenden, sind alle für die Transliteration von Namen in das lateinische Schriftsystem entsprechend der zum Zeitpunkt des Erscheinens relevanten ISO-Normen[Anm. 1] notwendigen Kombinationen von Lateinbuchstaben mit diakritischen Zeichen in den normativen Schriftzeichen gelistet. Die hierzu notwendigen diakritischen Zeichen selbst sind nicht hierin, sondern in einem informativen Anhang separat gelistet.

Diese Unterstützung ist nicht vollständig, an außereuropäischen Sprachen, die Lateinschrift verwenden, wird beispielsweise Vietnamesisch unterstützt, nicht jedoch beispielsweise die togoischen Nationalsprachen Ewe (ɖ, ɛ, ƒ, ɣ, ɔ, ʋ fehlen) und Kabiyé (ɖ, ɛ, ɣ, ɩ, ɔ, ʊ fehlen), die südafrikanische Amtssprache Tshivenda (ḓ, ḽ, ṋ, ṱ fehlen), die namibische Nationalsprache Khoekhoegowab (die Klicklaute ǀ, ǁ, ǃ, ǂ fehlen) oder Tongaisch (das fakauʻa fehlt). Obwohl die in Klammern genannten Zeichen in Personennamen der jeweiligen Länder vorkommen, sind in der Norm dazu weder Umschriftregeln noch Abbildungsregeln auf Namensschreibung in lateinischen Grundbuchstaben genannt.

Zusätzlich zu den normativen Zeichen definiert die Norm Teilmengen als Zeichensatz-Erweiterungen, die moderne griechische Buchstaben für Griechenland und Zypern, kyrillische Buchstaben für Bulgarien und Sonderzeichen für Namen von juristischen Personen und Produkten enthalten.

Systeme, die zu dieser Norm konform sind, können zusätzliche Zeichen unterstützen. Allerdings kann es bei Schnittstellen oder Registern sinnvoll sein, die erlaubten Zeichen auf eine feste Menge von Zeichen und Sequenzen – basierend z. B. auf den normativen Zeichen und Sequenzen dieser Norm oder eines zusätzlich relevanten Standards – zu beschränken.

Remove ads

Anwendung der Norm

Die Norm unterstützt die notwendigen Zeichen für Eintragungen im Personenstandsregister, das die Personenstandsbücher abgelöst hat. Dort sind nach dem Gesetz zu dem Übereinkommen vom 13. September 1973 über die Angabe von Familiennamen und Vornamen in den Personenstandsbüchern[3][4] Angaben, die in lateinischen Schriftzeichen vorliegen, buchstabengetreu mit allen diakritischen Zeichen zu übernehmen und Angaben in anderen Schriftzeichen durch Transliteration wiederzugeben, möglichst nach ISO-Normen.

Der für die Koordination der IT in den Verwaltungen von Bund und Ländern zuständige IT-Planungsrat beschloss im November 2022, dass alle IT-Verfahren, die dem Bund-Länder übergreifenden Datenaustausch oder dem Datenaustausch mit Bürgern und Wirtschaft dienen, spätestens zum 1. November 2024 konform zur DIN 91379 sein müssen.[5]

Die Architekturrichtlinie für die IT des Bundes fordert in ihrer Fassung vom Juli 2022, dass die DIN SPEC 91379 (die seinerzeit noch aktuelle Vorgängerfassung der Norm) sowie die Zeichenkodierung UTF-8 verwendet werden sollen.[6]

Der Umgang mit Fließtext oder historischen Schriftzeichen wird in der Norm nicht geregelt.[1]

Remove ads

Aufbau der Norm

Die DIN-Norm besteht aus einem normativen[7][8] und einem informativen[7][8] Teil.

Die Anforderungen im normativen Teil sind verbindlich für alle konformen Verfahren. Im normativen Teil werden die Schriftzeichen für die Verarbeitung von Namen mit lateinischen Grundbuchstaben und diakritischen Zeichen festgelegt. Alle konformen Verfahren müssen diese Schriftzeichen unterstützen. Weiterhin wird eine Abbildung der normativen Schriftzeichen auf die lateinischen Grundbuchstaben A–Z definiert.

Ein konformes Verfahren darf zusätzlich zu den normativen Schriftzeichen noch weitere Schriftzeichen unterstützen.

Die Empfehlungen im informativen Teil sind für konforme Verfahren nicht verbindlich. Der informative Teil bestimmt eine Unicode-Teilmenge von erweiterten Schriftzeichen z. B. für juristische Personen, Produktnamen sowie für den Datenaustausch in der EU. Zusätzlich werden im informativen Teil Datentypen festgelegt, die für die Prüfung von Datenfeldern verwendet werden können.

Normativer Teil

Zusammenfassung
Kontext

Konformität

Um zu dieser DIN-Norm konform zu sein, muss ein System

  1. alle normativen Buchstaben und Sequenzen bei allen Verarbeitungsschritten unterstützen,
  2. bei Schnittstellen die Zeichenkodierung UTF-8 verwenden, und
  3. die Zeichen entsprechend der Unicode-Normalform C normalisieren (NFC).[1]

Normative Schriftzeichen

Jedes konforme Verfahren muss die normativen Schriftzeichen bei allen Namensfeldern verarbeiten können. Dazu gehören die Erfassung, Speicherung, Übermittlung, Anzeige und der korrekte Ausdruck.

Nachfolgend werden die normativen Schriftzeichengruppen angegeben. Die zugehörigen Schriftzeichen findet man zur maschinellen Verarbeitung auch in DIN 91379 Characters and Sequences.[9] Die folgenden Tabellen der Schriftzeichen wurden aus der XML-Datei chars.xml im Anhang der DIN erzeugt.

Lateinische Buchstaben (bll)

Diese Schriftzeichen müssen für die Darstellung von Namen unterstützt werden.

Weitere Informationen Codepoints, Name ...

Nicht-Buchstaben N1 (bnlreq)

Diese Schriftzeichen müssen für die Darstellung von Namen, insbesondere von Personennamen unterstützt werden.

Weitere Informationen Codepoints, Name ...

Nicht-Buchstaben N2 (bnl)

Diese Schriftzeichen müssen für die Darstellung von Namen im weiteren Sinne, z. B. Ortsnamen, Straßennamen, Hausnummern, Namen juristischer Personen sowie Produktnamen unterstützt werden. Sie sind nicht für die Darstellung von Personennamen geeignet.

Weitere Informationen Codepoints, Name ...

Nicht-Buchstaben N3 (bnlopt)

Diese Schriftzeichen sind wegen der Abwärtskompatibilität zum Standard Lateinische Zeichen in Unicode. Version 1.1.1[10] enthalten.

Sie sind nicht relevant für Personennamen oder andere Namen, sondern nur für Namen juristischer Personen und Produktnamen.

Weitere Informationen Codepoints, Name ...

Nicht-Buchstaben N4 (bnlnot)

Diese Leerraum-Schriftzeichen sind für die Darstellung von Namen ungeeignet, müssen aber verarbeitet werden.

Das Zeichen NO-BREAK SPACE ist notwendig, um bei speziellen Namen einen evtl. sinnverändernden Zeilenumbruch zwischen den Namensbestandteilen zu verhindern.

Die anderen Zeichen sind aus Gründen der Abwärtskompatibilität zum Standard Lateinische Zeichen in Unicode. Version 1.1.1[10] enthalten.

Weitere Informationen Codepoints, Name ...

Veraltete Schriftzeichen

Bestehende Dokumente und Registereinträge enthalten veraltete Schriftzeichen, die heute nicht mehr verwendet werden. Diese Schriftzeichen müssen durch konforme IT-Verfahren unterstützt werden. Bei der Erstellung von neuen Einträgen wird von der Verwendung der veralteten Schriftzeichen abgeraten.

Weitere Informationen Veraltet, Ersatz ...

Normative Abbildung lateinischer Buchstaben auf Grundbuchstaben (Suchform)

Im Folgenden wird eine normative Abbildung aller normativen Schriftzeichen auf die lateinischen Grundbuchstaben A–Z angegeben. Diese Abbildung wird z. B. für die maschinenlesbare Zone von Reisepässen benötigt. Eine weitere Anwendung ist die Bildung von Suchformen, damit Namen auch bei unterschiedlichen Schreibweisen oder ohne Angabe der diakritischen Zeichen gefunden werden können.

Grundlage der folgenden Tabelle ist die Tabelle 9 der DIN 91379 und Kapitel 6, Tabelle A der ICAO-Spezifikationen für maschinenlesbare Reisedokumente.[2] Die Tabelle wurde mit den Informationen aus der XML-Datei chars.xml im Anhang der DIN erzeugt.

Einträge, die in der ICAO-Spezification und in Tabelle 9 der DIN 91379 vorkommen, sind in der Spalte Mapping mit ICAO gekennzeichnet, zusätzliche Einträge in Tabelle 9 der DIN 91379 sind mit EXT gekennzeichnet. In der Spalte Typ wird bei Einträgen, die eine Identitätsabbildung beschreiben, ID angegeben, bei anderen Abbildungen MAP.

Weitere Informationen Quelle, Ziel ...
Remove ads

Informativer Teil

Zusammenfassung
Kontext

Erweiterte Schriftzeichen

Jedes Verfahren sollte die erweiterten Schriftzeichen bei allen Namensfeldern verarbeiten können. Dazu gehören die Erfassung, Speicherung, Übermittlung, Anzeige und der korrekte Ausdruck.

Griechische Buchstaben (gl)

Für den grenzüberschreitenden Datenaustausch sollte jedes IT-Verfahren die griechischen Buchstaben in Namensfeldern unterstützen.

Weitere Informationen Codepoints, Name ...

Kyrillische Buchstaben (cl)

Für den grenzüberschreitenden Datenaustausch sollte jedes IT-Verfahren die kyrillischen Buchstaben in Namensfeldern für bulgarische Namen unterstützen.

Weitere Informationen Codepoints, Name ...

Nicht-Buchstaben E1 (enl)

Diese Schriftzeichen sollten für Namen juristischer Personen und Produktnamen unterstützt werden.

Weitere Informationen Codepoints, Name ...

Technische Datentypen (informativ)

Informativ werden technische Datentypen als Teilmengen der in der Norm definierten Schriftzeichen definiert. Diese können für Schnittstellenvereinbarungen, fachliche Prüfungen oder als Basis zur Erstellung eigener Datentypen verwendet werden.

Eine Implementierung als XML-Schema-Typ ist in der Datei din-91379-datatypes.xsd im Anhang der Norm enthalten. Diese Implementierung ist auch als Teil der XOEV-Bibliothek unter der Lizenz CC BY-ND frei verfügbar.[11]

Weitere Informationen Datentyp, Lateinische Buchstaben (bll) ...
Remove ads

Geschichte

Zusammenfassung
Kontext

Lateinische Zeichen in Unicode

2010 bis 2012 wurde von der Koordinierungsstelle für IT-Standards (KoSIT) der Standard Lateinische Zeichen in Unicode entwickelt.[12]

DIN SPEC 91379 (März 2019)

Die Vorgängernorm DIN SPEC 91379 wurde im März 2019 herausgegeben. Deren Text,[13] Erläuterungen und Listen von Zeichen und Sequenzen als Excel- und XML-Dateien findet man in Koordinierungsstelle für IT-Standards (KoSIT).[14] Darin enthalten ist eine XML-Schema-Datei mit regulären Ausdrücken, um zu prüfen, ob Texte zu den im Standard definierten Teilmengen von Zeichen und Sequenzen konform sind. Die DIN SPEC 91379:2019-03 wurde im August 2022 zurückgezogen und durch DIN 91379:2022-08 ersetzt.

DIN 91379 (August 2022)

Die Norm DIN 91379 enthält im Vergleich zur zurückgezogenen DIN SPEC 91379 wenige zusätzliche Zeichen und Sequenzen, die bis auf zwei Zeichen als veraltet gekennzeichnet sind und nicht verwendet werden sollten.[1][15] Listen von Zeichen und Sequenzen der DIN 91379 als plain text findet man via GitHub in DIN 91379 Characters and Sequences.[9]

Weitere Informationen Codepoints, Name ...

Aktueller Stand

Die aktuellen Ergebnisse des Normungsprozesses beinhalten die zurückgezogene Spezifikation DIN SPEC 91379 (März 2019) sowie die endgültige Norm DIN 91379 (August 2022).

Im August 2022 wurde ein Bericht zum aktuellen Umsetzungsstand veröffentlicht, siehe Stand der Umsetzung der Spezifikation DIN SPEC 91379.[16]

Die Arbeitsgruppe CEN/TC 224/WG 19 arbeitet im Projekt 04301181 an der Weiterentwicklung dieser Norm zur europäischen Norm EN 00224284.[14][17] Laut AFNOR Norminfo begann das Projekt im Dezember 2024 mit einer Entwurfsphase. Im April 2026 soll eine öffentliche Befragung beginnen, die Veröffentlichung des Standards ist für November 2027 geplant.[18]

Remove ads

Bezug zu anderen Normen

Tastatur-Norm DIN 2137

Die in der Norm DIN 2137-1 genormten deutschen Tastaturbelegungen E1 und E2 ermöglichen die Eingabe aller in der DIN 91379 gelisteten Zeichen mit Ausnahme der kyrillischen Buchstaben ohne Rückgriff auf deren Unicode-Wert oder deren Dezimalcode. Dies zu erreichen, war einer der wesentlichen Gründe für die Überarbeitung dieser Tastaturbelegungen gegenüber der Vorgängerfassung DIN 2137-1:2018-12.[19][20]

Zeichenbenennungs- und Buchstabier-Norm DIN 5009

Die im Mai 2022 zusammen mit ihrem Beiblatt „Ansage, Benennung und Tastatureingabe von Sonderbuchstaben und Sonderzeichen“ erschienene Fassung der DIN 5009:2022-06 „Text- und Informationsverarbeitung für Büroanwendungen – Ansagen und Diktieren von Texten und Schriftzeichen“ enthält für alle in der DIN 91379 gelisteten Zeichen (außer einigen veralteten Zeichen und den griechischen und kyrillischen Buchstaben) deutschsprachige Benennungen, Buchstabierregeln und Buchstabier-Ansagewörter. Damit ist auch eine korrekte Wiedergabe der Zeichen in mündlicher Kommunikation (beispielsweise am Telefon) sichergestellt.

Remove ads

Zur Norm konforme Open-Source-Software

Remove ads

Anmerkungen

  1. Die 2023 neu herausgegebene ISO 233-3 änderte für das Persische die Umschrift des arabischen Schriftzeichens ض von ż (Z mit Überpunkt) auf z̤ (Z mit Trema unterhalb). Die dafür notwendigen Zeichenkombinationen <U+005A,U+0324> (Z̤) bzw. <U+007A,U+0324> (z̤) sind in der 2022 erschienenen Fassung der DIN 91379 nicht gelistet.

Einzelnachweise

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads