Unicode

Herkunft / Verwendung: Unicode ist ein internationaler, erweiterter Zeichensatz für Schriftzeichen und sozusagen der Nachfolger von ASCII. Während ASCII nur 128 (bei 7 Bit) bzw. 256 Zeichen (bei 8 Bit) darstellen kann, ist der Zeichenumfang der Unicode sehr viel größer und erweiterbar.

Die Begrenztheit des ASCII-Zeichensatz auf 128 standardisierte Zeichen (unterer Bereich) und 128 nicht standardisierten Zeichen (oberer Bereich) führte dazu, dass im oberen Bereich viele Länder ihre eigenen Zeichen unterbrachten und daneben noch grafische und mathematische Zeichen. Dadurch war es nötig, jedesmal durch eine sogenannte Codepage zu beschreiben, welcher Zeichensatz denn nun genau gemeint war.

Unicode möchte ein universaler Zeichensatz sein, der all die Zeichen der unterschiedlichen Sprachen aufnimmt, so das schlussendlich nur noch ein einziger Zeichensatzstandard bestehen muss. Dafür legt er Wert auf Erweiterbarkeit und ständige Aktualisierung. So gab es zu Beginn nur einen Zeichenraum von 16'384 Zeichen; dieser wuchs über 65'536 letztmalig 1996 auf 1'114'112 Zeichen, oder auch Codepunkte genannt an.

Das gemeinnützige Unicode-Konsortium wurde 1991 gegründet und ist für den Industriestandard Unicode verantwortlich. Von der ISO (Internationale Organisation für Normung) wird in Zusammenarbeit mit IEC die internationale Norm ISO 10646 herausgegeben.

Spezifikation des Codes

Die Codepunkte werden in der Unicode-Notation geschrieben. Diese ist hexadezimal und man schreibt sie mit einem vorgestellte "U+". Der derzeitige Codepunkte-Umfang kann also mit U+0000 bis U+10FFFF adressiert werden.

Die Codepunkte sind in einzelne Unicodeblöcke unterteilt. Diese werden wieder zu Ebenen (sogenannten Planes) zusammengefasst. Zur Zeit gibt es 16 Ebenen, nämlich U+00xxxx, U+10xxxx ... U+90xxxx, U+A0xxxx ... U+F0xxxx.

Die erste und älteste Ebene ist die Basic Multilingual Plane (BMP, auch als Plane 0 bezeichnet) und die ersten 128 Zeichen (U-0000 bis U-007F) entsprechen genau den ASCII-Zeichen und tragen den Namen "Basis-Lateinisch".



Es folgen weitere 128 Zeichen, als "Lateinisch-1, Ergänzung" bezeichnet:



Diese enthalten gebräuchliche Sonderzeichen und viele europäische Umlaute, auch die deutschen sind darin enthalten.

Im Plane 0 schließen sich dann etliche Zeichen für Sprachen an: griechisch, kyrillisch, armenisch, hebräisch, arabisch, syrisch, bengalisch und viele mehr. Danach folgen Interpunktionszeichen, Währungszeichen, Pfeile, mathematische Operatoren, geometrische Formen und so ziemlich alles, was man sich an gedruckten Zeichen vorstellen kann.

Auf Windows-Systemen kann man Unicode-Zeichen eingeben, indem mal die linke Alt-Taste gedrückt hält und gleichzeitig auf dem Num-Pad (mit NumLock on) den Unicode in dezimaler Schreibweise eingibt. Unter DOS und älteren Windows-Versionen (älter Windows 2000) erreicht man so nur die ASCII-Codes. Aus Kompatibilitätsgründen muss man bei dreistelligen Unicode-Zeichen eine "0" voranstellen, sonst erhält man das ASCII-Zeichen statt des Unicode-Zeichens.

In HTML-Dokumenten kann man Unicode-Zeichen in dezimaler Form, dann eingeleitet mit einem "&#" zund abgeschlossen mit einem ";" angeben. Alternativ darf man auch die hexadezimale Schreibweise mit der Einleitung "&#x" und dem Abschluss ";" angeben. Der Browser übersetzt diese Unicode-HTML-Entitäten dann in das entsprechende Zeichen bei der Anzeige; es sei denn, der Browser hat dieses Zeichen noch nicht in seinem Zeichenschatz, dann wird meist nur ein Fragezeichen in einem Kästchen oder ein leeres Kästchen angezeigt.

Beispiele

Klartext:Beispielklartext
Unicode Notation:U+42 U+65 U+69 U+73 U+70 U+69 U+65 U+6C U+6B U+6C U+61 U+72 U+74 U+65 U+78 U+74
Unicode HTML Entity dez.:B e i s p i e l k l a r t e x t
Unicode HTML Entity hex.:B e i s p i e l k l a r t e x t



Unicode HTML Entity hex.: ⚓↑↑→→→↑ ←←↓☺
Dekodiert durch Browser: ⚓↑↑→→→↑←←↓☺
grafisch (falls Browser es nicht richtig darstellen kann):

Code / Chiffre online dekodieren / entschlüsseln bzw. kodieren / verschlüsseln (DeCoder / Encoder / Solver-Tool)

Quellen, Literaturverweise und weiterführende Links

Wikipedia-Artikel zu Unicode
Liste der Unicodeblöcke auf Wikipedia