Darstellung von Texten

Aus IV
Zur Navigation springen Zur Suche springen
Die Druckversion wird nicht mehr unterstützt und kann Darstellungsfehler aufweisen. Bitte aktualisiere deine Browser-Lesezeichen und verwende stattdessen die Standard-Druckfunktion des Browsers.
In einem Computer sollen nicht nur Zahlen, sondern auch Texte dargestellt werden können. Basis der Textdarstellung (ohne Schriftarten, Schriftgrößen oder sonstige Formatelemente) ist ein Zeichen, das in der Regel in einem Byte dargestellt wird. Die verschiedenen Bitkombinationen eines Bytes werden dabei gemäß einer Codetabelle den darzustellenden Zeichen zugeordnet.



ASCII-Code

Alle in den gängigen Personalcomputern verwendeten Zeichensätze basieren auf dem sog. ASCII-Code (ASCII ist die Abkürzung für „American Standard Code for Information Interchange”), der von ANSI (dem „American National Standards Institute”, dem Normungsgremium der USA) genormt wurde. Der ASCII-Code benutzt von den 8 Bit eines Bytes nur 7 Bit (das 8. Bit wird in der Regel auf 0 belassen) und belegt die Zeichen gemäß nachfolgender Tabelle:


ASCII-Zeichensatz


Die Zeichen des ASCII-Zeichensatzes gliedern sich in zwei Kategorien:

Darstellbare Zeichen

Darstellbare Zeichen werden zur Darstellung von (einzelnen) Textzeichen verwendet und werden in der obigen Tabelle durch ihren Wert repräsentiert. Dazu zählen die Groß- und Kleinbuchstaben („A”...„Z”, „a”...„z”), die Ziffern („0”...„9”), die Interpunktionszeichen („.”, „:”, „!”, „?”, ...), einige Sonderzeichen („$”, „@”, „%”, ...) sowie das Leerzeichen (in der Tabelle als SPC für engl. „space” bezeichnet).

Nicht im ASCII-Zeichensatz enthalten sind die (europäischen) nationalen Sonderzeichen, wie die deutschen Umlaute („Ä”, „Ö”, „Ü”, „ä”, „ö”, „ü”) oder das scharfe S („ß”). In einem rein amerikanischen Zeichensatz mussten sie nicht vorhanden sein; problematisch wurde die Situation jedoch, als der Zeichensatz „internationalisiert” wurde, indem Computer und Programme, die den betreffenden Zeichensatz verwendeten, aus den USA exportiert bzw. außerhalb Amerikas entwickelt und erzeugt wurden.

Der Lösungsansatz, der in modernen Personalcomputern verwendet wird, ist im Prinzip überall derselbe: die verbleibenden 128 Bitkombinationen eines Bytes werden verwendet, um zusätzliche Zeichen darzustellen. Leider ist die Belegung dieser 128 Zeichen unterschiedlich ausgefallen, was sowohl die Auswahl von Zeichen als auch die Position von gemeinsamen Zeichen betrifft, so dass ein Austausch von Texten zwischen Personalcomputern unterschiedlichen Typs zu unerwarteten Ergebnissen führen kann.

Steuerzeichen

Steuerzeichen dienen dazu, an Endgeräten verschiedene Funktionen auszulösen. Sie sind in der Tabelle durch ein zwei bis drei Zeichen langes Kürzel für ihre Funktion (in kursiver Schrift) dargestellt. Die wichtigsten Steuerzeichen sind BS (backspace, Rückschritt), HT (horizontal tab, Sprung zur nächsten Tabulatorposition), CR (carriage return, Wagenrücklauf), LF (line feed, Zeilenvorschub), FF (form feed, Seitenvorschub), BEL (bell, Auslösung eines akustischen Signals, z. B. eines Pfeiftons) sowie ESC (escape, ein Steuerzeichen, das Zeichenfolgen für Steuerfunktionen einleitet, die im ASCII-Zeichensatz nicht definiert sind).

UNICODE-Zeichensatz

Abhilfe gegen die Mängel des ASCII-Zeichensatzes bietet der sog. UNICODE-Zeichensatz. Grundidee dieses Zeichensatzes ist es, alle Zeichen der gegenwärtig verwendeten (sowie auch der wichtigsten historischen) Schriften in einem Zeichensatz darstellen zu können. Dies beinhaltet auch die fernöstlichen Schriften (japanisch, chinesisch und koreanisch), die sich durch einen sehr großen Zeichenvorrat auszeichnen (da es sich bei diesen Schriften um Wort- bzw. Silbenschriften handelt). Da bei einem derart großen Zeichensatz mit einem Byte für die Darstellung eines Zeichens nicht das Auslangen gefunden werden kann, verwendet der UNICODE-Zeichensatz zwei Byte (16 Bit) zur Darstellung eines Zeichens. Vorkehrungen zur Verwendung des UNICODE-Zeichensatzes gibt es in den gängigen Betriebssystemen (z. B. Windows), Programmiersprachen (z. B. Java) und einigen anderen Programmen.

Erwähnenswert in diesem Zusammenhang ist UTF-8 (8-bit Unicode Transformation Format). Dies ist die am weitesten verbreitete Kodierung für Unicode-Zeichen und hat eine zentrale Bedeutung als Zeichenkodierung im Internet[1].

Quellen

Zitiervorschlag

Bodenhofer in Höller, Informationsverarbeitung, Informationsdarstellung#Darstellung von Texten (mussswiki.idb.edu/iv1)