Darstellung von Texten: Unterschied zwischen den Versionen

Aus IV1
Verbod (Diskussion | Beiträge)
Verbod (Diskussion | Beiträge)
Zeile 10: Zeile 10:




{|border="1" cellpadding="5" cellspacing="0" align="center"
[[Datei:Ascii.gif|gerahmt|ASCII-Zeichensatz]]
 
|
|000
|001
|010
|011
|100
|101
|110
|111
|-
 
|...0000||NUL||DLE||SPC||0||@||P||`||p
|-
 
|...0001||SOH||DC1||!||1||A||Q||a||q
|-
 
|...0010||STX||DC2||"||2||B||R||b||r
|-
 
|...0011 ||ETX||DC3||#||3||C||S||c||s
|-
 
|...0100 ||EOT||DC4||$||4||D||T||d||t
|-
 
|...0101 ||ENQ||NAK||%||5||E||U||e||u
|-
 
|...0110 ||ACK||SYN||&||6||F||V||f||v
|-
 
|...0111 ||BEL||ETB||'||7||G||W||g||w
|-
 
|...1000 ||BS||CAN||(||8||H||X||h||x
|-
 
|...1001 ||HT||EM||)||9||I||Y||i||y
|-
 
|...1010 ||LF||SUB||*||:||J||Z||j||z
|-
 
|...1011 ||VT||ESC||+||;||K||[||k||{
|-
 
|...1100 ||FT||FS||,||<||L||\||I||I
|-
 
|...1101 ||CR||GS||-||=||M||]||m||}
|-
 
|...1110 ||SO||RS||.||>||N||^||n||~
|-
 
|...1111 ||SI||US||/||?||0||_||0||DEL
|-
 
|}





Version vom 13. August 2009, 11:50 Uhr

In einem Computer sollen allerdings nicht nur Zahlen, sondern auch Texte dargestellt werden können. Basis der Textdarstellung (ohne Schriftarten, Schriftgrößen, oder sonstige Formatelemente) ist ein Zeichen, das in der Regel in einem Byte dargestellt wird. Die verschiedenen Bitkombinationen eines Bytes werden dabei gemäß einer Codetabelle den darzustellenden Zeichen zugeordnet.



ASCII-Code

Alle in den gängigen Personalcomputern verwendeten Zeichensätze basieren auf dem sog. ASCII-Code (ASCII ist die Abkürzung für „American Standard Code for Information Interchange”), der von ANSI (dem „American National Standards Institute”, dem Normungsgremium der USA) genormt wurde. Der ASCII-Code benutzt von den 8 Bit eines Bytes nur 7 Bit (das 8. Bit wird in der Regel auf 0 belassen) und belegt die Zeichen gemäß nachstehender Tabelle:


ASCII-Zeichensatz


Die Zeichen des ASCII-Zeichensatzes gliedern sich in zwei Kategorien:

Darstellbare Zeichen

Darstellbare Zeichen werden zur Darstellung von (einzelnen) Textzeichen verwendet und werden in der obigen Tabelle durch ihren Wert repräsentiert. Dazu zählen die Groß- und Kleinbuchstaben („A”...„Z”, „a”...„z”), die Ziffern („0”...„9”), die Inter¬punktionszeichen („.”, „:”, „!”, „?”, ...), einige Sonderzeichen („$”, „@”, „%”, ...) sowie das Leerzeichen (in der Tabelle als SPC für engl. „space” bezeichnet).

Nicht im ASCII-Zeichensatz enthalten sind die (europäischen) nationalen Sonderzeichen, wie die deutschen Umlaute („Ä”, „Ö”, „Ü”, „ä”, „ö”, „ü”) oder das scharfe S („ß”). In einem rein amerikanischen Zeichensatz mussten sie nicht vorhanden sein; problematisch wurde die Situation jedoch, als der Zeichen¬satz „internationalisiert” wurde, indem Computer und Programme, die den betreffenden Zeichensatz verwendeten, aus den USA exportiert bzw. außerhalb Amerikas entwickelt und erzeugt wurden.

Der Lösungsansatz, der in modernen Personalcomputern verwendet wird, ist im Prinzip überall derselbe: die verbleibenden 128 Bitkombinationen eines Bytes werden verwendet, um zusätzliche Zeichen darzustellen. Leider ist die Belegung dieser 128 Zeichen unterschiedlich ausgefallen, sowohl was die Auswahl von Zeichen als auch was die Position von gemeinsamen Zeichen betrifft, sodass ein Austausch von Texten zwischen Personalcomputern unterschiedlichen Typs zu unerwarteten Ergebnissen führen kann.

Steuerzeichen

Steuerzeichen dienen dazu, an Endgeräten verschiedene Funktionen auszulösen. Sie sind in der Tabelle durch ein zwei bis drei Zeichen langes Kürzel für ihre Funktion (in kursiver Schrift) dargestellt. Die wichtigsten Steuerzeichen sind BS (backspace, Rückschritt), HT (horizontal tab, Sprung zur nächsten Tabulatorposition), CR (carriage return, Wagenrücklauf), LF (line feed, Zeilenvorschub), FF (form feed, Seitenvorschub), BEL (bell, Auslösung eines akustischen Signals, z.B. eines Pfeiftons), sowie ESC (escape, ein Steuerzeichen, das Zeichenfolgen für Steuerfunktionen einleitet, die im ASCII-Zeichensatz nicht definiert sind).

UNICODE-Zeichensatz

Abhilfe gegen die Mängel des ASCII-Zeichensatzes bietet der sog. UNICODE-Zeichensatz. Grundidee dieses Zeichensatzes ist es, alle Zeichen der gegenwärtig verwendeten (sowie auch der wichtigsten historischen) Schriften in einem Zeichensatz darstellen zu können. Dies beinhaltet auch die fernöstlichen Schriften (japanisch, chinesisch und koreanisch), die sich durch einen sehr großen Zeichenvorrat auszeichnen (da es sich bei diesen Schriften um Wort- bzw. Silbenschriften handelt). Da bei einem derart großen Zeichensatz mit einem Byte für die Darstellung eines Zeichens nicht das Auslangen gefunden werden kann, verwendet der UNICODE-Zeichensatz zwei Byte (16 Bit) zur Darstellung eines Zeichens. Vorkehrungen zur Verwendung des UNICODE-Zeichensatzes gibt es in den gängigen Betriebssystemen (z.B. Windows), Programmiersprachen (z.B. Java) und einigen anderen Programmen.

Erwähnenswert in diesem Zusammenhang ist UTF-8 (8-bit Unicode Transformation Format). Dies ist die am weitesten verbreitete Kodierung für Unicode-Zeichen und hat eine zentrale Bedeutung als Zeichenkodierung im Internet[1].

Quellen