Darstellung von Texten: Unterschied zwischen den Versionen

Aus IV1
Verbod (Diskussion | Beiträge)
Die Seite wurde neu angelegt: „{{Kurzform|Duis autem vel eum iriure dolor in hendrerit in vulputate velit esse molestie consequat, vel illum dolore eu feugiat nulla facilisis at vero eros et ac...“
 
Verbod (Diskussion | Beiträge)
Keine Bearbeitungszusammenfassung
Zeile 1: Zeile 1:
{{Kurzform|Duis autem vel eum iriure dolor in hendrerit in vulputate velit esse molestie consequat, vel illum dolore eu feugiat nulla facilisis at vero eros et accumsan et iusto odio dignissim qui blandit praesent luptatum zzril delenit augue duis dolore te feugait nulla facilisi. Lorem ipsum dolor sit amet, consectetuer adipiscing elit, sed diam nonummy nibh euismod tincidunt ut laoreet dolore magna aliquam erat volutpat.}}
{{Kurzform|Darstellung von Texten}}




Zeile 5: Zeile 5:




== Überschrift 1 ==
= Darstellung von Texten =


Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet. <ref>Johann Höller, Robert Zlabinger, und Manfred Pils, Internet und Intranet: Herausforderung E-Business, 3., Auflage 2003</ref> 
In einem Computer sollen allerdings nicht nur Zahlen, sondern auch Texte dargestellt werden können. Basis der Textdarstellung (ohne Schriftarten, Schriftgrößen, oder sonstige Formatelemente) ist ein Zeichen, das in der Regel in einem Byte dargestellt wird. Die verschiedenen Bitkombinationen eines Bytes werden dabei gemäß einer Codetabelle den darzustellenden Zeichen zugeordnet.  


Duis autem vel eum iriure dolor in hendrerit in vulputate velit esse molestie consequat, vel illum dolore eu feugiat nulla facilisis at vero eros et accumsan et iusto odio dignissim qui blandit praesent luptatum zzril delenit augue duis dolore te feugait nulla facilisi. Lorem ipsum dolor sit amet, consectetuer adipiscing elit, sed diam nonummy nibh euismod tincidunt ut laoreet dolore magna aliquam erat volutpat.  <ref>Johann Höller, Robert Zlabinger, und Manfred Pils, Internet und Intranet: Herausforderung E-Business, 3., Auflage 2003</ref>
== ASCII-Code ==


== Überschrift 2 ==
Alle in den gängigen Personalcomputern verwendeten Zeichensätze basieren auf dem sog. ASCII-Code (ASCII ist die Abkürzung für „American Standard Code for Information Interchange”), der von ANSI (dem „American National Standards Institute”, dem Normungsgremium der USA) genormt wurde. Der ASCII-Code benutzt von den 8 Bit eines Bytes nur 7 Bit (das 8. Bit wird in der Regel auf 0 belassen) und belegt die Zeichen gemäß nachstehender Tabelle:


Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet.<ref>http://www.idv.edu/</ref> 


Duis autem vel eum iriure dolor in hendrerit in vulputate velit esse molestie consequat, vel illum dolore eu feugiat nulla facilisis at vero eros et accumsan et iusto odio dignissim qui blandit praesent luptatum zzril delenit augue duis dolore te feugait nulla facilisi. Lorem ipsum dolor sit amet, consectetuer adipiscing elit, sed diam nonummy nibh euismod tincidunt ut laoreet dolore magna aliquam erat volutpat.
{|border="1" cellpadding="5" cellspacing="0" align="center"
 
|
|000
|001
|010
|011
|100
|101
|110
|111
|-
 
|...0000||NUL||DLE||SPC||0||@||P||`||p
|-
 
|...0001||SOH||DC1||!||1||A||Q||a||q
|-
 
|...0010||STX||DC2||"||2||B||R||b||r
|-
 
|...0011 ||ETX||DC3||#||3||C||S||c||s
|-
 
|...0100 ||EOT||DC4||$||4||D||T||d||t
|-
 
|...0101 ||ENQ||NAK||%||5||E||U||e||u
|-
 
|...0110 ||ACK||SYN||&||6||F||V||f||v
|-
 
|...0111 ||BEL||ETB||'||7||G||W||g||w
|-
 
|...1000 ||BS||CAN||(||8||H||X||h||x
|-
 
|...1001 ||HT||EM||)||9||I||Y||i||y
|-
 
|...1010 ||LF||SUB||*||:||J||Z||j||z
|-
 
|...1011 ||VT||ESC||+||;||K||[||k||{
|-
 
|...1100 ||FT||FS||,||<||L||\||I||I
|-
 
|...1101 ||CR||GS||-||=||M||]||m||}
|-
 
|...1110 ||SO||RS||.||>||N||^||n||~
|-
 
|...1111 ||SI||US||/||?||0||_||0||DEL
|-
 
|}
 
 
Die Zeichen des ASCII-Zeichensatzes gliedern sich in zwei Kategorien:
 
=== Darstellbare Zeichen ===
 
Darstellbare Zeichen werden zur Darstellung von (einzelnen) Textzeichen verwendet und werden in der obigen Tabelle durch ihren Wert repräsentiert. Dazu zählen die Groß- und Kleinbuchstaben („A”...„Z”, „a”...„z”), die Ziffern („0”...„9”), die Inter¬punktionszeichen („.”, „:”, „!”, „?”, ...), einige Sonderzeichen („$”, „@”, „%”, ...) sowie das Leerzeichen (in der Tabelle als SPC für engl. „space” bezeichnet).
 
Nicht im ASCII-Zeichensatz enthalten sind die (europäischen) nationalen Sonderzeichen, wie die deutschen Umlaute („Ä”, „Ö”, „Ü”, „ä”, „ö”, „ü”) oder das scharfe S („ß”). In einem rein amerikanischen Zeichensatz mussten sie nicht vorhanden sein; problematisch wurde die Situation jedoch, als der Zeichen¬satz „internationalisiert” wurde, indem Computer und Programme, die den betreffenden Zeichensatz verwendeten, aus den USA exportiert bzw. außerhalb Amerikas entwickelt und erzeugt wurden.
 
Der Lösungsansatz, der in modernen Personalcomputern verwendet wird, ist im Prinzip überall derselbe: die verbleibenden 128 Bitkombinationen eines Bytes werden verwendet, um zusätzliche Zeichen dar¬zustellen. Leider ist die Belegung dieser 128 Zeichen unterschiedlich ausgefallen, sowohl was die Auswahl von Zeichen als auch was die Position von gemeinsamen Zeichen betrifft, sodass ein Austausch von Texten zwischen Personalcomputern unterschiedlichen Typs zu unerwarteten Ergebnissen führen kann.
 
=== Steuerzeichen ===
 
Steuerzeichen dienen dazu, an Endgeräten verschiedene Funktionen auszulösen. Sie sind in der Tabelle durch ein zwei bis drei Zeichen langes Kürzel für ihre Funkti¬on (in kursiver Schrift) dargestellt. Die wichtigsten Steuerzeichen sind BS (backspace, Rück¬schritt), HT (horizontal tab, Sprung zur nächsten Tabulatorposition), CR (carri¬age return, Wagenrück¬lauf), LF (line feed, Zeilenvorschub), FF (form feed, Seiten¬vorschub), BEL (bell, Auslösung eines akusti¬schen Signals, z.B. eines Pfeiftons), sowie ESC (escape, ein Steuerzeichen, das Zeichenfolgen für Steuer¬funktionen ein¬leitet, die im ASCII-Zeichensatz nicht definiert sind).
 
== UNICODE-Zeichensatz ==
 
Abhilfe gegen die Mängel des ASCII-Zeichensatzes bietet der sog. UNICODE-Zeichensatz. Grundidee dieses Zeichensatzes ist es, alle Zeichen der gegenwärtig verwendeten (sowie auch der wichtigsten historischen) Schriften in einem Zeichensatz darstellen zu können. Dies beinhaltet auch die fernöstlichen Schriften (japanisch, chinesisch und koreanisch), die sich durch einen sehr großen Zeichenvorrat auszeichnen (da es sich bei diesen Schriften um Wort- bzw. Silbenschriften handelt). Da bei einem derart großen Zeichensatz mit einem Byte für die Darstellung eines Zeichens nicht das Auslangen gefunden werden kann, verwendet der UNICODE-Zeichensatz zwei Byte (16 Bit) zur Darstellung eines Zeichens. Vorkehrungen zur Verwendung des UNICODE-Zeichensatzes gibt es in den gängigen Betriebssystemen (z.B. Windows), Programmiersprachen (z.B. Java) und einigen anderen Programmen.
 
=== UTF-8 ===
 
UTF-8 (Abk. für 8-bit Unicode Transformation Format)

Version vom 10. August 2009, 17:42 Uhr

Darstellung von Texten



Darstellung von Texten

In einem Computer sollen allerdings nicht nur Zahlen, sondern auch Texte dargestellt werden können. Basis der Textdarstellung (ohne Schriftarten, Schriftgrößen, oder sonstige Formatelemente) ist ein Zeichen, das in der Regel in einem Byte dargestellt wird. Die verschiedenen Bitkombinationen eines Bytes werden dabei gemäß einer Codetabelle den darzustellenden Zeichen zugeordnet.

ASCII-Code

Alle in den gängigen Personalcomputern verwendeten Zeichensätze basieren auf dem sog. ASCII-Code (ASCII ist die Abkürzung für „American Standard Code for Information Interchange”), der von ANSI (dem „American National Standards Institute”, dem Normungsgremium der USA) genormt wurde. Der ASCII-Code benutzt von den 8 Bit eines Bytes nur 7 Bit (das 8. Bit wird in der Regel auf 0 belassen) und belegt die Zeichen gemäß nachstehender Tabelle:


000 001 010 011 100 101 110 111
...0000 NUL DLE SPC 0 @ P ` p
...0001 SOH DC1 ! 1 A Q a q
...0010 STX DC2 " 2 B R b r
...0011 ETX DC3 # 3 C S c s
...0100 EOT DC4 $ 4 D T d t
...0101 ENQ NAK % 5 E U e u
...0110 ACK SYN & 6 F V f v
...0111 BEL ETB ' 7 G W g w
...1000 BS CAN ( 8 H X h x
...1001 HT EM ) 9 I Y i y
...1010 LF SUB * : J Z j z
...1011 VT ESC + ; K [ k {
...1100 FT FS , < L \ I I
...1101 CR GS - = M ] m }
...1110 SO RS . > N ^ n ~
...1111 SI US / ? 0 _ 0 DEL


Die Zeichen des ASCII-Zeichensatzes gliedern sich in zwei Kategorien:

Darstellbare Zeichen

Darstellbare Zeichen werden zur Darstellung von (einzelnen) Textzeichen verwendet und werden in der obigen Tabelle durch ihren Wert repräsentiert. Dazu zählen die Groß- und Kleinbuchstaben („A”...„Z”, „a”...„z”), die Ziffern („0”...„9”), die Inter¬punktionszeichen („.”, „:”, „!”, „?”, ...), einige Sonderzeichen („$”, „@”, „%”, ...) sowie das Leerzeichen (in der Tabelle als SPC für engl. „space” bezeichnet).

Nicht im ASCII-Zeichensatz enthalten sind die (europäischen) nationalen Sonderzeichen, wie die deutschen Umlaute („Ä”, „Ö”, „Ü”, „ä”, „ö”, „ü”) oder das scharfe S („ß”). In einem rein amerikanischen Zeichensatz mussten sie nicht vorhanden sein; problematisch wurde die Situation jedoch, als der Zeichen¬satz „internationalisiert” wurde, indem Computer und Programme, die den betreffenden Zeichensatz verwendeten, aus den USA exportiert bzw. außerhalb Amerikas entwickelt und erzeugt wurden.

Der Lösungsansatz, der in modernen Personalcomputern verwendet wird, ist im Prinzip überall derselbe: die verbleibenden 128 Bitkombinationen eines Bytes werden verwendet, um zusätzliche Zeichen dar¬zustellen. Leider ist die Belegung dieser 128 Zeichen unterschiedlich ausgefallen, sowohl was die Auswahl von Zeichen als auch was die Position von gemeinsamen Zeichen betrifft, sodass ein Austausch von Texten zwischen Personalcomputern unterschiedlichen Typs zu unerwarteten Ergebnissen führen kann.

Steuerzeichen

Steuerzeichen dienen dazu, an Endgeräten verschiedene Funktionen auszulösen. Sie sind in der Tabelle durch ein zwei bis drei Zeichen langes Kürzel für ihre Funkti¬on (in kursiver Schrift) dargestellt. Die wichtigsten Steuerzeichen sind BS (backspace, Rück¬schritt), HT (horizontal tab, Sprung zur nächsten Tabulatorposition), CR (carri¬age return, Wagenrück¬lauf), LF (line feed, Zeilenvorschub), FF (form feed, Seiten¬vorschub), BEL (bell, Auslösung eines akusti¬schen Signals, z.B. eines Pfeiftons), sowie ESC (escape, ein Steuerzeichen, das Zeichenfolgen für Steuer¬funktionen ein¬leitet, die im ASCII-Zeichensatz nicht definiert sind).

UNICODE-Zeichensatz

Abhilfe gegen die Mängel des ASCII-Zeichensatzes bietet der sog. UNICODE-Zeichensatz. Grundidee dieses Zeichensatzes ist es, alle Zeichen der gegenwärtig verwendeten (sowie auch der wichtigsten historischen) Schriften in einem Zeichensatz darstellen zu können. Dies beinhaltet auch die fernöstlichen Schriften (japanisch, chinesisch und koreanisch), die sich durch einen sehr großen Zeichenvorrat auszeichnen (da es sich bei diesen Schriften um Wort- bzw. Silbenschriften handelt). Da bei einem derart großen Zeichensatz mit einem Byte für die Darstellung eines Zeichens nicht das Auslangen gefunden werden kann, verwendet der UNICODE-Zeichensatz zwei Byte (16 Bit) zur Darstellung eines Zeichens. Vorkehrungen zur Verwendung des UNICODE-Zeichensatzes gibt es in den gängigen Betriebssystemen (z.B. Windows), Programmiersprachen (z.B. Java) und einigen anderen Programmen.

UTF-8

UTF-8 (Abk. für 8-bit Unicode Transformation Format)