Version vom 10. August 2009, 18:42 Uhr

Darstellung von Texten

In einem Computer sollen allerdings nicht nur Zahlen, sondern auch Texte dargestellt werden können. Basis der Textdarstellung (ohne Schriftarten, Schriftgrößen, oder sonstige Formatelemente) ist ein Zeichen, das in der Regel in einem Byte dargestellt wird. Die verschiedenen Bitkombinationen eines Bytes werden dabei gemäß einer Codetabelle den darzustellenden Zeichen zugeordnet.

ASCII-Code

Alle in den gängigen Personalcomputern verwendeten Zeichensätze basieren auf dem sog. ASCII-Code (ASCII ist die Abkürzung für „American Standard Code for Information Interchange”), der von ANSI (dem „American National Standards Institute”, dem Normungsgremium der USA) genormt wurde. Der ASCII-Code benutzt von den 8 Bit eines Bytes nur 7 Bit (das 8. Bit wird in der Regel auf 0 belassen) und belegt die Zeichen gemäß nachstehender Tabelle:

	000	001	010	011	100	101	110	111
...0000	NUL	DLE	SPC	0	@	P	`	p
...0001	SOH	DC1	!	1	A	Q	a	q
...0010	STX	DC2	"	2	B	R	b	r
...0011	ETX	DC3	#	3	C	S	c	s
...0100	EOT	DC4	$	4	D	T	d	t
...0101	ENQ	NAK	%	5	E	U	e	u
...0110	ACK	SYN	&	6	F	V	f	v
...0111	BEL	ETB	'	7	G	W	g	w
...1000	BS	CAN	(	8	H	X	h	x
...1001	HT	EM	)	9	I	Y	i	y
...1010	LF	SUB	*	:	J	Z	j	z
...1011	VT	ESC	+	;	K	[	k	{
...1100	FT	FS	,	<	L	\	I	I
...1101	CR	GS	-	=	M	]	m	}
...1110	SO	RS	.	>	N	^	n	~
...1111	SI	US	/	?	0	_	0	DEL

Die Zeichen des ASCII-Zeichensatzes gliedern sich in zwei Kategorien:

Darstellbare Zeichen

Darstellbare Zeichen werden zur Darstellung von (einzelnen) Textzeichen verwendet und werden in der obigen Tabelle durch ihren Wert repräsentiert. Dazu zählen die Groß- und Kleinbuchstaben („A”...„Z”, „a”...„z”), die Ziffern („0”...„9”), die Inter¬punktionszeichen („.”, „:”, „!”, „?”, ...), einige Sonderzeichen („$”, „@”, „%”, ...) sowie das Leerzeichen (in der Tabelle als SPC für engl. „space” bezeichnet).

Nicht im ASCII-Zeichensatz enthalten sind die (europäischen) nationalen Sonderzeichen, wie die deutschen Umlaute („Ä”, „Ö”, „Ü”, „ä”, „ö”, „ü”) oder das scharfe S („ß”). In einem rein amerikanischen Zeichensatz mussten sie nicht vorhanden sein; problematisch wurde die Situation jedoch, als der Zeichen¬satz „internationalisiert” wurde, indem Computer und Programme, die den betreffenden Zeichensatz verwendeten, aus den USA exportiert bzw. außerhalb Amerikas entwickelt und erzeugt wurden.

Der Lösungsansatz, der in modernen Personalcomputern verwendet wird, ist im Prinzip überall derselbe: die verbleibenden 128 Bitkombinationen eines Bytes werden verwendet, um zusätzliche Zeichen dar¬zustellen. Leider ist die Belegung dieser 128 Zeichen unterschiedlich ausgefallen, sowohl was die Auswahl von Zeichen als auch was die Position von gemeinsamen Zeichen betrifft, sodass ein Austausch von Texten zwischen Personalcomputern unterschiedlichen Typs zu unerwarteten Ergebnissen führen kann.

Steuerzeichen

Steuerzeichen dienen dazu, an Endgeräten verschiedene Funktionen auszulösen. Sie sind in der Tabelle durch ein zwei bis drei Zeichen langes Kürzel für ihre Funkti¬on (in kursiver Schrift) dargestellt. Die wichtigsten Steuerzeichen sind BS (backspace, Rück¬schritt), HT (horizontal tab, Sprung zur nächsten Tabulatorposition), CR (carri¬age return, Wagenrück¬lauf), LF (line feed, Zeilenvorschub), FF (form feed, Seiten¬vorschub), BEL (bell, Auslösung eines akusti¬schen Signals, z.B. eines Pfeiftons), sowie ESC (escape, ein Steuerzeichen, das Zeichenfolgen für Steuer¬funktionen ein¬leitet, die im ASCII-Zeichensatz nicht definiert sind).

UNICODE-Zeichensatz

Abhilfe gegen die Mängel des ASCII-Zeichensatzes bietet der sog. UNICODE-Zeichensatz. Grundidee dieses Zeichensatzes ist es, alle Zeichen der gegenwärtig verwendeten (sowie auch der wichtigsten historischen) Schriften in einem Zeichensatz darstellen zu können. Dies beinhaltet auch die fernöstlichen Schriften (japanisch, chinesisch und koreanisch), die sich durch einen sehr großen Zeichenvorrat auszeichnen (da es sich bei diesen Schriften um Wort- bzw. Silbenschriften handelt). Da bei einem derart großen Zeichensatz mit einem Byte für die Darstellung eines Zeichens nicht das Auslangen gefunden werden kann, verwendet der UNICODE-Zeichensatz zwei Byte (16 Bit) zur Darstellung eines Zeichens. Vorkehrungen zur Verwendung des UNICODE-Zeichensatzes gibt es in den gängigen Betriebssystemen (z.B. Windows), Programmiersprachen (z.B. Java) und einigen anderen Programmen.

UTF-8

UTF-8 (Abk. für 8-bit Unicode Transformation Format)

@@ Zeile 1: / Zeile 1: @@
-{{Kurzform|Duis autem vel eum iriure dolor in hendrerit in vulputate velit esse molestie consequat, vel illum dolore eu feugiat nulla facilisis at vero eros et accumsan et iusto odio dignissim qui blandit praesent luptatum zzril delenit augue duis dolore te feugait nulla facilisi. Lorem ipsum dolor sit amet, consectetuer adipiscing elit, sed diam nonummy nibh euismod tincidunt ut laoreet dolore magna aliquam erat volutpat.}}
+{{Kurzform|Darstellung von Texten}}
@@ Zeile 5: / Zeile 5: @@
-== Überschrift 1 ==
+= Darstellung von Texten =
-Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet.  <ref>Johann Höller, Robert Zlabinger, und Manfred Pils, Internet und Intranet: Herausforderung E-Business, 3., Auflage 2003</ref>
+In einem Computer sollen allerdings nicht nur Zahlen, sondern auch Texte dargestellt werden können. Basis der Textdarstellung (ohne Schriftarten, Schriftgrößen, oder sonstige Formatelemente) ist ein Zeichen, das in der Regel in einem Byte dargestellt wird. Die verschiedenen Bitkombinationen eines Bytes werden dabei gemäß einer Codetabelle den darzustellenden Zeichen zugeordnet.
-Duis autem vel eum iriure dolor in hendrerit in vulputate velit esse molestie consequat, vel illum dolore eu feugiat nulla facilisis at vero eros et accumsan et iusto odio dignissim qui blandit praesent luptatum zzril delenit augue duis dolore te feugait nulla facilisi. Lorem ipsum dolor sit amet, consectetuer adipiscing elit, sed diam nonummy nibh euismod tincidunt ut laoreet dolore magna aliquam erat volutpat.   <ref>Johann Höller, Robert Zlabinger, und Manfred Pils, Internet und Intranet: Herausforderung E-Business, 3., Auflage 2003</ref>
+== ASCII-Code ==
-== Überschrift 2 ==
+Alle in den gängigen Personalcomputern verwendeten Zeichensätze basieren auf dem sog. ASCII-Code (ASCII ist die Abkürzung für „American Standard Code for Information Interchange”), der von ANSI (dem „American National Standards Institute”, dem Normungsgremium der USA) genormt wurde. Der ASCII-Code benutzt von den 8 Bit eines Bytes nur 7 Bit (das 8. Bit wird in der Regel auf 0 belassen) und belegt die Zeichen gemäß nachstehender Tabelle:
-Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet.<ref>http://www.idv.edu/</ref>
-Duis autem vel eum iriure dolor in hendrerit in vulputate velit esse molestie consequat, vel illum dolore eu feugiat nulla facilisis at vero eros et accumsan et iusto odio dignissim qui blandit praesent luptatum zzril delenit augue duis dolore te feugait nulla facilisi. Lorem ipsum dolor sit amet, consectetuer adipiscing elit, sed diam nonummy nibh euismod tincidunt ut laoreet dolore magna aliquam erat volutpat.
+{|border="1" cellpadding="5" cellspacing="0" align="center"
+|
+|000
+|001
+|010
+|011
+|100
+|101
+|110
+|111
+|-
+|...0000||NUL||DLE||SPC||0||@||P||`||p
+|-
+|...0001||SOH||DC1||!||1||A||Q||a||q
+|-
+|...0010||STX||DC2||"||2||B||R||b||r
+|-
+|...0011 ||ETX||DC3||#||3||C||S||c||s
+|-
+|...0100 ||EOT||DC4||$||4||D||T||d||t
+|-
+|...0101 ||ENQ||NAK||%||5||E||U||e||u
+|-
+|...0110 ||ACK||SYN||&||6||F||V||f||v
+|-
+|...0111 ||BEL||ETB||'||7||G||W||g||w
+|-
+|...1000 ||BS||CAN||(||8||H||X||h||x
+|-
+|...1001 ||HT||EM||)||9||I||Y||i||y
+|-
+|...1010 ||LF||SUB||*||:||J||Z||j||z
+|-
+|...1011 ||VT||ESC||+||;||K||[||k||{
+|-
+|...1100 ||FT||FS||,||<||L||\||I||I
+|-
+|...1101 ||CR||GS||-||=||M||]||m||}
+|-
+|...1110 ||SO||RS||.||>||N||^||n||~
+|-
+|...1111 ||SI||US||/||?||0||_||0||DEL
+|-
+|}
+Die Zeichen des ASCII-Zeichensatzes gliedern sich in zwei Kategorien:
+=== Darstellbare Zeichen ===
+Darstellbare Zeichen werden zur Darstellung von (einzelnen) Textzeichen verwendet und werden in der obigen Tabelle durch ihren Wert repräsentiert. Dazu zählen die Groß- und Kleinbuchstaben („A”...„Z”, „a”...„z”), die Ziffern („0”...„9”), die Inter¬punktionszeichen („.”, „:”, „!”, „?”, ...), einige Sonderzeichen („$”, „@”, „%”, ...) sowie das Leerzeichen (in der Tabelle als SPC für engl. „space” bezeichnet).
+Nicht im ASCII-Zeichensatz enthalten sind die (europäischen) nationalen Sonderzeichen, wie die deutschen Umlaute („Ä”, „Ö”, „Ü”, „ä”, „ö”, „ü”) oder das scharfe S („ß”). In einem rein amerikanischen Zeichensatz mussten sie nicht vorhanden sein; problematisch wurde die Situation jedoch, als der Zeichen¬satz „internationalisiert” wurde, indem Computer und Programme, die den betreffenden Zeichensatz verwendeten, aus den USA exportiert bzw. außerhalb Amerikas entwickelt und erzeugt wurden.
+Der Lösungsansatz, der in modernen Personalcomputern verwendet wird, ist im Prinzip überall derselbe: die verbleibenden 128 Bitkombinationen eines Bytes werden verwendet, um zusätzliche Zeichen dar¬zustellen. Leider ist die Belegung dieser 128 Zeichen unterschiedlich ausgefallen, sowohl was die Auswahl von Zeichen als auch was die Position von gemeinsamen Zeichen betrifft, sodass ein Austausch von Texten zwischen Personalcomputern unterschiedlichen Typs zu unerwarteten Ergebnissen führen kann.
+=== Steuerzeichen ===
+Steuerzeichen dienen dazu, an Endgeräten verschiedene Funktionen auszulösen. Sie sind in der Tabelle durch ein zwei bis drei Zeichen langes Kürzel für ihre Funkti¬on (in kursiver Schrift) dargestellt. Die wichtigsten Steuerzeichen sind BS (backspace, Rück¬schritt), HT (horizontal tab, Sprung zur nächsten Tabulatorposition), CR (carri¬age return, Wagenrück¬lauf), LF (line feed, Zeilenvorschub), FF (form feed, Seiten¬vorschub), BEL (bell, Auslösung eines akusti¬schen Signals, z.B. eines Pfeiftons), sowie ESC (escape, ein Steuerzeichen, das Zeichenfolgen für Steuer¬funktionen ein¬leitet, die im ASCII-Zeichensatz nicht definiert sind).
+== UNICODE-Zeichensatz ==
+Abhilfe gegen die Mängel des ASCII-Zeichensatzes bietet der sog. UNICODE-Zeichensatz. Grundidee dieses Zeichensatzes ist es, alle Zeichen der gegenwärtig verwendeten (sowie auch der wichtigsten historischen) Schriften in einem Zeichensatz darstellen zu können. Dies beinhaltet auch die fernöstlichen Schriften (japanisch, chinesisch und koreanisch), die sich durch einen sehr großen Zeichenvorrat auszeichnen (da es sich bei diesen Schriften um Wort- bzw. Silbenschriften handelt). Da bei einem derart großen Zeichensatz mit einem Byte für die Darstellung eines Zeichens nicht das Auslangen gefunden werden kann, verwendet der UNICODE-Zeichensatz zwei Byte (16 Bit) zur Darstellung eines Zeichens. Vorkehrungen zur Verwendung des UNICODE-Zeichensatzes gibt es in den gängigen Betriebssystemen (z.B. Windows), Programmiersprachen (z.B. Java) und einigen anderen Programmen.
+=== UTF-8 ===
+UTF-8 (Abk. für 8-bit Unicode Transformation Format)

Darstellung von Texten: Unterschied zwischen den Versionen

Version vom 10. August 2009, 18:42 Uhr

Inhaltsverzeichnis

Darstellung von Texten

ASCII-Code

Darstellbare Zeichen

Steuerzeichen

UNICODE-Zeichensatz

UTF-8

Navigationsmenü

Seitenaktionen

Seitenaktionen

Meine Werkzeuge

Navigation

Suche

Zusatz

Template

Tipps/Tricks

Werkzeuge