Auszeichnungssprachen
Duis autem vel eum iriure dolor in hendrerit in vulputate velit esse molestie consequat, vel illum dolore eu feugiat nulla facilisis at vero eros et accumsan et iusto odio dignissim qui blandit praesent luptatum zzril delenit augue duis dolore te feugait nulla facilisi. Lorem ipsum dolor sit amet, consectetuer adipiscing elit, sed diam nonummy nibh euismod tincidunt ut laoreet dolore magna aliquam erat volutpat. |
Auszeichnungssprachen
Die Auszeichnung von Texten ist keine neue Erfindung: In der Form von Satz- und Korrekturanweisungen war sie ein unentbehrliches Hilfsmittel für Verfasser und Lektoren, um Schriftsetzern Anweisungen für die Umsetzung eines Manuskriptes mitzuteilen. In Abb. 1.4/6 sind Beispiele solcher Anweisungen aus dem „Chicago Manual of Style“ dargestellt.
Abb.: 1.4/6 Korrektur- und Satzanweisungen als Beispiel einer Auszeichnung
Schon die Verwendung von Groß- und Kleinschreibung, Sperr- und Fettschrift ist eine Form der Auszeichnung. Genau genommen handelt es sich dabei um eine einfache Form physischer Auszeichnung. Physische Auszeichnung bedeutet, den Dokumentinhalt mit bestimmten Attributen zur visuellen Darstellung zu beschreiben und gehört somit zur Layoutgestaltung.
In der Datenverarbeitung nennt man das Einbinden von „Tags“ in eine konventionelle Textdatei ebenfalls Auszeichnen . Bei Tags handelt es sich um Anweisungen, die aus zwei Teilen (dem Start- und dem Endtag) bestehen. Dazwischen befindet sich entweder normaler Text oder wieder ein Tag. Im letzteren Fall spricht man von einer sogenannten Schachtelung von Tags. Da Tags ebenfalls aus Textzeichen bestehen, ist es notwendig, diese vom „restlichen“ Text unterscheiden zu können. Dazu dienen Trenn- bzw. Deliminatorzeichen. Üblicherweise werden dafür in Auszeichnungssprachen, wie in HTML das Größer- und Kleinerzeichen verwendet. Das Gegenteil einer Auszeichnungssprache sind Dateiformate, die ein spezific coding verwenden. Beispielsweise kann man mit speziellen Tags in HTML einen Text mit einer bestimmten Schriftart, Farbe und Größe versehen. Die physische Auszeichnung kann sich aber auch auf das gesamte Dokument erstrecken. So gehören etwa Tags für die Angabe der Seitenbreite ebenfalls dazu. Davon unterscheidet sich die logische Auszeichnung eines Textes, die die Struktur eines Dokuments (wozu auch Hypertexte gehören) beschreibt. Diese umfasst beispielsweise Überschriften, Aufzählungen, Absätze, Rahmen, Listen und Verweise. Es ist natürlich für eine Aufnahme durch den Menschen sinnvoll, diese Textelemente auch unterschiedlich optisch darzustellen. Der Begriff Auszeichnung („Markup“) ist auch in der Bezeichnung HTML enthalten: Hypertext Markup Language. Aus dieser Bezeichnung ist weiters ersichtlich, dass mit dieser Sprache sogenannte Hypertexte, das sind nicht lineare Texte, ausgezeichnet werden. Die Verbindungen zwischen einzelnen Hypertexten, sogenannte Links, stellen einen Teil der Struktur eines Hypertextes dar.
Ziel der logischen Auszeichnung ist neben der Strukturierung vor allem auch eine computer-gestützte Weiterverarbeitung des Hypertextes. Für verschiedene Ausgabegeräte wirken be-stimmte physische Darstellungen unterschiedlich. Aus diesem Grund ist auch eine Trennung von Strukturbeschreibung und optischer Darstellung sinnvoll. Dafür stehen in HTML die Cascading Style Sheets (CSS) zur Verfügung. Diese saubere Trennung von Layout und Struktur ist in der täglichen Praxis bei vielen HTML-Seiten nicht gegeben. Grund dafür ist, dass alte Browserversionen CSS nicht unterstützen und der Einsatz von Style-Sheets noch immer nicht so verbreitet ist .
Für einen möglichst flexiblen Einsatz ist eine Trennung von Struktur, Inhalt und Format Voraussetzung. Die Vermischung von Struktur und Format in HTML wurde trotz der offensichtlichen Nachteile anfänglich als nicht weiter störend empfunden. Die Benutzung von Formatierungsbefehlen innerhalb eines Dokuments entsprach auch eher der gewohnten WYSIWYG -Sichtweise und man dachte auch noch nicht an eine Aufbereitung für verschie-dene Ausgabegeräte. In den Anfangszeiten des Internets war ein leicht zu erlernendes und einfach anzuwendendes Werkzeug auch wichtiger. Somit trugen diese „Designschwächen“ von HTML wesentlich zur Verbreitung des WWW bei. Aber spätestens beim arbeitsteiligen Erstellen von Internetseiten, der Aufbereitung gleicher Inhaltsquellen für unterschiedliche Ausgabegeräte, der Anwendung von unternehmensweit geltenden Style Guides, Versions-verwaltung und ab bestimmten Projektgrößen ist eine saubere Trennung von Struktur, Inhalt und Layout unabdingbar .
Es erscheint etwas restriktiv, wenn immer von Texten bzw. von Hypertexten die Rede ist, handelt es sich doch bei Internetseiten heutzutage durchgehend um multimediale Dar-stellungen. Der Begriff Hypertext lässt jedoch auf eine lediglich monomediale Darstellung schließen. Grund für die weitere Verwendung des Begriffs „Text“ ist, dass die Beschreibung multimedialer Internetseiten ebenfalls durch einfache Texte erfolgt. Dieses Textformat ist die Grundlage für die Einbindung von Multimediaobjekten.
Neben HTML gibt es noch andere Möglichkeiten, um multimediale Dokumente zu strukturieren und zu speichern. Gemeinsam ist diesen Datenformaten, dass sie hauptsächlich auf eine physische Beschreibung eines Dokuments abzielen:
- Textbearbeitungsprogramme, die die Integration von Multimediaobjekten und Hyperlinks ermöglichen.
- Seitenbeschreibungssprachen, wie Postscript und PCL (für den Druckbereich)
- Dokumentformate, wie beispielsweise PDF (Portable Document Format der Firma Adobe), das auch Hyperlinks auf Stellen im Dokument und auf Internetressourcen integriert.
Im Unterschied zu HTML handelt es sich bei diesen Dateiformaten jedoch um keine Auszeichnungssprachen und die Struktur, der Inhalt und die Daten werden in einer gemeinsamen Datei gespeichert (specific coding).
Die Möglichkeiten zur physischen Auszeichnung in HTML haben seit CSS 2.0 einen Stand erreicht, der sogar Hoffnungen nährt, dass HTML in naher Zukunft als universelle Seitenbe-schreibungssprache und als universelles Dokumentformat eingesetzt werden wird. Ein mögliches Anzeichen dafür ist sicherlich auch, dass HTML mittlerweile von allen Office-Pakten als alternatives Exportdateiformat angeboten wird. Im Gegensatz zur Layout-gestaltung sind die Tags zur Inhaltsstrukturierung in HTML weniger weit fortgeschritten. Dies ist nicht unbedingt als Nachteil zu sehen, da die Einbindung von Tags zur physischen Präsentation und der geringe Sprachumfang mit ein Grund für die leichte Erlernbarkeit von HTML gewesen sind. Darüber hinaus kann HTML im Unterschied zu vielen Textverarbei-tungsdateiformaten, zu Desktop-Publishing Dateiformaten und zu Dokumentformaten als ein plattformunabhängiges Dateiformat betrachtet werden. Will man jedoch all diese Vorteile für andere Zwecke als zur Gestaltung von Internetseiten nutzen, stößt man bald an die Grenzen des Machbaren bzw. des Praktikablen. Aufgrund der eingeschränkten Möglichkeiten zur Strukturierung von Inhalten ist der Einsatz von HTML zur Erstellung von Dokumenten für eine informationstechnische Weiterverarbeitung wenig sinnvoll. Die Befehle zur Struk-turierung eines Dokuments sind auf Internet-Hypertexte ausgelegt und verbindlich definiert, ohne dass eigene Erweiterungen möglich sind. Für das Publizieren von einfachen Dokumenten im Internet macht dies durchaus Sinn. Typische Internetdokumente stellen keine allzu großen Ansprüche in Hinsicht auf Strukturierungsmöglichkeiten. Das Hinzufügen eigener Tags in HTML ist auch nicht wünschenswert bzw. nicht sinnvoll, da sich ja die Internetclients verschiedenster Hersteller auf einen definierten Standard der Sprache beziehen sollen. Anders als bei diesen layoutorientierten Aufgaben sieht es jedoch bei datenzentrierten Aufgaben aus. Dabei handelt es sich um Probleme, die hauptsächlich bei der Speicherung und Übertragung von Daten entstehen, die im betrieblichen Alltag anfallen. Diese Daten besitzen eine komplexere innere Struktur und sollen nicht nur für eine Präsentation im Internet aufbereitet, sondern auch möglichst einfach elektronisch weiterverarbeitet werden können. Ein möglichst komfortabler Austausch von Dokumenten und eine einfach zu handhabende in-formationstechnische Weiterverarbeitung sind aber auch für layoutzentrierte Dokumente wünschenswert. Immer öfters besteht für das betriebliche Tagesgeschäft die Notwendigkeit, dass solche layoutorientierten Softwaresysteme innerhalb heterogener EDV-Infrastrukturen, aber auch zwischen den EDV-Landschaften kooperierender Organisationen zusammenar-beiten sollen. Neue technische Anforderungen an solche Systeme kommen auch aus den Führungsbereichen der Organisationen selbst: Es besteht ein vitales Interesse daran, daten- und dokumentzentrierte Quellen mit unterschiedlichen Formaten für das „Knowledge-Management“ und darauf aufbauende Systeme zusammenzuführen und zu verarbeiten. Aber auch für ein intelligenteres „Suchen und Finden“ im Internet, beispielsweise für Suchmaschinen und Softwareagenten, ist HTML nicht der Weisheit letzter Schluss. Für diese Anwendungsbereiche ist nicht nur ein plattformübergreifendes Format erforderlich, sondern es muss zudem von einem Anwendungsbereich unabhängig sein und auch die Möglichkeit vorsehen, beliebige bedeutungsspezifische (d.h. semantische) Informationen in ein Dokument zu integrieren. In HTML existieren zwar Ansätze dazu, wie etwa Metatags zur Beschreibung eines Dokumentes, doch sind diese grundsätzlich nicht erweiterbar. Wünschenswert ist eine Auszeichnungssprache, die sich nicht auf eine vorgegebene Grammatik und ein nicht erweiterbares Vokabular beschränkt, sondern mit der es möglich ist, eigene Auszeichnungssprachen zu kreieren, mit denen sich beliebig komplexe Dokumentstrukturen abbilden lassen. Eine Auszeichnungssprache, die diese wünschenswerten Eigenschaften erfüllt, wird als Metasprache bezeichnet. Der bisher umfassendste Ansatz für eine solche Metasprache stellt SGML (Standard Generalized Markup Language) dar, die aufbauend auf die Arbeiten zu GML (Generalized Markup Language) im Jahre 1986 standardisiert wurde. GML seinerseits geht bereits auf Arbeiten aus dem Jahre 1969 zurück, als Charles Goldfarb für IBM eine Auszeichnungssprache für komplexe juristische Dokumente entwarf. Damals schon stand die elektronische Weiterverarbeitung (hauptsächlich Information Retrieval Anwendungen) und nicht nur ein generic coding (im Unterschied zum specific coding) im Mittelpunkt der Arbeiten. Im Jahre 1974 schließlich entwickelte Goldfarb SGML, das zwölf Jahre später unter seiner Führungsarbeit als ISO-Standard verabschiedet wurde. Das Konzept der generischen Auszeichnung war in der Druckindustrie schon seit den frühen 60er Jahren bekannt. Das Revolutionäre an diesen Arbeiten war die Übertragung dieser Idee auf das elektronische Dokumentenmanagement. SGML wird in zahlreichen Industrien für das Dokumentmanagement eingesetzt. Erwähnenswert sind vor allem die Automobil- und die Rüstungsindustrie, die beide aufgrund der komplexen Natur der Dokumente (Versionsverwaltung, Multilingualität, Interde-pendenzen, etc.) frühzeitig SGML für ihre Anwendungsbereiche adaptierten. Der Nachteil von SGML ist, dass es als sehr komplex und schwierig gilt. Abhilfe dafür verspricht die Extensible Markup Language (XML), die mit Hilfe von SGML definiert wurde. Die Spezifikation von XML 1.0 umfasst lediglich einige wenige Seiten und gilt so wie HTML als leicht erlernbar, was u. a. ein Grund dafür ist, dass XML in den vergangenen Jahren soviel Aufmerksamkeit zuteil wurde. Der wahre Grund liegt aber vor allem im Potenzial von XML als Integrationstechnologie für alle Bereiche der Informationsverarbeitung und Übermittlung strukturierter Daten. In den nächsten beiden Kapiteln werden die grundlegenden Sprachelemente von HTML und XML behandelt. Auch wenn Dokumente nicht (mehr) mit Hilfe der einzelnen Befehle dieser Sprachen direkt erstellt werden sondern mit Anwendungsprogrammen, ist ein Grundver-ständnis der Funktionsweise dieser Sprachen bei der Verwendung von Tools (z.B. HTML- und XML Editoren) hilfreich.
Literatur
Quellen