Auszeichnungssprachen

Aus IV1
Auszeichnungssprachen bedeuten, dass Inhalte mit bestimmten Attributen beschrieben werden. In HTML wird diese Art der Einbindung "Tags" genannt.



Auszeichnungssprachen

Die Auszeichnung von Texten ist keine neue Erfindung: In der Form von Satz- und Korrekturanweisungen war sie ein unentbehrliches Hilfsmittel für Verfasser und Lektoren, um Schriftsetzern Anweisungen für die Umsetzung eines Manuskriptes mitzuteilen. In der Abbildung sind Beispiele solcher Anweisungen aus dem „Chicago Manual of Style“ dargestellt.

Schon die Verwendung von Groß- und Kleinschreibung, Sperr- und Fettschrift ist eine Form der Auszeichnung. Genau genommen handelt es sich dabei um eine einfache Form physischer Auszeichnung. Physische Auszeichnung bedeutet, den Dokumentinhalt mit bestimmten Attributen zur visuellen Darstellung zu beschreiben und gehört somit zur Layoutgestaltung.

In der Datenverarbeitung nennt man das Einbinden von „Tags“ in eine konventionelle Textdatei ebenfalls Auszeichnen. Bei Tags handelt es sich um Anweisungen, die aus zwei Teilen (dem Start- und dem Endtag) bestehen. Dazwischen befindet sich entweder normaler Text oder wieder ein Tag. Im letzteren Fall spricht man von einer sogenannten Schachtelung von Tags. Da Tags ebenfalls aus Textzeichen bestehen, ist es notwendig, diese vom „restlichen“ Text unterscheiden zu können. Dazu dienen Trenn- bzw. Deliminatorzeichen. Üblicherweise werden dafür in Auszeichnungssprachen, wie in HTML das Größer- und Kleinerzeichen verwendet.

Das Gegenteil einer Auszeichnungssprache sind Dateiformate, die ein spezific coding verwenden. Beispielsweise kann man mit speziellen Tags in HTML einen Text mit einer bestimmten Schriftart, Farbe und Größe versehen. Die physische Auszeichnung kann sich aber auch auf das gesamte Dokument erstrecken. So gehören etwa Tags für die Angabe der Seitenbreite ebenfalls dazu.

Davon unterscheidet sich die logische Auszeichnung eines Textes, die die Struktur eines Dokuments (wozu auch Hypertexte gehören) beschreibt. Diese umfasst beispielsweise Überschriften, Aufzählungen, Absätze, Rahmen, Listen und Verweise. Es ist natürlich für eine Aufnahme durch den Menschen sinnvoll, diese Textelemente auch unterschiedlich optisch darzustellen. Der Begriff Auszeichnung („Markup“) ist auch in der Bezeichnung HTML enthalten: Hypertext Markup Language. Aus dieser Bezeichnung ist weiters ersichtlich, dass mit dieser Sprache sogenannte Hypertexte, das sind nicht lineare Texte, ausgezeichnet werden. Die Verbindungen zwischen einzelnen Hypertexten, sogenannte Links, stellen einen Teil der Struktur eines Hypertextes dar.


Ziel der logischen Auszeichnung ist neben der Strukturierung vor allem auch eine computer-gestützte Weiterverarbeitung des Hypertextes. Für verschiedene Ausgabegeräte wirken bestimmte physische Darstellungen unterschiedlich. Aus diesem Grund ist auch eine Trennung von Strukturbeschreibung und optischer Darstellung sinnvoll. Dafür stehen in HTML die Cascading Style Sheets (CSS) zur Verfügung. Diese saubere Trennung von Layout und Struktur ist in der täglichen Praxis bei vielen HTML-Seiten nicht gegeben. Grund dafür ist, dass alte Browserversionen CSS nicht unterstützen und der Einsatz von Style-Sheets noch immer nicht so verbreitet ist.

Für einen möglichst flexiblen Einsatz ist eine Trennung von Struktur, Inhalt und Format Voraussetzung. Die Vermischung von Struktur und Format in HTML wurde trotz der offensichtlichen Nachteile anfänglich als nicht weiter störend empfunden. Die Benutzung von Formatierungsbefehlen innerhalb eines Dokuments entsprach auch eher der gewohnten WYSIWYG -Sichtweise und man dachte auch noch nicht an eine Aufbereitung für verschiedene Ausgabegeräte. In den Anfangszeiten des Internets war ein leicht zu erlernendes und einfach anzuwendendes Werkzeug auch wichtiger. Somit trugen diese „Designschwächen“ von HTML wesentlich zur Verbreitung des WWW bei. Aber spätestens beim arbeitsteiligen Erstellen von Internetseiten, der Aufbereitung gleicher Inhaltsquellen für unterschiedliche Ausgabegeräte, der Anwendung von unternehmensweit geltenden Style Guides, Versionsverwaltung und ab bestimmten Projektgrößen ist eine saubere Trennung von Struktur, Inhalt und Layout unabdingbar.

Es erscheint etwas restriktiv, wenn immer von Texten bzw. von Hypertexten die Rede ist, handelt es sich doch bei Internetseiten heutzutage durchgehend um multimediale Darstellungen. Der Begriff Hypertext lässt jedoch auf eine lediglich monomediale Darstellung schließen. Grund für die weitere Verwendung des Begriffs „Text“ ist, dass die Beschreibung multimedialer Internetseiten ebenfalls durch einfache Texte erfolgt. Dieses Textformat ist die Grundlage für die Einbindung von Multimediaobjekten.

Neben HTML gibt es noch andere Möglichkeiten, um multimediale Dokumente zu strukturieren und zu speichern. Gemeinsam ist diesen Datenformaten, dass sie hauptsächlich auf eine physische Beschreibung eines Dokuments abzielen:

  • Textbearbeitungsprogramme, die die Integration von Multimediaobjekten und Hyperlinks ermöglichen
  • Seitenbeschreibungssprachen, wie Postscript und PCL (für den Druckbereich)
  • Dokumentformate, wie beispielsweise PDF (Portable Document Format der Firma Adobe), das auch Hyperlinks auf Stellen im Dokument und auf Internetressourcen integriert

Im Unterschied zu HTML handelt es sich bei diesen Dateiformaten jedoch um keine Auszeichnungssprachen, und die Struktur, der Inhalt und die Daten werden in einer gemeinsamen Datei gespeichert (specific coding).

Die Möglichkeiten zur physischen Auszeichnung in HTML haben seit CSS 2.0 einen Stand erreicht, der sogar Hoffnungen nährt, dass HTML in naher Zukunft als universelle Seitenbeschreibungssprache und als universelles Dokumentformat eingesetzt werden wird. Ein mögliches Anzeichen dafür ist sicherlich auch, dass HTML mittlerweile von allen Office-Paketen als alternatives Export-Dateiformat angeboten wird. Im Gegensatz zur Layoutgestaltung sind die Tags zur Inhaltsstrukturierung in HTML weniger weit fortgeschritten. Dies ist nicht unbedingt als Nachteil zu sehen, da die Einbindung von Tags zur physischen Präsentation und der geringe Sprachumfang mit ein Grund für die leichte Erlernbarkeit von HTML gewesen sind. Darüber hinaus kann HTML im Unterschied zu vielen Textverarbeitungs-Dateiformaten, zu Desktop-Publishing-Dateiformaten und zu Dokumentformaten als ein plattformunabhängiges Dateiformat betrachtet werden. Will man jedoch all diese Vorteile für andere Zwecke als zur Gestaltung von Internetseiten nutzen, stößt man bald an die Grenzen des Machbaren bzw. des Praktikablen.

Aufgrund der eingeschränkten Möglichkeiten zur Strukturierung von Inhalten ist der Einsatz von HTML zur Erstellung von Dokumenten für eine informationstechnische Weiterverarbeitung wenig sinnvoll. Die Befehle zur Strukturierung eines Dokuments sind auf Internet-Hypertexte ausgelegt und verbindlich definiert, ohne dass eigene Erweiterungen möglich sind. Für das Publizieren von einfachen Dokumenten im Internet macht dies durchaus Sinn. Typische Internetdokumente stellen keine allzu großen Ansprüche in Hinsicht auf Strukturierungsmöglichkeiten. Das Hinzufügen eigener Tags in HTML ist auch nicht wünschenswert bzw. nicht sinnvoll, da sich ja die Internetclients verschiedenster Hersteller auf einen definierten Standard der Sprache beziehen sollen.

Anders als bei diesen layoutorientierten Aufgaben sieht es jedoch bei datenzentrierten Aufgaben aus. Dabei handelt es sich um Probleme, die hauptsächlich bei der Speicherung und Übertragung von Daten entstehen, die im betrieblichen Alltag anfallen. Diese Daten besitzen eine komplexere innere Struktur und sollen nicht nur für eine Präsentation im Internet aufbereitet, sondern auch möglichst einfach elektronisch weiterverarbeitet werden können. Ein möglichst komfortabler Austausch von Dokumenten und eine einfach zu handhabende informationstechnische Weiterverarbeitung sind aber auch für layoutzentrierte Dokumente wünschenswert. Immer öfters besteht für das betriebliche Tagesgeschäft die Notwendigkeit, dass solche layoutorientierten Softwaresysteme innerhalb heterogener EDV-Infrastrukturen, aber auch zwischen den EDV-Landschaften kooperierender Organisationen zusammenarbeiten sollen. Neue technische Anforderungen an solche Systeme kommen auch aus den Führungsbereichen der Organisationen selbst: Es besteht ein vitales Interesse daran, daten- und dokumentzentrierte Quellen mit unterschiedlichen Formaten für das „Knowledge-Management“ und darauf aufbauende Systeme zusammenzuführen und zu verarbeiten. Aber auch für ein intelligenteres „Suchen und Finden“ im Internet, beispielsweise für Suchmaschinen und Softwareagenten, ist HTML nicht der Weisheit letzter Schluss.

Für diese Anwendungsbereiche ist nicht nur ein plattformübergreifendes Format erforderlich, sondern es muss zudem von einem Anwendungsbereich unabhängig sein und auch die Möglichkeit vorsehen, beliebige bedeutungsspezifische (d. h. semantische) Informationen in ein Dokument zu integrieren. In HTML existieren zwar Ansätze dazu, wie etwa Metatags zur Beschreibung eines Dokumentes, doch sind diese grundsätzlich nicht erweiterbar. Wünschenswert ist eine Auszeichnungssprache, die sich nicht auf eine vorgegebene Grammatik und ein nicht erweiterbares Vokabular beschränkt, sondern mit der es möglich ist, eigene Auszeichnungssprachen zu kreieren, mit denen sich beliebig komplexe Dokumentstrukturen abbilden lassen. Eine Auszeichnungssprache, die diese wünschenswerten Eigenschaften erfüllt, wird als Metasprache bezeichnet. Der bisher umfassendste Ansatz für eine solche Metasprache stellt SGML (Standard Generalized Markup Language) dar, die aufbauend auf die Arbeiten zu GML (Generalized Markup Language) im Jahre 1986 standardisiert wurde. GML seinerseits geht bereits auf Arbeiten aus dem Jahre 1969 zurück, als Charles Goldfarb für IBM eine Auszeichnungssprache für komplexe juristische Dokumente entwarf. Damals schon stand die elektronische Weiterverarbeitung (hauptsächlich Information Retrieval Anwendungen) und nicht nur ein generic coding (im Unterschied zum specific coding) im Mittelpunkt der Arbeiten. Im Jahre 1974 schließlich entwickelte Goldfarb SGML, das zwölf Jahre später unter seiner Führungsarbeit als ISO-Standard verabschiedet wurde. Das Konzept der generischen Auszeichnung war in der Druckindustrie schon seit den frühen 60-er Jahren bekannt. Das Revolutionäre an diesen Arbeiten war die Übertragung dieser Idee auf das elektronische Dokumentenmanagement.

SGML wird in zahlreichen Industrien für das Dokumentenmanagement eingesetzt. Erwähnenswert sind vor allem die Automobil- und die Rüstungsindustrie, die beide aufgrund der komplexen Natur der Dokumente (Versionsverwaltung, Multilingualität, Interdependenzen etc.) frühzeitig SGML für ihre Anwendungsbereiche adaptierten. Der Nachteil von SGML ist, dass es als sehr komplex und schwierig gilt. Abhilfe dafür verspricht die Extensible Markup Language (XML), die mit Hilfe von SGML definiert wurde. Die Spezifikation von XML 1.0 umfasst lediglich einige wenige Seiten und gilt so wie HTML als leicht erlernbar, was u. a. ein Grund dafür ist, dass XML in den vergangenen Jahren soviel Aufmerksamkeit zuteil wurde. Der wahre Grund liegt aber vor allem im Potenzial von XML als Integrationstechnologie für alle Bereiche der Informationsverarbeitung und Übermittlung strukturierter Daten.

Zitiervorschlag

Filsecker in Höller, Informationsverarbeitung I, Auszeichnungssprachen#Überschrift (mussswiki.idb.edu/iv1)