Akustische Eingabe

Aus IV
Zur Navigation springen Zur Suche springen
Die Verarbeitung von Audioinformationen ähnelt jener von Bildinformationen. Diese Aufgabe übernimmt in der Regel ein eigener „Soundchip“ eines Computers, wobei bei der Eingabe die analoge Information in digitale umgewandelt wird und bei der Ausgabe eine Rückumwandlung stattfindet. Schwerpunkt der Audioeingabe ist die Spracheingabe.



2.4. Akustische Eingabe

Die Verarbeitung von Audioinformationen ähnelt jener von Bildinformationen. Diese Aufgabe übernimmt in der Regel ein eigener „Soundchip“ eines Computers, wobei bei der Eingabe die analoge Information in digitale umgewandelt wird und bei der Ausgabe eine Rückumwandlung stattfindet. Schwerpunkt der Audioeingabe ist die Spracheingabe. Der Mensch wertet gesprochene Sprache auf mehreren Ebenen aus, wie Sprachsignal, Wort, Satz, Tonfall, Tonhöhe usw.; sehr viele für das Verstehen nicht unmittelbar notwendige Informationen werden dabei mitgeliefert. Für die maschinelle Bearbeitung erweisen sich diese (für unser Ohr vertrauten) Besonderheiten der natürlich gesprochenen Sprache als Probleme bei der weiteren Bearbeitung.

Die Bearbeitung von natürlich gesprochener Sprache teilt sich in zwei Teilgebiete:

  • Spracherkennung: Dabei soll festgestellt werden, was gesprochen wurde. Bestimmte Muster müssen durch Vergleich erkannt und verarbeitet werden. Dazu gibt es Systeme zum Erkennen isoliert gesprochener Worte (Einzelworterkennung) und zum Erkennen fließender Rede. Systeme zur Sprachanalyse und zum Sprachverstehen, die analysieren und Schlüsse ziehen, worüber gesprochen wurde, zählen zum Bereich der Künstlichen Intelligenz.
  • Sprechererkennung: Dabei geht es um die Ermittlung, wer gesprochen hat. Anhand des Klangbildes der Sprache (das einzigartig wie der Fingerabdruck eines Menschen ist) wird überprüft, wer der Sprecher ist. Eingesetzt wird die Sprecherverifikation für Zugangskontrollen bei Banken, Rechenzentren usw.

Mit der immer größeren Rechenleistung moderner PC-Systeme steigen auch die Trefferraten bei der Spracherkennung. Dennoch soll der Sprecher die Wörter langsam und exakt aussprechen. Nach einer Trainingsphase erreichen die Systeme mittlerweile schon sehr hohe Trefferraten. Das Erkennen von fließend gesprochener Sprache, unabhängig vom Sprecher, ist derzeit auf PCs jedoch noch nicht zu 100% realisierbar.

Durch die Verwendung von natürlich gesprochener Sprache wird der Eingabevorgang beschleunigt, die Einarbeitungszeit verkürzt sich, die Hände werden zur Eingabe nicht benötigt, wodurch sich die Bewegungsfreiheit erhöht. Eingesetzt werden Spracheingabesysteme beispielsweise bei der Post zur Paketumleitung oder für die Lagerbewirtschaftung. Die Zielorte der Pakete werden mit der Spracheingabe angegeben, die Hände bleiben frei zum Bewegen der Pakete. Die Spracheingabe kann auch zur Systemsteuerung verwendet werden. Befehle können über die Spracheingabe ausgewählt werden. Die Systeme können auch kombiniert werden, wie beispielsweise bei der Textverarbeitung der Text über Tastatur eingegeben wird, Schriftattribute, wie Fettdruck werden über die Spracheingabe gesteuert, die Hände können so immer auf der Tastatur liegen bleiben. Durch die Kombination von Spracheingabe und -ausgabe werden neue Anwendungen ermöglicht, insbesondere für Menschen mit besonderen Bedürfnissen eröffnen sich neue Möglichkeiten.

Literatur

Quellen

entnommen aus Pils: Informationsverarbeitung 1, 10. Auflage, 2008 S. 22ff


Zitiervorschlag

Huemer in Höller, Informationsverarbeitung I, Akustische_Eingabe#Überschrift (mussswiki.idb.edu/iv1)