Die Verarbeitung von Audioinformationen ähnelt jener von Bildinformationen. Diese Aufgabe übernimmt in der Regel die Soundkarte eines Computers, wobei bei der Eingabe die analoge Information in digitale umgewandelt wird und bei der Ausgabe eine Rückumwandlung stattfindet.

Schwerpunkt der Audioeingabe ist die Spracheingabe. Manche Textverarbeitungs- und E-Mailprogramme bieten die Möglichkeit, per Mikrofon gesprochene Kommentare hinzuzufü-gen. Die Sprachnotizen können jederzeit wieder abgerufen werden.

Der Mensch wertet gesprochene Sprache auf mehreren Ebenen aus, wie Sprachsignal, Wort, Satz, Tonfall, Tonhöhe, usw.; sehr viele für das Verstehen nicht unmittelbar not¬wendige Informationen werden dabei mitgeliefert. Für die maschinelle Bearbeitung erweisen sich diese (für unser Ohr vertrauten) Besonderheiten der natürlich gesprochenen Sprache als Schwierig-keiten zur weiteren Bearbeitung.

Teilgebiete

Die Bearbeitung von natürlich gesprochener Sprache teilt sich in zwei Teilgebiete:

Spracherkennung

Dabei soll festgestellt werden, was gesprochen wur¬de. Bestimmte Muster müssen durch Vergleich erkannt und verarbeitet werden. Dazu gibt es Systeme zum Erkennen isoliert gesprochener Worte (Einzelworterkennung) und zum Erkennen fließender Rede. Systeme zur Sprachanalyse und zum Sprachverstehen, die analysieren und Schlüsse ziehen, worüber gesprochen wurde, zählen zum Bereich der Künstlichen Intelligenz.

Sprechererkennung

Dabei geht es um die Ermittlung, wer gesprochen hat. Anhand des Klangbildes der Sprache (das einzigartig wie der Fin¬gerabdruck eines Menschen ist) wird überprüft, wer der Sprecher ist. Eingesetzt wird die Sprecherverifikation für Zugangskontrollen bei Banken, Rechenzentren, usw.