Akustische Eingabe: Unterschied zwischen den Versionen

Aus IV1
Die Seite wurde neu angelegt: „{{Kurzform|Duis autem vel eum iriure dolor in hendrerit in vulputate velit esse molestie consequat, vel illum dolore eu feugiat nulla facilisis at vero eros et ac...“
 
Keine Bearbeitungszusammenfassung
Zeile 1: Zeile 1:
{{Kurzform|Duis autem vel eum iriure dolor in hendrerit in vulputate velit esse molestie consequat, vel illum dolore eu feugiat nulla facilisis at vero eros et accumsan et iusto odio dignissim qui blandit praesent luptatum zzril delenit augue duis dolore te feugait nulla facilisi. Lorem ipsum dolor sit amet, consectetuer adipiscing elit, sed diam nonummy nibh euismod tincidunt ut laoreet dolore magna aliquam erat volutpat.}}
{{Kurzform|Die Verarbeitung von Audioinformationen ähnelt jener von Bildinformationen. Diese Aufgabe übernimmt in der Regel ein eigener „Soundchip“ eines Computers, wobei bei der Eingabe die analoge Information in digitale umgewandelt wird und bei der Ausgabe eine Rückumwandlung stattfindet. Schwerpunkt der Audioeingabe ist die Spracheingabe.}}


__TOC__


__TOC__


== 2.4. Akustische Eingabe ==
Die Verarbeitung von Audioinformationen ähnelt jener von Bildinformationen. Diese Aufgabe übernimmt in der Regel ein eigener „Soundchip“ eines Computers, wobei bei der Eingabe die analoge Information in digitale umgewandelt wird und bei der Ausgabe eine Rückumwandlung stattfindet. Schwerpunkt der Audioeingabe ist die Spracheingabe.
Der Mensch wertet gesprochene Sprache auf mehreren Ebenen aus, wie Sprachsignal, Wort, Satz, Tonfall, Tonhöhe, usw.; sehr viele für das Verstehen nicht unmittelbar notwendige Informationen werden dabei mitgeliefert. Für die maschinelle Bearbeitung erweisen sich diese (für unser Ohr vertrauten) Besonderheiten der natürlich gesprochenen Sprache als Probleme bei der weiteren Bearbeitung.


== Überschrift 1 ==
Die Bearbeitung von natürlich gesprochener Sprache teilt sich in zwei Teilgebiete:


Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet.  <ref>Johann Höller, Robert Zlabinger, und Manfred Pils, Internet und Intranet: Herausforderung E-Business, 3., Auflage 2003</ref> 
* Spracherkennung: Dabei soll festgestellt werden, was gesprochen wurde. Bestimmte Muster müssen durch Vergleich erkannt und verarbeitet werden. Dazu gibt es Systeme zum Erkennen isoliert gesprochener Worte (Einzelworterkennung) und zum Erkennen fließender Rede. Systeme zur Sprachanalyse und zum Sprachverstehen, die analysieren und Schlüsse ziehen, worüber gesprochen wurde, zählen zum Bereich der Künstlichen Intelligenz.


Duis autem vel eum iriure dolor in hendrerit in vulputate velit esse molestie consequat, vel illum dolore eu feugiat nulla facilisis at vero eros et accumsan et iusto odio dignissim qui blandit praesent luptatum zzril delenit augue duis dolore te feugait nulla facilisi. Lorem ipsum dolor sit amet, consectetuer adipiscing elit, sed diam nonummy nibh euismod tincidunt ut laoreet dolore magna aliquam erat volutpat.   <ref>Johann Höller, Robert Zlabinger, und Manfred Pils, Internet und Intranet: Herausforderung E-Business, 3., Auflage 2003</ref>
* Sprechererkennung Dabei geht es um die Ermittlung, wer gesprochen hat. Anhand des Klangbildes der Sprache (das einzigartig wie der Fingerabdruck eines Menschen ist) wird überprüft, wer der Sprecher ist. Eingesetzt wird die Sprecherverifikation für Zugangskontrollen bei Banken, Rechenzentren, usw.  


== Überschrift 2 ==
Mit der immer größeren Rechenleistung moderner PC-Systeme steigen auch die Trefferraten bei der Spracherkennung. Dennoch soll der Sprecher die Wörter langsam und exakt auszusprechen. Nach einer Trainingsphase erreichen die Systeme mittlerweile schon sehr hohe Trefferraten. Das Erkennen von fließend gesprochener Sprache, unabhängig vom Sprecher, ist derzeit auf PCs noch nicht zu 100% realisierbar.


Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet.<ref>http://www.idv.edu/</ref> 
Durch die Verwendung von natürlich gesprochener Sprache wird der Eingabevorgang beschleunigt, die Einarbeitungszeit verkürzt sich, die Hände werden zur Eingabe nicht benötigt, die Bewegungsfreiheit erhöht sich dadurch. Eingesetzt werden Spracheingabesysteme beispielsweise bei der Post zur Paketumleitung oder für die Lagerbewirtschaftung. Die Zielorte der Pakete werden mit der Spracheingabe angegeben, die Hände bleiben frei zum Bewegen der Pakete.
Die Spracheingabe kann auch zur Systemsteuerung verwendet werden. Befehle können über die Spracheingabe ausgewählt werden. Die Systeme können auch kombiniert werden, wie beispielsweise bei der Textverarbeitung der Text über Tastatur eingegeben wird, Schriftattribute, wie Fettdruck werden über die Spracheingabe gesteuert, die Hände können so immer auf der Tastatur liegen bleiben.
Durch die Kombination von Spracheingabe und -ausgabe werden neue Anwendungen ermöglicht, insbesondere für Menschen mit Behinderung eröffnen sich neue Möglichkeiten.


Duis autem vel eum iriure dolor in hendrerit in vulputate velit esse molestie consequat, vel illum dolore eu feugiat nulla facilisis at vero eros et accumsan et iusto odio dignissim qui blandit praesent luptatum zzril delenit augue duis dolore te feugait nulla facilisi. Lorem ipsum dolor sit amet, consectetuer adipiscing elit, sed diam nonummy nibh euismod tincidunt ut laoreet dolore magna aliquam erat volutpat.


== Literatur ==
== Literatur ==

Version vom 14. August 2009, 16:41 Uhr

Die Verarbeitung von Audioinformationen ähnelt jener von Bildinformationen. Diese Aufgabe übernimmt in der Regel ein eigener „Soundchip“ eines Computers, wobei bei der Eingabe die analoge Information in digitale umgewandelt wird und bei der Ausgabe eine Rückumwandlung stattfindet. Schwerpunkt der Audioeingabe ist die Spracheingabe.


2.4. Akustische Eingabe

Die Verarbeitung von Audioinformationen ähnelt jener von Bildinformationen. Diese Aufgabe übernimmt in der Regel ein eigener „Soundchip“ eines Computers, wobei bei der Eingabe die analoge Information in digitale umgewandelt wird und bei der Ausgabe eine Rückumwandlung stattfindet. Schwerpunkt der Audioeingabe ist die Spracheingabe. Der Mensch wertet gesprochene Sprache auf mehreren Ebenen aus, wie Sprachsignal, Wort, Satz, Tonfall, Tonhöhe, usw.; sehr viele für das Verstehen nicht unmittelbar notwendige Informationen werden dabei mitgeliefert. Für die maschinelle Bearbeitung erweisen sich diese (für unser Ohr vertrauten) Besonderheiten der natürlich gesprochenen Sprache als Probleme bei der weiteren Bearbeitung.

Die Bearbeitung von natürlich gesprochener Sprache teilt sich in zwei Teilgebiete:

  • Spracherkennung: Dabei soll festgestellt werden, was gesprochen wurde. Bestimmte Muster müssen durch Vergleich erkannt und verarbeitet werden. Dazu gibt es Systeme zum Erkennen isoliert gesprochener Worte (Einzelworterkennung) und zum Erkennen fließender Rede. Systeme zur Sprachanalyse und zum Sprachverstehen, die analysieren und Schlüsse ziehen, worüber gesprochen wurde, zählen zum Bereich der Künstlichen Intelligenz.
  • Sprechererkennung Dabei geht es um die Ermittlung, wer gesprochen hat. Anhand des Klangbildes der Sprache (das einzigartig wie der Fingerabdruck eines Menschen ist) wird überprüft, wer der Sprecher ist. Eingesetzt wird die Sprecherverifikation für Zugangskontrollen bei Banken, Rechenzentren, usw.

Mit der immer größeren Rechenleistung moderner PC-Systeme steigen auch die Trefferraten bei der Spracherkennung. Dennoch soll der Sprecher die Wörter langsam und exakt auszusprechen. Nach einer Trainingsphase erreichen die Systeme mittlerweile schon sehr hohe Trefferraten. Das Erkennen von fließend gesprochener Sprache, unabhängig vom Sprecher, ist derzeit auf PCs noch nicht zu 100% realisierbar.

Durch die Verwendung von natürlich gesprochener Sprache wird der Eingabevorgang beschleunigt, die Einarbeitungszeit verkürzt sich, die Hände werden zur Eingabe nicht benötigt, die Bewegungsfreiheit erhöht sich dadurch. Eingesetzt werden Spracheingabesysteme beispielsweise bei der Post zur Paketumleitung oder für die Lagerbewirtschaftung. Die Zielorte der Pakete werden mit der Spracheingabe angegeben, die Hände bleiben frei zum Bewegen der Pakete. Die Spracheingabe kann auch zur Systemsteuerung verwendet werden. Befehle können über die Spracheingabe ausgewählt werden. Die Systeme können auch kombiniert werden, wie beispielsweise bei der Textverarbeitung der Text über Tastatur eingegeben wird, Schriftattribute, wie Fettdruck werden über die Spracheingabe gesteuert, die Hände können so immer auf der Tastatur liegen bleiben. Durch die Kombination von Spracheingabe und -ausgabe werden neue Anwendungen ermöglicht, insbesondere für Menschen mit Behinderung eröffnen sich neue Möglichkeiten.


Literatur

Quellen


Weiterführende Links