Informationssysteme im Personalmanagement - Architektur - Funktionalität - Anwendung

Stefan Strohmeier

Verlag Vieweg+Teubner (GWV), 2008

ISBN 9783834894755 , 382 Seiten

Format PDF, OL

Kopierschutz Wasserzeichen

Geräte

26.1.1 Sprachanwenderschnittstelle (S. 330-331)

Die Sprachanwenderschnittstelle (in Anlehnung an den Begriff »GUI« auch »Voice User Interface [VUI]«) bezeichnet die (Haupt-) Schnittstelle des Systems zum Anwender, die den einheitlichen Zugriff auf interne oder extern angebundene Informationen, Dienste oder Anwendungen ermöglicht (vgl. Goldmann et al. 2001, 230f.). Nachdem ein Anrufer von der VUI identifiziert wurde, produziert die VUI unter Verwendung der Sprachsynthesekomponente eine natürlichsprachige Eingabeanforderung und wartet auf einen korrespondierenden Input des Anrufers. Dieser Input kann per Tastatursteuerung und/oder Sprachsteuerung erfolgen.

Analog zur Rechnertastatur ermöglicht zunächst die Verwendung der Telefontastatur entsprechende Eingaben in das System. Auf natürlichsprachige Eingabeaufforderungen mit Erläuterung der jeweiligen Tastenbelegung reagiert der Anwender durch Drücken der entsprechenden Taste(n). Dass Standardtastaturen inzwischen neben reinen Ziffern zunehmend auch mit drei bis vier Buchstaben belegt sind, erweitert dabei das Spektrum möglicher Eingaben auch auf den Textbereich. Werden Voice Response- Systeme dabei ausschließlich per Tastatur bedient, entfällt die Notwendigkeit einer Spracherkennungskomponente. Allerdings bleiben die Eingabemöglichkeiten per Tastatur im Vergleich zu einer Sprachsteuerung eingeschränkt. Weiter kann bei reiner Tastatursteuerung nicht von einem vollwertigen Voice Response- System ausgegangen werden, da das System gar nicht auf die Sprache des Anwenders reagiert.

Eine Sprachsteuerung erlaubt dagegen letztlich beliebige natürlichsprachige Ausdrücke zur Bedienung des Systems zu verwenden. Insbesondere die Verwendung »sprechender« bzw. selbster klärender Terminologie führt dabei zu einer Vereinfachung für den Anwender. Das notorisch unkomfortable »Abarbeiten« verzweigter, verbal präsentierter Menühierarchien per Tastendruck entfällt dann, weil ein Anwender durch Sprechen eines entsprechenden Befehls, wie etwa »Kommt-Buchung«, direkt zur entsprechenden Transaktion springen kann. Neben der Eingabe übernimmt das Voice User Interface auch die Übermittlung von Ergebnissen der Sprachsynthesekomponente an den Anwender, die dann regelmäßig in natürlichsprachiger Form erfolgt.

Spracherkennungskomponente

Die Spracherkennungskomponente (»Automatic Speech Recognition [ASR]«, »Speech Recognition Engine«) dient der Umwandlung der gesprochenen Sprache des Anwenders in maschinenlesbare Zeichenketten. Nach dem Umfang der erkennbaren Sprache kann zwischen diskreter und kontinuierlicher Spracherkennung unterschieden werden. Die diskrete Spracherkennung bezieht sich auf die Erkennung einzelner feststehender Worte oder mehrerer feststehender Worte, zwischen denen deutliche Pausen eingehalten werden. Neuere Spracherkennungssysteme richten sich auch auf die kontinuierliche Spracherkennung, die sich auf fließende Sprache richten. Neben der rein technischen Erkennung bilden allerdings die Kontextabhängigkeit der Bedeutung einzelner Begriffe, der möglicherweise sehr große Umfang des Anwender-Wortschatzes sowie die Existenz von Homophonen (gleiche Aussprache von Worten verschiedener Bedeutung) Probleme der kontinuierlichen Spracherkennung.

Zur Vermeidung hoher Fehlerquoten findet daher oft die diskrete, auf einen kleinen Befehlswortschatz beschränkte Spracherkennung Anwendung. Nach dem Bezug zum individuellen Anwender können Spracherkennungskomponenten sprecherunabhängig (statisch) oder sprecherabhängig (dynamisch) ausgestaltet sein (vgl. Goldmann et al. 2001, 231). Statische Spracherkennungskomponenten verfügen über einen feststehenden nicht veränderbaren Wortschatz, der für alle Anwender gleich ist. Dynamische Spracherkennungskomponenten erlauben es Anwendern und/oder Systemadministratoren dagegen, die Spracherkennung an individuelle Bedarfe anzupassen, indem das System beispielsweise auf individuelle Befehle und/oder benutzerspezifische Aussprachen hin »trainiert« werden kann. Im letzteren Fall steht dem Vorteil einer individuellen Anpassbarkeit und einer i.d.R. besseren Erkennungsquote