Home Archiv Index

Grundsätzliche Probleme: Raumklang, Artikulierung, Sprachraum

Die gewohnte Umgebung
Es ist wie bei einem Menschen. Reist man diesen aus seiner gewohnten Umgebung heraus, das heißt, wohnt er plötzlich in Hamburg statt in München, stellt man seine Nahrung um, etc., dann wird sich dieser Mensch auch sehr schnell verändern: er wird plötzlich anders reagieren, auf das, was man zu ihm sagt, auf das, was ihm bisher lieb und teuer war, besonders wenn es sich um einen älteren Menschen handelt.

Ähnlich ist es auch mit der Software für Spracherkennung. Auch wenn die Software speziell auf eine Hardware abgestimmt wurde, reagiert die Software in einer fremden Büroumgebung anders als dort, wo sie trainiert wurde. Dies gilt grundsätzlich für jede Software im Bereich der Spracherkennung, die heute auf dem Markt zu finden ist und ist somit herstellerunabhängig.

Die kritischen Einflußfaktoren
Drei Dinge sind es, die das Ergebnis der Spracherfassung kausal beeinflussen:

    1. Der Klang der eigenen Stimme, der sich zusammen mit den Räumen,

    2. in denen gesprochen wird, ebenfalls verändert (Raumklang)
    3. Die deutliche - und etwas dem System angepaßte - Aussprache (Artikulierung)
    4. Der dem System bekannte und oft benutzte aktive Wortschatz (Sprachraum).
Der Raumklang ist eine Komponente, die nicht abrupt geändert werden kann. In einem Vortragsraum hallt es eben mehr als in einem Büro, in dem Schränke stehen, Rechner laufen und vielleicht Drucker arbeiten. Bei einer Präsentation außerhalb der gewohnten Umgebung des Vortragenden ist dies der größte Einflußfaktor für schlechte Erkennungsergebnisse, der zudem am Schlechtesten zu beeinflussen ist.

So wie der Vortragende bei sich an seinem eigenen Arbeitsplatz spricht (wenn er in den PC diktiert), so sollte er auch bei der Präsentation vor Kunden sprechen. Das ist nicht immer einfach, eine gewisse Grundnervosität ist schließlich bei jedem Vortrag vorhanden und beeinflußt den Klang der Stimme und somit ebenfalls das Ergebnis negativ (wenn auch nur minimal).

Es ist wichtig, daß bei dem neuen Anwender gerade am Anfang - also in den ersten Phasen des Trainings - die Aussprache (Artikulierung) überprüft und trainiert werden muß. Sind die Sprachdateien des neuen Anwenders erst einmal falsch oder zumindest schlecht angelegt, wird sich das für die Zukunft rächen: die Fehlerrate nimmt in dem Maße zu, wie der neue Anwender versucht, nach den schlechten Erkennungsergebnissen nunmehr besser, heißt deutlicher zu sprechen. Ein widersinniger Effekt, der erklärt, warum mit der neuen Spracherkennungstechnik kaum ein Anwender vernünftige Ergebnisse erzielt.

Schlußendlich muß dem System der Sprachraum bekannt sein, in dem sich der Vortragende/ Diktierende bewegt. Das läßt sich leicht nachprüfen, wenn dem System Artikel eingesprochen werden, die sich auf der Titelseite einer Tageszeitung oder im Wirtschaftsteil befinden. Obwohl die einzelnen Artikel dem System unbekannt sind, kennt es doch die meisten Worte; das fängt an bei den Namen bekannter Politiker, häufig benutzten Städte- oder Ländernamen und setzt sich in Schlagworten aus der aktuellen Tagespolitik fort.

Die schlechtesten Erkennungsergebnisse erzielt man mit den für das System noch fremden Texten des Kunden. Gerade das aber verlangt nach einer entsprechenden Beratung und einem persönlichen Training des neuen Anwenders, damit schon nach kurzer Zeit gute Erkennungsergebnisse erzielt werden können. Von der Feinabstimmung der Hardware ganz zu schweigen.

Die besten Erkennungsergebnisse erzielt man jedoch mit Texten aus dem ureigenen Sprachraum. Hier sind Diktierergebnisse bis zu 1000 Anschläge bzw. Zeichen pro Minute durchaus möglich. Das macht zwar keinen Sinn, weil ein Mensch diese Geschwindigkeit höchstens zwei Minuten durchhält - aber es ist technisch und vom System her machbar.


 


© ADOLPH Verlag GmbH - Letztes Update 03.05.2004