3 Kommunikation über Sprachbefehle
3.2 Spracherkennungsmethoden

Nach der Parametrisierung ist die Rede durch eine Folge von Merkmalvektoren gegeben, z. B. MFCC. Grob gesprochen, der Erkennungsprozess nimmt Muster oder Modelle der bekannten Sprache (Phoneme, Silben usw.) und vergleicht sie mit der unbekannten Rede. Dann werden die Proben oder Modelle mit der größten Übereinstimmung als erkannte Wörter erklärt.

Aufgrund der spezifischen Merkmale der Sprache (wie zum Beispiel Verschiedene Reden, die sich in der Länge sowie der Frequenz unterscheiden) ändert sich die Länge der Variation unregelmäßig innerhalb des Wortes. Bestimmte Teile könnten kürzer oder länger sein. Einfache lineare Dehnung (lineare Interpolation) oder Verkürzung bringt nicht den gewünschten Effekt. Die resultierende Rede wird als eine Kette von einzelnen Teilen (Modellen) der Sprache bestimmt, die einander folgen. Diese besonderen Eigenschaften führten zu Erkennungsmethoden (Mustererkennung), die für die Rede geeignet sind. Die bekanntesten von ihnen sind das Dynamic Time Warping (DTW) und die Hidden-Markov-Modelle (HMM). Natürlich gibt es viele Modifikationen, oder auch Kombinationen für verschiedene Anwendung sind geeignet. Im nächsten Abschnitt werden kurz diese zwei grundlegenden Methoden beschrieben, d.h. DTW und HMM.

DTW

DTW steht für die Dynamic Time Warping Methode, die akustisch zwei Merkmalvektoren mit verschiedener Länge vergleicht. Sie basiert auf nichtlinearem Zeitbiegeindex von Referenzsequenz und unbekannten Sequenz, bewahrt die Struktur der Sprache und versucht den kleinstmöglichen Abstand zwischen Sequenzen zu erzielen. Dies führt zu einer nichtlinearen Kompensation von Differenzen zwischen den Längen der beiden Sequenzen.

Die logische Bedingung ist, dass die Start- und Zielvektoren der zwei Sequenzen aneinander ausgerichtet sind. Dies erfordert die Verwendung des Algorithmus zur Erkennung von Anfang und Ende der Rede, die selbst eine relativ komplexe Aufgabe sein kann. Natürlich gibt es Änderungen, die diese strenge Bedingung nicht exakt erfordern.

Kurz gesagt, soll dieses Verfahren eine Zuordnung zwischen den zwei Sequenzen finden, so, dass jedem Vektor der ersten Sequenz einen Vektor aus der zweiten Sequenz zugewiesen werden kann. Dies führt zu dem Ergebnis, dass einige Vektoren aus einer Sequenz auf verschiedene Vektoren der zweiten Sequenz mehrmals abgebildet werden können. Das gilt auch umgekehrt. Natürlich hat dieser Prozess einige grundlegendende logische Einschränkungen, vor allem: Beginn und Ende der Vektoren einer Sequenz müssen dem Partner Vektor der zweiten Sequenz zugeordnet werden, die Biegefunktion darf nicht sinkend sein (die Reihenfolge der Vektoren bleibt unverändert) und es bestimmt die maximale Differenz in der Position, die noch überwunden werden kann.

Bei der Berechnung der DTW werden zwei Matrizen (Matrix der lokalen und globalen Abstände) verwendet. In der Matrix der lokalen Abstände befinden sich akustische Entfernungen zwischen Merkmalvektoren von Referenzsignalen und von unbekannten Redesignalen. Die globale Matrix wird verwendet, um den akkumulierten minimalen Abstand zu berechnen und den Weg zwischen den zwei Sequenzen zu finden, also für jedes Element der globalen Matrix existiert ein Mindestabstand und einen Pfad zum Startpunkt der Matrix (initiale Vektoren von beiden Sequenzen) der sich unten links befindet.

Diese Situation ist in Abb. 3.6 erklärt. Natürlich gibt es festgelegte Regeln, wie man von einem Punkt der Matrix der globalen Abstände zu einem anderen Punkt kommen kann, zum Beispiel darf der Pfad nicht sinken. Wenn der Prozess das Ende (obere rechte Ecke) erreicht, endet der Vergleich und die kürzeste Distanz ist gefunden. Mit der Rückverfolgung kann man bestimmen wie der Minimalpfad aussieht. Dieser Vorgang wird für jedes Wort in dem Wörterbuch durchgeführt und das Wort, das den kleinsten Abstand zu dem unbekannten hat, erklärt die Rede als erkannt. Dieses Verfahren ist praktisch für isolierte Worterkennungsaufgaben am besten geeignet.

image
Abb. 3.6. Matrix der lokalen und globalen Abstände, Optimal Pfad und globale Einschränkungen.

DTW hatte große Bedeutung für die Spracherkennung vor allem für Probleme von isolierten Wörtern unabhängig von dem Sprechenden. Als sich die Anforderungen erhöhten (Sprecherunabhängigkeit, fließende Sprache) hat DTW seine wichtige Position verloren und wurde durch HMM-Methode ersetzt.

Hidden Markov Modelle (HMM)

Hidden-Markov-Modelle, gehören zu statistischen Modellierungstechniken die oft in der Spracherkennung verwendet werden. Diese Techniken erfüllen die Anforderungen an die Unabhängigkeit vom Sprechenden und eine einfache Verbindung der einzelnen Modelle (z. B. Phoneme) nach größeren Einheiten um kontinuierliche Sprache zu beschreiben. Außerdem ist dieses Prinzip recht gut mathematisch beschreibend.

Für jede ausgewählte Spracheinheit (Phonem, Silbe, Wort, ...) wird ein HMM-Modell mit geeigneter Struktur geschaffen. Üblicherweise haben die Modelle der Sprachgrundteile wie Phoneme die gleiche Struktur und unterscheiden sich nur durch ihre freien Parametereinstellungen. Im Trainingsprozess werden diese freien Parameter so eingestellt, dass basierend auf einer Trainingssprach-Datenbank, alle statistisch signifikante Unterschiede in der Sprache entdeckt werden. Einzelne Reden werden so beschrieben, dass es offensichtlich ist, welche Folgen von Wörtern sie beinhalten. Am häufigsten sind die Modelle so eingepasst, dass die Trainings-Proben die höchste Wahrscheinlichkeit erreichen. Dieses Verfahren wird Training mit maximaler Wahrscheinlichkeit genannt. Es werden auch andere Kriterien verwendet die noch bessere Ergebnisse erzielen können, wie der größte Abstand zwischen den guten und schlechten Modellen, Fehlerminimierung (solche Verfahren werden Unterscheidungstraining genannt).

Jedes Modell besteht aus einer Anzahl von Zuständen, die ordnungsgemäß miteinander verbunden sind. Jeder Verbindung wird eine Übergangswahrscheinlichkeit (p) zugewiesen. Es gibt auch die Anfangswahrscheinlichkeit (π) die ausdrückt, dass sich das Modell gleich zu Beginn in diesem Zustand befindet. Dann kann ein solches Modell die Wahrscheinlichkeit des Auftretens einer Folge von Zuständen S1, S2, S3, ... SN so beschreiben:

(001)

Weiterhin wird die zusätzliche Wahrscheinlichkeit zu jedem Zustand gegeben, welche eine Wahrscheinlichkeit des Auftretens des Merkmalvektor X im Zustand S, also P(X/S) beschreibt. Damit ist die Verbindung zwischen den Zuständen und Vektoren der Sprachmerkmale bestimmt. Dann kann die Wahrscheinlichkeit der Beobachtungssequenz von Merkmalen X1, ...., XM und Zustände S1, S2, .. SN einfach ausgedrückt werden als:

(002)

Beispiel des 4-Zustand Links-Rechts-HMM-Modell ist in Abb. 3.7 gezeigt.

image
Abb. 3.7. 4-Zustand Links-Rechts-HMM-Modell.

Dann werden in dem Erkennungsprozess die Wahrscheinlichkeiten für die unbekannten Folgen von Merkmalen auf allen HMM Modellen in einem Wörterbuch (das Ergebnis der Konkatenation der Grund HMM-Modelle) berechnet und man wählt das Modell aus, das die höchste Wahrscheinlichkeit erreicht. Dieser Prozess ist schematisch in Abb. 3.8 dargestellt.

image
Abb. 3.8. Prozess der Spracherkennung mit HMM

Derzeitige fortgeschrittene Systeme, die den kleinsten Wort Fehler (WER) auf Basis von HMM erreichen, benutzen als Strategie für das Training: maximale gegenseitige Information (MMI), die minimalen Klassifikationsfehler (MCE) usw. Es werden auch Hybridverbindungen von HMM-Systemen und anderen Techniken wie Klassifikationssystemen insbesondere mit Support-Vektoren und tiefe neuronale Netze verwendet. Diese stellen nun die ultimative Spracherkennung dar und erreichen den niedrigsten WER für komplexe Aufgaben.

Nähere Informationen über die Spracherkennung und ihre Methoden können beispielsweise in [7] gefunden werden.