Es sollte beachtet werden, dass es die Parametrisierung einer Rede noch nicht gibt. Sie würde alle Eigenschaften für die optimale Parametrisierung erfüllen, die wir in im vorherigem Abschnitt erwähnt haben.
Daher ist die Forschung auf diesem Gebiet immer noch aktiv und es wurden verschiedene Arten gefunden. Die bekanntesten und besten sind Mel Frequency Cepstral Coefficients (MFCC) und Perceptual Linear Prediction (PLP). MFCC und PLP versuchen, das menschliche Gehör zu simulieren, das auf dem Gebiet der Spracherkennung zu guten Ergebnissen führt. Beide sind in der Lage die Lage, Anzahl und Breite der Formantenfrequenzen zu erfassen, die wahrnehmbar sind. Trotz der Ähnlichkeiten unterscheiden sie sich in den enthaltenen psychoakustischen Prinzipien.
MFCC filtriert das Sprachsignal über Hochpassfilter (Unterdrückungseffekt der Schallabstrahlung aus dem Mund), sie teilt die Sprache in Hamming Fenster und berechnet das Spektrum mit FFT. Anschließend wird das Spektrum nichtlinear modifiziert und zwar nach Mell-Skala (entsprechend der psychoakustischen Wahrnehmung den Frequenzbereichen von Menschen) die das Spektrum gleichmäßig auf Frequenzbänder mit einer Überlappung von 50% aufteilt. In Frequenzbändern wird die Leistung berechnet. Dies simuliert eine psychoakustische Filterbank, siehe Abb. 3.5. In der letzten Phase wird ein Logarithmus und eine diskrete Cosinus-Transformation (DCT) angewendet. Der Logarithmus modifiziert die Intensität des Schalls, wie es von einer Person wahrgenommen wird, und reduziert die Abhängigkeiten zwischen den DCT-Koeffizienten.
PLP Symptome variieren in mehreren Aspekten: Sie verwenden die Bark Frequenzskala, glätten das Spektrum und Teilen ihn in Abständen von 1 Bark. Damit simulieren sie die kritischen Zonen für die menschliche Wahrnehmung (Definition), Gewichtsetzung für gleichmäßige Lautstarke, die Umwandlung von Energie nach Laustarke, Modellkoeffizienten Berechnung und ihre Transformation nach Kepstrum.
PLP ist komplexer als MFCC, enthält mehr psychoakustischen Prinzipien als MFCC, aber unter günstigen Laborbedingungen erreichen beide Methoden ähnliche Ergebnisse.
Rede ist eine Folge von verschiedenen Klängen, so ist es zweckmäßig, den Fortschritt und die Veränderungen im Laufe der Zeit zu bewerten. Das gebräuchlichste Verfahren, das zu tun, ist die Anwendung von Differential- und Beschleunigungskoeffizienten, die aus Hauptmerkmalen berechnet werden.
Dies kann als eine einfache Differenz benachbarter Blöcke erfolgen, aber häufiger wird es als eine Linearkombination von Differenzen in einen größeren Zeitraum bestimmt. Es wurde gezeigt, dass die Energie die Position der Vokale gut lokalisieren kann . Dies erhöht die gesamte Diskriminierungskapazität der Merkmale. Daher wird oft die Energie (normalisiert) zu dem resultierenden Merkmalvektor addiert.