Aufgrund der zuvor erwähnten variablen Spracheigenschaften und vieler ungünstiger Bedingungen wurden nach und nach zahlreiche Extraktionstechniken erfunden. Grundsätzlich muss ein gutes Sprachmerkmal:
Da es sehr viele verschiedene Sprecher-spezifischen Funktionen gibt, die unterschiedliche physikalische Bedeutungen haben, unterscheiden wir drei Arten von Funktionen (aus der Sicht des Redners):
Auf der akustischen Ebene werden kurzerzeitige Merkmale gesammelt, die mit den physikalischen Eigenschaft des Stimmapparates zu tun haben. Diese Methoden repräsentieren im Wesentlichen modifizierte spektrale (Umschlag) Formen, die aus Intervallen von 10 ms bis 30 ms extrahiert werden. Desweiteren, benutzen sie verschiedene psychoakustische Prinzipien des menschlichen Hörsystems um ihre Robustheit zu erhöhen. Derzeit sind es häufig die Mel Frequenz Cepstralkoeffizienten (MFCC), Perceptual Linear Prediction (PLP) oder Cepstral Linearprädiktionskoeffizienten (CLPC) Funktionen. MFCC und PLP versuchen, modifizierte spektrale Einhüllenden nach einigen psychoakustischen Prinzipien wie kritische Bänder, die menschliche Wahrnehmung von Frequenzen, Kurve gleicher Lautstärke, Umwandlung von Intensitäten nach Lautstärke, zu erfassen. Da sie in der Lage sind, die Spektraleinhüllkurven zu extrahieren, erhalten und betonen sie die Lage, Breiten und Formen der Formantenfrequenzen, die entscheidend für die Wahrnehmung der Unterschiede zwischen den Tönen sind. Damit sind sie für die Spracherkennungssysteme sehr wichtig. Sie spielen auch noch eine bedeutende Rolle für das Sprecher-Erkennungsproblem. Damit kann erklärt werden, dass sie in der Lage sind, die geringen Unterschiede in Positionen und Formen der Formantenfrequenzen zu erfassen, die von Person zu Person variieren. Entsprechende Funktionen sind in bestimmten Telefonen bereits vorhanden. CLPC Funktionen basieren auf der Modellierung des Spracherzeugungsmechanismus anstatt des Hör- und Wahrnehmungsprozesses. Um auch dynamische akustische Eigenschaften zeitlich zu erfassen, können Differenz- und Beschleunigungs-Koeffizienten abgeleitet werden. Weil sie längere Zeitintervalle abdecken, können sie die Unterschiede in Koartikulation detektieren, die spezifisch für einen bestimmten Sprecher sind.
Die prosodische Ebene konzentriert sich vor allem auf die Art des Sprechens, die Stimmung eines Redners, bestimmte Sprechgewohnheiten, körperliche und gesundheitliche Bedingungen usw. Offensichtlich ist diese Information lokalisiert und kann nur in größeren Zeitabständen, die mehrere Sekunden dauern, von Sprache extrahiert werden. Die beliebtesten Merkmale dieser Ebene sind: Rhythmus, Sprachdynamik, Tempo, Modulation der Grundfrequenz, Art der Pausen beim Sprechen, etc. Jedoch sind diese Merkmale schwieriger zu messen und zu bewerten als die auf der akustischen Ebene. Es gibt aber mehrere Methoden für Extraktion und Bewertung über dem richtigen Zeitintervall. Die häufigsten Ansätze sind die Autokorrelationsfunktion, Average Magnitude Difference Function (AMDF), inverse Filterung für die Grundfrequenz-Erfassung, Energie für die Sprachdynamik und so weiter. Allerdings gibt es viele Modifikationen sowohl für Autokorrelation als auch AMDF.