Echte Sprachsignale werden durch Menschen erzeugt, genauer gesagt durch ihren Stimmapparat und das Gehirn, die für jede Person einzigartig sind. Beide hinterlassen ihre Spuren in dem akustischen Signal, und daher kann die Sprache als biometrisches Signal betrachtet werden.
Das Hauptziel der Sprachsignale ist es, die enthaltene lexikalische Information zu vermitteln. Mit Ausnahme des lexikalischen Teiles, der durch die Abfolge der verschiedenen Positionen der Stimmorgane gegeben ist, repräsentiert die biometrische Information über einen Redner hauptsächlich die unterschiedlichen Formen, Größen, Gewichte und Zähigkeit der Stimmorgane sowie die aktuelle Stimmung einer Person (Intonation, Sprachtempo, Stress usw.) und ihren sozialen Hintergrund (Dialekt, Wortschatz, etc.).
Allerdings sind diese verschiedenen Informationen in einem Sprachsignal durch eine schwierige Transformation kodiert, die als irreversibel und nicht bekannt zu betrachten ist. So ist es ein großes Problem, nur die Informationen, die für eine bestimmte Aufgabe (lexikalische, Identifikation, Stimmung, Gesundheitszustand, ...) benötigt werden, zu extrahieren. Jedes Sprachsignal zeigt große Variabilität für einzelne Personen abhängig von ihrer aktuellen Stimmung, Gesundheit und körperlichem Zustand oder anderen Bedingungen. Die akustische Form eines Sprachsignals kann durch Unterschiede in den Aufzeichnungsgeräten, Raumakustik und Hintergrundrauschen beeinflusst werden.
Die Modifikationen von Sprache, die nicht auf den Einfluss eines Lautsprechers (Geräte, Raum, etc.) beruhen, werden Session Variabilität genannt. Dieser Aspekt führt zu großen Problemen und muss in Situationen behandelt werden, wo die Ausgangsbedingungen nicht mit den aktuellen Bedingungen korrespondieren.