2 Identificación del hablante
2.2 Propiedades de las señales de voz

Las señales de voz genuinas son creadas y producidas por los seres humanos; más precisamente por su aparato vocal y sus cerebros que son únicos para cada individuo. Ambas fases naturalmente dejan sus marcas en la señal audible, y por lo tanto el habla puede considerarse como una señal biométrica.

A pesar de que el objetivo principal de las señales de voz es transmitir la información léxica que contienen. Excepto la parte léxica, que está más o menos dada por la secuencia de diferentes posiciones de los órganos vocales, la voz contiene información biométrica sobre cualquier hablante representada principalmente por diferentes formas, tamaños, pesos y las características de los órganos vocales, el estado de ánimo real de una persona (la entonación, el ritmo del habla, estrés, etc.), y el fondo social de una persona (el dialecto, vocabulario, etc.).

Sin embargo, estas diferentes piezas de información se codifican en la señal de voz mediante una transformación difícil que se cree que es irreversible y no se conoce. Por lo tanto, extraer sólo la información que es necesaria para una tarea en particular (léxico, identificación, estado de ánimo, estado de salud, ...) es un problema difícil. Además, el habla presenta gran variabilidad en función del hablante, que viene dada por el estado de ánimo, la salud y el estado físico u otras condiciones. Finalmente la forma acústica de una señal de voz puede verse seriamente alterada por las diferencias en los dispositivos de grabación, sala donde se registró y si existe ruido de fondo.

Las modificaciones del habla que no están relacionados con el hablante (dispositivos, habitación, etc.) se denominan variabilidad de la sesión. Este aspecto crea problemas y debe ser tratado en consecuencia repitiendo las medidas en una situación en la que las condiciones de no coincidan con las de sesiones anteriores.