2 Identificación del hablante
2.3 Extracción de características

Debido a las características variables del habla y a muchas condiciones adversas mencionadas en el texto anterior, ha habido muchas técnicas de extracción inventadas a través del tiempo. Básicamente, una buena caracterización del habla debe ser:

Como hay muchas características diferentes de hablantes que tienen diferentes significados físicos, distinguimos 3 tipos de características (desde el punto de vista de reconocimiento de voz):

A nivel acústico, las características asociadas a la voz en espacios de tiempo de corta duración están relacionadas con las características físicas del aparato vocal. Estos métodos representan principalmente formas espectrales modificadas (envolvente) extraídas de intervalos que van de 10 ms a 30 ms. Además, aplican diferentes principios psicoacústicos para aumentar su robustez. En la actualidad, los más comunes son Mel frequency cepstral coefficients (MFCC), Perceptual Linear Prediction (PLP), o Cepstral Linear Prediction coefficients (CLPC). MFCC y PLP intentan capturar envolventes espectrales modificadas siguiendo algunos principios psicoacústicos como bandas críticas, la percepción humana de las frecuencias, la curva de igual sonoridad, la conversión de las intensidades de volumen, etc.

Como son capaces de extraer envolventes espectrales, preservan y hacen hincapié en la ubicación, anchuras y formas de las frecuencias que son vitales para la percepción de las diferencias entre los sonidos. Así que son muy importantes para los sistemas de reconocimiento de voz. Incluso juegan un papel importante en el problema de reconocimiento del hablante. Se puede explicar el modo en que son capaces de capturar ligeras diferencias en localizaciones y formas de las frecuencias que varían de una persona otra como las diferencias observadas entre teléfonos particulares. La caracterización CLPC se basa en la modelización del mecanismo de producción del habla en lugar del proceso de la audiencia y la percepción. Finalmente, para abarcar la dinámica de las características acústicas en el tiempo, se pueden evaluar coeficientes diferenciales y de aceleración. A medida que se cubren intervalos de tiempo más largos, se pueden detectar diferencias en la co-articulación que son específicas para un hablante particular. El nivel prosódico se centra más en el estilo de hablar, el estado de ánimo de un hablante, hábitos de habla específicos, las condiciones físicas y de salud, etc. Obviamente esta información sólo se detecta y se puede extraer utilizando intervalos de tiempo más largos que se extienden a varios segundos de discurso. Las características favoritas para este nivel son: la dinámica del habla, el ritmo del habla, la modulación de la frecuencia fundamental, tipo de pausas que se hizo al hablar, etc. Sin embargo, estas características son más difíciles de medir y calificar que las de nivel acústico. Así, hay varios métodos para extraer y evaluarlos durante intervalos de tiempo apropiados. Los enfoques más comunes son la función de autocorrelación, Average Magnitude Difference Function (AMDF), el filtrado inverso para la detección de la frecuencia fundamental, energía para la dinámica del habla y así sucesivamente. Sin embargo, hay muchas modificaciones tanto de autocorrelación como de AMDF.