En primer lugar hay que señalar que no hay ninguna característica que cumple completamente con todas las propiedades mencionadas anteriormente. Por tanto, la investigación está todavía activa y muchas características acústicas del habla han sido definidas, pero las más utilizadas son Mel frequency cepstral coefficients (MFCC) y Perceptual Linear Prediction (PLP). PLP y MFCC tratan de simular el sistema auditivo humano proporcionando un buen rendimiento en las tareas de reconocimiento de voz. Ambas características son capaces de capturar las posiciones y anchuras de formantes que son más perceptibles. A pesar de las similitudes obvias, difieren en los fenómenos psicoacústicos que abarcan.
MFCC aplica filtro de paso alto (supresión de la radiación de los labios), segmentación de voz por medio de una ventana de Hamming seguida por una conversión a espectro por DFT. A continuación, el espectro es deformado no linealmente en la escala Mel (escala psicoacústica que refleja la percepción humana) sobre la que se colocan ventanas triangulares, espaciadas por igual con un 50% de superposición para simular un banco de filtros (véase la Fig. 3.5). En la etapa final de cálculo, se aplican transformaciones logarítmicas y la transformada discreta del coseno (DCT). Por otra parte DCT suprime la dependencia entre las características.
Las características PLP difieren de las de MFCC en varios aspectos: el uso de la escala Bark, el suavizado y el muestreo del espectro bark en intervalos de 1 bark, ponderación de igual sonoridad, transformación de energías en sonoridad, cálculo de un modelo lineal de producción del habla, y su transformación en un cepstrum.
PLP aplica un procesado psicoacústico más complejo que MFCC. Sin embargo, por lo general ambos producen resultados similares en el reconocimiento de voz y en condiciones de laboratorio.
El habla es básicamente una secuencia particular de sonidos diferentes por lo que tiene sentido medir y evaluar las transiciones adecuadas entre ellos. El método más común de hacerlo es a través de coeficientes delta y de aceleración a partir de las características acústicas en el tiempo. Éstos se calculan como diferencias entre dos tramas consecutivas o en el caso más general como una combinación lineal de las diferencias que cubren un período de tiempo más amplio. Además, se ha demostrado que la envolvente de la energía puede localizar la posición de las vocales de alta energía y las consonantes sordas de baja energía que aumenta la información general de discriminación. Así, la característica de energía (normalizada) se añade también a menudo a las características acústicas.