3 Comunicación por comandos de voz
3.2 Métodos de reconocimiento del habla

Una vez que se han extraído las características adecuadas del habla, el habla se encuentra en forma de una secuencia de vectores de características, por ejemplo MFCC. A continuación, el proceso de reconocimiento, dicho de forma somera, toma muestras o modelos de unidades conocidas del habla (fonemas, palabras, etc., desde una base de datos de entrenamiento) y los compara con la muestra de voz desconocida, es decir, con sus vectores de características. A continuación, la muestra o modelo con la mayor coincidencia (puntuación) resulta ser la palabra reconocida. Las propiedades especiales de las señales de voz hacen que cada par de señales únicas de una misma palabra se diferencien por su longitud (alguien que hable más rápido o lento, etc.). Por otra parte, esta variabilidad en longitud no se distribuye uniformemente a lo largo del tiempo, por lo que algunas partes pueden durar más tiempo, mientras que otras pueden ser pronunciadas más rápido. Por tanto, el enfoque básico para resolver las diferencias de longitud mediante interpolación lineal o decimación no se puede aplicar con éxito aquí. Además, basándose en los modelos que utiliza el sistema, por lo general es necesario concatenar una secuencia de muestras o modelos para representar una determinada palabra o incluso una frase entera. Estos dos fenómenos (variabilidad no uniforme en la longitud y la concatenación de modelos) específicos del habla dan lugar al desarrollo de modelos de clasificación específicos. Actualmente, los métodos más comunes son la Deformación Dinámica de Tiempo (DTW - Dynamic Time Warping) y el Modelo Oculto de Markov (HMM - Hidden Markov Model). Sin embargo existen más modificaciones o incluso combinaciones que pueden ser elegibles en aplicaciones particulares. A continuación se proporciona una breve introducción a estos dos métodos.

DTW

DTW es la abreviatura de deformación dinámica de tiempo que es un método que acústicamente compara secuencias de dos expresiones características del habla (la de referencia y la prueba de uno). Se basa en la deformación no lineal de tiempo durante el proceso de comparación de modo que estas dos secuencias sean lo más parecidas posible (evaluadas por una medida acústica adecuada). Por lo tanto, se compensan las variaciones no lineales en longitud dentro de las palabras.

Para ello los vectores primero y último de las dos secuencias deben alinearse. Por lo tanto, este proceder requiere del conocimiento previo de las palabras de los límites, lo que puede ser una tarea difícil por sí misma mientras que se debe hacer de forma automática. Sin embargo existen modificaciones a DTW que relajan este requisito tan estricto.

El método intenta encontrar una correspondencia entre las dos secuencias de vectores de diferentes longitudes de modo que cada vector tiene un vector asociado de la otra secuencia para ser comparado. Esto significa que algunos vectores en momentos determinados pueden omitirse o que un vector puede corresponder a más de un vector de la otra secuencia. Por supuesto, este proceso no puede realizarse de manera arbitraria por lo que este mapeo debe seguir ciertas limitaciones lógicas es decir los vectores inicial y final de una secuencia deben asignarse a sus homólogos en la segunda secuencia, las funciones de deformación deben ser no decrecientes, existe una discrepancia máxima permitida que este mapeo no lineal puede superar (por lo general los vectores cuyos índices son más del doble de la otra no pueden ser comparados, etc.). En el proceso de cálculo DTW se utilizan dos matrices (de distancia local y de distancia global). En la matriz local, se almacenan distancias acústicas entre los vectores de referencia y de características desconocidas. La matriz global se utiliza para calcular la trayectoria (mapping) y para acumular la distancia mínima a lo largo del camino óptimo. Por lo tanto, hay una distancia mínima y un camino óptimo en relación con cualquier elemento de la matriz global que conecta su posición al punto de inicio que está en la esquina inferior izquierda. Esta situación se ilustra en la Fig. 3.6. Por supuesto, hay limitaciones naturales en las direcciones, cómo desplazarse de un punto a los siguientes (no decreciente en las direcciones horizontales y verticales). Una vez que el proceso de búsqueda alcanza el punto final de la matriz global (esquina superior derecha) la comparación finaliza y se ha encontrado la distancia. Este proceso se repite para cada palabra de un diccionario y la palabra con la menor distancia global resulta ser la palabra desconocida. Como se puede ver, este método es elegible para el reconocimiento de palabras aisladas, o comandos.

image
Figure 3.6. Matriz global con ruta óptima y limitaciones globales de ruta.

DTW tenía una posición importante en el reconocimiento de voz, especialmente para el problema del reconocimiento de palabras aisladas que depende del hablante. Sin embargo, como los requisitos iban creciendo, por ejemplo, reconocimiento de habla continua e independiente del hablante, fue perdiendo gradualmente su posición frente al método HMM.

Modelo Oculto de Markov (HMM)

El modelo oculto de Markov es una técnica estadística de modelado utilizada principalmente para el reconocimiento de voz que resuelve tanto la independencia del hablante y la concatenación de modelos básicos (para formar palabras, frases, oraciones e incluso cubre habla continua) de una manera matemáticamente elegante

Para cada unidad de voz seleccionada (fonemas, sílabas, palabras, ...) se crea un modelo HMM de una cierta estructura. Por lo general, todos los modelos comparten la misma estructura y difieren solamente por parámetros libres del modelo. En el proceso de entrenamiento sólo los parámetros libres se establecen utilizando la base de datos de entrenamiento. La base de datos de entrenamiento consta de locuciones de voz que están etiquetados de forma que se conoce exactamente qué se dijo. Los parámetros de los modelos de HMM se ajustan de tal manera que los modelos describen los datos de entrenamiento con la probabilidad más alta, también denominado criterio de máxima verosimilitud. Sin embargo, algunos sistemas que utilizan estrategias diferentes basadas en la separación máxima entre modelos o minimizando las tasas de error (criterios discriminativos) pueden proporcionar resultados más precisos.

Cada modelo se compone de varios estados que están conectados el uno con el otro. A cada conexión se le asocia una probabilidad de transición (p). Además, existe una probabilidad inicial (π) para cada estado que es la probabilidad con la que el modelo comienza en dicho estado.

Con dicho modelo, la probabilidad de la secuencia de estado S1, S2, S3,.. SN vendrá dada por:

(001)

Por otra parte existe una probabilidad adicional asociada con cada estado y que es la probabilidad de observar un vector de características X dado un estado S, es decir P(X/S). Entonces, la probabilidad de observación de secuencias de vectores de características X1,…, XM, y estados S1, S2, .. SN es la siguiente:

(002)

La Fig. 3.7 muestra un ejemplo de un modelo HMM de 4 estados.

image
Figure 3.7. Modelo HMM de 4 estados.

A continuación, el proceso de reconocimiento calcula la probabilidad de una secuencia desconocida de todos los modelos HMM en un diccionario y elige aquella con la más alta probabilidad. La Fig.3.8 representa esquemáticamente el proceso.

image
Figure 3.8. Proceso de reconocimiento de voz basado en HMM.

En la actualidad, los sistemas HMM más avanzados que consiguen las tasas de error de palabra (WER - word error rates) más bajos utilizan diferentes estrategias como la información mutua máxima (MMI - Maximal Mutual Information), error de clasificación mínimo (MCE - Minimal classification error), etc. Tanto MMI como MCE pertenecen al entrenamiento discriminativo. Por último, hay conexiones híbridas de gran éxito con otros métodos de clasificación como máquinas de vectores soporte y redes neuronales que proporcionan una WER aún más baja en los datos que no se conocen.

Una descripción más detallada de la tecnología de reconocimiento de voz y los métodos utilizados se pueden encontrar, por ejemplo, en [7].