El reconocimiento de voz representa una tendencia ascendente en la interacción con dispositivos de consumo [2]. La voz es la forma más natural de comunicación de persona a persona y contiene la mayoría de la información comunicada.
Los comandos de voz son una herramienta valiosa para controlar dispositivos y sistemas cuando los gestos o las interfaces táctiles no son adecuados. Su uso va desde los sistemas de entretenimiento en el hogar hasta el control de sistemas de información y entretenimiento (infotaiment) de automóviles y el control para discapacitados físicos.
El reconocimiento de voz cubre varios sub-campos, a saber, la identificación del hablante y el reconocimiento de comandos de voz. En este último se centran los investigadores hoy en día gracias a los avances significativos en la tecnología de redes neuronales.
Generalmente, un sistema de reconocimiento de voz funciona en estos dos modos:
Durante el aprendizaje, el sistema aprende sobre todas las entradas posibles y su significado. Esto suele ocurrir en un dominio paramétrico; ya sean parámetros para comandos de voz individuales o información específica del hablante. Durante el reconocimiento, un patrón de entrada desconocido se empareja con la referencia más cercana de los patrones paramétricos aprendidos. Ambos pasos funcionan mejor con mayor calidad y cantidad de datos de entrada.
El reconocimiento de voz es propenso al reconocimiento incorrecto debido a la presencia de ruido u otros locutores que hablan simultáneamente.
Sin embargo, cuantos más datos tenga que procesar un sistema, más tiempo llevará. Y el tiempo es crucial cuando queremos lograr un reconocimiento de voz agradable y continuo.
Si miramos hacia atrás unos años, la mayoría de los sistemas de reconocimiento de voz permitieron reconocer solo un conjunto limitado de comandos aislados o a un locutor de una base de datos limitada. Esto llevaría a un conjunto de comandos altamente especializado.
Con la disponibilidad amplia y asequible de los servicios basados en la nube, los sistemas de reconocimiento de voz pueden hacer uso de soluciones rápidas basadas en servidor. Esto, combinado con la conexión a Internet de alta velocidad ampliamente disponible, permite que las interfaces de usuario actuales procesen entradas de voz más complejas (generalmente, esto se aplica a cualquier patrón de señal de entrada). La combinación permite utilizar decisiones complejas tomadas por redes neuronales en el lado del servidor, lo que elimina la necesidad de una potente configuración de hardware y software del usuario. Además, las redes neuronales hacen que el reconocimiento de comandos aislados sea tan eficiente que ahora se pueden usar para reconocer comandos complejos compuestos por varios comandos o tipos de comandos.
El progreso en la utilización de redes neuronales sobre un hardware cada vez más potente permite mejoras en varias áreas. En primer lugar, el sistema se vuelve más independiente del entorno. Los parámetros de voz grave se distinguen en condiciones de audio cambiantes [15]. Además, el sistema es capaz de reconocer no solo palabras o frases específicas, sino también reconocer oraciones de frases completas, con matices y variaciones en las palabras utilizadas. Además, al incorporar la voz reconocida previamente, los sistemas pueden deducir el significado de la oración o comando, incluso si son vagos o inespecíficos. Los sistemas actualmente comienzan a comprender el contexto real en el que se reconoció el discurso y permiten reaccionar de manera más apropiada. Esto significa que los sistemas comienzan a comprender no solo el discurso real, sino también la idea oculta detrás de las palabras.