1Arquitectura MMI

En la actualidad, las interfaces más utilizadas para la comunicación hombre-máquina son el teclado, el ratón o tableta táctil. Estos dispositivos representan la adaptación de los seres humanos a las limitaciones de los ordenadores en lugar de una comunicación natural con el ordenador. En los últimos años, ha aparecido un nuevo requisito y es que los seres humanos necesitan comunicarse con las máquinas de la misma manera como lo hacen entre sí: por el habla, mímica y gestos, ya que éstos conciben mucha más información que los anteriores dispositivos periféricos. Esto nos lleva al término interfaz multimodal (MMI - multimodal interface).

La interfaz multimodal se compone de varios temas y módulos que sirven para la comunicación natural y fácil de usar con el sistema. En conjunto, estos módulos representan la funcionalidad de MMI. Estos módulos pueden formar parte de la interfaz multimodal:

  • Identificación de voz múltiple
  • Reconocimiento de comandos y habla
  • Reconocimiento de comandos de voz y habla
  • Reconocimiento facial múltiple
  • Navegación por gestos
  • Navegación con los ojos
  • Síntesis del habla
  • Motor de recomendación

La arquitectura general de la interfaz multimodal se compone de varias capas. La capa física representa los dispositivos hardware de entrada y salida que permiten la interacción con el mundo real. Los datos multimodales proporcionados por los dispositivos de entrada (cámaras, sensores, micrófonos, etc.) son procesados en paralelo por cada módulo por separado. El controlador MMI recoge los datos de salida de todos los módulos, los evalúa y los combina en un solo flujo de datos de salida. El flujo contiene información sobre los usuarios reconocidos y sus acciones solicitadas.