La investigación reciente de aplicaciones se centra en la interfaz multimodal natural y su integración en el sistema multimedia que utiliza diariamente. El uso de la interfaz multimodal no se limita sólo al sistema de televisión, sino que tiene muchas aplicaciones diferentes. La idea de futuras aplicaciones y sistemas no es sólo para controlar el contenido multimedia de la televisión y su acceso, sino para construir un sistema que sea consciente de los hábitos, preferencias e intereses de su usuario. Tal sistema puede convertirse en un conserje inteligente del hogar y puede proporcionar interconexiones entre los diversos servicios avanzados (de compras mientras se ve la TV, de voto o de portero digital).
Con el fin de hacer el mejor uso de la interfaz multimodal, es importante saber qué modalidad se debe utilizar para llevar a cabo cada una de las acciones. Algunas acciones siempre serán mejor ejecutadas mediante el uso de una modalidad diferente. Es decir. La entrada de texto sería difícil, consumiría tiempo y sería incómoda si se utilizan gestos, pero se podría realizar fácilmente y más rápidamente mediante reconocimiento de voz. Con esto en mente, se hace necesario introducir una plataforma de integración que proporcionará aplicaciones multimodales a las entradas solicitadas. La aplicación no necesita conocer la modalidad de origen, si no se requiere explícitamente.
Un simple ejemplo de un posible escenario: La aplicación MMI para el control de TV muestra una lista de usuarios identificados por los módulos de voz o de reconocimiento facial. Sólo a los usuarios de esta lista se les permite controlar el televisor mediante un conjunto predefinido de gestos, comandos de voz u otra modalidad. Cuando el usuario sale de la habitación, se le retira automáticamente de la lista. La otra parte de la aplicación muestra los canales recomendados. Dependiendo de las preferencias de visualización de usuario, el sistema muestra las recomendaciones que mejor se adapten a todos los usuarios en frente de la televisión. Utilizando gestos de desplazamiento, un usuario es capaz de navegar en esta lista, reproducir o detener el vídeo. Algunos de los canales recomendados están bloqueados. Esto significa, que a los usuarios sin el permiso no se les permite ver dicho contenido hasta que entren el código secreto. Para introducir el código secreto aplicamos los gestos dinámicos.