1MMI Architektur

Aktuell sind die am häufigsten verwendeten Schnittstellen für Mensch-Computer-Kommunikation Tastatur, Maus oder Touchpad. Diese Geräte sind Schnittstellen zwischen Menschen und Computer. In den letzten Jahren wächst die Anforderung, dass Menschen mit Maschinen in der gleichen Art und Weise kommunizieren müssen, wie sie es untereinander machen: durch Sprache, Mimik und Gestik. So können die Menschen weit mehr Informationen übertragen als durch die Verwendung von Peripheriegeräten. Dies führt uns zu dem Begriff multimodale Schnittstelle (MMI).

Die Multimodal-Schnittstelle umfasst mehrere Bereiche und Module, die für eine natürliche und benutzerfreundliche Kommunikation mit dem System verwendet werden und bilden die MMI. Folgende Dienste können Teil der Multimodal Interfaces sein:

  • Spracherkennung
  • Spracherkennung und Sprachbefehle
  • Multi-Gesichtserkennung
  • Gesten Navigation
  • Augen Navigation
  • Sprachsynthese
  • Hinweis Modul (Modul oder System das Informationen filtriert, um zu versuchen, die Bewertung oder Präferenzen vorherzusagen, die der Benutzer dem Element geben würde)

Die allgemeine Architektur der multimodalen Schnittstelle besteht aus mehreren Schichten. Die Bitübertragungsschicht stellt die Hardware-Eingabe- und Ausgabegeräte dar, die Interaktion mit der realen Welt ermöglicht. Multimodalen Daten, die von Eingabegeräten (Kamera, Sensor, ein Mikrofon, etc.) stammen, werden in weiteren Modulen parallel verarbeitet. Der MMI-Controller sammelt Ausgangsdaten von allen Modulen und bewertet den Ausgangsdatenstrom (Stream). Er enthält Informationen über die erkannten Benutzer und ihre angeforderten Aktionen.