4 Navigation mit Gesten
4.2 Bilddatenerfassung

Die Forschung für die Design-Gestenerkennungsalgorithmen begann mit der Auswertung von RGB-Werten (Rot Grün Blau) am Kameraeingang. Dieser Ansatz bringt einige Vorteile, aber die Nachteile überwiegen. Ein RGB-Bild besteht aus Farbkanälen und es gibt viele Faktoren, welche die Qualität von RGB-Bild negativ beeinflussen.

Die Beleuchtungs-Änderung kann die Bildqualität radikal ändern. Änderung von Lichtverhältnissen im einem Raum verändern die Helligkeit und den Kontrast des Bildes. Dies macht die Erkennung mit RGB-Bild unsicher und weniger präzis [2].

In den letzten Jahren begannen die Forscher Tiefenbilder für die Verarbeitung zu verwenden. Ein Tiefenbild ist ein zweidimensionales Bild, das zusätzliche Informationen enthält - die Tiefe. Die meisten Tiefensensoren basieren auf Infrarot (IR) Emission (d.h. der Kinect Sensor in Abb. 4.2). Der Sensor liefert die Daten die der Abstand jedes Pixels vom Sensor darstellt. Die erhaltenen Abstände können einfach nach Graustufendarstellung umgewandelt werden und die Tiefendaten werden als Graustufen-Videosequenz, dargestellt. Die Datenhaltung erfordert keine besonderen Bedingungen.

Die Tiefendaten haben gegenüber RGB-Kameras mehrere Vorteile. Der Hauptvorteil ist, dass die Tiefenkamera das Infrarot-Licht verwendet und im Infrarot-Bereich gibt es nicht so viele Störungen. Er ist nicht so empfindlich wie ein RGB-Sensor [2].

image
Abb. 4.2 – Das Bild aus Tiefenkamera

Der Abstand jedes Pixels des Sensors wird in Millimeter definiert.

Wenn wir Tiefenbild ins Graustufenbild konvertieren wollen, müssen wir die minimal und maximal mögliche Entfernung kennen.

     (003)

wobei d der Abstand des aktuellen Pixels ist, dmin der minimal mögliche Abstand von dem Sensor und dmax der maximal mögliche Abstand von dem Sensor [2].

Als Unterstützung für Eingangsbilderfassung können zusätzliche Gegenstände wie ein leuchtendes Armband, ein Ring oder ein kleiner Ball in der Hand dienen.