GREFIT: ein System zur visuellen Erkennung von Handposturen

Unsere Hande benutzen wir alltaglich und standig, ohne uns dessen bewusst zu sein, zur Interaktion mit Objekten oder zur Kommunikation - sowohl von Mensch zu Mensch als auch von Mensch zu Maschine. Die Kommunikation mit dem Computer verlauft derzeit jedoch zumeist nur indirekt durch Verwendung von Eingabegeraten wie Maus oder Tastatur. Die Fragestellung, die in der vorliegenden Arbeit untersucht werden sollte, ist, inwieweit auch eine direkte Nutzung der Hand als "Eingabegerat" realisierbar ist. Die Schwerpunkte in dieser Arbeit liegen zum Einen auf der visuellen Erkennung der Handpostur ohne Verwendung von Markern oder sonstigen Segmentierungshilfen an den Fingern. Die menschliche Hand ist dabei aufgrund ihrer Komplexitat und Beweglichkeit bei der visuellen Erkennung ein besonders schwieriges Objekt. Um diese Variabilitat wiederzugeben, sollte zum Anderen nicht die ubliche Klassifikation in eine Anzahl von fest vorgegebenen Handposturen, sondern eine kontinuierliche Parametrisierung durchgefuhrt werden. Untersucht wurden in dieser Arbeit die Auswertungsmoglichkeiten mit einem Mono- als auch einem Stereo-Kamerasystem. Basis ist dabei nicht die holistische Erkennung der Gesamthandpostur aus dem Bild, sondern die Detektion der Fingerspitzenpositionen als charakteristische Landmarken zur Beschreibung der Stellung der Hand, aus denen im zweiten Schritt die Handpostur rekonstruiert wird. Als Entwicklungs-Szenario fur die Exploration wird eine "Handbox" vorgestellt. Die System-Architektur ist eine hierarchische Struktur aus mehreren Schichten, welche eine sukzessive Verbesserung der Lokalisation der Fingerspitzenpositionen im Bild erzielt. Nach der Vorverarbeitung folgt zunachst die globale Verarbeitungsstufe, in der ein neuronales LLM-Netz einen Merkmalsvektor des Bildes in eine grobe Positionierung aller funf Fingerspitzenpositionen uberfuhrt. Das Ergebnis der globalen Verarbeitung gibt den Bildausschnitt fur die lokale Verarbeitung vor, in welcher eine genauere Lokalisation der Fingerspitzenpositionen erfolgt. Durch Integration von Vorwissen und Kontextwissen kann die erzielte Genauigkeit nochmals verbessert werden. Fur das Mono-System bilden diese 2-D-Fingerspitzenpositionen die Grundlage fur die weitere Berechnung. Im Falle des Stereo-Systems erfolgt zunachst eine Korrespondenzanalyse zur Lokalisation der zugehorigen Fingerspitzenpositionen im Stereo-Bild. Nachfolgend berechnet ein neuronales PSOM-Netz die entsprechende 3-D-Position im Raum. Zur Rekonstruktion der Handpostur aus den zwei- bzw. dreidimensionalen Positionsdaten werden die Winkel der Fingergelenke durch Verwendung eines Handmodells berechnet. Dieses Handmodell ist als kinematischer Baum konstruiert, welcher den Proportionen und Bewegungsmoglichkeiten der menschlichen Hand entspricht. Ein neuronales PSOM-Netzwerk fuhrt die inverse Kinematik zur Berechnung der Gelenkwinkel aus den Positionsdaten durch. Zum Test der Einhaltung der anatomischen Kopplungen zwischen den erhaltenen Fingergelenkwinkeln werden diese auf ihre Plausibilitat gepruft, bevor das Ergebnis mit dem kunstlichen Handmodell visualisiert wird. Das System liefert prazise Resultate und ist robust gegenuber leichten Drehungen und Grosenvariationen der Hand. Die Vorteile der entstandenen Gestik-Schnittstelle zum Computer werden insbesondere bei solchen Anwendungen klar, bei denen mehrere Parameter gleichzeitig kontrolliert werden mussen. Abschliesend werden daher in dieser Arbeit die Interaktionsmoglichkeiten bei der Sonifikation der Handpostur vorgestellt und an zwei Beispielen exploriert.