Handtracking. Zweck, Ablauf und Methoden der Handverfolgung aus Kameradaten


Seminararbeit, 2002

23 Seiten, Note: 1.0


Leseprobe


Inhalt:

1 Einleitung

2 Einsatzgebiete und Zweck der Handverfolgung
2.1 Human Computer Interface.
2.2 Roboterprogrammierung

3 Situation bei der Bildaufnahme
3.1 Beleuchtung.
3.2 Beschaffenheit des Hintergrundes
3.3 Kleidung des Benutzers
3.4 Anzahl und Beweglichkeit der Kameras.
3.5 Bewegungsfreiheit des Benutzers

4 Bildaufbereitung und Merkmalsextraktion
4.1 Hintergrundausblendung.
4.2 Bewegungserkennung durch das Differenzbildverfahren
4.3 Farberkennung für Hautfarbe (Farbsegmentierung)
4.4 Kantenextraktion.

5 Handmodelle und Modellanpassung
5.1 Positionstracking
5.2 Orientierung der Hand
5.3 Articulated Rigid Objects mit inverser Kinematik
5.4 Articulated Rigid Objects mit Maximierung der Modell- und Bildüberdeckung
5.5 Gestenerkennung

6 Handhabung von Verdeckungen

7 Zusammenfassung

8 Literatur

1 Einleitung

Beim Hand Tracking, der Handverfolgung, handelt es sich um ein Verfahren, dass dazu dient die Position, Orientierung und die Gelenkwinkel der menschlichen Hand einer Person, des sog. Benutzers, zu verfolgen. In diesem Rahmen ist das Ziel, aus Kamerabildern diese Daten, also die „Konfiguration“ der verfolgten Hand, zu gewinnen, und wie die Daten eines Sensors zur Weiterverarbeitung zur Verfügung zu stellen.

Die in der Literatur vorgestellten Verfahren lassen sich im Hinblick auf das verfolgte Ziel, die getroffenen Annahmen, die verwendeten Methoden und Algorithmen bzw. das ver- wendete Modell der menschlichen Hand und weitere Kriterien einordnen. Die sinnvollste Einordnung bildet jedoch eine Kategorisierung nach der Anzahl der verfolgten Freiheitsgrade einerseits sowie nach der Allgemeinheit der Annahmen in Bezug auf die Situation bei der Aufnahme und die Bewegungsfreiheit des Benutzers andererseits. Diese beiden Faktoren bestimmen im wesentlichen die Komplexität der verwendeten Modelle und Vorverarbeitungs- schritte sowie die Anzahl der verwendeten Kameras, also den Aufwand der hardwareseitig betrieben wird, um das jeweilige Ziel zu erreichen. Außerdem wird ein Zugewinn an Genau- igkeit der Handverfolgung mit Rechenzeit „erkauft“, die somit zulasten der Echtzeitfähigkeit des Systems geht.

Imagawa, Lu und Igi verfolgen in5 nur die Position der zwei Hände einer Person in der Bildebene - also jeweils zwei Freiheitsgrade -, da die räumliche Tiefe bei der Interpretation von Zeichensprache keine Bedeutung hat. Deswegen und um Video- und Fernseh- aufzeichnungen übersetzen zu können, kommt auch nur eine Kamera zum Einsatz. Wichtiger als die räumliche Tiefe ist jedoch, die Position der Hände auch noch vor dem Kopf korrekt zu erkennen. Ein Modell der Hand kommt nicht zum Einsatz und die Autoren legen Wert auf zuverlässige Vorverarbeitungsverfahren (Histogram Backprojection), um die Genauigkeit der aus dem Bild extrahierten Handregionen zu steigern und sogar bei Verdeckung des Gesichts durch die Hand weiterhin zuverlässig verfolgen zu können. Der Hintergrund wird als statisch angenommen und auch die Bewegungen der aufzunehmenden Person sollen im Vergleich zu der Bewegung ihrer Hände als gering vorausgesetzt sein. Aufgrund dieser Annahmen und der darauf zugeschnittenen Verfahren kann die Position der beiden Hände mit 30 Hz verfolgt werden, also bei voller Bildrate.

Einen Ansatz mit erheblich mehr verfolgten Freiheitsgraden wählen z.B. Rehg und Kanade in10: Sie modellieren die Hand als ein System von festen Körpern, die über Gelenke miteinander verbunden sind, so dass sich insgesamt 27 Freiheitsgrade des Modells errechnen. Die Autoren legen relativ wenig Wert auf die Vorverarbeitung der akquirierten Schwarz-/Weiß-Bilder. Dennoch verläuft das Handverfolgung bei (vergleichsweise geringen) 10 Hz, weil die Suche nach den „besten“ Parametern im Konfigurationsraum rechnerisch sehr aufwendig ist. Die Güte der gefundenen Parameter ergibt sich aus der Maximierung der Überdeckung von Modellprojektion in den Bildraum und den Bilddaten, welche die Kamera liefert. Rehg und Kanade wählen diesen Ansatz, um einen (logischen) Sensor zu programmieren, der die verfolgte Hand möglichst vollständig hinsichtlich aller denkbaren Konfigurationen beschreibt. Im Rahmen dieses Ziels betrachten sie nicht, dass Verdeckungen auftreten können.

Im folgenden werden die verschiedenen Lösungsansätze und Forschungsergebnisse der genannten Literatur nach den wesentlichen Schritten der Handverfolgung geordnet und detailliert vorgestellt, um Lösungen zeigen zu können, die unter den jeweils gegebenen Umständen optimale Ergebnisse erzielen.

2 Einsatzgebiete und Zweck der Handverfolgung

Für die Handverfolgung sind vielfältige Anwendungsgebiete denkbar. In der Literatur wird als häufigster Beweggrund das Schlagwort Human Computer Interface genannt1 ; die Bandbreite geht allerdings von der automatisierten Übersetzung von Zeichensprache in die entsprechende Hochsprache5 über die Unterstützung von Telekonferenzen9 bis hin zu verschiedenen „Ausprägungen“ des genannten Human Computer Interface.

Die Definition des jeweils verfolgten Ziels hat im Hinblick auf die bei der Handverfolgung verwendeten Verfahren eine Bedeutung, die nicht vernachlässigt werden kann. Sie bestimmt, welche Annahmen getroffen werden können, um die einzelnen Schritte der Handverfolgung zu vereinfachen und damit im wesentlichen zu beschleunigen, weil kompliziertere, allgemein verwendbare Algorithmen mit höherem Rechenaufwand „erkauft“ werden müssen. Auch wenn dieser Begriff von Rehg, Kanade10 stammt, kann jedoch allgemein formuliert werden, dass der Zweck der Handverfolgung immer die Implementierung einer Art hand sensor ist, der Informationen über Position, Orientierung und/oder Gelenkwinkel der verfolgten Hand liefern soll. Welche Informationen und mit wie vielen DOF2 diese geliefert werden, ist aber abhängig von der genannten Definition des Einsatzgebietes, ebenso wie die konkrete Implementierung eines solchen Sensors.

Dieses Ziel der möglichst vollständigen Erfassung von Informationen über die Haltung und Position der Hand des Benutzers lässt sich bereits mit anderen Verfahren, wie z.B. auf Basis magnetischer / induktiver Sensorik, erreichen. Ein wesentlicher Nachteil dieser Verfah- ren ist jedoch, dass sie einen Eingriff in die Umgebung erfordern, indem der Benutzer z.B. einen Handschuh trägt und sich auch nicht aus der Region, in der das Magnetfeld wirkt, ent- fernen darf. Die Handverfolgung bietet den Vorteil, diese Einschränkungen nicht zwangsläufig zu haben, und ist deswegen mit einem breiteren Spektrum von Anwendungs- möglichkeiten einsetzbar.

Im folgenden sollen zwei der denkbaren Anwendungen etwas detaillierter beschrieben werden, da diese die in der Literatur meistgenannten sind.

2.1 Human Computer Interface

Human Computer Interface bezeichnet die Verwendung der Handverfolgung als Eingabemedium für Computer ähnlich der Verwendung einer Computermaus. Hierbei benutzt der Anwender seine Hand, um auf Objekte zu zeigen, die entweder real existieren oder aber Visualisierungen von Rechnerdaten sind. Die entscheidende Information zur Auswahl, welches Objekt der Benutzer meint, liegt in der Position der Hand in Bezug auf die infrage kommenden Objekte. Mittels der Stellung der Finger (Gelenkwinkel) kann der Benutzer dann Aktionen ausführen. Dies ist vergleichbar mit dem Betätigen der Maustasten.

Eine interessante Umsetzung von Human Computer Interfaces findet sich in3: Sato, Kobayashi und Koike verwenden die Handverfolgung, um Internetseiten und andere Bildschirminhalte direkt auf den Schreibtisch des Benutzers zu projizieren. Dieser kann dann z.B. im Internet „blättern“, indem er das projizierte „Objekt“ mit der Hand manipuliert.

2.2 Roboterprogrammierung

Besonders interessant für die Verwendung von Handverfolgung in Bezug auf humanoide Roboter ist sicherlich deren Programmierung. Während Datenhandschuhe ihren Benutzer in seiner Bewegungsfreiheit einschränken, kann die Handverfolgung auch in Bereichen eingesetzt werden, in denen eine solche Einschränkung nicht hinnehmbar ist. Ein Serviceroboter kann so durch seinen Benutzer vorgemacht bekommen, wie er bestimmte Gegenstände zu greifen und zu verwenden hat, ohne dass der Benutzer den Ort der Anwendung verlassen muss.

3 Situation bei der Bildaufnahme

Die Situation bei der Aufnahme setzt sich aus verschiedenen Bedingungen zusammen, die in ihrer Gesamtheit die später verwendbaren Trackingverfahren bestimmen. Ausgangspunkt ist die Definition der verfolgten Ziels, aus derer sich dann gewisse Prämissen hinsichtlich der Aufnahmesituation ableiten lassen. Dies sei anhand eines Beispiels erläutert: Wenn das Ziel lautet, die Gesten eines Nachrichtensprechers zu erkennen und seine Hände während der Nachrichten zu verfolgen, kann angenommen werden, dass sich der Bildhintergrund während der Aufnahmen nicht oder nur minimal ändert. Die gewählten Vorverarbeitungsverfahren können also auf einem statischen Hintergrund basieren. Dies gilt nicht, wenn sich der Benutzer frei bewegen darf und die Kamera nachgeführt werden soll.

Bei der Betrachtung der Aufnahmesituation gilt es, folgende Kriterien zu beachten:

3.1 Beleuchtung

Die Beleuchtung beeinflusst einerseits das im Bild auftretende Rauschen und sollte daher nicht unter einem gewissen Minimum liegen. Andererseits wird auch die wahrgenommene Hautfarbe durch die Beleuchtung beeinflusst und die Beleuchtung kann somit das Auffinden von hautfarbenen Regionen des Bildes, die sogenannte Farbsegmentierung, erschweren.

3.2 Beschaffenheit des Hintergrundes

Aus ähnlichen Gründen ist die Farbe des Bildhintergrundes ausschlaggebend für die Farbsegmentierung. Ein hautfarbener Hintergrund verhindert im allgemeinen das Auffinden der Hände. Ebenfalls wichtig für die Auswahl geeigneter Bildverarbeitungsverfahren ist die Festlegung, ob der Hintergrund statisch ist oder sich verändern kann.

3.3 Kleidung des Benutzers

Die Kleidung des Benutzers sollte sich von der Farbe seiner Haut genügend abheben, um die Hände vom Rest des Körpers unterscheiden zu können3. Die Verdeckung von Hautregionen, die nicht zu den verfolgten Bereichen gehören, ermöglicht die Farb- segmentierung (s. Kapitel 4.3 „Farberkennung für Hautfarbe (Farbsegmentierung)“). Keiner der im Anhang aufgeführten Artikel entwickelt eine Vorgehensweise für den Fall, dass hautfarbene Bereiche im Bild vorhanden sind, die nicht zu den Händen gehören.

3.4 Anzahl und Beweglichkeit der Kameras

Die Anzahl der Kameras definiert sich ebenfalls aus der zu erwartenden Situation und dem Zweck der Handverfolgung. In4 wird die Handverfolgung als Eingabe für eine Virtual Reality-Anwendung verwendet: Dafür montieren Utsumi und Ohya fünf Kameras an der Decke und Wand entlang eines gedachten Kreisbogens, um verschiedene Blickwinkel auf die Hand des Benutzers zu bekommen, so dass Verdeckungen nur noch in Ausnahmefällen möglich sind. Dieses Vorgehen ist bei humanoiden Robotern ausgeschlossen; hier sind eher zwei Kameras die Regel. Allerdings kann der Roboter in diesem Fall seine Position verändern und so seinen eigenen Blickwinkel verbessern.

3.5 Bewegungsfreiheit des Benutzers

Im Hinblick auf die Bewegungsfreiheit des Benutzers stellt sich die Frage, ob der Benutzer während der Handverfolgung seinen Standort wechselt oder ob er eher an einer Position verharren wird. Dies spielt u.a. in Bezug auf die zu erwartende Konstanz der obigen Kriterien eine Rolle. Verändert der Benutzer z.B. häufig seinen Aufenthaltsort, stehen auch Änderungen in der Beleuchtung zu erwarten und der Hintergrund kann nicht als statisch angenommen werden.

Während die Beschaffenheit, Anordnung und Anzahl der zu verwendenden Kameras in einem gewissen Rahmen frei wählbar ist, können die anderen Kriterien meist nur als Konsequenz aus dem zu erreichenden Ziel hingenommen werden. Eine Ausnahme beschreiben Lathuili è re und Herv é in2: Für das Ziel, Telerobitik zu ermöglichen, halten sie es für den Benutzer für zumutbar, einen Handschuh mit Farbmarkierungen zu tragen, und greifen so in die Situation, die sie erwarten, ein.

4 Bildaufbereitung und Merkmalsextraktion

Die akquirierten Bilddaten enthalten noch nicht genau die Informationen, die für die Handverfolgung erforderlich sind. Das Ziel der Bildaufbereitung ist es, die Bilddaten der Kamera(s) so zu verarbeiten, dass Daten, die irrelevant sind, nicht mehr in den Bildern vorhanden sind. Dies trifft einerseits auf den Hintergrund als auch andererseits auf Störungen durch Rauschen zu. Die Merkmalsextraktion geht einen Schritt weiter und abstrahiert die Bildinformationen von der Pixelebene auf komplexere Strukturen wie z.B. Kanten und Schwerpunkte. Im vorliegenden Kapitel sollen verschiedene, in der Literatur angewendeten Verfahren erläutert und hinsichtlich ihrer Anwendungsbereiche sowie Vor- und Nachteile bewertet werden.

4.1 Hintergrundausblendung

[1]beschreibt eine Möglichkeit, den Benutzer vom Rest des Bildes „zu trennen“, wenn der Hintergrund als statisch angenommen werden kann. Das Verfahren stützt sich auf unbe- wegliche Kameras, die zum Einschaltzeitpunkt den Hintergrund filmen. Das Bild wird abge- speichert und alle folgenden Bildsequenzen mit diesem Bild verglichen. Dieser Vergleich wird pixelweise angestellt und ordnet die Pixel dem Hintergrund zu, wenn sie sich von dem Ursprungsbild des Hintergrundes nicht stärker unterscheiden als mit einem zuvor festgelegten Schwellenwert. Um graduellen Änderungen der Beleuchtung gerecht werden zu können, passen die Autoren den gespeicherten Hintergrund an die beobachteten Werte an, d.h. jeder Pixel, der auf dem erläuterten Weg dem Hintergrund zugeordnet wurde, ersetzt anschließend den Pixel, mit dem er zuvor verglichen wurde.

Der Vorteil dieses Verfahrens liegt laut [1] darin, auf eine Segmentierung des Gesamtbildes verzichten zu können und so Geschwindigkeitsvorteile zu erhalten. Im Anschluss an die Hintergrundausblendung muss allerdings immer noch eine Farbeinteilung der verbleibenden Bereiche erfolgen, um die Hände vom Rest des Körpers trennen zu können.

4.2 Bewegungserkennung durch das Differenzbildverfahren

Auch die Erkennung von Bewegung kann unter der Annahme, dass sich der Benutzer bewegt, verwendet werden, um den Hintergrund auszublenden.[6]beschreibt die Bewegungserkennung durch image differencing3 folgendermaßen: Zwei aufeinanderfolgende Bilder einer Kamera werden miteinander pixelweise verglichen. Bleiben die Helligkeitsunterschiede der beiden Pixel unter einem zuvor bestimmten und laufen aktualisierten Schwellenwert, so werden diese Pixel dem Hintergrund zugeordnet. Ansonsten gehören sie zu einem bewegten Objekt bzw. einer bewegten Person.

Der Vorteil dieses Verfahrens liegt darin, dass es nicht zum Anfang einer Aufnahme initialisiert werden muss, im Gegensatz zu dem in Absatz 4.1 vorgestellten. Allerdings wird auch bei diesem Verfahren die spätere Farberkennung erforderlich, um Hände von anderen bewegten Objekten unterscheiden zu können, führt aber zu kleineren extrahierten Regionen als die vorher beschriebene Methode.

Dieses Verfahren scheitert, wenn sich der Benutzer nicht bewegt. Im Interesse einer zuverlässigen Handverfolgung wechseln die Autoren in diesem Fall zur Hintergrundausblen- dung durch den Vergleich mit einem statischen Hintergrundbild, um weiterhin verfolgen zu können.

4.3 Farberkennung für Hautfarbe (Farbsegmentierung)

Ein wichtiger Schritt bei der Handverfolgung ist die Erkennung hautfarbener Regionen im Kamerabild, die im allgemeinen nicht umgangen werden kann. Eine Ausnahme bilden nur spezielle Lösungen, wie z.B. die Erfassung von Infrarot-Bildern, oder, wenn der Benutzer Handschuhe mit Farbmarkierungen trägt, die sich auch ohne die Erkennung von Hautfarbe wiederfinden lassen.

Je akkurater die Eingrenzung der gefundenen Regionen auf Pixel ist, die zur Abbildung der Hand gehören, desto genauer arbeiten alle folgenden Schritte der Handverfolgung. Deswegen wird in der Literatur der Farbsegmentierung eine hohe Aufmerksamkeit gewidmet. Eine Beobachtung, die mehrere Autoren machen (vgl. u.a.1 und5 ) ist, dass zwischen verschiedenen Personen und entsprechend der Beleuchtungsverhältnisse zwar die Helligkeit hautfarbener Regionen differiert; bezüglich der restlichen Farbkomponenten bleiben Hautregionen jedoch relativ invariant. Bei Verwendung eines angemessenen Farbmodells (z.B. HSL4 oder YUV5, das von vielen Kameras geliefert wird), lassen sich die beiden Komponenten leicht trennen und so weiterverarbeiten, dass für die folgenden Schritte hautfarbene Regionen übrigbleiben. Dazu wird im allgemeinen für jeden Pixel in einer Tabelle nachgeschlagen, ob er die Bedingung „Hautfarbe“ erfüllt oder nicht. Diese Bedingung lässt sich auch unscharf formulieren, indem die Wahrscheinlichkeit für die Zugehörigkeit zu einer Hautregion festgehalten wird. Diese Wahrscheinlichkeit lässt z.B. gemäß dem zuvor ermittelten Farbhistogramm von Hautfarbe interpretieren, d.h. trägt ein Pixel eine Farbe, die

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 1: a) Originalbild, b) Pixel mit Hautfarbe, c) nach Erosion,

d) nach Dilation, e) Ergebnis: Regionen des Bildes mit Hautfarbe

im Histogramm seltener vorkommt als andere Farben, so wird ihm eine geringe Wahrscheinlichkeit für die Zugehörigkeit zu einer Hautregion zugeordnet.

[...]


1 vgl. u.a.[2],[3],[4],[6],[10]

2 DOF: Degree of Freedom, Freiheitsgrad

3 Differenzbildverfahren

4 HSL: Hue (Farbwert), Saturation (Sättigung), Lighting (Helligkeit)

5 Y: luminance, UV: chrominance

Ende der Leseprobe aus 23 Seiten

Details

Titel
Handtracking. Zweck, Ablauf und Methoden der Handverfolgung aus Kameradaten
Hochschule
Universität Karlsruhe (TH)  (Institut für Prozessrechentechnik und Robotik)
Veranstaltung
Seminar: Humanoide Roboter
Note
1.0
Autor
Jahr
2002
Seiten
23
Katalognummer
V3094
ISBN (eBook)
9783638118682
Dateigröße
691 KB
Sprache
Deutsch
Anmerkungen
Sehr dichte Arbeit. 509 KB
Schlagworte
Roboter, Robotik, Handverfolgung, Hand Tracking
Arbeit zitieren
Ulrich Merzbach (Autor:in), 2002, Handtracking. Zweck, Ablauf und Methoden der Handverfolgung aus Kameradaten, München, GRIN Verlag, https://www.grin.com/document/3094

Kommentare

  • Noch keine Kommentare.
Blick ins Buch
Titel: Handtracking. Zweck, Ablauf und Methoden der Handverfolgung aus Kameradaten



Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden