Minimale mobile Structure from Motion zur Erstellung von georeferenzierten Gebäudemodellen


Bachelorarbeit, 2016

79 Seiten, Note: 1,1


Leseprobe

Kurzfassung
Kurzfassung
Smartphone-Kameras haben sich in einigen Untersuchungen als Akquisemedium für
eine 3D-Rekonstruktion als tauglich erwiesen. Modelle von Gebäuden wurden damit
bereits erfolgreich erstellt, doch diese waren selten anhand ihrer geograschen Koordi-
naten referenziert.
Um zu untersuchen, wie genau georeferenzierte Gebäudemodelle werden können,
wenn die Akquise der Bild- und Positionsdaten mit einem Smartphone erfolgt, wird ein
geeignetes Gebäude ausgewählt und rundherum in festen Winkelschritten mit einem
Samsung Galaxy S4 mini abfotograert. Aus der gesamten Menge an mit Geotags
versehenen Bildern werden Untermengen ausgewählt, rekonstruiert, georeferenziert und
mit dem Modell aus der Gesamtmenge an Bildern verglichen.
Die nicht-repräsentativen Ergebnisse dieser Bachelorarbeit zeigen, dass die Da-
ten eines Smartphones bei einer punktbasierten Rekonstruktion und einer maximalen
Winkel-Baseline von 6° eine Modellgenauigkeit im Meterbereich liefern können.
Schlagwörter: 3D-Rekonstruktion, Smartphone, Georeferenz, Gebäude, maximale Base-
line
Abstract
Smartphones have proven suitable as a means of data acquisition for 3D reconstrution
in a number of studies. Models of buildings have already been produced using them,
but the results were rarely referenced according to their geographic coordinates.
For the purpose of investigating the level of precision georeferenced building models
can reach when image and positioning data is acquired with a smartphone, an adequate
building is selected and photographs are taken with a Samsung Galaxy S4 mini by
circling the building in xed angle steps. From the whole set of geotagged images
subsets are chosen, reconstructed, georeferenced and compared to the model built from
the total amount of pictures.
The non-representative results of this thesis show that with a point-based recon-
struction and a maximum angle baseline of 6°, data from a smartphone can yield models
with meter precision.
Keywords: 3D reconstruction, smartphone, georeference, buildings, maximum base-
line
II

Inhaltsverzeichnis
Inhaltsverzeichnis
Kurzfassung
II
Abstract
II
Inhaltsverzeichnis
III
Abkürzungsverzeichnis
V
Abbildungsverzeichnis
VII
1 Einführung
1
1.1 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
1.1.1 Anwendungsmöglichkeiten . . . . . . . . . . . . . . . . . . . . .
2
1.1.2 Vorteile von Gebäudemodellen mit Georeferenz . . . . . . . . .
3
1.2 Bisherige Ansätze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4
1.2.1 Video und Interaktivität . . . . . . . . . . . . . . . . . . . . . .
4
1.2.2 Datenmassen und Städte . . . . . . . . . . . . . . . . . . . . . .
5
1.2.3 Aus der Luft . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7
1.2.3.1 Geologie . . . . . . . . . . . . . . . . . . . . . . . . . .
7
1.2.3.2 Städte . . . . . . . . . . . . . . . . . . . . . . . . . . .
8
1.2.3.3 Einsatz von Smartphones . . . . . . . . . . . . . . . .
8
1.2.4 Mobil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
1.2.5 Gebäude und Geometrie . . . . . . . . . . . . . . . . . . . . . . 10
1.2.5.1 Geometriebasierte Ansätze . . . . . . . . . . . . . . . . 11
1.2.5.2 Vollautomatik . . . . . . . . . . . . . . . . . . . . . . . 12
2 Methodik
14
2.1 Nomenklatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.2 Konzept des Experiments . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.3 Datenakquise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.3.1 Positionsbestimmung . . . . . . . . . . . . . . . . . . . . . . . . 16
2.3.1.1 Geometrie der Satellitenortung . . . . . . . . . . . . . 17
2.3.1.2 Ortung von Mobilfunkgeräten . . . . . . . . . . . . . . 18
2.4 Modellgenerierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.4.1 Structure from Motion . . . . . . . . . . . . . . . . . . . . . . . 19
2.4.1.1 Zwei Ansichten . . . . . . . . . . . . . . . . . . . . . . 19
2.4.1.2 Drei Ansichten . . . . . . . . . . . . . . . . . . . . . . 21
III

Inhaltsverzeichnis
2.4.1.3 Vier und mehr Ansichten . . . . . . . . . . . . . . . . 22
2.4.2 Features . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.4.2.1 Ecken . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.4.2.2 Deskriptoren . . . . . . . . . . . . . . . . . . . . . . . 23
2.4.2.3 Binäre Deskriptoren . . . . . . . . . . . . . . . . . . . 25
2.4.2.4 Linien . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.4.2.5 Korrespondenzen . . . . . . . . . . . . . . . . . . . . . 29
2.4.3 Referenzmodell . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.4.4 Untermodelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.4.5 Georeferenzierung . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.5 Evaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.5.1 Geschlossene Modelle . . . . . . . . . . . . . . . . . . . . . . . . 35
2.5.2 Punktwolken . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3 Implementierung
38
3.1 Datenakquise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.2 Modellgenerierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.2.1 Workow . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.2.1.1 Punktwolken statt Meshes . . . . . . . . . . . . . . . . 41
3.2.1.2 SIFT-Features . . . . . . . . . . . . . . . . . . . . . . 42
3.2.2 Erstellung des Referenzmodells . . . . . . . . . . . . . . . . . . 44
3.2.3 Berechnung der Untermodelle . . . . . . . . . . . . . . . . . . . 44
3.2.3.1 Auswahl der Kongurationen für die Untermodelle . . 44
3.2.3.2 Erweiterung auf mögliche Kongurationen . . . . . . . 46
3.2.3.3 Reduktion der Paarmatches . . . . . . . . . . . . . . . 46
3.2.3.4 Erste Ergebnisse . . . . . . . . . . . . . . . . . . . . . 48
3.2.3.5 Auswahl der besten Modelle . . . . . . . . . . . . . . . 50
3.2.4 Georeferenzierung . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.3 Evaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.3.1 Abstand von Punktwolken in CloudCompare . . . . . . . . . . . 53
3.3.1.1 Parameter . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.3.1.2 Berechnung . . . . . . . . . . . . . . . . . . . . . . . . 54
3.3.2 Ergebnisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.3.2.1 Vergleich einer Untergruppe . . . . . . . . . . . . . . . 57
3.3.2.2 Verteilung der Kameras pro Modell . . . . . . . . . . . 58
3.3.2.3 Schlussfolgerungen . . . . . . . . . . . . . . . . . . . . 61
4 Fazit
62
Literatur- und Quellenverzeichnis
VIII
IV

Abkürzungsverzeichnis
Abkürzungsverzeichnis
AGAST Adaptive and Generic Corner Detection Based on the Accelerated Segment
Test. 25
aGPS assisted GPS. 18, 36
AHRS Attitude Heading Reference System. 8
AR Augmented Reality. 13, 9, 16
BA Bundle Adjustment. 22, 28, 37
BRIEF Binary Robust Independent Elementary Features. 25, 26, 29
BRISK Binary Robust Invariant Scalable Keypoints. 25, 26, 29
CenSurE Center Surround Extrema. 25
DGPS Dierential GPS. 17, 18
DoG Dierence of Gaussians. 23, 24, 27
Exif Exchangeable image le format. 16
FAST Features from Accelerated Segment Test. 2426
FREAK Fast Retina Keypoint. 26
GCP Ground Control Point. 1, 79, 33, 38, 45
GLOH Gradient Location-Orientation Histogram. 23, 24
GLONASS Global Navigation Satellite System. 17, 36
GPS Global Positioning System. 8, 1518, 33, 38, 45, 46
IMU Inertial Measurement Unit. 9
INS inertiales Navigationssystem. 5
LoG Laplacian of Gaussian. 24, 26
LSD Line Segment Detector. 27, 28, 30, 38
MAV Micro Air Vehicle. 7, 8
V

Abkürzungsverzeichnis
MLSD Meanstandard Deviation Line Descriptor. 27, 28, 30
MSE Mean Squared Error. 32, 34, 4042, 44, 45
MSER Maximally Stable Extremal Regions. 26, 30
MVS Multi-View Stereo. 13
ORB Oriented FAST and Rotated BRIEF. 25, 26, 29
PTAM Parallel Tracking and Mapping. 9
RMSE Root Mean Squared Error. 34
S/A Selective Availability. 18
SfM Structure from Motion. 1, 4, 611, 13, 15, 19, 22, 32, 34, 39, 42, 43, 51, 52
SIFT Scale-Invariant Feature Transform. 2327, 29, 30, 37, 39
SLAM Simultaneous Localization and Mapping. 9, 24, 25
SURF Speeded Up Robust Features. 2326
UAV Unmanned Aerial Vehicle. 79
uSURF upright SURF. 24, 25
VI

Abbildungsverzeichnis
Abbildungsverzeichnis
1
Grundlegende Elemente der Epipolargeometrie . . . . . . . . . . . . . . 19
2
Linienkorrespondenz bei drei Ansichten . . . . . . . . . . . . . . . . . . 21
3
Erstellung eines SIFT-Deskriptors durch Zusammenfassen der Orientie-
rungen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
4
Samplingmuster des BRISK-Deskriptors . . . . . . . . . . . . . . . . . 26
5
Samplingmuster des FREAK-Deskriptors . . . . . . . . . . . . . . . . . 27
6
Line support regions des LSD-Deskriptors . . . . . . . . . . . . . . . . 29
7
Aufsicht minimaler Kongurationen der Rekonstruktion . . . . . . . . . 33
8
Lokale Modellierung zur Interpolation eines näheren Nachbarn . . . . . 37
9
Bilder des Gebäudes für das Experiment . . . . . . . . . . . . . . . . . 38
10 Auüllen der Lücken des GPS-Logs . . . . . . . . . . . . . . . . . . . . 39
11 Route der Umrundung, per GPS getrackt, Lücken interpoliert . . . . . 40
12 Eine der Kongurationen aus drei Ansichten . . . . . . . . . . . . . . . 42
13 Anzahl der SIFT-Features pro Bild . . . . . . . . . . . . . . . . . . . . 43
14 Vergleich zwischen Bildern unterschiedlicher Featureanzahl . . . . . . . 43
15 Ausgewählte Markerpunkte zur Feinjustierung des Referenzmodells . . 44
16 Verteilung der Kongurationen und Paarmatches pro Deck vor der Re-
duktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
17 Verteilung der Kongurationen und Paarmatches pro Deck vor und nach
der Reduktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
18 Anteil der durchschnittlich genutzten Kameras pro Deck . . . . . . . . 48
19 Anteil der CMVSs und Kongurationen mit Modellen pro Deck . . . . 49
20 Durchschnittliche Anzahl von Modellen pro Konguration . . . . . . . 49
22 Anzahl der Kameras, Punkte und Rückprojektionen der besten Modelle 50
21 Deck 8, sortiert nach MSE statt nach Ranking . . . . . . . . . . . . . . 50
23 Georeferenziertes Referenzmodell in spärlicher und dichter Rekonstruktion 52
24 Verteilung der deformierten Modelle . . . . . . . . . . . . . . . . . . . . 53
25 Bewertung der Modelle im Vergleich mit Referenz 67 . . . . . . . . . . 55
26 Visueller Vergleich der Referenz 67 mit 2 Untermodellen . . . . . . . . 56
27 Visueller Vergleich eines sehr kleinen Modells mit Referenz 67 . . . . . 56
28 Bewertung der Modelle im Vergleich mit Referenz 59 . . . . . . . . . . 57
29 Visueller Vergleich der Referenz 59 mit einem ähnlichen Untermodell . 57
30 Verteilung der Bilder auf die besten Modelle . . . . . . . . . . . . . . . 59
31 Potentiell ursächliche Bilder für Sektorgrenze . . . . . . . . . . . . . . . 60
VII

1 Einführung
1 Einführung
1.1 Motivation
Menschen nehmen ihre dreidimensionale Umgebung nahezu problemlos wahr, obwohl
ihnen rein physikalisch betrachtet nur ein Paar Netzhäute zur Verfügung steht,
das ausschlieÿlich zweidimensionale Daten liefert. Die Aufgabe, Computern das Sehen
beizubringen, wurde vor 50 Jahren noch als in einem Sommer lösbar betrachtet (Szeliski
2011); wider Erwarten beschäftigt sie trotzdem noch heute Dutzende Forschungsteams
auf der ganzen Welt.
Ein Unterbereich der sogenannten Computer Vision ist die 3D-Rekonstruktion, die
sich damit beschäftigt, aus zweidimensionaler Bildinformation dreidimensionale Struk-
turen zu berechnen. Ein mögliches Vorgehen ist es dabei, nur ein einziges Bild zu
verwenden und 3D-Struktur-Informationen aus der Beleuchtung, der Schattierung, der
Silhouette, der Textur oder anderen Parametern abzuleiten (Shape from Shading (Horn
und Brooks 1989) bzw. Shape from X (Bueltho und Yuille 1991)).
Verarbeitet man mehrere Bilder der selben Szene (multi view reconstruction) statt
nur eines, wie z. B. bei der Stereoskopie, berechnet man die 3D-Koordinaten von
Punkten der Szene anhand von Korrespondenzen bzw. Unterschieden zwischen den
Bildern. SfM (Structure from Motion) ist eine Technik der 3D-Rekonstruktion, bei der
ausschlieÿlich mehrere Bildern derselben Szene verwendet werden und keine weiteren
Hilfsmittel nötig sind wie bspw. ein initiales Modell der Szene oder die Positionen der
Kamera. Dabei kann z. B. der Nutzer ein Objekt von allen Seiten fotograeren und
aus diesen Daten ein virtuelles Modell des Gegenstands erzeugen lassen, ohne vor der
Berechnung Informationen über die Szene zu besitzen oder die Kamera kalibrieren zu
müssen (Pollefeys, Vergauwen, Cornelis et al. 2001).
Die per SfM erzeugten Modelle sind in der Regel dichte (dense) oder spärliche
(sparse) Punktwolken, bei denen die Koordinaten der einzelnen Punkte nur relativ refe-
renziert sind. Eine andere Möglichkeit wäre hierbei, die Punkte absolut zu registrieren,
bspw. anhand ihrer Position im realen Weltkoordinatensystem. Eine solche Georefe-
renzierung der Punktwolke geschieht in der Regel entweder indirekt mittels mehrerer
Kontrollpunkte (sogenannter GCPs (Ground Control Points)) in den Bildern, deren Po-
sition genau bekannt ist, oder direkt anhand der Koordinaten der Kameras (Cramer,
Stallmann und Haala 2000).
Georeferenzierte Modelle, v. a. von Gebäuden, sind für Anwendungsbereiche wie
die AR (Augmented Reality) sehr nützlich. Bei dieser erweiterten oder vermischten
Realität zielt man darauf ab, eine Ansicht der Welt zu erzeugen, bei der reale mit
virtuellen Inhalten überlagert werden (Milgram, Takemura, Utsumi et al. 1995).
Die Erstellung solcher georeferenzierten Modelle ist im Moment zwar durchaus mög-
1

1 Einführung
lich, für Endanwender aber nicht einfach durchzuführen und auch nicht erschwinglich:
In einigen Fällen werden dafür spezielle teurere Geräte benötigt wie bspw. triaxiale
Gyroskope, Hochleistungs-GPS-Empfänger oder Langstrecken-Radiofrequenz-Module,
deren Summe schnell fünfstellig werden kann (s. z. B. Eling, Klingbeil und Kuhlmann
2014). Um die Rohdaten zu erhalten, aus denen nachher ein virtuelles Modell gefertigt
werden kann, braucht es allerdings nicht viel: Es reicht im besten Fall aus, wenn zu
jedem Foto die Position der Kamera mit aufgezeichnet wird. Am praktischsten wäre es,
wenn Endanwender virtuelle Gebäudemodelle auf einfache Weise mit einem einzigen
Gerät erzeugen könnten, das sie sowieso schon verwenden.
Smartphones sind mittlerweile sehr weit verbreitet und besitzen eine stattliche An-
zahl ausreichend genauer Sensoren wie hochauösende Kameras, Magnetometer, Be-
schleunigungsmesser oder Gyrometer. Mithilfe dieser Sensorik können sie aus einer
Hand die Informationen liefern, die nötig für die Generierung der Rohdaten sind. Al-
lerdings sind Rechenleistung und Speicherplatz auf solchen Geräten in der Regel knapp
bemessen. Den kompletten Workow einer 3D-Rekonstruktion über ein Smartphone
laufen zu lassen, benötigt die Entwicklung neuer und noch ezienterer Algorithmen,
wie z. B. bei Fraundorfer, Tanskanen und Pollefeys (2010).
Diese Bachelorarbeit beschäftigt sich mit der Frage, wie genau georeferenzierte 3D-
Modelle von Gebäuden werden können, wenn die Datenakquise auf einem handelsübli-
chen Smartphone geschieht. Das Hauptaugenmerk liegt hierbei auf der Genauigkeit der
Sensorik des mobilen Gerätes und nicht auf seiner Performance. Somit steht das Smart-
phone am Anfang der Pipeline; die Berechnung und Evaluation der Modelle soll dann
oine geschehen, also nicht am Smartphone selbst, sondern in diesem Fall an einem
leistungsfähigeren Desktop-Rechner. Die erzeugten Modelle müssen für den Zweck die-
ser Arbeit nicht zwingend texturiert sein; sie sollen hauptsächlich die grobe Geometrie
des Gebäudes repräsentieren.
1.1.1 Anwendungsmöglichkeiten
Der klar angezielte Einsatzbereich der vorgestellten Lösung ist die AR. Für verschiedene
Branchen würden georeferenzierte Modelle von realen Gebäuden interessante Ansätze
bieten: Die Wände von realen Gebäuden lieÿen sich im Marketing virtuell mit Werbung
bespielen; ebenso würden damit Künstlern neue virtuelle Leinwände zur Verfügung
stehen. In AR-Spielen könnten real existierende Gebäude mit interaktiven virtuellen
Inhalten überlagert werden und das Spielerlebnis bereichern.
Auch Fahrassistenzsysteme könnten davon protieren, da sie einen Abgleich mit
den in der erweiterten Realität positionierten Objekten vornehmen könnten. Wenn die
virtuellen Modelle genau genug sind, würde dies erhöhte Sicherheit bieten, da eine wei-
tere Datenquelle zu den schon vorhandenen hinzukommt, anhand derer die Systeme
sich lokalisieren und ihren Fahrweg planen. Für Autofahrer hingegen wären Naviga-
2

1 Einführung
tionssysteme möglich, die nicht nur eine Vogelperspektive der aktuellen Lage zeigen,
sondern auch eine Live-Ansicht der Umgebung aus Sicht des Fahrers generieren können
inkl. der Gebäudemodelle wie z. B. bei Cornelis, Cornelis und van Gool (2006).
In der Architektur und im Bauwesen hätten Architekten neue Möglichkeiten: Um
bspw. geplante Veränderungen an einer Auÿenfassade einfach vorstellbar zu machen,
könnten sie diese mit einem für AR geeigneten Gerät, bspw. einem Smartphone, visua-
lisieren.
1.1.2 Vorteile von Gebäudemodellen mit Georeferenz
Herkömmliche virtuelle Modelle von Gebäuden, die nicht von Hand, sondern maschinell
erstellt werden, können jetzt schon eine sehr hohe Detailgenauigkeit erreichen. Ansätze
in der AR, die ohne Georeferenz arbeiten, funktionieren in der Regel so, dass sie zuerst
ihre Umgebung und deren Geometrie erfassen und eine plane Hauptebene festlegen, um
dann virtuelle Objekte darauf zu platzieren, wie bspw. bei Klein und Murray (2007).
Denkbar wäre auch ein Vorgehen, bei dem ebenfalls zuerst die Umgebung erfasst
wird und dann gefundene Features mit einer Datenbank an gespeicherten Features ver-
glichen werden. Wird dann z. B. ein Gebäudemodell gefunden, das hinsichtlich Geo-
metrie oder Textur gut auf einen Bereich der gesehenen Umgebung passt, kann diese
Region mit dem passenden virtuellen Inhalt überlagert werden. Ein solches Zuordnen
von gesehenen zu bereits bekannten Umgebungen setzen bspw. Irschara, Zach, Frahm
et al. (2009) sehr ezient um.
Solche Verfahren benötigen zum Erfassen der Umgebung natürlich immer erst einen
gewissen zeitlichen Vorlauf, bevor sie dann zuverlässig augmentieren können. Der zweite
Ansatz würde nochmals deutlich mehr Zeit benötigen, da auch noch eine Datenbank
durchsucht werden muss. Die Ergebnisse sind auÿerdem stark von der Umgebung und
Beleuchtung abhängig. Georeferenzierte Ansätze bieten hier mehrere Vorteile:
Dadurch, dass die Geometrie der Umgebung schon bekannt ist, muss sie nicht erst
rechenintensiv virtuell nachgebaut werden. Anhand der Daten der Kamera und der
Positions- und Orientierungssensoren weiÿ das Smartphone, wo es sich bendet, in
welche Richtung sein Objektiv sieht und wie weit sein Blickfeld ist. Das ermöglicht
es dem Gerät ohne langwieriges Suchen in Datenbanken theoretisch sofort zu aug-
mentieren. Technisch betrachtet sinkt dadurch die benötigte Rechenleistung, von der
Nutzerseite fördert dies in groÿem Maÿ die Unmittelbarkeit des immersiven Erlebnisses.
Natürlich weisen sowohl die gespeicherten Daten zur Umgebung als auch die vor
Ort gemessenen Daten zur Position gewisse Ungenauigkeiten auf. Aber durch ein Ein-
beziehen dieser Ungenauigkeiten in die Erstellung der Modelle und das schlussendliche
Augmentieren, bspw. durch Kovarianzmatrizen um die Punkte, lässt sich zumindest
der Suchbereich im Bild um jedes erwartete Feature herum stark eingrenzen.
3

1 Einführung
1.2 Bisherige Ansätze
SfM ist ein weites Feld, das auf sehr verschiedene Arten für sehr verschiedene Zwecke
eingesetzt wird. Im Folgenden nähern wir uns dem Thema dieser Arbeit aus verschie-
denen Richtungen, um es besser einordnen zu können.
1.2.1 Video und Interaktivität
Videodaten als Rekonstruktionsbasis für SfM zu nutzen ist aus mehreren Gründen
sinnvoll: Zum einen schat man es, in relativ kurzer Zeit eine groÿe Menge an Bilddaten
zu erhalten. Diese Bilder sind in der Regel von ein und derselben Kamera, und aufgrund
der hohen Framerate des Videos ist die Veränderung von Bild zu Bild in der Regel
vergleichsweise gering. Veränderung ist in diesem Fall sowohl auf den Bildinhalt als
auch auf die Position und Ausrichtung der Kamera bezogen.
Früher war für solche Ansätze eine vorherige Kalibrierung der Kamera notwendig
(s. z. B. Harris und Pike (1988) und Koch (1997)) oder man musste die Kameraposi-
tionen a priori wissen wie bei Gimel'Farb und Haralick (1997). Bald ging jedoch die
Entwicklung immer weiter in Richtung komplett unkalibrierte SfM wie bspw. bei Koch,
Pollefeys und van Gool (1998): Sie schaen es, eine statische 3D-Szene mithilfe einer
Videokamera zu rekonstruieren, ohne diese vorher zu kalibrieren, d. h. nicht nur die
Szenenstruktur, sondern auch die entscheidenden Parameter der Kamera werden aus-
schlieÿlich aus den Bildsequenzen berechnet. Dazu werden immer aufeinanderfolgende
Bildpaare als Stereopaar behandelt und die gefundenen Features und Texturen konse-
kutiv miteinander verknüpft. Beardsley, Torr und Zisserman (1996) hingegen nehmen
Bildtripel statt -paare, wodurch sie nicht nur Eckpunkte, sondern auch Linien matchen
können.
Bei VideoTrace von van den Hengel, Dick, Thormählen et al. (2007) zeichnet der
User die Kontur des Objektes nach, das in einem Videoabschnitt modelliert werden soll.
Der Rest des Systems arbeitet automatisch und generiert das Modell, das dann auch
wieder in die Szene eingefügt werden kann. Durch sofortiges Feedback kann der Nutzer
in kurzer Zeit den für ihn interessanten Teil einer Szene in der von ihm gewünschten De-
tailtiefe modellieren lassen. Auÿerdem wird es durch diese Balance zwischen manueller
und automatischer Erfassung möglich, nicht sichtbare Teile einer Szene zu modellieren.
Pan, Reitmayr und Drummond (2009) haben mit ProFORMA eine sehr praktische
und beeindruckend performante Lösung zur Modellierung von kleineren Gegenständen
geschaen: Während der User das Objekt vor der statischen Kamera rotiert, wird
ihm das anfangs lückenhafte Modell gezeigt, das sich dann in Echtzeit immer mehr
vervollständigt. Im Hintergrund werden aus den Punkten Tetraeder geformt, die im
Gesamten geltert werden, sodass ein brauchbares Gittermodell des Objektes entsteht,
das dann texturiert wird.
4

1 Einführung
Beispiele für vollautomatische Modellgenerierung ohne manuellen Input vonseiten
des Users bieten Pollefeys, Nistér, Frahm et al. (2007) und Akbarzadeh, Frahm, Mordo-
hai et al. (2006): In beiden Ansätzen werden Videostreams von städtischen Gegenden
gesammelt und gleichzeitig auch GPS- und Geräteorientierungsdaten aufgezeichnet, so-
dass die Modelle georegistriert werden können. Um Echtzeit-Performance zu erzielen,
sind dafür mehrere CPUs und GPUs notwendig. Pollefeys, Nistér, Frahm et al. erzielen
dabei die performanteren Ergebnisse und implementieren auch Maÿnahmen, um die
groÿen Helligkeitsunterschiede in den Videodaten der Auÿenszenen zu kompensieren
und Redundanzen zwischen Bildern sinnvoll auszunutzen. Hierbei ist das System hard-
waretechnisch sehr aufwendig gestaltet: Es werden 8 Kameras auf einem Auto montiert,
Daten von einem GPS-Empfänger und einem INS (inertiales Navigationssystem) wer-
den aufgezeichnet und mit den Kameras synchronisiert, und die groÿe Datenmenge von
ca. 1 TB pro Stunde wird oine von einem Computer-Cluster zu Modellen verarbeitet.
Die vorgestellten Ansätze liefern sehr gute Ergebnisse, allerdings lässt sich eine Da-
tenakquise per Video auf einem Smartphone sehr oft nicht erfolgreich durchführen: An-
fangs hatten wir festgestellt, dass in der Regel die Veränderung pro Bild relativ gering
ist. Allerdings gilt diese Annahme noch am ehesten für Handkameras, die mit optischen
Bildstabilisatoren bestückt sind. In Smartphones können diese schon allein aus Platz-
gründen in den seltensten Fällen verbaut werden. Einige High-End-Smartphones haben
tatsächlich auch optische Bildstabilisatoren eingebaut wie bspw. das Lumia 830 (Mi-
crosoft 2016), das Samsung Galaxy S7 (Samsung 2016b), das LG G4 (LG USA 2016)
oder das iPhone 6 Plus (Apple 2016), aber sie bilden trotz allem noch die Minderheit.
Pan, Arth, Reitmayr et al. (2011) stellen fest, dass die resultierende Bewegungsun-
schärfe bei Smartphone-Videos das Finden von korrespondierenden Features zwischen
Bildern immens erschwert. Laut ihnen würde das bedeuten, dass der User das Gerät
sehr fest, immer hoch und auf das Gebäude gerichtet halten muss. Gleichzeitig müsste
er sich dabei noch so sanft und gleichmäÿig wie möglich bewegen. Insgesamt würde das
viel zu hohe Beschränkungen hinsichtlich der Bedienbarkeit aufbauen, ganz abgesehen
davon, dass sich die Batterie des Smartphones aufgrund der erforderlichen Rechenka-
pazität sehr schnell entleeren würde.
Eine Datenakquise per Video ist demnach zwar in der Theorie eine interessante
Überlegung, aber solange optische Bildstabilisatoren noch nicht die Norm in Smartphone-
Kameras sind, bietet sich dies nicht an. Aus den genannten Gründen verzichten wir in
dieser Arbeit auf eine Datenakquise mittels Videoaufnahmen.
1.2.2 Datenmassen und Städte
Eine mögliche Herangehensweise an die 3D-Rekonstruktion ist, eine möglichst groÿe
Datenmenge an Standbildern zu nutzen. Das bietet den Vorteil, dass die Daten deutlich
genauer werden können. Allerdings ist es nötig, dass man robuste Filterverfahren wie
5

1 Einführung
RANSAC (Fischler und Bolles 1981) oder einen Kalman-Filter (Kalman 1960) nutzt,
damit Messfehler, sogenannte Ausreiÿer, nicht das Ergebnis evtl. stark verunreinigen.
Snavely, Seitz und Szeliski (2006) erstellen ein System, das hilfreiche Ansätze für
virtuellen Tourismus bietet. Als Datenbasis dient eine groÿe Menge an unsortierten und
nicht georegistrierten Fotograen eines Objektes wie der Notre-Dame. Die Bilder sind
bei einigen Motiven selbst aufgenommen, bei anderen stammen sie aus dem Internet
und sind dementsprechend sehr unterschiedlich in ihren Parametern wie Kameraart,
Standpunkt, Ausleuchtung des Bildes und vielem mehr. Bei den Modellen, die aus
den Online-Bildern erstellt werden, wird jeweils aus einer Menge von meist mehreren
Tausend Bildern geschöpft, von denen am Ende nur mehrere Hundert verwendet werden
können.
Alle Fotos werden in einem für SfM typischen Workow zu einem Modell verarbei-
tet: Gute Features wie bspw. Ecken werden algorithmisch bestimmt, diese werden als
Korrespondenzen zwischen Paaren von Bildern gefunden und dann werden die internen
und externen Kameraparameter berechnet. Eine Georeferenzierung wird auch vorge-
nommen, allerdings geschieht diese interaktiv durch den User und nicht von vornherein
automatisch. Als Ergebnis wird dem Nutzer ein Foto-Browser präsentiert, mit dem er
an verschiedene 3D-Standorte in der Umgebung des Objekts springen kann und somit
ein deutlich immersiveres Erlebnis hat.
In einem späteren Ansatz erarbeiten Snavely, Seitz und Szeliski (2008) ein Vorgehen,
um aus einer groÿen Menge an Bildern die skelettartige Untermenge zu nden, die als
Basis nötig ist, um trotzdem noch ein ziemlich genaues Modell zu bekommen. Die rest-
lichen Bilder werden erst anschlieÿend inkrementell hinzugefügt, um die Genauigkeit
wieder zu erhöhen. Der Vorteil ist zum einen erhöhte Performance, weil redundante
Daten ausgelassen werden. Zum anderen verhindert dieses Vorgehen eine falsche Drift
der Parameter, die zustande kommen kann, wenn die Rekonstruktion mit ungünstig
gewählten Bildern begonnen wird. Auÿerdem zeigt diese Untersuchung, dass auch ei-
ne geringere Menge an Bildern ausreichen kann, um immer noch ein genaues Modell
zu erhalten. Dieser Ansatz wird von Klopschitz, Irschara, Reitmayr et al. (2010) noch
robuster weiterentwickelt, indem sie nicht nur Paare von Bildern verwenden, die sich
überlappen und somit Korrespondenzen enthalten, sondern Tripel.
Agarwal, Snavely, Simon et al. (o.D.) gehen noch einen Schritt weiter und entwi-
ckeln Systeme, um ganze Städte wie z. B. Rom zu rekonstruieren. Die Performance
und Skalierbarkeit des Ansatzes scheinen sehr gut zu sein, und bei 150.000 Bildern
schat ein Cluster aus 500 Computern die Rekonstruktion einer Stadt in weniger als
einem Tag. Solche Ressourcen sind natürlich auf einem Smartphone und selbst auf dem
Heimrechner eines Durchschnittsanwenders denitiv nicht verfügbar. Die Rekonstruk-
tion von Städten anhand von Videodaten ist im vorherigen Kapitel beispielhaft durch
Ansätze von Pollefeys, Nistér, Frahm et al. (2007) und Akbarzadeh, Frahm, Mordohai
6

1 Einführung
et al. (2006) dargestellt.
Einem Smartphone-User vorzugeben, er möge möglichst viele Bilder eines Gebäudes
machen, ist nicht sehr benutzerfreundlich. Wir wollen in der vorliegenden Arbeit nicht
prinzipiell so viele Daten wie möglich sammeln, sondern der Frage nachgehen, ungefähr
wie viele Bilder mindestens notwendig sind, um noch ein zuverlässiges Gebäudemodell
errechnen zu können, ähnlich wie Snavely, Seitz und Szeliski (2008). Dies untersuchen
wir natürlich erst, nachdem wir herausgefunden haben, ob generell überhaupt eine
Rekonstruktion anhand von Smartphone-Daten möglich ist.
1.2.3 Aus der Luft
Fliegende Systeme waren und sind ein wertvolles Werkzeug zum Vermessen von Gelän-
de und damit auch für die Kartographie. Oftmals kommen dabei u. a. Techniken aus
der Photogrammetrie zum Einsatz. Diese Disziplin zielt darauf ab, metrische Informa-
tionen aus Bilddaten zu extrahieren. Da die Messungen möglichst präzise sein sollen,
verlässt man sich allerdings in der Regel nicht ausschlieÿlich auf die vorliegenden Bild-
informationen, sondern verwendet auch Messdaten weiterer Geräte wie Laserscanner
(s. bspw. Früh und Zakhor 2004).
Flugzeuge und Satelliten lohnen sich zum Zweck der Fernerkundung überaus gut
(Avery, Berlin, Avery et al. 1992). Im Consumer-Bereich sind solche Transportmittel
natürlich nicht verfügbar. Bildmaterial aus einer auch nur leicht erhöhten Perspektive
bietet allerdings den Vorteil, dass man Bereiche eines Gebäudes, die bspw. von der
Straÿe aus nicht sichtbar sind, trotzdem abbilden kann.
Unbemannte Luftfahrzeuge, sogenannte UAVs (Unmanned Aerial Vehicles) sind
hierfür eine praktische Lösung. Zwar können sie nicht auf sehr groÿer Höhe operieren,
gleichzeitig garantiert dies aber, dass sie trotzdem noch sehr hochauösende Daten
liefern, da sie nicht zu weit von der Szene entfernt sind. MAVs (Micro Air Vehicles),
also UAVs in Miniaturform, oftmals Drohnen genannt, erfreuen sich immer gröÿerer
Beliebtheit und werden auch mehr und mehr erschwinglich und bedienbar für den
durchschnittlichen Nutzer.
1.2.3.1 Geologie
In der Forschung und Industrie kommen UAVs v. a. im Bereich der Geowissenschaften
zum Einsatz, bspw. bei der Fernerkundung oder beim Dokumentieren der Veränderung
eines Landstrichs. Niethammer, Rothmund, James et al. (2010) nutzen ein UAV mit
4 Rotoren und einer digitale Kompaktkamera, um einen Bergrutsch zu modellieren.
Durch Nutzung von Techniken der SfM erzielen sie hochauösende Oberächenmodelle
zur Dokumentation der Gegend, ohne zusätzliche GCPs einsetzen zu müssen.
Harwin und Lucieer (2012) dokumentieren die Erosion einer Küstenregion, eben-
7

1 Einführung
falls unter Einsatz eines Multi-Rotor-MAV, der mit einer Digitalkamera bestückt ist.
Während andere Studien die Originaldaten in verringerter Auösung verarbeiten, wird
hier mit der vollen Auösung gearbeitet. Sie gebrauchen GCPs, um das erstellte Modell
zu georeferenzieren. Im Vergleich mit Daten, die mithilfe eines Tachymeters erhoben
wurden, liegt die Genauigkeit beinahe schon im Zentimeterbereich.
1.2.3.2 Städte
Auch im städtischen Bereich kommen UAVs zum Einsatz: Bulatov, Solbrig, Gross et al.
(2011) erstellen detaillierte Nahbereichsmodelle von urbanen Umgebungen mittels der
Videodaten eines MAV. Zuerst werden die Kameraparameter und eine Tiefenkarte
berechnet, danach werden Gebäude und Vegetation anhand letzterer rekonstruiert und
am Schluss georeferenziert. Die Trennung zwischen Gebäuden, Bäumen und Straÿen
verläuft erfolgreich, und das resultierende 3D-Modell bietet eine gute Balance zwischen
Detailgenauigkeit und geometrischer Vereinfachung, besonders bei der Vegetation.
In einem sehr minimalistischen Ansatz erzielen Jizhou, Zongjian und Chengming
(2004) die Rekonstruktion eines komplette Gebäudemodells aus einem einzigen Bild.
Die Akquise erfolgt mit einem nicht-rotorbetriebenen UAV. Anhand der Fluchtlinien
und unter gewissen Beschränkungen bzgl. des Blickwinkels erzeugen sie realistische
Gebäudemodelle, indem sie zusätzlich noch eine Datenbank mit 2D-Geodaten zu Hilfe
nehmen.
1.2.3.3 Einsatz von Smartphones
Letztendlich ist jede Art von System, das mindestens eine Kamera enthält, für den
Einsatz zur SfM denkbar. Da die dabei genutzten Techniken ausschlieÿlich auf Bild-
daten operieren und keine weiteren Informationen benötigen, sind sie sehr vielseitig
einsetzbar. In den jetzt dargestellten Ansätzen kamen nur eigenständige Digitalkame-
ras zum Einsatz. Ein Smartphone als Akquisemedium für Bild- bzw. Videodaten und
3D-Positionierung einzusetzen bietet sich stark an, da sie viele Sensoren auf engem
Raum vereinen, vergleichsweise wenig kosten und auch über Mobilfunk ansprechbar
sind (Kim, Lee, Ahn et al. 2013). Dass kostengünstige Sensoren für GPS (Global Po-
sitioning System) und Orientierung wie z. B. ein AHRS (Attitude Heading Reference
System), das mit einem GPS-Empfänger, Gyrometern, Beschleunigungsmessern und
Magnetometern bestückt ist, nutzbare photogrammetrische Ergebnisse erzielen kön-
nen, zeigen schon Kolecki und Kuras (2011).
Ein Beispiel für die Kombination von UAV und Smartphone in einem photogram-
metrischen Ansatz bieten Yun, Kim, Seo et al. (2012): Es werden sowohl ein Samsung
Galaxy S als auch ein S2 eingesetzt, und trotz leicht verringerter Genauigkeit gegenüber
vergleichbaren Ansätzen mit teuren Sensorsystemen sind die Ergebnisse zufriedenstel-
8

1 Einführung
lend. Die Autoren erwarten zudem künftig einen zunehmenden Einsatz von Smartpho-
nes als Nutzlast für photogrammetrisch eingesetzte UAVs, da die Qualität der Sensoren
stetig ansteigen wird.
1.2.4 Mobil
Im Folgenden wollen wir auch einige Ansätze betrachten, welche die Einsetzbarkeit von
Smartphones in nicht ugbasierten Rekonstruktions-Workows untersuchen:
Bakuªa und Flasi«ski (2013) testen ein Smartphone mit Stereo-Kamera bei der Er-
stellung eines georeferenzierten Modells vom Ausschnitt einer Stadtmauer. Aufgrund
der Ungenauigkeit des GPS-Empfängers im Gerät, v. a. bzgl. der Z-Koordinate, und
der Unzuverlässigkeit des Magnetometers sind die Ergebnisse ohne Einsatz weiterer
Hilfsmittel stark fehlerbehaftet. Setzt man jedoch auch nur einen einzigen Kontroll-
punkt im Objektzentrum ein, vervierfacht sich die Genauigkeit. Bei Nutzung von 3
GCPs wird das Modell bereits zentimetergenau.
Klein und Murray (2007) beschäftigen sich mit der Erweiterung einer Technik na-
mens SLAM (Simultaneous Localization and Mapping), die ursprünglich aus der Ro-
botik stammt. Allerdings ndet sie auch in der AR Anwendung, wenn man sich mit-
hilfe von Algorithmen der SfM in Echtzeit in einem Gelände lokalisieren und dieses
gleichzeitig in 3D modellieren will. Klein und Murray entwickeln SLAM nun zu PTAM
(Parallel Tracking and Mapping) weiter, bei dem das Tracking (das Nachverfolgen des
Kamerapfades) und das Mapping (die Rekonstruktion der Szene) in zwei getrennten
Threads laufen. Das Tracking läuft ständig, und falls nicht genug Ressourcen frei sind,
wird nur das Mapping angehalten, sodass die Kamera sich trotzdem kontinuierlich lo-
kalisieren kann. Anfangs nutzen sie eine Handkamera und einen Dual-Core-Computer,
und sie müssen sich auf eine kleine, statische Innen-Umgebung beschränken. Die Er-
gebnisse der Live-Augmentierung sind allerdings erstaunlich gut, selbst für ein Setup,
das von den Gegebenheiten dermaÿen eingegrenzt ist.
In diesem Ansatz kommt natürlich sehr leistungsstarke Hardware zum Einsatz, mit
der ein Smartphone alleine in aller Regel nicht mithalten kann. Um mobile Endgeräte
trotzdem für solche Anwendungen nutzbar zu machen, entwickeln bspw. Fraundorfer,
Tanskanen und Pollefeys (2010) bekannte Algorithmen weiter, sodass sie mit deutlich
weniger Korrespondenzen als bisher auskommen (3 Punkte statt 5 bis 8). Zur vol-
len Funktionalität müssen zwar zwei der drei Rotationswinkel bekannt sein, aber da
es heutzutage kaum noch Smartphones ohne IMU (Inertial Measurement Unit) gibt,
kann man diese Bedingung als grundsätzlich erfüllt ansehen. Die Testergebnisse zeigen,
dass eine Sensorgenauigkeit von 1deg ausreicht für die robuste Schätzung der relativen
Position und Orientierung.
In einem späteren Ansatz setzen Klein und Murray (2009) dann auch ein iPhone ein,
um dessen Performance hinsichtlich SLAM bzw. PTAM mit der eines Desktop-Rechners
9

1 Einführung
zu vergleichen. Kleine Maps kann das Smartphone ohne zusätzliche Hilfssysteme zwar
sowohl generieren als auch augmentieren, und das sowohl drinnen als auch in Auÿenum-
gebungen; an die Stabilität eines desktopgestützten Systems kommt es allerdings noch
nicht heran. Jedoch wurde hier nur ein direkter Vergleich zwischen Smartphone und
Desktop-PC durchgeführt, ohne dabei auf dem Smartphone die zusätzlichen Möglich-
keiten zu nutzen, welche die eingebauten Sensoren bieten.
Mobile Endgeräte stellen videobasierte Rekonstruktionsverfahren zur Zeit vor allem
wegen ihren Kameras vor starke Herausforderungen: Sie haben mit Rolling Shutter zu
kämpfen und durch mangelnde Sensorstabilisierung kommt es zu Bewegungsunschärfe
(Humair 2015). Will man mit Videostreams arbeiten, dann ist auÿerdem die Framerate
in der Regel nicht sehr hoch (Klein und Murray 2009), und auch Akkukapazitäten auf
Smartphones sind schnell ausgeschöpft. Für die ersten beiden Probleme hat Humair
(2015) ein Vorgehen entwickelt, das anhand der gemessenen Bewegung des Smartphones
die dadurch entstandenen Bildfehler zurückrechnen kann. Bei geeigneter Kamerabewe-
gung und ausreichender Beleuchtung kommen akzeptable Ergebnisse zustande.
Ein weiteres Problem, das sich auch bei standbildbasierten Verfahren auftut, ist
das vergleichsweise schmale Blickfeld, sodass der Fuÿabdruck eines Bildes, also der
mit einer Fotograe abgebildete Raum, eher klein ist. Pan, Arth, Reitmayr et al. (2011)
umgehen deshalb zum einen die vorher beschriebenen inherenten Hürden bei der Rekon-
struktion anhand von Smartphone-Videos und zum anderen den kleinen Blickwinkel,
indem sie den User Panorama-Fotos von einer Umgebung aufnehmen lassen. Dadurch
wird der Bildwinkel künstlich vergröÿert und gleichzeitig die Anzahl der benötigten
Bilder verringert. Ersteres erhöht die Wahrscheinlichkeit, dass eine Rekonstruktion
überhaupt möglich ist, letzteres minimiert die Rechenlast bei der Rekonstruktion und
gleichzeitig die Gefahr, dass die Parameter durch iterative Miteinberechnung von Feh-
lern in falsche Richtungen driften.
Das Smartphone dient auch in diesem Fall wieder nicht nur als thin client, sondern
als Gesamtlösung, die die Panorama-Fotos direkt zu einer Szene rekonstruiert und ein
geometrisch vereinfachtes, texturiertes Modell erzeugt, das es auch gleich visualisiert.
Die Berechnungen laufen innerhalb von wenigen Sekunden ab, liefern brauchbare Re-
sultate und zeigen, wozu mobile Geräte mit begrenzter Rechenkapazität in der Lage
sind. Die rekonstruierten Daten sind allerdings nicht georeferenziert.
1.2.5 Gebäude und Geometrie
Wir haben die 3D-Rekonstruktion von Gebäuden nun schon aus mehreren Blickwin-
keln beleuchtet und wollen uns auch mit der Erstellung simpler geometrischer Modelle
derselben beschäftigen. SfM produziert in aller Regel eine Punktwolke, die keinerlei
Struktur oder Oberäche besitzt. Ein geometrisch zu einem gewissen Grad vereinfach-
tes Modell eines Gebäudes zu haben, bietet neue Anwendungsmöglichkeiten, von denen
10
Ende der Leseprobe aus 79 Seiten

Details

Titel
Minimale mobile Structure from Motion zur Erstellung von georeferenzierten Gebäudemodellen
Hochschule
Hochschule der Medien Stuttgart
Note
1,1
Autor
Jahr
2016
Seiten
79
Katalognummer
V342071
ISBN (eBook)
9783668319127
ISBN (Buch)
9783668319134
Dateigröße
5127 KB
Sprache
Deutsch
Schlagworte
3D-Rekonstruktion, Smartphone, Georeferenz, Gebäude
Arbeit zitieren
Josia Scheytt (Autor:in), 2016, Minimale mobile Structure from Motion zur Erstellung von georeferenzierten Gebäudemodellen, München, GRIN Verlag, https://www.grin.com/document/342071

Kommentare

  • Noch keine Kommentare.
Im eBook lesen
Titel: Minimale mobile Structure from Motion zur Erstellung von georeferenzierten Gebäudemodellen



Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden