Visual Localization with Lines

Schmude, Naja von

[thumbnail of Dissertation_vonSchmude.pdf]

Preview

PDF, English - main document
Download (16MB) | Terms of use

Citation of documents: Please do not cite the URL that is displayed in your browser location input, instead use the DOI, URN or the persistent URL below, as we can guarantee their long-time accessibility.

DOI: 10.11588/heidok.00023524
URN: urn:nbn:de:bsz:16-heidok-235244

Abstract

Mobile robots must be able to derive their current location from sensor measurements in order to navigate fully autonomously. Positioning sensors like GPS output a global position but their precision is not sufficient for many applications; and indoors no GPS signal is received at all. Cameras provide information-rich data and are already used in many systems, e.g. for object detection and recognition. Therefore, this thesis investigates the possibility of additionally using cameras for localization. State-of-the-art methods are based on point observations but as man-made environments mostly consist of planar and linear structures which are perceived as lines, the focus in this thesis is on the use of image lines to derive the camera trajectory.

To achieve this goal, multiple view geometry algorithms for line-based pose and structure estimation have to be developed. A prerequisite for these algorithms is that correspondences between line observations in multiple images which originate from the same spatial line are established. This thesis proposes a novel line matching algorithm for matching under small baseline motion which is designed with one-to-many matching in mind to tackle the issue of varying line segmentation. In contrast to other line matching solutions, the algorithm proposed leverages optical flow calculation and hence obviates the need for an expensive descriptor calculation.

A two-view relative pose estimation algorithm is introduced which extracts the spatial line directions using parallel line clustering on the image lines in order to calculate the relative rotation. In lieu of the "Manhattan world" assumption, which is required by state-of-the-art methods, the approach proposed is less restrictive as it needs only lines of different directions; the angle between the directions is not relevant. In addition, the method proposed is in the order of one magnitude faster to compute.

A novel line triangulation method is proposed to derive the scene structure from the images. The method is derived from the spatial transformation of Plücker lines and allows prior knowledge of the spatial line, like the precalculated directions from the parallel line clustering, to be integrated. The problem of degenerate configurations is analyzed, too, and a solution is developed which incorporates the optical flow vectors from the matching step as spatial points into the estimation.

Lastly, all components are combined to a visual odometry pipeline for monocular cameras. The pipeline uses image-to-image motion estimation to calculate the camera trajectory. A scale adjustment based on the trifocal tensor is introduced which ensures the consistent scale of the trajectory. To increase the robustness, a sliding-window bundle adjustment is employed.

All components and the visual odometry pipeline proposed are evaluated and compared to state-of-the-art methods on real world data of indoor and outdoor scenes. The evaluation shows that line-based visual localization is suitable to solve the localization task.

Translation of abstract (German)

Um vollkommen autonom navigieren zu können, müssen mobile Roboter in der Lage sein ihre aktuelle Position aus Sensordaten zu ermitteln. Positionsgebende Sensoren wie GPS liefern direkt eine globale Position, die aber für viele Anwendungen zu unpräzise ist. Insbesondere in Innenräumen kann GPS nicht eingesetzt werden, da dort überhaupt kein Signal empfangen werden kann. Kameras hingegen liefern reichhaltige Informationen und kommen bereits in zahlreichen Systemen zum Einsatz, z.B. für Objektdetektion und -erkennung. Die vorliegende Arbeit untersucht daher die Möglichkeit, Kameras auch zur Lokalisierung zu verwenden. Der aktuelle Stand der Forschung verwendet dazu vorrangig Methoden, die auf Punktbeobachtungen basieren. Da menschengemachte Umgebungen aber vorwiegend aus ebenen und linearen Strukturen bestehen, die als Linien im Bild erkennbar sind, liegt der Fokus dieser Arbeit auf der Verwendung von Linien zur Bestimmung der Kameratrajektorie.

Um dieses Ziel zu erreichen, müssen Algorithmen zur linienbasierten Posen- und Strukturbestimmung entwickelt werden. Voraussetzung ist, dass Korrespondenzen zwischen Linienbeobachtungen derselben räumlichen Linien in mehreren Bildern gefunden werden können. Diese Arbeit stellt daher zunächst ein neues Linienmatching-Verfahren vor, das Linienbeobachtungen unter geringem Kameraversatz in Korrespondenz bringt. Das Verfahren berücksichtigt direkt, dass das Matching nicht eindeutig sein darf, da die Segmentierung der Linien zwischen den Bildern unterschiedlich ausfallen kann. Im Unterschied zu anderen Linienmatching-Methoden braucht jedoch kein Liniendeskriptor aufwendig berechnet zu werden, da optischer Fluss benutzt wird, um Linienkorrespondenzen herzustellen.

In der vorliegenden Arbeit wird ein Algorithmus zur Bestimmung der relativen Pose zwischen zwei Kamerapositionen vorgestellt, der die räumlichen Linienrichtungen durch ein Clustering paralleler Linien ermittelt und zur Berechnung der relativen Rotation verwendet. Anstelle der "Manhattan Welt"-Annahme, die dem Stand der Technik zugrunde liegt, kommt eine weniger restriktive Annahme zum Einsatz, die nur Linien unterschiedlicher Richtung fordert, wobei aber der Winkel zwischen den Richtungen unerheblich ist. Die vorgeschlagene Methode ist des Weiteren um ein Vielfaches schneller zu berechnen.

Um die Geometrie der Szene aus den Bildern abzuleiten, wird ein neues Verfahren zur Triangulierung von Linien vorgestellt. Der Ansatz basiert auf der räumlichen Transformation von Plücker-Linien und erlaubt das Einbeziehen von Vorwissen über die zu triangulierende Linie, wie z.B. ihre vorher berechnete Richtung aus dem Clustering paralleler Linien. Aus der Analyse des Problems von degenerierten Konfigurationen wird eine Lösung abgeleitet, die die Informationen vom optischen Fluss des Linienmatching-Verfahrens mit einschließt, indem aus den Flussvektoren räumliche Punkte berechnet werden.

Abschließend werden alle vorgestellten Verfahren zu einem visuellen Odometrie-System für monokulare Kameras kombiniert. Das System berechnet die Bild-zu-Bild-Bewegung der Kamera und bildet daraus die Kameratrajektorie. Eine Skalenanpassung ist notwendig, um die konsistente Skalierung der Trajektorie sicherzustellen. Die dazu entwickelte Methode basiert auf dem Trifokaltensor. Um die Robustheit zusätzlich zu erhöhen, kommt ein Sliding-Window-Bündelblockausgleich zum Einsatz.

Alle eingeführten Komponenten und das visuelle Odometrie-System werden anhand echter Daten aus Innenräumen und Außenszenen evaluiert und mit dem Stand der Technik verglichen. Die Auswertung zeigt, dass linienbasierte visuelle Lokalisierung das Lokalisierungsproblem lösen kann.

Document type:	Dissertation
Supervisor:	Jähne, Prof. Dr. Bernd
Date of thesis defense:	19 October 2017
Date Deposited:	19 Dec 2017 11:09
Date:	2017
Faculties / Institutes:	The Faculty of Mathematics and Computer Science > Department of Computer Science
DDC-classification:	004 Data processing Computer science 600 Technology (Applied sciences)
Controlled Keywords:	Lokalisierung <Robotik>, Maschinelles Sehen, Matching, Triangulierung, Odometrie, Linie, Projektive Geometrie
Uncontrolled Keywords:	Relative Pose