Performance Metrics and Test Data Generation for Depth Estimation Algorithms

Honauer, Katrin

German Title: Performanzmetriken und Testdaten-Erzeugung für Tiefenschätzungsalgorithmen

[thumbnail of _dissertation_katrin_honauer.pdf]

Preview

PDF, English - main document
Download (30MB) | Terms of use

Citation of documents: Please do not cite the URL that is displayed in your browser location input, instead use the DOI, URN or the persistent URL below, as we can guarantee their long-time accessibility.

DOI: 10.11588/heidok.00025758
URN: urn:nbn:de:bsz:16-heidok-257582
URL: http://www.ub.uni-heidelberg.de/archiv/25758

Abstract

This thesis investigates performance metrics and test datasets used for the evaluation of depth estimation algorithms.

Stereo and light field algorithms take structured camera images as input to reconstruct a depth map of the depicted scene. Such depth estimation algorithms are employed in a multitude of practical applications such as industrial inspection and the movie industry. Recently, they have also been used for safety-relevant applications such as driver assistance and computer assisted surgery. Despite this increasing practical relevance, depth estimation algorithms are still evaluated with simple error measures and on small academic datasets. To develop and select suitable and safe algorithms, it is essential to gain a thorough understanding of their respective strengths and weaknesses.

In this thesis, I demonstrate that computing average pixel errors of depth estimation algorithms is not sufficient for a thorough and reliable performance analysis. The analysis must also take into account the specific requirements of the given applications as well as the characteristics of the available test data.

I propose metrics to explicitly quantify depth estimation results at continuous surfaces, depth discontinuities, and fine structures. These geometric entities are particularly relevant for many applications and challenging for algorithms. In contrast to prevalent metrics, the proposed metrics take into account that pixels are neither spatially independent within an image nor uniformly challenging nor equally relevant.

Apart from performance metrics, test datasets play an important role for evaluation. Their availability is typically limited in quantity, quality, and diversity. I show how test data deficiencies can be overcome by using specific metrics, additional annotations, and stratified test data.

Using systematic test cases, a user study, and a comprehensive case study, I demonstrate that the proposed metrics, test datasets, and visualizations allow for a meaningful quantitative analysis of the strengths and weaknesses of different algorithms. In contrast to existing evaluation methodologies, application-specific priorities can be taken into account to identify the most suitable algorithms.

Translation of abstract (German)

Die vorliegende Arbeit befasst sich mit der Entwicklung von Performanzmetriken und Testdaten zur Evaluierung von Tiefenschätzungsalgorithmen.

Stereo- und Lichtfeld-Algorithmen erhalten strukturierte Kamerabilder als Eingabe und rekonstruieren daraus eine Tiefenkarte der abgebildeten Szene. Mittlerweile finden derartige Algorithmen vielfältige Anwendung in der Praxis, zum Beispiel in der industriellen Inspektion und in der Filmindustrie. Darüber hinaus werden sie zunehmend auch in sicherheitskritischen Bereichen wie Fahrerassistenzsystemen und computerassistierter Chirurgie eingesetzt. Trotz dieser steigenden praktischen Relevanz werden Tiefenschätzungsalgorithmen noch immer mit simplen Fehlermaßen und auf kleinen akademischen Datensätzen evaluiert. Für die Auswahl und Weiterentwicklung geeigneter und sicherer Algorithmen ist jedoch ein genaues Verständnis der jeweiligen Stärken und Schwächen essentiell.

In dieser Arbeit zeige ich auf, dass für eine sorgfältige und belastbare Performanzanalyse neben durchschnittlichen Pixelfehlern der Algorithmenergebnisse auch die spezifischen Anforderungen der Anwendung sowie die Eigenschaften der zur Verfügung stehenden Testdaten einbezogen werden müssen.

Ich definiere Metriken zur spezifischen Quantifizierung von Tiefenschätzungen an kontinuierlichen Oberflächen, Tiefenkanten und feinen Strukturen. Diese Geometrien sind besonders relevant für viele Anwendungen und herausfordernd für Algorithmen. Im Gegensatz zu gängigen Metriken berücksichtigen die vorgeschlagenen Metriken, dass Pixel innerhalb eines Bildes weder räumlich voneinander unabhängig, noch einheitlich anspruchsvoll, oder gleichermaßen relevant sind.

Neben Performanzmetriken spielen Testdaten eine große Rolle bei der Evaluierung. Diese sind in der Regel nur in begrenzter Menge, Qualität, und Diversität verfügbar. Ich zeige Strategien auf, wie Defizite der zur Verfügung stehenden Testdaten durch spezifische Metriken, zusätzliche Annotation sowie durch stratifizierte Testdaten kompensiert werden können.

Anhand von systematischen Testfällen, einer Anwenderstudie sowie einer ausführlichen Fallstudie weise ich nach, dass die vorgestellten Metriken, Testdaten und Visualisierungen eine aussagekräftige, quantitative Analyse der Stärken und Schwächen verschiedener Algorithmen ermöglichen. Im Gegensatz zu existierenden Auswertungsverfahren können anwendungsspezifische Prioritäten berücksichtigt und die jeweils besten Algorithmen identifiziert werden.

Document type:	Dissertation
Supervisor:	Jähne, Prof. Dr. Bernd
Place of Publication:	Heidelberg
Date of thesis defense:	14 December 2018
Date Deposited:	09 Jan 2019 07:57
Date:	2019
Faculties / Institutes:	The Faculty of Mathematics and Computer Science > Department of Computer Science Service facilities > Heidelberg Collaboratory for Image Processing (HCI)
DDC-classification:	004 Data processing Computer science
Uncontrolled Keywords:	Performanzanalyse, Evaluation, Stereoskopie, Lichtfeld, Tiefenbild, Stratified Scenes, Performanzmetriken, Testdaten, Benchmark