Model-Based Multiple 3D Object Recognition in Range Data

Breitenreicher, Dirk

German Title: Modellbasierte Erkennung von mehreren 3D Objekten in Tiefenbildern

[thumbnail of PhD Thesis Dirk Breitenreicher]

Preview

PDF, English (PhD Thesis Dirk Breitenreicher)
Download (9MB) | Terms of use

Citation of documents: Please do not cite the URL that is displayed in your browser location input, instead use the DOI, URN or the persistent URL below, as we can guarantee their long-time accessibility.

DOI: 10.11588/heidok.00010582
URN: urn:nbn:de:bsz:16-opus-105821
URL: http://www.ub.uni-heidelberg.de/archiv/10582

Abstract

Vision guided systems are relevant for many industrial application areas, including manufacturing, medicine, service robots etc. A task common to these applications consists of detecting and localizing known objects in cluttered scenes. This amounts to solve the "chicken and egg" problem consisting of data assignment and parameter estimation, that is to localize an object and to determine its pose. In this work, we consider computer vision techniques for the special scenario of industrial bin-picking applications where the goal is to accurately estimate the positions of multiple instances of arbitrary, known objects that are randomly assembled in a bin. Although a-priori knowledge of the objects simplifies the problem, model symmetries, mutual occlusion as well as noise, unstructured measurements and run-time constraints render the problem far from being trivial. A common strategy to cope with this problem is to apply a two-step approach that consists of rough initialization estimation for each objects' position followed by subsequent refinement steps. Established initialization procedures only take into account single objects, however. Hence, they cannot resolve contextual constraints caused by multiple object instances and thus yield poor estimates of the objects' pose in many settings. Inaccurate initial configurations, on the other hand, cause state-of-the-art refinement algorithms to be unable to identify the objects' pose, such that the entire two-step approach is likely to fail. In this thesis, we propose a novel approach for obtaining initial estimates of all object positions jointly. Additionally, we investigate a new local, individual refinement procedure that copes with the shortcomings of state-of-the-art approaches while yielding fast and accurate registration results as well as a large region of attraction. Both stages are designed using advanced numerical techniques such as large-scale convex programming and geometric optimization on the curved space of Euclidean transformations, respectively. They complement each other in that conflicting interpretations are resolved through non-local convex processing, followed by accurate non-convex local optimization based on sufficiently good initializations. Exhaustive numerical evaluation on artificial and real-world measurements experimentally confirms the proposed two-step approach and demonstrates the robustness to noise, unstructured measurements and occlusions as well as showing the potential to meet run-time constraints of real-world industrial applications.

Translation of abstract (German)

Bildgestützte Systeme bilden die Grundlage vieler industrieller Anwendungen, zum Beispiel in der Fertigungstechnik, im medizinischen Bereich oder für Service-Roboter. Eine Aufgabe, die all diese Anwendungen gemein haben, ist die Detektion und Lokalisierung von bekannten Objekten in unstrukturierten Bildern. Dies ist jedoch ein "Henne-Ei"-Problem, das daraus besteht, Teile des Bildes Modellteilen zuzuweisen, während simultan die Parameter der Lage des Objektes geschätzt werden müssen. In dieser Arbeit betrachten wir Computer-Vision Verfahren für die spezielle industrielle Anwendung "Bin-Picking", deren Ziel es ist, die Lage von mehreren bekannten und zufällig angeordneten Objekten zuverlässig zu bestimmen. Auch wenn Vorwissen über die Form der Objekte das Problem vereinfacht, führen Symmetrien, gegenseitige Verdeckung der Objekte, strukturelle Messfehler sowie Laufzeitrestriktionen dazu, dass die Lösung des Problems komplex ist. Ein gängiger Ansatz, sich dieses Problems anzunehmen, ist eine Zwei-Schritt-Strategie zu verfolgen, die anfangs eine grobe Schätzung der Lage der Objekte bestimmt, gefolgt von einer zusätzlichen Feinpositionierung. Etablierte Initialisierungsverfahren sind jedoch nur in der Lage, die Position einzelner Objekte zu bestimmen. Daher können sie kontextbezogene Restriktionen, die durch mehrere Instanzen verursacht werden, nicht auflösen, was wiederum zu ungenauen Positionierungen führt. Dies hat jedoch zur Folge, dass gängige Feinpositionierungsansätze die genaue Objektlage nicht mehr zuverlässig bestimmen können und das gesamte Verfahren nur ungenaue Resultate erreicht. In dieser Arbeit schlagen wir einen neuen Ansatz zur groben Registrierung vor, welcher die Lage aller Objekte gleichzeitig bestimmt. Zusätzlich wird eine neue lokale Feinausrichtung erforscht, die einzelne Objektpositionen verfeinert. Dieser Ansatz beseitigt die Mängel gängiger Ansätze und führt zu hinreichend genauen Resultaten für eine Vielzahl von Initialisierungen. Beide Schritte nutzen erweiterte numerische Techniken wie konvexe, large-scale Programmierung und geometrische Optimierung im gekrümmten Raum der Starrkörpertransformationen. Zudem ergänzen sich die Einzelschritte, da sich widersprechende Schätzungen in einem globalen konvexen Problem beseitigt werden und hinreichend gute Initialisierungen im nachfolgenden lokalen, nicht-konvexen Schritt verfeinert werden. Experimente auf künstlichen und realen Messungen bestätigen den vorgeschlagenen, neuen Ansatz und zeigen, dass das Verfahren robust gegen Messfehler und Verdeckungen ist sowie das Potential hat, die Laufzeitrestriktionen vieler industrieller Anwendungen zu erfüllen.

Document type:	Dissertation
Supervisor:	Schnörr, Prof. Dr. Christoph
Date of thesis defense:	20 April 2010
Date Deposited:	23 Apr 2010 10:50
Date:	2010
Faculties / Institutes:	The Faculty of Mathematics and Computer Science > Department of Computer Science
DDC-classification:	004 Data processing Computer science
Controlled Keywords:	Registrierung [Bildverarbeitung], Geometrische Optimierung
Uncontrolled Keywords:	Pose Estimation , Bin-Picking , Rigid Body Transformation , Geometric Optimization