Morphological Analysis for Object Recognition, Matching, and Applications

Monroy Kuhn, Juan Antonio

Preview

PDF, English
Download (44MB) | Terms of use

Citation of documents: Please do not cite the URL that is displayed in your browser location input, instead use the DOI, URN or the persistent URL below, as we can guarantee their long-time accessibility.

DOI: 10.11588/heidok.00015663
URN: urn:nbn:de:bsz:16-heidok-156637

Abstract

This thesis deals with the detection and classifcation of objects in visual images and with the analysis of shape changes between object instances. Whereas the task of object recognition focuses on learning models which describe common properties between instances of a specific category, the analysis of the specific differences between instances is also relevant to understand the objects and the categories themselves. This research is governed by the idea that important properties for the automatic perception and understanding of objects are transmitted through their geometry or shape. Therefore, models for object recognition and shape matching are devised which exploit the geometry and properties of the objects, using as little user supervision as possible. In order to learn object models for detection in a reliable manner, suitable object representations are required. The key idea in this work is to use a richer representation of the object shape within the object model in order to increase the description power and thus the performance of the whole system. For this purpose, we first investigate the integration of curvature information of shapes in the object model which is learned. Since natural objects intrinsically exhibit curved boundaries, an object is better described if this shape cue is integrated. This subject extends the widely used object representation based on gradient orientation histograms by incorporating a robust histogram-based description of curvature. We show that integrating this information substantially improves detection results over descriptors that solely rely upon histograms of orientated gradients. The impact of using richer shape representations for object recognition is further investigated through a novel method which goes beyond traditional bounding-box representations for objects. Visual recognition requires learning object models from training data. Commonly, training samples are annotated by marking only the bounding-box of objects since this appears to be the best trade-off between labeling information and effectiveness. However, objects are typically not box-shaped. Thus, the usual parametrization of objects using a bounding box seems inappropriate since such a box contains a significant amount of background clutter. Therefore, the presented approach learns object models for detection while simultaneously learning to segregate objects from clutter and extracting their overall shape, without however, requiring manual segmentation of the training samples. Shape equivalence is another interesting property related to shape. It refers to the ability of perceiving two distinct objects as having the same or similar shape. This thesis also explores the usage of this ability to detect objects in unsupervised scenarios, that is where no annotation of training data is available for learning a statistical model. For this purpose, a dataset of historical Chinese cartoons drawn during the Cultural Revolution and immediately thereafter is analyzed. Relevant objects in this dataset are emphasized through annuli of light rays. The idea of our method is to consider the different annuli as shape equivalent objects, that is, as objects sharing the same shape and devise a method to detect them. Thereafter, it is possible to indirectly infer the position, size and scale of the emphasized objects using the annuli detections. Not only commonalities among objects, but also the specific differences between them are perceived by a visual system. These differences can be understood through the analysis of how objects and their shape change. For this reason, this thesis also develops a novel methodology for analyzing the shape deformation between a single pair of images under missing correspondences. The key observation is that objects cannot deform arbitrarily, but rather the deformation itself follows the geometry and constraints imposed by the object itself. We describe the overall complex object deformation using a piecewise linear model. Thereby, we are able to identify each of the parts in the shape which share the same deformation. Thus, we are able to understand how an object and its parts were transformed. A remarkable property of the algorithm is the ability to automatically estimate the model complexity according to the overall complexity of the shape deformation. Specifically, the introduced methodology is used to analyze the deformation between original instances and reproductions of artworks. The nature of the analyzed alterations ranges from deliberate modifications by the artist to geometrical errors accumulated during the reproduction process of the image. The usage of this method within this application shows how productive the interaction between computer vision and the field of the humanities is. The goal is not to supplant human expertise, but to enhance and deepen connoisseurship about a given problem.

Translation of abstract (German)

Diese vorgelegte Dissertation befasst sich mit der Ekennung und Klassifizierung von Objekten in Bildern und mit der Analyse von Formveränderungen zwischen Objekten. Während Objekterkennung sich mit dem Lernen von Objektmodellen befasst, die die Gemeinsamkeiten zwischen Objektinstanzen beschreiben, ist die Analyze von spezifischen Unterschieden zwischen Objektinstanzen nötig, um die Objekte und Kategorien selber zu verstehen. Die Leithypothese dieser Forschung ist, dass wichtigsten Eigenschaften für die vollautomatische Perzeption und das Verstehen von Objekten durch ihre Form oder Geometrie gegeben sind. Folglich werden in dieser Arbeit Modelle für Objekterkennung und Form-Matching entwickelt, die die Formeigenschaften von Objekten mit möglichst wenig Überwachungsinformation verwenden. Um zuverlässige Objektmodelle zu lernen, werden angemessene Objektdarstellungen benötigt. Die Idee dieser Arbeit liegt darin eine genauere Beschreibung der Objektform1 zu verwenden, die die Beschreibungsmöglichkeit des Objektmodels selber und somit auch die Performance des gesamten Systems erhöht. Für diesen Zweck untersucht diese Arbeit zunächst die Integration von Krümmungsinformation der Objektform in dem zu lernenden Objektmodell. Da natürliche Objekte intrinsisch eine gekrümmte Form aufweisen, sollte das Objektmodell die Krümmungsinformation integrieren. Die vorliegende Arbeit erweitert die weitverbreitete, auf Orientierung von Gradienten basierte Objektbeschreibung durch die Einfügung einer robusten, histogram-basierten Beschreibung der Krümmung. Durch Verwendung dieser komplementären Information kann das Erkennungsresultat substantiell verbessert werden. Im Weiteren werden durch eine neue Methode die Auswirkung der Verwendung der Objektgeometrie für Objekerkennung untersucht, die über die gewöhnliche Methode der auf Bounding-box basierten Objektdarstellungen hinausgeht. Die Visuelle Erkennung von Objekten erlernt Objektmodelle mit Hilfe von Trainingsinformationen. Im Allgemeinen werden die Objekte innerhalb solcher Trainingsbeispiele mit einer Bounding-box markiert, da dies den besten Ausgleich zwischen manueller Beschriftung und Effektivität zu sein schien. Allerdings haben Objekte keine Boxform, sodass die gewöhnliche Objektbeschreibung durch Lage, Skala und Askpektverhältnis nur unzureichend widergegeben wurde. Der Grund dafür ist, dass die Box selbst viele Hintegrundsstördaten beinhaltete. Im Gegensatz dazu stellt die vorliegende Arbeit eine Methode zum Erlernen von Objektmodellen vor, bei der gleichzeitig sowohl die Abgrenzung von Objekten zu ihrem Hintergrund als auch die Erzeugung der gesamten Objektform erlernt wird. Dies geschieht ohne manuelle Segmentierung der Trainingsbespiele. Formäquivalenz ist eine weitere interessante Fähigkeit, die in Beziehung zu der Geometrie eines Objektes steht. Sie beschreibt die Fähigkeit ähnliche Objektformen zwischen verschiedenen Objekten wahrzunehmen. Diese Dissertation erforscht ihre Verwendung im Bereich der nicht überwachten Objekerkennung, d.h. der Objekterkennung, bei der die Annotation der Trainingsbeispiele für das Lernen eines statistischen Modeles entbehrlich ist. Zu diesem Zweck wird eine nicht annotierte Datenbank von chinesischen Comicbildern analysiert, die in der chinesischen Kulturrevolution entstanden sind. Für den Autor des Comics wichtige Objekte werden in diesem Datensatz mit Hilfe von ringförmigen Lichtstrahlen hervorgehoben. Die Idee dieser Methode besteht darin, die verschiedenen ringförmigen Kränze als formäquivalente Objekte zu betrachten, d.h. als Objekte mit einer gleichen Form, und eine Methode für ihre Erkennung zu entwickeln. Mit Hilfe der erkannten Lichtstrahlen, ist es möglich die Lage, Größe und Skala der hervorgehobenen Objekte innerhalb des Comics abzuleiten. Nicht nur Gemeinsamkeiten sondern auch spezifische Unterschiede zwischen sich ähnelnden Objekten werden von einem visuellen System wahrgenommen. Diese feinen Unterschiede können durch die Analyse der Veränderung der jeweiligen Objekteformen verstanden werden. Aus diesem Grund entwickelt die vorliegende Arbeit eine neue Methode, um die Formveränderungen zwischen zwei Bildern zu beschreiben, zu quantifizieren und gleichzeitig die Korrespondenzen zwischen den Objekten zu finden. Die entscheidende Erkenntnis ist, dass Objekte nicht beliebig deformierbar sind, sondern jede Deformation der Geometrie und ihrern Nebenbedingungen entsprechen muss. Die komplexe Gesamtdeformation eines Objektes wird mit Hilfe eines stückweisen linearen Modelles beschrieben. Dadurch können die verschieden Teile der Geometrie erkannt werden, die in einem zusammenhang transformiert wurden. Diese Gruppierungen ermöglicht die Visualisierung und das Verständnis der gesamten Objekttransformation. Eine wichtige Eigenschaft des Algorithmus ist die Möglichkeit, die Modellkomplexität (d.h. die Anzahl der nötigen linearen Transformationen für die Registrierung der Objekte) automatisch entspechend der zugrundeliegenden Deformation zu bestimmen. Das Modell wird verwendet um subtile Änderungen zwischen einem Originalkunstwerk und dessen Reproduktionen zu analysieren. Die Natur der Bilddeformationen variiert von absichtlichen Abänderungen von Seiten des Künstlers bis zu geometrischen Fehlern, die während des Reproduktionsprozesses aufgetreten sind. Diese Anwendung zeigt zugleich, wie gewinnbringend die Interaktion zwischen Computer Vision und Geisteswissenschaften sein kann. Das Ziel besteht nicht darin menschliche Kompetenz zu ersetzen, sondern das Verständnis einer Objektentwicklung zu vertiefen und genauer zu formulieren.

Document type:	Dissertation
Supervisor:	Ommer, Prof. Dr. Björn
Date of thesis defense:	30 October 2013
Date Deposited:	02 Dec 2013 07:21
Date:	2013
Faculties / Institutes:	The Faculty of Mathematics and Computer Science > Department of Computer Science
DDC-classification:	004 Data processing Computer science