Abstract:
Vor allem seit Smartphones für viele zum ständigen Begleiter geworden sind, wächst die Menge der aufgenommenen Bilder rasant an. Oft werden die Bilder schon unmittelbar nach der Aufnahme über soziale Netzwerke mit anderen geteilt. Zur späteren Verwendung der Aufnahmen hingegen wird es zunehmend wichtiger, die für den jeweiligen Zweck relevanten Bilder in der Masse wiederzufinden. Für viele bekannte Objektklassen ist die automatische Verschlagwortung mit entsprechenden Detektionsverfahren bereits eine große Hilfe. Anhand der Metadaten können außerdem häufig Ort oder Zeit der gesuchten Aufnahmen eingegrenzt werden. ... mehrDennoch führt in bestimmten Fällen nur eine inhaltsbasierte Bildsuche zum Ziel, da dort explizit mit einem Anfragebild nach individuellen Objekten oder Szenen gesucht werden kann.
Obwohl die Forschung im Bereich der inhaltsbasierten Bildsuche im letzten Jahrzehnt bereits zu vielen Anwendungen geführt hat, ist die Skalierbarkeit der sehr genauen Varianten noch eingeschränkt. Das bedeutet, dass die existierenden Verfahren, mit denen ein Bildpaar robust auf lokal ähnliche Teilinhalte untersucht werden kann, nicht ohne weiteres auf die Suche in vielen Millionen von Bildern ausgeweitet werden können.
Diese Dissertation widmet sich dieser Art der inhaltsbasierten Bildsuche, die Bilder anhand ihrer lokalen Bildmerkmale indexiert, und adressiert zwei wesentliche Einschränkungen des populären Bag-of-Words-Modells. Zum einen sind die Quantisierung und Komprimierung der lokalen Merkmale, die für die Suchgeschwindigkeit in großen Bildmengen essentiell sind, mit einem gewissen Verlust von Detailinformation verbunden. Zum anderen müssen die indexierten Merkmale aller Bilder immer im Arbeitsspeicher vorliegen, da jede Suchanfrage den schnellen Zugriff auf einen beträchtlichen Teil des Index erfordert. Konkret beschäftigt sich die Arbeit mit Repräsentationen, die im Index nicht nur die quantisierten Merkmale, sondern auch ihren Kontext einbeziehen. Abweichend zu den bisher üblichen Ansätzen, wird der Kontext, also die größere Umgebung eines lokalen Merkmals, als eigenständiges Merkmal erfasst und ebenfalls quantisiert, was den Index um eine Dimension erweitert. Zunächst wird dafür ein Framework für die Evaluation solcher Umgebungsrepräsentationen entworfen. Anschließend werden zwei Repräsentationen vorgeschlagen: einerseits basierend auf den benachbarten lokalen Merkmalen, die mittels des Fisher Vektors aggregiert werden, andererseits auf Basis der Ergebnisse von Faltungsschichten von künstlichen neuronalen Netzen. Nach einem Vergleich der beiden Repräsentationen sowie Kombinationen davon im Rahmen des Evaluationsframeworks, werden die Vorteile für ein Gesamtsystem der inhaltsbasierten Bildsuche anhand von vier öffentlichen Datensätzen bewertet. Für die Suche in einer Million Bildern verbessern die vorgeschlagenen Repräsentationen auf Basis der neuronalen Netze die Suchergebnisse des Bag-of-Words-Modells deutlich.
Da die zusätzliche Indexdimension einen effektiveren Zugriff auf die indexierten Merkmale ermöglicht, wird darüber hinaus eine neue Realisierung des Gesamtsystems vorgeschlagen. Das System ist bezüglich des Index nicht mehr auf den Arbeitsspeicher angewiesen, sondern kann von aktuellen nichtflüchtigen Speichermedien profitieren, etwa von SSD-Laufwerken. Von der Kombination der vorgeschlagenen Umgebungsrepräsentation der lokalen Merkmale und der Realisierung mit großen und günstigen SSD-Laufwerken können bereits heutige Systeme profitieren, denn sie können dadurch noch größere Bilddatenbanken für die inhaltsbasierte Bildsuche zugänglich machen.
Abstract (englisch):
The number of digital images is growing rapidly, especially since smartphones have become part of our daily lives. Often, immediately after being taken, the images are shared with others via social networks. In order to use the images at a later stage, however, it is becoming increasingly important to find relevant images within large collections for the respective purpose. Methods that automatically assign keywords using appropriate detection methods are already of great help for many well-known object classes. Moreover, metadata can often be exploited to narrow down the location or time of the images to be searched for. ... mehrNevertheless, the number of remaining images is often very large and a further step is required to achieve meaningful results. In these cases, CBIR can be beneficial, since individual objects or scenes can be searched for using a specific query image.
Although research in the last decade has already led to many applications for CBIR, the scalability of the very precise variants is still limited. In other words, the existing approaches to robustly compare a pair of images for locally similar contents cannot easily be extended to searches in many millions of images.
This thesis focuses on those CBIR techniques that index images via their local features, and addresses two major limitations of the established bag-of-words model. On the one hand, the quantization and compression of local features, which allow for fast search in large databases, lead to a certain loss of information. On the other hand, the indexed features of all images must be kept in the main memory, since during a query operation, fast access to a considerable part of the index is required. More concretely, this thesis deals with representations that integrate not only the quantized local features but also their larger context into the index. In contrast to previous approaches, the context is represented as a separate feature to be quantized as well, thus adding one more dimension to the index. First, a framework for the evaluation of such context representations is designed. Subsequently, two representations are proposed: the first being based on the aggregation of neighboring local features with the Fisher vector, and the second extracting information from convolutional layers of artificial neural networks. After comparing the two representations and combinations of them within the evaluation framework, the advantages for an overall CBIR system are assessed using four public datasets. For searching in one million images, the proposed representations based on neural networks significantly improve the results of the bag-of-words model.
Since the additional dimension of the index allows for a much more discriminative access to the indexed features, this thesis further proposes a new variant of a CBIR system, in which the index is not required to be kept in the main memory anymore. Instead, the presented approach can benefit from the most advanced storage technology such as solid-state drives. This combination of the proposed context representation and an implementation utilizing large and inexpensive solid-state drives adds value for today's systems enabling content-based image retrieval in even larger image collections.