Abstract:
In dieser Arbeit werden spektral codierte multispektrale Lichtfelder, wie sie von einer Lichtfeldkamera mit einem spektral codierten Mikrolinsenarray aufgenommen werden, untersucht. Für die Rekonstruktion der codierten Lichtfelder werden zwei Methoden entwickelt und im Detail ausgewertet.
Zunächst wird eine vollständige Rekonstruktion des spektralen Lichtfelds entwickelt, die auf den Prinzipien des Compressed Sensing basiert. Um die spektralen Lichtfelder spärlich darzustellen, werden 5D-DCT-Basen sowie ein Ansatz zum Lernen eines Dictionary untersucht. Der konventionelle vektorisierte Dictionary-Lernansatz wird auf eine tensorielle Notation verallgemeinert, um das Lichtfeld-Dictionary tensoriell zu faktorisieren. ... mehrAufgrund der reduzierten Anzahl von zu lernenden Parametern ermöglicht dieser Ansatz größere effektive Atomgrößen.
Zweitens wird eine auf Deep Learning basierende Rekonstruktion der spektralen Zentralansicht und der zugehörigen Disparitätskarte aus dem codierten Lichtfeld entwickelt. Dabei wird die gewünschte Information direkt aus den codierten Messungen geschätzt. Es werden verschiedene Strategien des entsprechenden Multi-Task-Trainings verglichen. Um die Qualität der Rekonstruktion weiter zu verbessern, wird eine neuartige Methode zur Einbeziehung von Hilfslossfunktionen auf der Grundlage ihrer jeweiligen normalisierten Gradientenähnlichkeit entwickelt und gezeigt, dass sie bisherige adaptive Methoden übertrifft.
Um die verschiedenen Rekonstruktionsansätze zu trainieren und zu bewerten, werden zwei Datensätze erstellt. Zunächst wird ein großer synthetischer spektraler Lichtfelddatensatz mit verfügbarer Disparität Ground Truth unter Verwendung eines Raytracers erstellt. Dieser Datensatz, der etwa 100k spektrale Lichtfelder mit dazugehöriger Disparität enthält, wird in einen Trainings-, Validierungs- und Testdatensatz aufgeteilt. Um die Qualität weiter zu bewerten, werden sieben handgefertigte Szenen, so genannte Datensatz-Challenges, erstellt. Schließlich wird ein realer spektraler Lichtfelddatensatz mit einer speziell angefertigten spektralen Lichtfeldreferenzkamera aufgenommen. Die radiometrische und geometrische Kalibrierung der Kamera wird im Detail besprochen.
Anhand der neuen Datensätze werden die vorgeschlagenen Rekonstruktionsansätze im Detail bewertet. Es werden verschiedene Codierungsmasken untersucht -- zufällige, reguläre, sowie Ende-zu-Ende optimierte Codierungsmasken, die mit einer neuartigen differenzierbaren fraktalen Generierung erzeugt werden. Darüber hinaus werden weitere Untersuchungen durchgeführt, zum Beispiel bezüglich der Abhängigkeit von Rauschen, der Winkelauflösung oder Tiefe.
Insgesamt sind die Ergebnisse überzeugend und zeigen eine hohe Rekonstruktionsqualität. Die Deep-Learning-basierte Rekonstruktion, insbesondere wenn sie mit adaptiven Multitasking- und Hilfslossstrategien trainiert wird, übertrifft die Compressed-Sensing-basierte Rekonstruktion mit anschließender Disparitätsschätzung nach dem Stand der Technik.
Abstract (englisch):
In this thesis, spatio-spectrally coded multispectral light fields, as taken by a light field camera with a spectrally coded microlens array, are investigated. For the reconstruction of the coded light fields, two methods are developed and evaluated in detail.
First, a full reconstruction of the spectral light field, based on the principles of compressed sensing, is developed. To sparsely represent spectral light fields, fixed 5D-DCT bases are investigated as well as a dictionary learning approach. The conventional vectorized dictionary learning approach is generalized to a tensorial notation to tensorially factorize the light field dictionary.
... mehr
Due to the reduced number of trainable parameters, this approach allows for larger effective atom sizes.
Second, a deep learning-based reconstruction of the spectral central view and its aligned disparity map from the coded light field is developed. Here, the desired information is estimated from the coded measurements directly. Several strategies of the corresponding multi-task training are compared. To further improve the quality of the reconstruction, a novel method to incorporate auxiliary losses, based on their respective normalized gradient similarity, is developed and shown to outperform previous adaptive methods.
To train and evaluate the different reconstruction approaches, two datasets are created. First, a large synthetic spectral light field dataset with available disparity ground truth is created using a custom ray tracer. This dataset, containing roughly 100k spectral light field and disparity patches, is split into a training, validation, and test dataset. To further evaluate the performance, seven hand-crafted scenes, so-called dataset challenges, are created. Finally, a real-world spectral light field dataset is captured using a custom-built spectral light field camera. The radiometric and geometric calibration of the camera are discussed in detail.
Using the novel datasets, the proposed reconstruction approaches are evaluated in detail. Different coding masks are investigated---random, regular, as well as end-to-end optimized coding masks generated using a novel differentiable fractal generation. Several ablation studies are considered, for example investigating the dependence on noise, angular resolution, or depth. Overall, the results are convincing and show a high reconstruction quality. The deep learning-based reconstruction, in particular when trained with adaptive multi-task and auxiliary loss strategies, outperforms the compressed sensing-based reconstruction and subsequent state-of-the-art disparity estimation.