Abstract:
Angetrieben durch den Erfolg von Deep Learning Verfahren wurden in Bezug auf künstliche Intelligenz erhebliche Fortschritte im Bereich des Maschinenverstehens gemacht. Allerdings sind Tausende von manuell annotierten Trainingsdaten zwingend notwendig, um die Generalisierungsfähigkeit solcher Modelle sicherzustellen. Darüber hinaus muss das Modell jedes Mal komplett neu trainiert werden, sobald es auf eine neue Problemklasse angewandt werden muss. Dies führt wiederum dazu, dass der sehr kostenintensive Prozess des Sammelns und Annotierens von Trainingsdaten wiederholt werden muss, wodurch die Skalierbarkeit solcher Modelle erheblich begrenzt wird. ... mehrAuf der anderen Seite bearbeiten wir Menschen neue Aufgaben nicht isoliert, sondern haben die bemerkenswerte Fähigkeit, auf bereits erworbenes Wissen bei der Lösung neuer Probleme zurückzugreifen. Diese Fähigkeit wird als Transfer-Learning bezeichnet. Sie ermöglicht es uns, schneller, besser und anhand nur sehr weniger Beispiele Neues zu lernen. Daher besteht ein großes Interesse, diese Fähigkeit durch Algorithmen nachzuahmen, insbesondere in Bereichen, in denen Trainingsdaten sehr knapp oder sogar nicht verfügbar sind.
In dieser Arbeit untersuchen wir Transfer-Learning im Kontext von Computer Vision. Insbesondere untersuchen wir, wie visuelle Erkennung (z.B. Objekt- oder Aktionsklassifizierung) durchgeführt werden kann, wenn nur wenige oder keine Trainingsbeispiele existieren. Eine vielversprechende Lösung in dieser Richtung ist das Framework der semantischen Attribute. Dabei werden visuelle Kategorien in Form von Attributen wie Farbe, Muster und Form beschrieben. Diese Attribute können aus einer disjunkten Menge von Trainingsbeispielen gelernt werden. Da die Attribute eine doppelte, d.h. sowohl visuelle als auch semantische, Interpretation haben, kann Sprache effektiv genutzt werden, um den Übertragungsprozess zu steuern. Dies bedeutet, dass Modelle für eine neue visuelle Kategorie nur anhand der sprachlichen Beschreibung erstellt werden können, indem relevante Attribute selektiert und auf die neue Kategorie übertragen werden. Die Notwendigkeit von Trainingsbildern entfällt durch diesen Prozess jedoch vollständig. In dieser Arbeit stellen wir neue Lösungen vor, semantische Attribute zu modellieren, zu übertragen, automatisch mit visuellen Kategorien zu assoziieren, und aus sprachlichen Beschreibungen zu erkennen. Zu diesem Zweck beleuchten wir die attributbasierte Erkennung aus den folgenden vier Blickpunkten:
1) Anders als das gängige Modell, bei dem Attribute global gelernt werden müssen, stellen wir einen hierarchischen Ansatz vor, der es ermöglicht, die Attribute auf verschiedenen Abstraktionsebenen zu lernen. Wir zeigen zudem, wie die Struktur zwischen den Kategorien effektiv genutzt werden kann, um den Lern- und Transferprozess zu steuern und damit diskriminative Modelle für neue Kategorien zu erstellen. Mit einer gründlichen experimentellen Analyse demonstrieren wir eine deutliche Verbesserung unseres Modells gegenüber dem globalen Ansatz, insbesondere bei der Erkennung detailgenauer Kategorien.
2) In vorherrschend attributbasierten Transferansätzen überwacht der Benutzer die Zuordnung zwischen den Attributen und den Kategorien. Wir schlagen in dieser Arbeit vor, die Verbindung zwischen den beiden automatisch und ohne Benutzereingriff herzustellen. Unser Modell erfasst die semantischen Beziehungen, welche die Attribute mit Objekten koppeln, um ihre Assoziationen vorherzusagen und unüberwacht auszuwählen welche Attribute übertragen werden sollen.
3) Wir umgehen die Notwendigkeit eines vordefinierten Vokabulars von Attributen. Statt dessen schlagen wir vor, Enyzklopädie-Artikel zu verwenden, die Objektkategorien in einem freien Text beschreiben, um automatisch eine Menge von diskriminanten, salienten und vielfältigen Attributen zu entdecken. Diese Beseitigung des Bedarfs eines benutzerdefinierten Vokabulars ermöglicht es uns, das Potenzial attributbasierter Modelle im Kontext sehr großer Datenmengen vollends auszuschöpfen.
4) Wir präsentieren eine neuartige Anwendung semantischer Attribute in der realen Welt. Wir schlagen das erste Verfahren vor, welches automatisch Modestile lernt, und vorhersagt, wie sich ihre Beliebtheit in naher Zukunft entwickeln wird. Wir zeigen, dass semantische Attribute interpretierbare Modestile liefern und zu einer besseren Vorhersage der Beliebtheit von visuellen Stilen im Vergleich zu anderen Darstellungen führen.
Abstract (englisch):
Energized with the rise of deep learning models, artificial intelligence made large strides in bringing machine understanding to the realm of human performance. However, in order to generalize well these models rely heavily on the availability of thousands of manually labeled examples. Additionally, whenever a new task is encountered the learning starts from scratch and the expensive process of collecting additional training data is repeated. This significantly limits the scalability of such models. On the other hand, we - humans - do not learn new tasks in isolation. We have the remarkable ability to utilize previously obtained knowledge in solving new problems. ... mehrThis skill is known as transfer learning. It enables us to learn faster, better and with few examples. Therefore, there is great interest to mimic this skill by machines especially in domains where training data is scarce or not available.
In this thesis we study transfer learning from a vision perspective. Specifically, we investigate how to carry on visual recognition (e.g. object or action classification) when there are few or no training samples. A promising solution in that direction is the semantic attribute framework. Here, visual categories are described in terms of intermediate attributes like color, pattern and shape. These attributes can be learned from a disjoint set of samples. Moreover, since they have a dual interpretation (visual and semantic), language can be effectively leveraged to guide the transfer process. That is, given a novel visual category, a linguistic description can be utilized to compose and transfer relevant attributes and construct the category model without the need of any training images. In this work, we pursue this framework and introduce novel solutions on how to model and transfer semantic attributes, how to automatically associate them with visual categories and how to discover them from free-form linguistic descriptions. To that end, we address the attribute-based recognition from four vantage points.
First, unlike the prevailing model where attributes are learned in a global manner, we propose a hierarchical approach to learn the attributes at various abstraction levels. Furthermore, we demonstrate how the structure among the categories can be effectively leveraged to guide the learning and transfer process to construct more discriminative models for novel categories. A thorough evaluation shows a significant improvement of our model over the global approach especially in fine-grained recognition.
Second, while in the prevailing attribute-based transfer approach the user supervises the mapping between the attributes and the categories, in this work we propose to automatically establish the link among the two without user intervention. Our model captures the semantic relations coupling attributes and objects to predict their associations and select which attributes to transfer in an unsupervised manner.
Third, we circumvent the requirement of a predefined attribute vocabulary. We propose to leverage encyclopedia articles describing object categories in a free-form text to discover a set of discriminate, salient and diverse attributes. By alleviating the need of user defined vocabulary, our model unlocks the capabilities of attribute-based frameworks for large-scale data.
Finally, we introduce a novel real world application of semantic attributes. We propose the first approach to learn fashion styles and forecast their popularity in the future. We show that semantic attributes provides interpretable fashion styles and lead to better forecast of visual styles popularity compared to other representation.