Abstract:
Diese Dissertation beschäftigt sich mit biologisch inspirierten Methoden für das sich rapide entwickelnde Feld des maschinellen Lernens angewendet auf die Naturwissenschaften.
Die Natur und insbesondere die Biologie dienen seit langem als Grundlage für Modelle und Algorithmen in der Informatik.
Bekannte Beispiele sind künstliche neuronale Netze, der Attention Mechanismus, oder populationsbasierte Optimierungsverfahren.
Im Gegenzug hat die Biologie in verschiedenen Bereichen große Fortschritte durch moderne Hochdurchsatzverfahren und die dadurch ermöglichten Datenanalysemethoden erfahren.
... mehr
Insbesondere das Konzept der Evolution bietet einen Mechanismus der für ganze Familien von Optimierungsverfahren adaptiert wurde, aber sie hinterlässt auch maschinenlernbare Muster in evolutionsbiologischen Datenbeständen.
Die Anpassung von Techniken des maschinellen Lernens, die für Standardanwendungen wie Bild- oder Sprachverarbeitung entwickelt wurden, an naturwissenschaftliche Fragestellungen wirft eine Reihe von Herausforderungen auf, erlaubte aber auch in jüngster Zeit lange zuvor ungelösten Problemen zu lösen.
Modelarchitekturen und den enthaltenen induktiven Bias auf spezifische Probleme maßzuschneidern erlaubt eine bessere Leistung des Modells, setzt üblicherweise aber Expertenwissen und angepasste Modellkomponenten voraus.
Ein beispielhaftes Gebiet der Biologie, auf dem maschinelles Lernen großen Fortschritt ermöglicht hat, ist die biomolekulare Strukturvorhersage.
Dieser Fortschritt wurde ermöglicht durch algorithmische Entwicklungen an der Schnittstelle zwischen Bildverarbeitung, Sprachverarbeitung, und geometrischem Lernen, durch das rasante Wachstum von öffentlichen Datenbanken und nicht zuletzt durch die Verfügbarkeit von großen Mengen an Rechenressourcen.
Während diese Fortschritte sich auf Gebiete beschränken, in denen die erwünschten Vorhersageergebnisse für die Trainingsdaten bereits in großer Menge bekannt sind, gibt es viele, in denen Beispielergebnisse oder Trainingsdaten insgesamt knapp sind.
Ein solches Beispiel sind funktionale Ribonucleinsäuren mit assoziierter dreidimensionaler Struktur.
Es gibt nur wenige experimentell aufgelöste Strukturen in öffentlichen Datenbanken, da die entsprechenden Experimente aufwändig und teuer sind.
Obwohl diese Datensätze im Laufe der Zeit anwachsen sollten, werden Strukturdaten ein limitierender Faktor bleiben und die effiziente Datennutzung wird weiterhin eine notwendige Modelleigenschaft sein.
Mein Beitrag für eine bessere Kontaktvorhersage als Proxy für Strukturvorhersage ist ein Kompositmodell bestehend aus zwei Modulen.
Das erste, das den Großteil der Modellparameter enthält, wird selbstüberwacht auf Gensequenzen trainiert, so dass die vorhandenen Daten ohne assoziierte Strukturen genutzt werden können.
Das zweite Modul benutzt anschließend die latenten Repräsentationen des vorigen Moduls um die eigentliche Vorhersage zu produzieren.
Es besteht aus einem flachen neuronalen Netz und einem robusten, klassischen Random Forest, die gemeinsam die wenigen Strukturdaten effizient nutzen können.
Ein weiteres Problem, das oft insbesondere in datenarmen Szenarien auftaucht, ist ein Bias in der Verteilung von Trainingsdaten.
Während es subtilere Phänomene gibt, ist eine einfach zu beobachtende Eigenschaft das Klassenungleichgewicht.
Die weniger interessanten Hintergrundklassen sind oft überrepräsentiert im Vergleich zu dem interessanteren Vordergrund oder gesuchten Anomalien.
Dieses Ungleichgewicht hat insbesondere einen Einfluss auf die Optimierungslandschaft, die während des Trainings eines neuronalen Netzwerks durchquert wird.
Um das Optimum auf dem das Modell letztendlich konvergiert zu manipulieren, verzerre ich diese Landschaft, indem ich verschiedene Trainingssignale dynamisch miteinander kombiniere.
Das Finden von geeigneten Architekturen oder anderen Parametern, die das Training eines Modells beeinflussen, ist ein an Relevanz zunehmendes Problem, da Modelle komplexer und Training ressourcenhungriger werden.
Evolution bietet einen Ansatz, um diese Parameterräume effizient zu durchsuchen.
Evolutionäre Optimierung ist ein etabliertes Vorgehen, es hat jedoch einige Eigenschaften, die es besonders geeignet für neurale Architektursuche machen.
Die populationsbasierte Basis hat inhärentes Potenzial für Parallelisierung, was gute Skalierungseigenschaften auf modernen großskaligen Recheninfrastrukturen verspricht.
Ausserdem verläßt sich der Navigationsmechanismus nicht auf Gradienten oder Distanzen im Suchraum, und ist daher geeignet sowohl kategorische als auch kontinuierliche Parameter zu verarbeiten.
Ich stelle ein neues Kommunikationsprotokoll und darauf angepasste Algorithmen vor, die auf asynchronem Austausch zwischen einzelnen Evaluations- und Trainingsschritten basieren, um populationsbasierte Optimierung für neurale Architektursuche auf Hochleistungsrechnern anzupassen.
Abstract (englisch):
This dissertation broadly draws inspiration from biology for solving issues in the rapidly developing field of machine learning in the natural sciences.
Nature and biology have long served as foundation for models and algorithms in computer science.
Well-known examples include artificial neural networks, the attention mechanism, or population based optimization.
In the opposite direction, biology has seen rapid progress driven by high throughput data acquisition methods and the surge in powerful machine learning methods enabled by them.
Evolution in particular provides a mechanism that has been adapted to a family of optimization algorithms in computer science, but it also leaves behind machine-learnable patterns in biological records.
... mehr
Adaptation of machine learning techniques primarily developed for default applications like image or language processing, to natural sciences poses diverse challenges, but have been recently successful in solving long standing problems.
Tailoring the model architecture and inductive biases to the specific problem at hand promises greater performance but often requires expert domain knowledge and specialized model components.
One area where machine learning has driven rapid advance is bio-molecular structure prediction.
This advance has been enabled by the algorithmic advances at the intersection of image processing, language processing and geometric learning, by the rapid growth of public databases, and finally by the availability of compute resources.
While these recent successes have been relegated to areas, where labeled training data is relatively ubiquitous, there are many, where labels or data in general are sparse.
One such example is structured ribonucleic acids.
There are few resolved structures in the public databases, since their structural resolution remains challenging.
While the datasets are expected to grow, experiments will remain expensive and time consuming and thus data efficiency is a valuable model property.
My contribution for better contact prediction models as a proxy for structure prediction is a composite model consisting of two modules.
The first module encompassing the bulk of the model parameters is pre-trained in a self-supervised manner, in order to utilize as much information from unlabeled data as possible.
The second is a combination of shallow artificial neural network and classical random forest model that further processes the latent representations of the bulk model, since it is more robust than a neural network when faced with limited training data.
Another problem, especially present in the sparse data regime, is the biases present in the distribution of the data.
While there are more subtle phenomena, the most easily visible one is class imbalance.
Often, the less interesting background classes are overrepresented in comparison to the interesting foreground or anomalies.
This imbalance in particular has an effect on the optimization landscape that is traversed during training of a neural network.
To manipulate the optimum the model finally converges on, I dynamically deform this landscape by scheduling from one training loss to another.
Finding suitable architectures or other parameters governing the training of a model is a growing problem as models become increasingly complex and training more expensive.
To search these parameter spaces efficiently, evolution can be leveraged.
Evolutionary optimization is a well established approach, however it has several properties that make it useful for modern neural architecture search.
Its population based nature has inherent potential for parallelization, that makes it scalable to modern large scale computing infrastructure and its sampling mechanism does not only forego utilization of gradients but also distances altogether, which allows searching categorical parameter spaces.
I introduce a new communication scheme based on lazy synchronization to further adapt evolutionary optimization to neural architecture search in high performance computing environments.