Abstract:
Immunglobuline spielen sowohl bei biologischen Prozessen als auch bei
biotechnologischen Anwendungen eine wichtige Rolle, insbesondere aufgrund ihrer zentralen
Bedeutung für Immunreaktionen und die Entwicklung therapeutischer Arzneimittel. Um die
Immunologie voranzubringen und gezielte Therapien zu entwickeln, ist es entscheidend zu
verstehen, wie diese Proteine interagieren. Trotz bedeutender Fortschritte in der
Molekularbiologie bleibt die genaue Vorhersage und Beeinflussung von Protein-Protein-
Interaktionen (PPIs) eine Herausforderung, die den Durchbruch in Bereichen wie der
... mehr
Arzneimittelentdeckung und Diagnostik behindert. Das Aufkommen fortschrittlicher Deep-
Learning-Techniken eröffnet jedoch neue Möglichkeiten zur Überwindung dieser
Herausforderungen, indem es schnelle und präzise Vorhersagen von PPIs ermöglicht. Diese
Studie ist motiviert durch das Potenzial dieser computergestützten Werkzeuge, unser
Verständnis von Immunglobulin-Interaktionen zu verbessern und dadurch zu Innovationen in
der Biotechnologie und therapeutischen Entwicklung beizutragen. In dieser Studie haben wir
ein weithin zugängliches neuronales Faltungsnetzwerk (Convolutional Neural Network, CNN)
angepasst, um eine speziesspezifische Klassifizierung verschiedener Immunglobulin G (IgG)
Komplexe zu erreichen. Wir haben Tröpfchen verschiedener Immunglobuline gemischt mit
dem B-Zell-Superantigen (SAg), rekombinantem Staphylokokkenprotein A, hergestellt und
auf hydrophobe Polymersubstrate aufgebracht. Diese Proteinfärbungen wurden dann mit Hilfe
der Polarisationslichtmikroskopie (PLM) abgebildet.
Unsere umfassende Analyse auf der Grundlage von 23.745 Bildern ergab, dass das
vortrainierte CNN, InceptionV3, nicht nur IgGs aus vier verschiedenen Spezies erfolgreich
kategorisierte, sondern auch ihre relative Bindungsstärke an Protein A vorhersagte. Im
Durchschnitt von 36 Bindungspaaren beobachteten wir (i) eine Gesamtgenauigkeit von 81.4%, (ii) die höchste Vorhersagegenauigkeit für humanes IgG, den Antikörper mit der höchsten
Bindungsaffinität für Protein A, und dass (iii) die Klassifizierungsgenauigkeit für die
verschiedenen IgG/Protein A-Verhältnisse im Allgemeinen mit der Bindungsstärke des
Protein-Protein-Komplexes korreliert, die mittels Circulardichroismus-Spektroskopie (CD)
bestimmt wurde. Darüber hinaus wurde das CNN, das ursprünglich mit IgG/Protein AFarbbildern
trainiert wurde, mit einem neuen Satz von Bildern getestet, bei denen ein anderes
Superantigen, rekombinantes Protein G, verwendet wurde. Bemerkenswerterweise
klassifizierte das CNN trotz des ungewohnten Superantigens die Bindungsstärke von humanem
IgG und Protein G korrekt und erreichte eine Genauigkeit von 94 % über verschiedene molare
Bindungsverhältnisse hinweg, da der ähnlichste IgG-Komplex im Trainingsdatensatz
vorhanden war.
Darüber hinaus wurde eine graphentheoretische Analyse eingesetzt, um den
bildbasierten Ansatz mit einer parameterbasierten neuronalen Netzwerkstrategie zu ergänzen.
Dieser innovative Ansatz wurde durch die Beobachtung von strukturellen Kristallmustern in
verschiedenen Proteinproben inspiriert. Die Graphentheorie, die für ihre vielseitigen
Anwendungen in verschiedenen wissenschaftlichen Disziplinen bekannt ist, wurde eingesetzt,
um Bilder in Graphen umzuwandeln. Mit Hilfe des an der Universität von Michigan
entwickelten Python-Pakets StructuralGT extrahierten wir aus diesen Graphen eine Reihe
aussagekräftiger Merkmale, die als Eingabedatensätze dienten. Diese Methode wurde mit den
Ergebnissen herkömmlicher neuronaler Faltungsnetzwerke verglichen.
Die Studie ergab, dass durch die Verwendung der aus den Graphen abgeleiteten
Merkmale als Eingabedatensatz für ein entwickeltes neuronales Netz die erforderliche
Trainingszeit im Vergleich zur bildbasierten Klassifizierung erheblich (etwa um das Dreifache)
reduziert werden konnte, wobei die Genauigkeit im optimierten Schema dennoch hoch blieb.
Die Ergebnisse unterstreichen das Potenzial der Kombination von Graphentheorie und Deep Learning für die Proteininteraktionsanalyse. Geeignete graphbasierte Merkmale können
zur Vorhersage von Protein-Protein-Interaktionen über den ursprünglichen Trainingsdatensatz
hinaus verwendet werden. Dieser Ansatz wird durch die Verarbeitung numerischer Daten
vereinfacht und ermöglicht die Klassifizierung auf nicht-GPU-abhängigen Systemen, was
sowohl die Rechenkosten als auch die Trainingszeit reduziert. Die Ergebnisse deuten auf eine
vielversprechende Methode zur Klassifizierung von biologischen Graphen und zur Vorhersage
der Stärke von Proteininteraktionen hin, die für das Protein-Engineering, das Verständnis der
Selbstaggregation und die Aufrechterhaltung der Proteinstabilität in komplexen Umgebungen
von Nutzen ist.
Abstract (englisch):
Immunoglobulins play a vital role in both biological processes and biotechnological
applications, particularly due to their centrality in immune responses and therapeutic drug
design. Understanding how these proteins interact is crucial for advancing immunology and
developing targeted therapies. Despite significant progress in molecular biology, accurately
predicting and manipulating protein-protein interactions (PPIs) remains a challenge, hindering
breakthroughs in areas like drug discovery and diagnostics. However, the advent of advanced
deep-learning techniques presents new opportunities to overcome these challenges by enabling
... mehr
rapid and precise predictions of PPIs. This study is motivated by the potential of these
computational tools to enhance our understanding of immunoglobulin interactions, thereby
contributing to innovation in biotechnology and therapeutic development. In this study, we
have adapted a widely accessible Convolutional Neural Network (CNN) to achieve species-specific
classification of various immunoglobulin G (IgG) complexes. We prepared droplets of
different immunoglobulins mixed with the B-cell superantigen (SAg), recombinant
staphylococcal Protein A, and deposited them onto hydrophobic polymer substrates. These
protein stains were then imaged using polarized light microscopy (PLM).
Our extensive analysis based on 23,745 images revealed that the pre-trained CNN,
InceptionV3, not only successfully categorized IgGs from four different species, but also
predicted their relative binding strength to Protein A. Averaged over 36 binding pairs, we
observed (i) an overall accuracy of 81.4%, (ii) the highest prediction accuracies for human IgG,
the antibody with the highest binding affinity for Protein A, and that (iii) the classification
accuracy regarding the various IgG/Protein A ratios generally correlates with the binding
strength of the protein-protein-complex as determined via Circular Dichroism spectroscopy
(CD). Furthermore, the CNN, initially trained with IgG/Protein A stain images, was tested with a new set of images using a different superantigen, recombinant Protein G. Remarkably, despite
the unfamiliar superantigen, the CNN correctly classified the binding strength of human IgG
and Protein G, achieving a 94% accuracy across various molar binding ratios as the most
similar IgG complex exist in the training dataset.
Additionally, graph theory analysis was employed to augment the image-based
approach with a parameter-based neural network strategy. This innovative approach was
inspired by the observation of structural crystal patterns in different protein samples. Graph
theory, known for its versatile applications across various scientific disciplines, was employed
to convert images into graphs. Using the StructuralGT python package developed at the
University of Michigan, we extracted a set of meaningful features from these graphs to serve
as input datasets. This method was compared to traditional convolutional neural network
results.
The study found that by using the graph-derived features as an input dataset for a
designed neural network, the required time for training was significantly reduced (about 3
times) compared to image-based classification, while still maintaining high accuracy levels in
the optimized scheme.
The findings underscore the potential of combining graph theory with deep learning for
protein interaction analysis. Appropriately graph-based features can be used to predict protein-protein
interactions beyond the initial training dataset. This approach is simplified by the
processing of numerical data and enables classification on non-GPU-dependent systems,
reducing both computational cost and training time. The results suggest a promising method
for biological graph-like image classification and protein interaction strength prediction, which
is beneficial for protein engineering, understanding self-aggregation, and maintaining protein
stability in complex environments.