Abstract:
Im Laufe des 20. Jahrhunderts stieg die Lebenserwartung deutlich an. Aus medizinischer Sicht trugen vor allem die umfassende Verbesserung der Hygiene und die Einführung von Impfprogrammen zu diesem Erfolg bei. Impfstoffe waren die ersten biologischen Produkte, die systematisch als medizinische Präparate eingesetzt wurden, und ebneten damit den Weg zur modernen pharmazeutischen Biotechnologie. Nach Insulin und menschlichem Wachstumshormon war eines der frühesten biotechnologisch hergestellten pharmazeutischen Produkte ein rekombinanter Impfstoff, im Speziellen ein virusähnliches Partikel (virus-like particle, VLP) auf Basis von rekombinantem Hepatitis-B-Oberflächenantigen. ... mehrVLPs beinhalten keine infektiösen viralen Nukleinsäuren und sie ähneln dem Virus, von dem sie abgeleitet sind, wodurch sie eine Immunantwort induzieren können. Obwohl dieser Hepatitis-B-Impfstoff gegenwärtig noch verwendet wird, ist die heutige Anwendung von VLPs sehr unterschiedlich, wie aus zahlreichen präklinischen und klinischen Studien hervorgeht. VLPs werden als mögliche Impfstoffe gegen Infektionskrankheiten, immunologische Erkrankungen oder Krebs untersucht. Ihre starke Immunogenität wird für die Präsentierung von fremdantigenen Epitopen auf den VLPs genutzt, was sie zu chimären VLPs (chimeric virus-like particles, cVLPs) macht. Als solche induzieren sie nachweislich Immunantworten gegen Krebszellen und überwinden die natürliche immunologische Selbsttoleranz gegenüber Krebsantigenen. Allerdings ist ihr hohes Potenzial mit Herausforderungen verbunden, beispielsweise im Zusammenhang mit ihrem molekularen Design und dem Produktionsprozess. Das Ziel des molekularen Designs ist die Entwicklung immunogener und stabiler VLP-Kandidaten. Der Prozess, um geeignete VLP-Kandidaten zu finden, ist jedoch typischerweise empirisch und bringt Herausforderungen wie eine geringe Löslichkeit nach der Expression in rekombinanten Wirten oder unzureichende VLP-Immunogenität mit sich. Dem VLP-Produktionsprozess mangelt es an maßgeschneiderten Aufreinigungsmethoden, was im Vergleich zu etablierten biopharmazeutischen Produkten, wie z.B. monoklonalen Antikörpern, zu einer geringeren Produktivität führt. Hinzu kommt, dass bei der VLP-Prozessierung VLP-spezifische Prozessschritte, wie z.B. die Zerlegung und Reassemblierung der Partikel, entworfen werden müssen. Die Bewältigung dieser Herausforderungen würde von datengestützten Ansätzen wie der prozessanalytischen Technologie (process analytical technology, PAT), der molekularen Modellierung und dem maschinellen Lernen profitieren. Diese würden das Prozess- und Produktverständnis verbessern, den experimentellen Aufwand reduzieren und eine effiziente Überwachung und Steuerung der Prozesse ermöglichen.
Daher war es Ziel dieser Arbeit, Antworten auf mehrere dieser Herausforderungen zu finden, indem datengestützte Ansätze implementiert wurden, um die Entwicklung maßgeschneiderter Prozessschritte zu begleiten. Im ersten Teil dieser Arbeit werden VLPs und ihre Produktionsprozesse besprochen, die Vorteile der Implementierung von PAT beschreiben, die Herausforderungen im Zusammenhang mit ihrem molekularen Design beleuchtet und die Möglichkeiten der Anwendung des maschinellen Lernens bei der VLP-Entwicklung und -Prozessierung aufgezeigt.
Der zweite Teil dieser Arbeit beschreibt fünf Studien, die darauf abzielen, Antworten auf einige der mit dem VLP-Design und der biotechnologischen Verfahrenstechnik verbundenen Herausforderungen zu finden. Die erste Studie (Kapitel 3) befasst sich mit einem besonderen VLP-spezifischen Prozessschritt. Für eine verbesserte Stabilität, Homogenität und Immunogenität müssen VLPs zerlegt und wieder reassembliert werden. Ausgehend von einer Hoch-pH-Lösung, die zerlegte VLPs enthält, wird die Reassemblierung durch die Erhöhung der Ionenstärke und die Senkung des pH-Wertes erreicht. Die meisten Prozesse im Labormaßstab nutzen die Dialyse für diesen Pufferaustausch, während die Querstromfiltration (cross-flow filtration, CFF) für den Pufferaustausch besser skalierbar ist, den Pufferverbrauch reduziert und die Ausbeute verbessert. Im Vergleich zur Dialyse erfordert die CFF mehr technisches Wissen und Kenntnisse über den VLP-Reassemblierungssfortschritt während des Prozesses. Eine umfassende Überwachungsstrategie wäre daher sehr vorteilhaft, um eine (Beinahe-) Echtzeit-Kontrolle des VLP-Reassemblierungsprozesses durch CFF zu implementieren. In dieser ersten Studie wird ein Aufbau zur Überwachung der VLP-Reassemblierung durch CFF mittels einer Online-Messschleife mit zwei verschiedenen spektroskopischen Sensoren beschrieben. Eine mögliche Kontrollstrategie für den VLP-Assemblierungsprozess wurde in der Überwachung der statischen und dynamischen Lichtstreuung gesehen. Das Maximum des statischen Streulichtsignals fiel mit der maximalen VLP-Konzentration zusammen. Diese Information ist sehr wertvoll, da nach diesem VLP-Konzentrationsmaximum eine Degradationsphase beobachtet wurde, die vermieden werden sollte, um Ausbeute und Reinheit der VLPs zu optimieren. Die Analyse der zweiten Ableitung der ultravioletten und sichtbaren (ultraviolet and visible, UV/Vis) Spektren erwies sich als praktikable orthogonale Methode zur Überwachung der VLP-Assemblierung, insbesondere mit dem sogenannten a/b-Verhältnis. Das a/b-Verhältnis, welches sich im Zeitverlauf der Prozesse änderte, beschreibt die Solvatisierung von Tyrosin. Die Beobachtung der Veränderung des a/b-Verhältnisses deckt sich mit der Tatsache, dass Tyrosin 132 nach der Assemblierung in einer hydrophoben Tasche eingebettet wird. Zusätzlich konnte ein Modell der Regression der partiellen kleinsten Quadrate (partial least squares), das auf den aufgezeichneten UV/Vis-Spektren basiert, die VLP-Konzentrationen abschätzen mit dem Potential, als (Beinahe-) Echtzeitmodell angewendet zu werden. Die etablierte Überwachungsstragie wurde genutzt um optimale Prozessbedingungen für drei chimäre hepatitis B core antigen (HBcAg)- Konstrukte zu ermitteln. Dies resultierte in unterschiedlichen Prozesszeiten, um die maximale VLP-Konzentration zu erreichen. Das cVLP mit dem stärksten negativen Zetapotential assemblierte am spätesten, wahrscheinlich aufgrund abstoßender elektrostatischer Kräfte. Es erfordert daher Puffer mit höheren Ionenstärken für die Reassemblierung.
Die Bedeutung des Zetapotenzials für die VLP-Prozessierung war Teil der Motivation für die zweite Studie (Kapitel 4). Das Zetapotential und andere biophysikalische Parameter können nur gemessen werden, wenn Material experimentell in ausreichenden Mengen produziert wurde. Es wäre daher wünschenswert, diese Parameter vorherzusagen, um Ressourcen zu sparen. Es wurde bereits gezeigt, dass Oberflächeneigenschaften aus dreidimensionalen (3-D) Strukturen abgeleitet werden können. 3-D-Strukturen neuartiger Moleküle sind jedoch nicht verfügbar und ihre experimentelle Erzeugung ist langwierig und mühsam. Eine Alternative ist die rechnergestützte 3-D-Strukturerzeugung mit Template-Modellierung und Molekulardynamik-Simulationen (MD). Dieser in silico Arbeitsablauf erfordert üblicherweise signifikante Benutzerinteraktion, Expertenwissen, um die Simulationen zu designen und zu steuern, und viel Rechenleistung. Um diese Limitationen zu überwinden, wurde in dieser Studie ein robuster und automatisierter Arbeitsablauf zur Erzeugung von 3-D Strukturen etabliert. Der Arbeitsablauf ist datenabhängig, minimiert Benutzerinteraktion und reduziert die benötigte Rechenleistung. Die Eingabe in den entwickelten Arbeitsablauf war eine Aminosäuresequenz und eine Strukturvorlage. Die Vorlage wurde automatisch von einer Proteinstrukturdatenbank heruntergeladen, bereinigt und die Struktur wurde Homologie-modelliert, gefolgt von einer Energieminimierung. Eine datenabhängige dreistufige MD-Simulation verfeinerte die Struktur, wobei ein kontinuierlich zunehmender Bereich des Moleküls simuliert wurde, bis schließlich das gesamte Molekül frei simuliert wurde. Der dreistufige MD-Simulationsansatz lieferte hierbei einen großen Beitrag zur Reduktion der benötigten Rechenleistung, in dem strukturell besonders unsichere Bereiche des Moleküls zunächst gesondert simuliert wurden. Oft werden MD-Simulationen nach einer bestimmten Simulationszeit beendet. In dieser Studie beendete die entwickelte datenabhängige Simulationskontrolle die Simulationen, wenn ein Stabilitätsfenster (Window of Stability, WoS) von 2 ns erreicht wurde, definiert durch die Wurzel der mittleren quadratischen Abweichung (root mean square deviation, RMSD) der Atomkoordinaten. Dies stellte sicher, dass die Fluktuationen der MD-Simulation zwischen allen simulierten Konstrukten innerhalb des genannten WoS am Ende der Simulation vergleichbar waren. Der Arbeitsablauf führte zu angemessenen Simulationszeiten (6,6-37,5 h) und einer hohen Gesamtstrukturqualität für die drei chimären HBcAg-Dimere. Um die Anwendbarkeit der Methode zu demonstrieren, wurde eine Fallstudie durchgeführt, in der die in silico Oberflächenladung von HBcAg-Dimeren mit dem experimentellen Zeta-Potential ganzer Kapside korreliert wurde, was eine hohe lineare Korrelation zeigte. Die Extraktion der Oberflächenladung aus dem WoS war robuster als aus einem einzelnen Simulationsschnappschuss, was die Nützlichkeit des entwickelten Ansatzes unterstreicht.
Die dritte Studie (Kapitel 5) befasst sich mit dem Problem, dass VLPs häufig mit Technologien prozessiert werden, die ursprünglich für kleinere Produkte entwickelt wurden. Dies führt oft zu Prozesslimitationen wie geringe Bindekapazitäten von Chromatographieharzen, die im downstream process verwendet werden. Daher wurde eine neue Aufreinigungsstrategie entwickelt, die drei verschiedene größenselektive Methoden integriert, da sie für die selektive Abtrennung von VLPs von Verunreinigungen vielversprechend erschienen. Die Methoden waren Fällung/Rücklösung, CFF und Größenausschlusschromatographie (size exclusion chromatography, SEC). Es wurden drei Verfahrensvarianten entwickelt und untersucht, wobei die beste aus Fällung, Waschen und Rücklösung auf einer CFF-Einheit, gefolgt von einer Reinigung durch eine multimodale SEC-Säule bestand. Dieses Verfahren zeigte die höchste Reinheit sowie eine hohe Ausbeute und Produktivität. Die entwickelten Verfahren waren den in der Literatur beschriebenen Verfahren vergleichbar oder überlegen. Die Überwachung und Fraktionierung des Permeatstroms ermöglichte es zudem, produkthaltige Fraktionen für das selektive Vereinigen zu identifizieren. Auf diese Weise können Produktkonzentration- und Reinheit eingestellt werden.
Eines der Hauptprobleme beim Molekulardesign von cVLPs ist, dass die Kandidaten bei der Expression oft unlöslich sind. Der Prozess zur Identifizierung unlöslicher VLP-Konstrukte ist typischerweise empirisch und deshalb Zeit- und Ressourcenintensiv. Diese Herausforderung kann mit einem Modell bewältigt werden, welches die Löslichkeit von cVLPs vorhersagt. In Kapitel 6 wurde ein Soft Ensemble Vote Classifier (sEVC) als Werkzeug auf Basis von maschinellem Lernen zur Vorhersage der cVLP-Löslichkeit entwickelt, basierend auf 568 verschiedenen Aminosäuresequenzen und 91 verschiedenen Hydrophobizitäts-Skalen. Das Ensemble-Modell aggregiert die Vorhersage der einzelnen Klassifikatoren, bei denen es sich um einstufige Entscheidungsbäume handelt. Diese wurden jeweils mit einem Hydrophobizitäts-Merkmal auf der Grundlage einer Hydrophobizitäts-Skala trainiert. Stratifizierte Trainingssatzprobenahme und Merkmalsauswahl kamen der Modellbildung zugute. Die besten Modelle wiesen einen Matthew-Korrelationskoeffizienten (Matthew’s correlation coefficient, MCC) von >0,6 auf, der mit den statistischen Größen von Löslichkeitsmodellen aus der Literatur vergleichbar oder diesen überlegen ist. Zusätzlich ermöglichte die Merkmalsauswahl (feature selection) die Identifizierung charakteristischer Eigenschaften (features) des untersuchten cVLP-Löslichkeitsproblems, wobei die Bedeutung verschiedener Aminosäuren für die cVLP-Löslichkeit hervorgehoben wurde. Die Analyse legte nahe, dass Arginin eine wichtige Rolle bei der Rekrutierung von VLP-Untereinheiten während der Kapsidassemblierung spielen könnte.
Die letzte Studie baute auf dem Modell und den Ergebnissen von Kapitel 6 auf, mit dem Ziel, die Vorhersageergebnisse zu optimieren und mehr versteckte Informationen aus den Daten zu extrahieren. In der vorherigen Studie wurde eine systematische Fehlklassifikation beobachtet. Dies wurde mit einem Optimierungsalgorithmus angegangen, der die Vorhersage des Modells anpasste, wenn diese systematischen Fehlklassifikationen im Trainingsdatensatz beobachtet wurden. Eine zweite Optimierungsstrategie synthetisierte und optimierte Hydrophobizitäts-Skalen spezifisch für das vorgestellte cVLP-Löslichkeitsproblem. Dabei wurde die Bedeutung von Tryptophan als möglicher Disruptor der Proteinfaltung anhand der Daten vorgeschlagen. Das beste Modell, das mit den entwickelten Optimierungsworkflows erstellt wurde, zeigte einen MCC von 0,77 (Korrektklassifikationsrate von 0,88) in Bezug auf das externe Test-Set. Schließlich wurde das sEVC-Framework in einer Fallstudie evaluiert, um Ammoniumsulfatkonzentrationen vorherzusagen, wie sie für die VLP-Fällung erforderlich sind (wie auch in Kapitel 5 angewandt). Daher wurde das Modell so umgestaltet, dass es als Regressionswerkzeug fungiert. Es wurde mit Daten der Ammoniumsulfat-induzierten Fällung von zehn cVLPs bewertet. Die lineare Regression zeigte eine vielversprechende Korrelation mit einem R² von 0,69.
Zusammenfassend lässt sich sagen, dass sowohl von dem Standpunkt der Prozessentwicklung als auch von der computergestützen Entwicklung aus eine Reihe von Methoden entwickelt wurde, die den Weg zu einem VLP-Plattformprozess ebnen könnten. Die Integration von datengesteuerten Ansätzen wie PAT, 3-D-Strukturmodellierung und maschinelles Lernen kann sowohl der Effizienz als auch dem Verständnis der VLP-Prozessierung in der biopharmazeutischen Industrie zugutekommen.
Abstract (englisch):
During the 20th century, life expectancy increased dramatically. From a medical standpoint, the major contributors to this success were widespread improvement of hygiene and the introduction of vaccination programs. Vaccines were the first systematically developed biological products to be applied as medical compounds and therefore paved the way towards modern pharmaceutical biotechnology. After insulin and human growth hormone, one of the earliest biotechnologically produced pharmaceutical products was a recombinant vaccine, in particular a recombinant hepatitis B surface antigen virus-like particle (VLP). ... mehrVLPs lack viral infectious nucleic acids but resemble the virus they are derived from, thus inducing an immune response. While this Hepatitis B vaccine is still in use today, the application of VLPs diversified greatly as seen from numerous pre-clinical and clinical studies. VLPs are investigated as potential vaccines against infectious diseases, immunological disorders, or cancer. Their strong immunogenicity is harnessed for the display of foreign antigenic epitopes on the VLP, resulting in chimeric VLPs (cVLPs). As such, they have been shown to induce immune responses against cancer cells, overcoming the natural immunological self-tolerance towards cancer antigens. This being said, their high potential comes with challenges, for example associated with their molecular design and the production process. The aim of the molecular design is to create immunogenic and stable VLP candidates. However, the process to find viable VLP candidates is typically empirical, bringing along challenges such as a low solubility after expression in recombinant hosts or a lack of VLP immunogenicity. The VLP production process lacks tailored purification methods, resulting in lower productivities as compared to more established biopharmaceutical products, such as monoclonal antibodies. Additionally, VLP processing comes with the need to design VLP-specific process steps, such as the dis- and reassembly of the particles. Tackling these challenges would benefit from data-driven approaches, such as process analytical technology (PAT), molecular modeling, and machine learning. These would enhance process and product understanding, reduce experimental effort, and enable efficient monitoring and control of the processes.
Therefore, the goal of this thesis was to find answers to several of these challenges by implementing data-driven approaches to accompany the development of tailored process steps. In the first part of this thesis, VLPs and their production processes are reviewed, the advantages of the implementation of PAT are described, the challenges associated with their molecular design are elucidated, and the opportunities of the application of machine learning to VLP development and processing are pointed out.
The second part of this thesis describes five studies, addressing various challenges associated with VLP design and bioprocessing. The first study (Chapter 3) focuses on a unique VLP-specific process step. For improved stability, homogeneity, and immunogenicity, VLPs have to be dis- and reassembled. Starting from a high pH solution containing disassembled VLPs, reassembly is achieved by increasing ionic strength and lowering the pH. Most laboratory-scale processes utilize dialysis for this buffer exchange, while cross-flow filtration (CFF) for buffer exchange is more scalable, reduces the buffer consumption, and improves the yield. Compared to dialysis, CFF requires more technical knowledge and knowledge of the VLP reassembly progress during the process. A comprehensive monitoring strategy would therefore be highly beneficial to implement (near-) real-time control of the VLP reassembly process by CFF. In this first study, a set-up was developed to monitor VLP reassembly by CFF with an on-line measurement loop comprising two different spectroscopic sensors. A potential control strategy for the VLP assembly process was seen in monitoring static and dynamic light scattering. The maximum of the static light scattering signal coincided with the maximum VLP concentration. This information is valuable, since after the VLP peak concentration, a degradation phase was observed, which has to be omitted to optimize VLP yield and purity. Analysis of the second derivative ultraviolet and visible (UV/Vis) spectra proved to be a useful orthogonal method to monitor VLP assembly, especially with the so-called a/b-ratio. The a/b-ratio, which changed over the course of the processes, describes the solvatization of tyrosine. The observation of the change in the a/b ratio is consistent with the fact that tyrosine 132 is embedded in a hydrophobic pocket after assembly. Additionally, a partial least squares regression model based on the recorded UV/Vis spectra estimated VLP concentrations, with the potential to be applied as a (near) real-time model. The established monitoring strategy was used to investigate optimal process conditions for three chimeric hepatitis B core antigen (HBcAg) constructs. This resulted in different process times to reach the maximum VLP concentration. The cVLP with strongest negative zeta potential assembled the latest, probably due to repulsive electrostatic forces, demanding higher ionic strength buffers for reassembly.
The importance of the zeta potential for VLP processing was part of the motivation for the second study (Chapter 4). Zeta potential and other process-relevant biophysical parameters can only be measured when the molecules are produced experimentally in sufficient quantities. It would therefore be desirable to predict these properties, thus saving resources. It was already shown that surface properties can be derived from three-dimensional (3-D) structures. However, 3-D structures of novel molecules are not available and their experimental creation is lengthy and laborious. An alternative is computational 3-D structure generation based on template modeling and molecular dynamics (MD) simulations. This in silico workflow typically requires significant user interaction, expert knowledge to design and steer the simulations, and much computational power. To overcome these limitations, a robust and automated 3-D structure generation workflow was established in this study. The workflow is data dependent, minimizes user interaction, and reduces required computational resources. The input to the developed workflow was an amino acid sequence and a structure template. The template was automatically downloaded from a protein structure database, cleaned, and the structure was homology modeled, followed by an energy minimization. A data-dependent 3-step MD simulation refined the structure, where a continuously increasing region of the molecule was simulated, until, finally, the entire molecule was simulated freely. The 3-step MD simulation approach was a major contributor to a reduction in required computational resources by first simulating structurally particularly uncertain areas of the molecule separately. Often, MD simulations are terminated after a fixed simulation time. In this study, the developed data-dependent simulation control terminated the simulations, when a Window of Stability (WoS) of 2 ns was reached, defined by the root mean square deviation (RMSD) of atom coordinates. This ensured that the MD simulation fluctuations were comparable between all simulated constructs in said WoS at the end of the simulation. The workflow resulted in reasonable simulation times (6.6-37.5 h) and high overall structural quality for the three chimeric HBcAg dimer structures. To demonstrate the applicability of the method, a case study was conducted in which the in silico surface charge of HBcAg dimers was correlated to the experimental zeta potential of entire capsids, showing high linear correlation. The extraction of the surface charge from the WoS was more robust than from a single simulation snapshot, underpinning the usefulness of the developed approach.
The third study (Chapter 5) addresses the problem that VLPs are often processed with technologies originally developed for products that are smaller in size. This often results in processing limitations, such as low binding capacity of the chromatography resins used in the downstream process. Therefore, a new purification strategy was developed, integrating three different size-selective methods, as they seemed promising for selective separation of VLPs from impurities. The methods were precipitation/re-dissolution, CFF, and size-exclusion chromatography (SEC). Three process variants were designed and examined, where the best consisted of precipitation, wash, and re-dissolution on a CFF unit, followed by purification by a multimodal SEC column. This process showed the highest purity and a high yield and productivity. The developed processes were comparable or superior to literature processes. Further, monitoring and fractionation of the permeate stream allowed to identify product-containing fractions for selective pooling. Thus, product concentration and purity can be adjusted.
One of the major problems in cVLP molecular design is that candidates are often insoluble upon expression. The process to identify insoluble VLP constructs is typically empirical and thus time-consuming and resource-intensive. This challenge can be met by a model that predicts cVLP solubility. In Chapter 6, a soft ensemble vote classifier (sEVC) was developed as a machine learning tool to predict cVLP solubility, based on 568 different amino acid sequences and 91 different hydrophobicity scales. The ensemble model unifies the prediction of individual classifiers, which were one-level decision trees. The decision trees were trained with a hydrophobicity feature based on one hydrophobicity scale each. Stratified training set sampling and feature selection benefitted the model construction. Best models showed a Matthew’s correlation coefficient (MCC) of >.6, which is comparable or superior to literature solubility model statistical values. Additionally, feature selection allowed to identify characteristic features of the investigated solubility problem, pointing out the importance of different amino acids for cVLP solubility. The analysis suggested that arginine might have an important role in recruiting VLP subunits during capsid assembly.
The last study was built on the model and results of Chapter 6, with the aim to optimize prediction outcomes and to extract more hidden information from the data. Systematic misclassification was observed in the previous study. This was addressed with an optimization algorithm adjusting the prediction of the model, when these systematic misclassifications were observed in the training set. A second optimization strategy synthesized and optimized hydrophobicity scales specifically for the presented cVLP solubility problem. Hereby, the importance of tryptophan as a possible disruptor of protein folding was suggested based on the data. The best model created with the developed optimization workflows resulted in an external test set MCC of .77 (accuracy of .88) and is therefore significantly better than the non-optimized model and literature solubility models. Finally, the sEVC framework was evaluated in a case study to predict ammonium sulfate concentrations, as required for VLP precipitation (applied in Chapter 5). Therefore, the model was redesigned to function as a regression tool. It was evaluated with data of the precipitation of ten cVLPs by ammonium sulfate. The linear fit showed a promising correlation with an R² of .69.
In summary, an array of methods has been developed, from both a process development and computational development point of view, which may pave the way towards a VLP platform process. The integration of data-driven approaches, such as PAT, 3-D structure modeling, and machine learning can benefit both the performance and the understanding of VLP processing in the biopharmaceutical industry.