Abstract:
Wissensgraphen (Knowledge Graphs, KGs) repräsentieren strukturierte Fakten, die sich aus Entitäten und den zwischen diesen bestehenden Relationen zusammensetzen. Um die Effizienz von KG-Anwendungen zu maximieren, ist es von Vorteil, KGs in einen niedrigdimensionalen Vektorraum zu transformieren. KGs folgen dem Paradigma einer offenen Welt (Open World Assumption, OWA), d. h. fehlende Information wird als potenziell möglich angesehen, wodurch ihre Verwendung in realen Anwendungsszenarien oft eingeschränkt wird. Link-Vorhersage (Link Prediction, LP) zur Vervollständigung von KGs kommt daher eine hohe Bedeutung zu. ... mehrLP kann in zwei unterschiedlichen Modi durchgeführt werden, transduktiv und induktiv, wobei die erste Möglichkeit voraussetzt, dass alle Entitäten der Testdaten in den Trainingsdaten vorhanden sind, während die zweite Möglichkeit auch zuvor nicht bekannte Entitäten in den Testdaten zulässt. Die vorliegende Arbeit untersucht die Verwendung von Literalen in der transduktiven und induktiven LP, da KGs zahlreiche numerische und textuelle Literale enthalten, die eine wesentliche Semantik aufweisen. Zur Evaluierung dieser LP Methoden werden spezielle Benchmark-Datensätze eingeführt.
Insbesondere wird eine neuartige KG Embedding (KGE) Methode, RAILD, vorgeschlagen, die Textliterale zusammen mit kontextuellen Graphinformationen für die LP nutzt. Das Ziel von RAILD ist es, die bestehende Forschungslücke beim Lernen von Embeddings für beim Training ungesehene Relationen zu schließen. Dafür wird eine Architektur vorgeschlagen, die Sprachmodelle (Language Models, LMs) mit Netzwerkembeddings kombiniert. Hierzu erfolgt ein Feintuning von leistungsstarken vortrainierten LMs wie BERT zum Zweck der LP, wobei textuelle Beschreibungen von Entitäten und Relationen genutzt werden. Darüber hinaus wird ein neuer Algorithmus, WeiDNeR, eingeführt, um ein Relationsnetzwerk zu generieren, das zum Erlernen graphbasierter Embeddings von Relationen unter Verwendung eines Netzwerkembeddingsmodells dient. Die Vektorrepräsentationen dieser Relationen werden für die LP kombiniert. Zudem wird ein weiteres neuartiges Embeddingmodell, LitKGE, vorgestellt, das numerische Literale für die transduktive LP verwendet. Es zielt darauf ab, numerische Merkmale für Entitäten durch Graphtraversierung zu erzeugen. Hierfür wird ein weiterer Algorithmus, WeiDNeR_Extended, eingeführt, der ein Netzwerk aus Objekt- und Datentypproperties erzeugt. Aus den aus diesem Netzwerk extrahierten Propertypfaden werden dann numerische Merkmale von Entitäten generiert.
Des Weiteren wird der Einsatz eines mehrsprachigen LM zur Kodierung von Entitätenbeschreibungen in verschiedenen natürlichen Sprachen zum Zweck der LP untersucht. Für die Evaluierung der KGE-Modelle wurden die Benchmark-Datensätze LiterallyWikidata und Wikidata68K erstellt. Die vielversprechenden Ergebnisse, die mit den vorgestellten Modellen erzielt wurden, eröffnen interessante Fragestellungen für die zukünftige Forschung auf dem Gebiet der KGEs und ihrer Folgeanwendungen.
Abstract (englisch):
Knowledge Graphs (KGs) are a structured representation of facts pertaining to a specific domain or multiple domains, composed of entities and their relationships. KGs have been used in various applications such as relation extraction, question answering, and recommender systems. However, to maximize efficiency, it is beneficial to transform KGs into a low-dimensional vector space. Moreover, the incompleteness of KGs caused by the open-world assumption hinders their applicability to real-world use cases. Hence, there is a need for embedding-based link prediction (LP) approaches to complete KGs. ... mehrLP can be performed in two settings, transductive and inductive, where the former requires all test set entities to be present in the training set, while the latter allows for the possibility of test set entities that were not seen during training. This thesis investigates the use of literals in both transductive and inductive LP, as large KGs contain numerous numerical and textual literals that hold essential semantics. Additionally, high-quality benchmark datasets for the evaluation of LP methods are proposed.
Specifically, a novel KG embedding (KGE) method RAILD is proposed which leverages textual literals along with graph contextual information to learn embeddings of KGs with a LP objective. RAILD aims to address the gap with the state-of-the-art embedding models in learning embeddings for relations that are not observed during training. In order to do so, it proposes an architecture that combines language models (LMs) with network embeddings. It fine-tunes powerful pre-trained LMs such as BERT with a LP objective by utilizing the textual descriptions of entities and relations. It also introduces a new algorithm WeiDNeR to generate a network of relations which is then used to learn graph-based embeddings of relations using a network embedding model. The representations of relations obtained using the given LM as well as the network embedding model are combined when performing the LP task. Moreover, another novel embedding model LitKGE is proposed which utilizes numeric literals for transductive LP. It aims to generate numerical features for entities through graph traversal. To achieve this, it introduces a new algorithm WeiDNeR_Extended to generate a network of object properties and datatype properties. The property paths extracted from this network are used to obtain the numerical features of entities.
Furthermore, in this thesis, the benefits of utilizing a multilingual LM for encoding entity descriptions in various natural languages for the LP task are studied. For the evaluation of KGE models, the benchmark datasets LiterallyWikidata and Wikidata68K are created. The promising results obtained with the models proposed in this thesis open up interesting directions for future research in the area of KGEs and their downstream tasks.