Abstract:
Word Embedding Models sind für eine Vielzahl von Problemen in der Informatik von großem Wert, insbesondere für die natürliche Sprachverarbeitung. Sie ermöglichen, indem sie sich auf die semantischen Kontexte von Wörtern konzentrieren, Beziehungen zwischen Textsegmenten genauer und mit weniger Verzerrung zu verstehen. Die Motivation dieser Arbeit ist die Tatsache, dass einige Aspekte von Word Embedding Models, zum Beispiel wie diese 'Beziehungen' interpretiert werden sollten und wie weit verschiedene embedding models vergleichbar sind, noch nicht klar genug erfasst worden sind. ... mehrWir gruppieren diese Aspekte in drei Kategorien: in algorithmische Fragen, theoretische Fragen und Anwendungsfragen. Auf diesen drei Kategorien basierend präsentieren wir in dieser Arbeit eine Drei-Wege-Bewertung von Word Embedding Models.
Der erste Bewertungssatz untersucht den Trainingsalgorithmus von Word Embedding Models. In der bisherigen Literatur wurden Word Embedding Models verwendet, ohne die Tatsache zu berücksichtigen, dass ihre Ähnlichkeitswertverteilungen erheblich unterschiedlich sein können. Unser erster Beitrag besteht darin, zu zeigen, dass Modelle, die mit unterschiedlichen Parametereinstellungen trainiert wurden, sich in der Größe ihrer Ähnlichkeitswerte erheblich unterscheiden können, obwohl gleichzeitig die Form ihrer Verteilung tatsächlich grundlegend ähnlich ist.
Ein großer Vorteil der Embedding Models besteht darin, dass sie auf beliebigen Textkorpora trainiert werden können. Während die Qualität von Word Embedding Models, die auf Volltextkorpora trainiert wurden, ziemlich bekannt ist, fehlt eine Bewertung von Modellen, die auf fragmentierten Korpora basieren. Um diese Lücke zu schließen, beschreiben wir im zweiten Teil des Abschnitts zur algorithmischen Bewertung Experimente, deren Ziel es ist zu untersuchen, wie sich die Modellqualität dann ändert, wenn der Trainingskorpus nicht Volltext, sondern n-Gramm ist. Die Experimente quantifizieren, um wie viel Fragmentierung (d. h. Werte von $n$) die durchschnittliche Qualität der entsprechenden Word Embedding Models auf der Basis gemeinsamer Wortähnlichkeit und analoger Argumentationstestsätze verringert.
Der zweite Bewertungssatz betrifft die Ähnlichkeitswerte von Word Embedding Models aus theoretischer Sicht. Wir untersuchen Fragen wie: Was bedeuten Ähnlichkeitswerte dieser Modelle tatsächlich? Wenn beispielsweise Wort A Wort B mehr als 0,5 ähnlich ist, sind A und B dann immer semantisch ähnlich?
Wir beantworten diese und andere ebenso wichtige Fragen zu Ähnlichkeitswerten. Wir identifizieren sinnvolle Ähnlichkeitsschwellen, d. h. Ähnlichkeitswerte und Ähnlichkeitslistenindizes, die relevante Wortpaare von irrelevanten trennen. Basierend auf diesen Schwellenwerten schlagen wir eine Bewertungsmethode für Word Embedding Models vor, bei der die Wortpaare, die unter den berechneten Schwellenwert fallen, nicht verglichen werden. Dies gewährleistet in Zukunft einen zuverlässigeren Vergleich von Word Embedding Models.
Unsere abschließende Bewertung befasst sich mit der Anwendbarkeit von Word Embedding Models in nachgeschalteten Anwendungen. Aufgrund ihres Verständnisses von Wörtern ist die Textklassifizierung, d. h. das Zuweisen vordefinierter Kategorien zu Textdokumenten, einer der intuitivsten Anwendungsfälle für Word Embedding Models. Je mehr beschriftete Stichproben einem Textklassifizierer präsentiert werden, desto besser können normalerweise Kategorien unbekannter Stichproben vorhergesagt werden. In den meisten Fällen ist der Großteil der Daten jedoch unbeschriftet, und die Kennzeichnung ein kostspieliger und zeitaufwändiger Prozess.
In dieser Arbeit untersuchen wir die Möglichkeit, die Qualität der Textklassifizierung trotz des Mangels an gekennzeichneten Daten zu verbessern. Wir präsentieren einen lexikalischen Substitutionsansatz für die Vorverarbeitung, der die Knappheit markierter Daten kompensiert. Es ist eine orthogonale Erweiterung für praktisch jeden vorhandenen Textklassifizierungsansatz, um die Klassifizierungsgenauigkeit zu verbessern. Unser Ansatz ersetzt Wörter, die dem Klassifizierer unbekannt sind, durch bekannte Wörter für statistische Robustheit, basierend auf dem Hauptbeitrag dieses Teils: einem neuartigen semantisch verteilten Wortabstandsmaß, das sowohl semantische Informationen aus Word Embedding Models als auch Verteilungsinformationen aus den Trainingsdaten enthält. Dies ist das erste Mal, dass die Kombination dieser beiden Informationen für die Textklassifizierung verwendet wird.
Abstract (englisch):
Word embedding models have great value in a wide variety of problems in Computer Science, especially in Natural Language Processing. By focusing on the semantic contexts of words, they allow to understand relationships between text segments in more accurate, less biased ways. The motivation of this work is the fact that several aspects of word embedding models, such as how those 'relationships' should be interpreted and how far different embedding models and approaches are comparable, are still not sufficiently clear. We group these aspects into three categories: algorithmic, theoretic and application questions. ... mehrIn this work, we present a three-way analysis of word embedding models based on these categories. These analyses are built on top of each other. Without first understanding the algorithmic questions, we are not able to answer the theoretical ones. Similarly, to answer the questions regarding word embedding model applications, we need to understand their theoretical aspects better.
The first part of the three-way analysis investigates the training algorithm of embedding models. Previous literature used word embedding models without taking into consideration the fact that their similarity value distributions can be significantly different. Our first contribution is to show that models trained with different parameter settings can be significantly different in the sizes of their similarity values, but at the same time, the shape of their distribution is indeed fundamentally similar.
One big advantage of embedding models is that they can be trained on arbitrary text corpora. While the quality of word embedding models trained on full-text corpora is fairly well known, an assessment of models built on fragmented corpora is missing. To fill this void, in the second part of the algorithmic analysis, we describe experiments to examine how model quality changes when the training corpus is not full-text, but n-grams. The experiments quantify how much fragmentation (i.e., values of $n$) reduce the average quality of the corresponding word embedding models, on common word similarity and analogical reasoning test sets.
The second part of our analysis is regarding the similarity values of word embedding models from a theoretical point of view. We investigate questions such as: What do similarity values of those models actually mean? For example, if word A is more than 0.5-similar to word B, then are A and B always semantically similar?
We answer these and other equally important questions regarding similarity values. We identify meaningful similarity thresholds, i.e., similarity values and similarity list indices that separate relevant word pairs from irrelevant ones. Based on these thresholds, we propose a similarity threshold aware evaluation method of word embedding models, one that does not compare the word pairs which fall below the calculated threshold. This ensures a more reliable comparison of word embedding models in the future.
Our final analysis addresses the applicability of word embedding models in down-stream applications. Because of their understanding of words one of the most intuitive use case for word embedding models is text classification, i.e., to assign predefined categories to text documents. Usually, the more labeled samples a text classifier is presented with, the better it will be able to predict categories of unknown samples. However, in most cases the majority of data is unlabeled and labeling it is a costly and time consuming process.
In this work, we explore the possibility to improve the quality of text classification despite the scarcity of labeled data. We present a lexical substitution approach for preprocessing that compensates the scarcity of labeled data. It is an orthogonal extension to virtually any existing text classification approach, to improve classification accuracy. Our approach replaces words unknown to the classifier with known ones for statistical robustness, based on the main contribution of this part: a novel semantic-distributional word distance measure that includes both semantic information extracted from word embedding models and distributional information extracted from the training data. This is the first time to use the combination of these two information for text classification.