Abstract:
In dieser Arbeit wurden Methoden entwickelt, die in der Lage sind die negativen
Effekte von verrauschten Daten in SMT Systemen zu senken und dadurch die Leistung des
Systems zu steigern. Hierbei wird das Problem in zwei verschiedenen Schritten des
Lernprozesses behandelt: Bei der Vorverarbeitung und während der
Modellierung. Bei der Vorverarbeitung werden zwei Methoden zur Verbesserung der
statistischen Modelle durch die Erhöhung der Qualität von Trainingsdaten entwickelt.
Bei der Modellierung werden verschiedene Möglichkeiten vorgestellt, um Daten nach ihrer Nützlichkeit zu gewichten.
... mehr
Zunächst wird der Effekt des Entfernens von False-Positives vom Parallel Corpus
gezeigt. Ein Parallel Corpus besteht aus einem Text in zwei Sprachen,
wobei jeder Satz einer Sprache mit dem entsprechenden Satz der
anderen Sprache gepaart ist. Hierbei wird vorausgesetzt, dass die Anzahl
der Sätzen in beiden Sprachversionen gleich ist. False-Positives in diesem
Sinne sind Satzpaare, die im Parallel Corpus gepaart sind aber keine Übersetzung voneinander sind.
Um diese zu erkennen wird ein kleiner und fehlerfreier
paralleler Corpus (Clean Corpus) vorausgesetzt. Mit Hilfe verschiedenen
lexikalischen Eigenschaften werden zuverlässig False-Positives vor der
Modellierungsphase gefiltert. Eine wichtige lexikalische Eigenschaft hierbei
ist das vom Clean Corpus erzeugte bilinguale Lexikon.
In der Extraktion dieses bilingualen Lexikons werden verschiedene Heuristiken implementiert, die zu einer verbesserten Leistung führen.
Danach betrachten wir das Problem vom Extrahieren der nützlichsten Teile der Trainingsdaten.
Dabei ordnen wir die Daten basierend auf ihren Bezug zur Zieldomaine.
Dies geschieht unter der Annahme der Existenz eines guten repräsentativen Tuning Datensatzes.
Da solche Tuning Daten typischerweise beschränkte Größe haben,
werden Wortähnlichkeiten benutzt um die Abdeckung der Tuning Daten zu erweitern.
Die im vorherigen Schritt verwendeten Wortähnlichkeiten sind entscheidend für
die Qualität des Verfahrens. Aus diesem Grund werden in der Arbeit verschiedene
automatische Methoden zur Ermittlung von solche Wortähnlichkeiten ausgehend von
monoligual und biligual Corpora vorgestellt. Interessanterweise ist dies auch
bei beschränkten Daten möglich, indem auch monolinguale
Daten, die in großen Mengen zur Verfügung stehen, zur Ermittlung der
Wortähnlichkeit herangezogen werden. Bei bilingualen Daten, die häufig nur in beschränkter Größe zur
Verfügung stehen, können auch weitere Sprachpaare herangezogen werden, die mindestens eine Sprache mit dem
vorgegebenen Sprachpaar teilen.
Im Modellierungsschritt behandeln wir das Problem mit verrauschten Daten, indem die
Trainingsdaten anhand der Güte des Corpus gewichtet werden.
Wir benutzen Statistik signifikante Messgrößen, um die weniger verlässlichen
Sequenzen zu finden und ihre Gewichtung zu reduzieren.
Ähnlich zu den vorherigen Ansätzen, werden Wortähnlichkeiten benutzt um das Problem bei begrenzten Daten zu behandeln.
Ein weiteres Problem tritt allerdings auf sobald die absolute Häufigkeiten mit den gewichteten Häufigkeiten ersetzt werden. In dieser Arbeit werden hierfür Techniken zur Glättung der Wahrscheinlichkeiten in dieser Situation entwickelt.
Die Größe der Trainingsdaten werden problematisch sobald man mit Corpora von erheblichem Volumen arbeitet.
Hierbei treten zwei Hauptschwierigkeiten auf: Die Länge der Trainingszeit und der begrenzte Arbeitsspeicher.
Für das Problem der Trainingszeit wird ein Algorithmus entwickelt, der die rechenaufwendigen Berechnungen auf mehrere Prozessoren mit gemeinsamem Speicher ausführt.
Für das Speicherproblem werden speziale Datenstrukturen und Algorithmen für externe Speicher benutzt.
Dies erlaubt ein effizientes Training von extrem großen Modellne in Hardware mit begrenztem Speicher.
Abstract (englisch):
Since its emergence in the early 90s, Statistical Machine Translation (SMT) has attracted great attention from both academia and industry.
This is a logical consequence of its outstanding success in many real-life applications.
In a great part, this stems from the quality of the translations it presents compared to the low human labor and the short development time required for production.
The development of SMT systems for a new language pair, however, builds on top of a critical assumption: the availability of training data.
This fact has been continuously urging researchers from academic and industrial environments to find new cheap data resources
... mehr
providing satisfactory amounts of training data with good quality.
The Internet turns out to be such a great resource with an additional interesting feature: the collection process can be automated.
The usefulness of such data has been shown in the annual international SMT evaluation campaigns (e.g. WMT and IWSLT).
For instance, more than half of the parallel training data available for German-English systems is automatically crawled from the Web.
Obviously, this figure gets even larger for monolingual data.
It is noteworthy that, in these evaluations, the training corpora are distributed sentence-aligned.
However, it is not uncommon to encounter many pair of sentences which are not translations of each other.
Mostly, this is a consequence of the imperfection of the sentence alignment process.
Another frequent problem with these corpora, is that some unusual sequences will result from the use of automatic preprocessors.
For instance, the difference in encodings may lead the preprocessor to remove or split some words, creating thus a non-natural flow of words.
The two aforementioned scenarios are only a small sample of examples which show that the automatically harvested data is not always of high quality.
We term such examples noise.
Generally speaking, ``noise'' means any piece of data whose presence in the model is nonessential or would rather hurt the system's performance. In this sense, incorrect parallel pairs and sentences which are not likely to be encountered in the test can be considered as good examples of noise.
The existence of significant amounts of noise in the training data is likely to degrade the system's
performance while adding considerable computing overhead to the training process.
On the other hand, the manual cleaning becomes extremely expensive, if at all possible.
In this work, we propose methods that are capable of reducing the negative effect of noise on an SMT system and thus improving its performance.
We approach the problem at two different stages of the learning process: at preprocessing and during modeling.
At the preprocessing level, we investigate two ways of enhancing the statistical models by removing parts of the training data.
On the other hand, at modeling we explore different ways to weight data instances according to their usefulness.
At the preprocessing, we, first, show the effect of removing the false positives
from a parallel corpus; i.e. pairs which are thought to be correct translations
while in fact they are not. To do so, we rely on an existing small seed
“clean” corpus to design a classifier-based filter. With the help of several
lexical features we are able to reliably decide whether a given pair is true
or false positive prior to modeling. Among these lexical features, the most
important is a bilingual lexicon obtained from the clean corpus. Different
heuristics are implemented in the extraction of this bilingual lexicon, which
lead to improved performance.
We, then, approach the problem of extracting the most useful parts of the
training data. In this task we rank the data based on its relatedness to the
targeted domain under the assumption of the existence of a good represen-
tative tuning data set. Since such representative is typically limited in size,
we exploit word similarities to extend the coverage of the limited indomain
representative.
The preexistence of the word similarities in the aforementioned task is cru-
cial. We present several ways of automatically deriving such similaritiesfrom monolingual and bilingual corpora. It is shown that the similarities
obtained from bilingual corpora are usually of higher quality. However, as
the bilingual data faces the data sparsity problem much more than their
monolingual counterpart, we propose two approaches to cope with this lim-
itation. First, we explore a technique to integrate the information from
the bilingual data into word representations learned from the monolingual
corpora. The performance of the similarities computed from the combined
representations is, therefore, considerably improved. Second, the similarities
could be learned from a richer language pair, as long as the target language
of this latter matches the target language of the task at hand.
At the modeling stage, we deal with the noise by weighting the training
data based on its “cleanliness”. We automatically identify the less reliable
sequences and penalize them, biasing thus the model to rely more on the
clean data. However, another problem arises as soon as we have real-valued
modified counts, resulting from applying the weights. The problem, here,
lies in the fact that our estimation of the different models uses smoothing.
The smoothing of a probability distribution allows for assigning a non null
probability to any event. All commonly used smoothing techniques in our
models assume integral counts, which is violated by our weighting. We
tackle this, by deriving a smoothing technique which can handle fractional
counts.
The size of training data becomes an issue as soon as we start dealing with
corpora of large volumes. Here, one faces two major difficulties: the lengthy
training time and the memory limitation. We solve the first problem by
using a hybrid parallel model. The model comprises distributed processing
units, each of which implements a shared-memory parallelism to speedup
the computationally expensive operations. On the other hand, to overcome
the memory limitations, we use special external memory data structures and
algorithms. This allows more efficient training of extremely large models on
a resource-constrained hardware.