KIT | KIT-Bibliothek | Impressum | Datenschutz

Learning from Noisy Data in Statistical Machine Translation

Mediani, Mohammed

Abstract:

In dieser Arbeit wurden Methoden entwickelt, die in der Lage sind die negativen
Effekte von verrauschten Daten in SMT Systemen zu senken und dadurch die Leistung des
Systems zu steigern. Hierbei wird das Problem in zwei verschiedenen Schritten des
Lernprozesses behandelt: Bei der Vorverarbeitung und während der
Modellierung. Bei der Vorverarbeitung werden zwei Methoden zur Verbesserung der
statistischen Modelle durch die Erhöhung der Qualität von Trainingsdaten entwickelt.
Bei der Modellierung werden verschiedene Möglichkeiten vorgestellt, um Daten nach ihrer Nützlichkeit zu gewichten.
... mehr

Abstract (englisch):

Since its emergence in the early 90s, Statistical Machine Translation (SMT) has attracted great attention from both academia and industry.
This is a logical consequence of its outstanding success in many real-life applications.
In a great part, this stems from the quality of the translations it presents compared to the low human labor and the short development time required for production.

The development of SMT systems for a new language pair, however, builds on top of a critical assumption: the availability of training data.
This fact has been continuously urging researchers from academic and industrial environments to find new cheap data resources
... mehr


Volltext §
DOI: 10.5445/IR/1000072805
Cover der Publikation
Zugehörige Institution(en) am KIT Institut für Anthropomatik und Robotik (IAR)
Publikationstyp Hochschulschrift
Publikationsjahr 2017
Sprache Englisch
Identifikator urn:nbn:de:swb:90-728051
KITopen-ID: 1000072805
Verlag Karlsruher Institut für Technologie (KIT)
Umfang IX, 185 S.
Art der Arbeit Dissertation
Fakultät Fakultät für Informatik (INFORMATIK)
Institut Institut für Anthropomatik und Robotik (IAR)
Prüfungsdatum 30.01.2017
Schlagwörter Statistical Machine Translation, Noisy Data, Language Model Smoothing, Semantic Word Associations, Noise Removal, Data Selection, Data Weighting, Large Corpora, External Memory, Hybrid Parallel Scoring
Referent/Betreuer Waibel, A.
KIT – Die Forschungsuniversität in der Helmholtz-Gemeinschaft
KITopen Landing Page