KIT | KIT-Bibliothek | Impressum
Open Access Logo
§
Volltext
DOI: 10.5445/IR/1000072805

Learning from Noisy Data in Statistical Machine Translation

Mediani, Mohammed

Abstract:
In dieser Arbeit wurden Methoden entwickelt, die in der Lage sind die negativen
Effekte von verrauschten Daten in SMT Systemen zu senken und dadurch die Leistung des
Systems zu steigern. Hierbei wird das Problem in zwei verschiedenen Schritten des
Lernprozesses behandelt: Bei der Vorverarbeitung und während der
Modellierung. Bei der Vorverarbeitung werden zwei Methoden zur Verbesserung der
statistischen Modelle durch die Erhöhung der Qualität von Trainingsdaten entwickelt.
Bei der Modellierung werden verschiedene Möglichkeiten vorgestellt, um Daten nach ihrer Nü ... mehr

Abstract (englisch):
Since its emergence in the early 90s, Statistical Machine Translation (SMT) has attracted great attention from both academia and industry.
This is a logical consequence of its outstanding success in many real-life applications.
In a great part, this stems from the quality of the translations it presents compared to the low human labor and the short development time required for production.

The development of SMT systems for a new language pair, however, builds on top of a critical assumption: the availability of training data.
This fact has been continuously urg ... mehr


Zugehörige Institution(en) am KIT Institut für Anthropomatik und Robotik (IAR)
Publikationstyp Hochschulschrift
Jahr 2017
Sprache Englisch
Identifikator URN: urn:nbn:de:swb:90-728051
KITopen ID: 1000072805
Verlag Karlsruhe
Umfang IX, 185 S.
Abschlussart Dissertation
Fakultät Fakultät für Informatik (INFORMATIK)
Institut Institut für Anthropomatik und Robotik (IAR)
Prüfungsdatum 30.01.2017
Referent/Betreuer Prof. A. Waibel
Schlagworte Statistical Machine Translation, Noisy Data, Language Model Smoothing, Semantic Word Associations, Noise Removal, Data Selection, Data Weighting, Large Corpora, External Memory, Hybrid Parallel Scoring
KIT – Die Forschungsuniversität in der Helmholtz-Gemeinschaft KITopen Landing Page