Learning from Noisy Data in Statistical Machine Translation

Mediani, Mohammed

doi:10.5445/IR/1000072805

Learning from Noisy Data in Statistical Machine Translation

Mediani, Mohammed

Abstract:

In dieser Arbeit wurden Methoden entwickelt, die in der Lage sind die negativen
Effekte von verrauschten Daten in SMT Systemen zu senken und dadurch die Leistung des
Systems zu steigern. Hierbei wird das Problem in zwei verschiedenen Schritten des
Lernprozesses behandelt: Bei der Vorverarbeitung und während der
Modellierung. Bei der Vorverarbeitung werden zwei Methoden zur Verbesserung der
statistischen Modelle durch die Erhöhung der Qualität von Trainingsdaten entwickelt.
Bei der Modellierung werden verschiedene Möglichkeiten vorgestellt, um Daten nach ihrer Nützlichkeit zu gewichten.
... mehr

Abstract (englisch):

Since its emergence in the early 90s, Statistical Machine Translation (SMT) has attracted great attention from both academia and industry.
This is a logical consequence of its outstanding success in many real-life applications.
In a great part, this stems from the quality of the translations it presents compared to the low human labor and the short development time required for production.

The development of SMT systems for a new language pair, however, builds on top of a critical assumption: the availability of training data.
This fact has been continuously urging researchers from academic and industrial environments to find new cheap data resources
... mehr

KITopen-Download

Volltext

DOI: 10.5445/IR/1000072805

Export

Statistiken

Seitenaufrufe: 225
seit 04.05.2018

Downloads: 254
seit 07.08.2017

Zugehörige Institution(en) am KIT	Institut für Anthropomatik und Robotik (IAR)
Publikationstyp	Hochschulschrift
Publikationsjahr	2017
Sprache	Englisch
Identifikator	urn:nbn:de:swb:90-728051 KITopen-ID: 1000072805
Verlag	Karlsruher Institut für Technologie (KIT)
Umfang	IX, 185 S.
Art der Arbeit	Dissertation
Fakultät	Fakultät für Informatik (INFORMATIK)
Institut	Institut für Anthropomatik und Robotik (IAR)
Prüfungsdatum	30.01.2017
Schlagwörter	Statistical Machine Translation, Noisy Data, Language Model Smoothing, Semantic Word Associations, Noise Removal, Data Selection, Data Weighting, Large Corpora, External Memory, Hybrid Parallel Scoring
Referent/Betreuer	Waibel, A.

Repository KITopen

Learning from Noisy Data in Statistical Machine Translation

Abstract:

Abstract (englisch):