KIT | KIT-Bibliothek | Impressum | Datenschutz

End-to-End Neural Speech Translation

Sperber, Matthias

Abstract:

Diese Arbeit beschäftigt sich mit Methoden zur Verbesserung der automatischen Übersetzung gesprochener Sprache (kurz: Speech Translation). Die Eingabe ist hierbei ein akustisches Signal, die Ausgabe ist der zugehörige Text in einer anderen Sprache. Die Anwendungen sind vielfältig und reichen u.a. von dialogbasierten Übersetzungssystemen in begrenzten Domänen bis hin zu vollautomatischen Vorlesungsübersetzungssystemen.

Speech Translation ist ein komplexer Vorgang der in der Praxis noch viele Fehler produziert. Ein Grund hierfür ist die Zweiteilung in Spracherkennungskomponente und Übersetzungskomponente: beide Komponenten produzieren für sich genommen eine gewisse Menge an Fehlern, zusätzlich werden die Fehler der ersten Komponente an die zweite Komponente weitergereicht (sog. ... mehr

Abstract (englisch):

The goal of this thesis is to develop improved methods for the task of speech translation. Speech translation takes audio signals of speech as input and produces text translations as output, with diverse applications that reach from dialog-based translation in limited domains to automatic translation of academic lectures. A main challenge and reason why current speech translation systems often produce unsatisfactory results is the division of the task into independent recognition and translation steps, leading to the well-known {\it error propagation} problem. In this thesis, we use recent neural modeling techniques to tighten the speech translation pipeline and, in the extreme, replace the cascade by models that directly generate translations from speech without an intermediate step. ... mehr


Volltext §
DOI: 10.5445/IR/1000095218
Veröffentlicht am 27.05.2019
Cover der Publikation
Zugehörige Institution(en) am KIT Institut für Anthropomatik und Robotik (IAR)
Publikationstyp Hochschulschrift
Publikationsjahr 2019
Sprache Englisch
Identifikator KITopen-ID: 1000095218
Verlag Karlsruher Institut für Technologie (KIT)
Umfang XIX, 127 S.
Art der Arbeit Dissertation
Fakultät Fakultät für Informatik (INFORMATIK)
Institut Institut für Anthropomatik und Robotik (IAR)
Prüfungsdatum 09.01.2019
Schlagwörter speech translation, deep learning, end-to-end models
Referent/Betreuer Waibel, A.
KIT – Die Forschungsuniversität in der Helmholtz-Gemeinschaft
KITopen Landing Page