Abstract:
Spracherkennung ist die Aufgabe, automatisch Transkriptionen von gegebenen Sprachäußerungen zu erstellen. Dieser Forschungsbereich findet in unserem täglichen Leben breite Anwendung, z. B. bei der Unterstützung ausländischer Studierenden in Vorlesungen oder bei der Steuerung intelligenter Geräte wie Smart-TVs oder Autos durch Sprachbefehle.
Die 7000 Sprachen, die auf der Welt gesprochen werden, stellen eine Herausforderung für Spracherkennungssysteme dar. Herkömmliche Spracherkennungsmethoden, die Hidden Markov-Modelle verwenden, sind in der Praxis nicht für viele Sprachen gleichzeitig anwendbar, da sie Aussprachewörterbücher und eine Pipeline von getrennten Komponenten erfordern. ... mehrDer neuronale End-to-End-Ansatz entspannt diese beiden Anforderungen, indem ein einziges neuronales Netzwerk verwendet wird, um eine direkte Abbildung von Sprachsignaleingaben auf Wortoberflächenausgaben zu erlernen, und alle Komponenten im Netzwerk werden direkt für dieses Lernziel optimiert. Auf diese Weise kann ein einziges Modell trainiert werden, um viele Sprachen gleichzeitig zu erkennen.
Zu den Desideraten eines mehrsprachigen Erkennungssystems gehören die folgenden Faktoren:
Das Trainingsverfahren mit einem kombinierten Datensatz aus mehreren Sprachen sollte nicht übermäßig kompliziert sein und ist industriell viel effizienter als die Entwicklung mehrerer einsprachiger Erkennungssysteme.
Die Erkennungsqualität des mehrsprachigen Systems sollte konkurrenzfähig oder besser sein als die der einsprachigen Einzelsysteme. Da viele Sprachen ähnliche akustische Merkmale aufweisen, sollte die Architektur der Erkennungssysteme dies widerspiegeln und gleichzeitig Raum für die Modellierung der einzigartigen Merkmale der einzelnen Sprachen lassen.
Entscheidend ist, dass das System erweiterungsfähig ist, d. h. dass es ständig neue Sprachen lernen kann. Die Einführung neuer Sprachen sollte die Leistung der bereits erlernten Sprachen nicht beeinträchtigen. Gleichzeitig muss die Qualität dieser neuen Sprachen im Vergleich zum idealen Szenario, in dem alle Sprachen auf einmal vorhanden sind, konkurrenzfähig sein. Dieser Faktor ist wichtig für die Skalierung von Erkennungssystemen in einem weltweiten Umfeld, in dem die Beschaffung von Daten für neue Sprachen schwierig ist und die Datenspeicherung aufgrund von Speicherbedarf und Datenschutzproblemen nicht ewig möglich ist.
Die Ziele dieser Arbeit sind darauf ausgerichtet, die Spracherkennung in Richtung dieser Desiderate weiterzuentwickeln. Das erste Ziel wurde durch die Konstruktion eines neuronalen End-to-End-Spracherkennungsmodells erreicht. Die Motivation hierfür war, dass aufgrund des hohen Abstraktionsniveaus im Vergleich zu traditionellen Methoden, wie z.B. der Entfernung von Wörterbüchern und konkretem Alignment-Lernen, die Leistung von neuronalen End-to-End-Modellen immer noch schlechter war als bei traditionellen Systemen. Durch die Verwendung von sehr tiefen Transformer-Netzen mit stochastischen Schichten und einem Mechanismus für relative Positionsselbstaufmerksamkeit ist es möglich, eine konkurrenzfähige Leistung in Standard-Benchmarks für Konversations-Englisch zu erreichen, was das modernste Ergebnis war, das mit End-to-End-Modellen erzielt wurde.
Nachdem ein starkes neuronales End-to-End-Modell erreicht wurde, besteht das nächste Ziel darin, es für eine groß angelegte mehrsprachige Erkennung einzusetzen. Da dieser Ansatz nicht durch sprachspezifische Aussprachewörterbücher eingeschränkt ist, ist es trivial, ein mehrsprachiges System mit Dutzenden von Sprachen zu erstellen, das das erste Desiderat-Ziel erfüllt. Um eine klare Lernstrategie zu haben, die sprachabhängige und unabhängige Merkmale trennt, haben wir die Gewichtsfaktorisierung als Technik vorgeschlagen, die jede Gewichtsmatrix im Netzwerk in sprachabhängige und unabhängige Faktoren zerlegt. Die sprachabhängigen Gewichte werden weiter faktorisiert, um das Netzwerk zu ermutigen, universelle Merkmale zu lernen. Darüber hinaus kann diese Technik mit Transfer-Lernen kombiniert werden, wodurch die Wortfehlerrate für 32 Sprachen um 33% im Vergleich zu einer konkurrierenden Transformer-Baseline reduziert wird.
Mit der Gewichtungsfaktorisierung ist nun daskontinuierliche Lernen neuer Sprachen möglich. Die Netze können neue Gewichte für neue Sprachen zuweisen, ohne in die Logik der alten Sprachen einzugreifen, wodurch ein katastrophales Vergessen, das Hauptproblem des Verlusts von Wissen über frühere Sprachen beim Training neuer Sprachen, vollständig vermieden wird. Die Gewichtsfaktorisierung, eine Form der progressiven neuronalen Netze, kann auch mit der elastischen Gewichtskonsolidierung kombiniert werden, einer Regularisierungsmethode zur Vermeidung des katastrophalen Vergessens. Diese Kombination macht die gesamte Netzarchitektur flexibler, da sie Leerstellen im Netz findet, um neues Wissen zu lernen. Auf diese Weise ist es möglich, neue Sprachen mit der gleichen Qualität zu erlernen, wie wenn man alle Sprachen von Anfang an beherrschen würde, ohne dass es zu ernsthaften Kompromissen in Bezug auf das katastrophale Vergessen kommt.
Der letzte Beitrag der Arbeit ist die Anwendung im Bereich der direkten Sprachübersetzung. Für viele Sprachen ist es bequemer, die Übersetzung anstelle des Transkripts von Sprachäußerungen zu sammeln. Die gleiche neuronale Architektur kann in dieser Situation ohne jegliche Modifikation angewendet werden. Der Beitrag wird dadurch hervorgehoben, dass gezeigt wird, dass ein neuronales Modell jetzt leistungsfähig genug ist, um kaskadierte Ansätze zu übertreffen, entweder in groß angelegten Sprachübersetzungen oder in ressourcenbeschränkten mehrsprachigen Sprachübersetzungsszenarien.
Abstract (englisch):
Speech recognition is the task of automatically generating transcriptions of given speech utterances. This research area is widely applied in our daily lives such as helping foreign students in lectures or controlling intelligent devices such as smart TVs or cars with speech commands.
The 7000 languages being spoken in the world poses a challenge to speech recognition system. Traditionally speech recognition methods using Hidden Markov Model are not practically applicable for many languages simultaneously due to the requirement of pronunciation dictionaries together with a pipeline of separated components. ... mehrThe neural end-to-end approach relaxed both of these requirements by using a single neural network to learn a direct mapping from speech signal inputs to word surface outputs, and all components in the network are directly optimized for this learning objective. This nature enables training one model to recognize many languages at the same time.
The desiderata of a multilingual recognition system includes the following factors:
The training procedure with a combined dataset of multiple languages should not be overly complicated than dealing with one single language, and is much more industrially efficient than constructing multiple monolingual recognition system.
The recognition quality of the multilingual system should be competitive or better than the monolingual individual systems. Since many languages share similar acoustic features, the architecture of the recognizers should reflect this nature, while having room to model each language's unique traits.
It is crucial for the system to be expandable, by being able to continually learn new languages. The intervention of new languages should not affect the performance for the previously learned languages. Meanwhile, the quality of these new languages must be competitive compared to the ideal scenario of having all languages at once. This factor is important when scaling recognition systems in a world-wide setting, in which acquiring data for new languages is difficult and data storing is not eternal due to storage requirement and privacy issues.
The goals of the thesis are designed to further develop speech recognition towards such desiderata. The first objective was achieved by constructing a neural end-to-end speech recognition model. The motivation here was that, due to the high level of abstraction compared to traditional methods, such as the removal of dictionaries and concrete alignment learning, the performance of neural end-to-end models was still inferior to traditional system. By using very deep Transformer networks with stochastic layers and enhanced with relative position self attention mechanism, it is possible to reach a competitive level performance in standard benchmark of conversational English, which was the state-of-the-art result achieved with end-to-end models.
Having achieved a strong neural end-to-end model, the next objective is to apply it for large scale multilingual recognition. Because this approach is not limited by the language specific pronunciation dictionaries, it is trivial to create a multilingual system of dozens of languages, that satisfied the first desiderata objective. In order to have a clear learning strategy that separates language dependent and independent features, we proposed weight factorization as a technique that factorizes each weight matrix in the network into language dependent and independent factors. The language dependent weights are further factorized to encourage the network to learn universal features. Furthermore, this technique can be combined with transfer learning, as a result reducing the word error rate for 32 languages by 33% compared to a competitive Transformer baseline.
With weight factorization, continual learning new languages is now enabled. The networks can allocate new weights for new languages without interfering the logic of old languages, thus completely avoiding catastrophic forgetting, the major problem of losing knowledge of previous languages when training on new ones. Weight factorization, a form of progressive neural networks, can be also combined with Elastic Weight Consolidation, a regularization method to prevent catastrophic forgetting. This combination makes the whole network architecture more flexible, by finding empty space in the network to learn new knowledge. By doing so, it is possible to learn new languages with the same quality of having all languages initially, without severely compromising in terms of catastrophic forgetting.
The last contribution of the thesis is the application in direct speech translation. For many languages, it is more convenient to collect the translation instead of transcript for speech utterances. The same neural architecture can be applied in this situation without any modification. The contribution is hightlighted by showing that, a neural model is now powerful enough to outperform cascaded approaches, in either large scale speech translation or resource-limited multilingual speech translation scenarios.