Sprachverarbeitende Systeme, die gesprochene Sprache als Eingabemodalität haben, werden von immer mehr Menschen in ihrem alltäglichen Leben verwendet. Sie sind zum Beispiel in intelligenten Assistenten in Smartphones oder in Roboterstaubsaugern integriert. Obwohl diese Systeme oft eine beeindruckende Leistung haben, machen sie Fehler. Deshalb ist die Integration von einer Komponente, die Nutzern ermöglicht, Fehler per gesprochene Sprache zu korrigieren, essentiell.
Bestehende Fehlerkorrektursysteme sind zu eingeschränkt, um mit ihnen alle Fehler per gesprochene Sprache zu korrigieren. ... mehrDie meisten beruhen auf dem erneuten Diktat oder unflexiblen Korrekturmustern. Die korrekte Version von fehlerhaften Teilen muss in der Korrekturäußerung enthalten sein. Das ist für Wörter, die nicht von dem automatischen Spracherkennungssystem erkannt werden, wie ausländische Namen, unmöglich. Das Buchstabieren als Alternative ist langsam, nervig und schwer für Nutzer mit einer Rechtschreibschwäche.
Es gibt eine erste Arbeit in der Literatur, die eine uneingeschränkte Fehlerkorrektur bietet, aber diese ist zu langsam und zu ungenau. In dieser Dissertation wird eine schnelle und genügend präzise uneingeschränkte Fehlerkorrektur vorgeschlagen, um die Limitierung von existierenden Systemen zu überwinden. Die Entwicklung verlief in mehreren Schritten.
Als erstes wurden verschiedene Ansätze, um fehlerhafte Entitäten zu korrigieren, entwickelt und miteinander verglichen. Es wurde ein Telegram-Bot entwickelt, um menschlich erzeugte Fehlerkorrekturen für das Testen kreieren zu lassen. Die Qualität der Ansätze wird evaluiert, indem gezählt wird, wie viele Beispiele komplett korrekt gelöst werden können. Eine korrekte Lösung beinhaltet die fehlerfreie Korrektur und die Extraktion der Reparandum und Repair Paare. Diese Anzahl wird durch die gesamte Anzahl an Beispielen geteilt und ergibt die Genauigkeit. Ein Ansatz, welcher ein feinabgestimmtes Sequenz-Beschriftungs (Sequence-Labeling) Modell und ein feinabgestimmtes Sequenz-zu-Sequenz Modell kombiniert (104714 Trainingsbeispiele wurden verwendet, um beide Modelle zu trainieren), erreicht eine Genauigkeit von 77,81 % auf den Testdaten.
Um Fehler, die über Text hinausgehen, korrigieren zu können, wurde eine multimodale Fehlerkorrektur entwickelt. Falsch gewählte Entitäten können mit einer Kombination von gesprochener Sprache und dem Zeigen auf Entitäten korrigiert werden. Diese beruht auf einer Region-Vorschlagskomponente, die Regionen von Interesse (Regions of Interest (RoIs)) ausgibt und eine Zeigeliniegenerierungskomponente, die verwendet wird, um RoIs, die auf der Zeigelinie liegen, herauszufiltern. Diese RoIs werden der multimodalen Fehlerkorrekturkomponente übergeben. Die multimodale Fehlerkorrekturkomponente gibt die RoI, in der die korrigierte Entität vorhergesagt wird und den Namen für die Entität, der zu der fehlerhaften Vorhersage geführt hat, aus. In Fällen, bei denen eine korrekte Vorhersage möglich ist, da die gewollte Entität in einer übergebenen RoI ist, konnten nach einem Versuch 78,63 % und beim Verwenden der Interaktivität bei bis zu drei Versuchen 88,46 % von falsch gewählten Entitäten erfolgreich korrigiert und die korrekten Entitätsnamen vorhergesagt werden.
Die Fehlerkorrektur wurde erweitert, um alle Arten von Fehlern korrigieren zu können. Es wurden wieder Daten gesammelt, mit einer erweiterten Webanwendung und mit einer von Grund auf entwickelten Webanwendung. Ein feinabgestimmtes Modell konnte 63,14 % aller Segmente korrekt korrigieren. Die Levensthein Distanz und Zurückverfolgung von ihrer Berechnung wurden genutzt, um Änderungen zu extrahieren. Die von Grund auf entwickelte Webanwendung kann genutzt werden, um das System als Echtweltanwendung laufen zu lassen.
Es wurde eine uneingeschränkte Fehlerkorrekturkomponente, welche ein großes Sprachmodell (Large Language Model (LLM)) mit einer maßgeschneiderten Prompt, welche die Aufgabe beschreibt und Beispiele bietet, entwickelt, um nicht nur eine Fehlerkorrekturkomponente zu haben, die durch die Daten, mit der sie feinabgestimmt wurde, begrenzt ist. Auf dem gleichen Datensatz, der für die Evaluation des feinabgestimmten Modells verwendet wurde, ist das LLM mit einer Genauigkeit von 65,32 % etwas besser. Praktische Tests mit der Webanwendung zeigten aber eine erheblich bessere Qualität bei Korrekturen, die mehr von den Korrekturen, die im Trainingsdatensatz vom feinabgestimmten Modell enthalten sind, abweichen. Um das System in einem Echtweltszenario zu evaluieren, wurde es in das Lecture Translator Framework integriert und mit 15 Teilnehmern und 24 unterschiedlichen Ausschnitten von Ergebniskonferenzen von S&P 500 Unternehmen und ACL-Konferenzvorträgen evaluiert. Obwohl im Durchschnitt nur 61,11 % von den Fehlern eines gegebenen Ausschnitts von den Teilnehmern bei dem ersten Versuch korrigiert werden konnten, konnten nach bis zu drei Versuchen im Durchschnitt 88,35 % von den Fehlern eines Ausschnitts korrigiert werden und nach dem Ende der Korrekturversuchen konnten im Durchschnitt 98,91 % der Fehler eines Ausschnitts korrigiert werden. Im Durchschnitt waren 2,39 Versuche (Median 2,00) nötig, um einen Fehler in einem Ausschnitt zu korrigieren.
Natural language processing systems that have speech as input modality are used more and more by people in their day-to-day life. They are integrated, for example, in smart assistants on smartphones or in robot vacuum cleaners. Although these systems often have an impressive performance, they do make errors. Therefore, the integration of a component that enables users to correct errors per speech is essential.
Existing error correction systems are too limited to be used to correct all errors via speech. Most rely on redictation or inflexible correction patterns. The correct version of erroneous parts must be in the correction utterance. ... mehrThat is impossible for words that are not known by the automatic speech recognition system like foreign names. The alternative spelling is slow, annoying, and difficult for users with a spelling weakness.
There is one first work in the literature to offer an unconstrained error correction, but it is too slow and inaccurate. In this thesis, a fast and accurate enough unconstrained error correction component is proposed to overcome the limits of existing systems. The development of it proceeded in multiple steps.
First, different approaches to correct wrong entities were developed and compared to each other. A Telegram bot was developed to collect human created error corrections for testing. The quality of the approaches is evaluated in the following manner: All sentences that could be completely solved are counted. A correct solution contains the error-free corrections and the extraction of the reparandum and repair pairs. The counted number is divided by the total number of sentences and is the accuracy. An approach combining a fine-tuned sequence labeling model and a fine-tuned sequence-to-sequence model (104714 training sentences were used to train both models) achieves an accuracy of 77.81 % on the test data.
To be able to correct errors beyond text, a multimodal error correction model was developed. Wrongly selected entities can be corrected by the combination of speech and pointing at entities. It relies on a region proposal component which outputs regions of interest (RoIs) and a pointing line generation component that is used to intersect the pointing line with the outputted RoIs to filter RoIs that are on the pointing line. These RoIs are passed to the multimodal error correction component. The multimodal error correction component outputs the RoI where the corrected entity is predicted and the name of the entity used in the utterance that led to the wrong prediction. In cases where a correct prediction is possible because the wanted entity is in a passed RoI, after one try 78.63 % and by using the interactiveness and up to three tries 88.46 % of wrongly selected entities were successfully corrected and the correct entity names were predicted.
The error correction was extended to all types of errors. Again, data were collected by one extended web application and one from scratch developed web application. A fine-tuned model could correct 63.14 % of all segments correctly. The Levensthein distance and the backtracing of its calculation are used to extract the changes. The from scratch developed web application can be used to run the system as real-world application.
An unconstrained error correction component using a large language model (LLM) with a custom prompt that describes the task and provides examples was developed to have not only an error correction that is bound on the data that were used to fine-tune the model. On the same dataset used for evaluating the fine-tuned model, the LLM is with an accuracy of 65.32 % only slightly better, real world tests with the web application showed a remarkable better quality on corrections that differ more from the corrections contained in the training dataset of the fine-tuned model. To test the system in a real-word scenario, it was integrated in the Lecture Translator framework and evaluated with 15 participants and distinct 24 cutouts of earning conference calls of S&P 500 companies and ACL conference talks. Although on average only 61.11 % of the errors of a given cutout could be corrected by the participants on the first try, after up to three tries on average 88.35 % of the errors of a cutout could be corrected and at the end of the correction tries on average 98.91 % of the errors of a cutout could be corrected. On average 2.39 tries (median 2.00) were necessary to correct an error of a cutout.