KIT | KIT-Bibliothek | Impressum | Datenschutz

MaViLS, a Benchmark Dataset for Video-to-Slide Alignment, Assessing Baseline Accuracy with a Multimodal Alignment Algorithm Leveraging Speech, OCR, and Visual Features

Anderer, Katharina 1; Reich, Andreas; Wölfel, Matthias
1 Karlsruher Institut für Technologie (KIT)

Zugehörige Institution(en) am KIT Karlsruher Institut für Technologie (KIT)
Publikationstyp Proceedingsbeitrag
Publikationsjahr 2024
Sprache Englisch
Identifikator ISSN: 2958-1796
KITopen-ID: 1000179074
Erschienen in Proc. Interspeech 2024, Kos, 1st-5th September 2024
Veranstaltung Interspeech (2024), Kos Island, Greece, 01.09.2024 – 05.09.2024
Verlag ISCA
Seiten 1375–1379
Vorab online veröffentlicht am 01.09.2024
Externe Relationen Abstract/Volltext
Nachgewiesen in OpenAlex
Dimensions
Scopus

Download
Originalveröffentlichung
DOI: 10.21437/Interspeech.2024-978
Seitenaufrufe: 18
seit 13.02.2025
KIT – Die Forschungsuniversität in der Helmholtz-Gemeinschaft
KITopen Landing Page