Knockout LLM Assessment: Using Large Language Models for Evaluations through Iterative Pairwise Comparisons

Sandan, Isik Baran; Dinh, Tu Anh; Niehues, Jan; Arviv, Ofir; Clinciu, Miruna; Dhole, Kaustubh; Dror, Rotem; Gehrmann, Sebastian; Habba, Eliya; Itzhak, Itay; Mille, Simon; Perlitz, Yotam; Santus, Enrico; Sedoc, João; Shmueli Scheuer, Michal; Stanovsky, Gabriel; Tafjord, Oyvind

Knockout LLM Assessment: Using Large Language Models for Evaluations through Iterative Pairwise Comparisons

; Arviv, Ofir [Hrsg.]; Clinciu, Miruna [Hrsg.]; Dhole, Kaustubh [Hrsg.]; Dror, Rotem [Hrsg.]; Gehrmann, Sebastian [Hrsg.]; Habba, Eliya [Hrsg.]; Itzhak, Itay [Hrsg.]; Mille, Simon [Hrsg.]; Perlitz, Yotam [Hrsg.]; Santus, Enrico [Hrsg.]; Sedoc, João [Hrsg.]; Shmueli Scheuer, Michal [Hrsg.]; Stanovsky, Gabriel [Hrsg.]; Tafjord, Oyvind [Hrsg.]
¹ Institut für Anthropomatik und Robotik (IAR), Karlsruher Institut für Technologie (KIT)

Export

Statistiken

Seitenaufrufe: 90
seit 17.09.2025

Zugehörige Institution(en) am KIT	Institut für Anthropomatik und Robotik (IAR)
Publikationstyp	Proceedingsbeitrag
Publikationsjahr	2025
Sprache	Englisch
Identifikator	ISBN: 979-8-89176-261-9 KITopen-ID: 1000184940
HGF-Programm	46.24.01 (POF IV, LK 01) Applied TA: Digitalizat. & Automat. Socio-Technical Change
Erschienen in	Proceedings of the 4th Workshop on Generation, Evaluation and Metrics (GEM) / The 63rd Annual Meeting of the Association for Computational Linguistics. Ed.: K. Dhole
Veranstaltung	4th Workshop on Generation, Evaluation and Metrics / 63rd Annual Meeting of the Association for Computational Linguistics (GEM / ACL 2025), Wien, Österreich, 31.07.2025 – 01.08.2025
Verlag	Association for Computational Linguistics (ACL)
Seiten	121–128
Externe Relationen	Siehe auch

Repository KITopen

Knockout LLM Assessment: Using Large Language Models for Evaluations through Iterative Pairwise Comparisons