SciEx: Benchmarking Large Language Models on Scientific Exams with Human Expert Grading and Automatic GradingDinh, T. A.; Mullov, C.; Bärmann, L.; Li, Z.; Liu, D.; Reiß, S.; Lee, J.; Lerzer, N.; Ternava, F.; Gao, J.; Röddiger, T.; Waibel, A.; Asfour, T.; Beigl, M.; Stiefelhagen, R.; Dachsbacher, C.; Böhm, K.; Niehues, J.
2024. arxiv.
doi:10.48550/arXiv.2406.10421