KIT | KIT-Bibliothek | Impressum | Datenschutz

Preventing Automatic Code Plagiarism Generation Through Token String Normalization

Brödel, Moritz 1
1 Karlsruher Institut für Technologie (KIT)

Abstract:

Code-Plagiate sind ein beträchtliches Problem in der Informatik-Lehre. Token-basierte Plagiatsdetektoren, die den Stand der Technik bei der Erkennung von Code-Plagiaten darstellen, sind hervorragend darin, manuell plagiierte Abgaben zu erkennen. Leider sind sie anfällig gegen die automatische Erzeugung von Plagiaten, insbesondere wenn Anweisungen eingefügt oder umgeordnet werden. Daher wird in dieser Arbeit eine Token-String-Normalisierung eingeführt, die die Ergebnisse von Token-basierten Plagiatsdetektoren invariant gegenüber dem Einfügen und Umordnen von Aussagen macht. ... mehr

Abstract (englisch):

Code plagiarism is a significant problem in computer science education. Token-based plagiarism detectors, which represent the state-of-the-art in code plagiarism detection, excel at identifying manually plagiarized submissions. Unfortunately, they are vulnerable to automatic plagiarism generation, particularly when statements are inserted or reordered. Therefore, this thesis introduces token string normalization, which makes the results of token-based plagiarism detectors invariant to statement insertion and reordering. It inherits token-based plagiarism detectors' high language independence and utilizes a program graph. ... mehr


Volltext §
DOI: 10.5445/IR/1000165371
Veröffentlicht am 08.12.2023
Cover der Publikation
Zugehörige Institution(en) am KIT Institut für Informationssicherheit und Verlässlichkeit (KASTEL)
Publikationstyp Hochschulschrift
Publikationsdatum 21.04.2023
Sprache Englisch
Identifikator KITopen-ID: 1000165371
Verlag Karlsruher Institut für Technologie (KIT)
Art der Arbeit Abschlussarbeit - Bachelor
Prüfungsdaten 05.05.2023
Referent/Betreuer Sağlam, Timur
Hahner, Sebastian
KIT – Die Forschungsuniversität in der Helmholtz-Gemeinschaft
KITopen Landing Page