KIT | KIT-Bibliothek | Impressum | Datenschutz

Semantic Tokenization in Source Code Plagiarism Detection

Wessel, Simon 1
1 Karlsruher Institut für Technologie (KIT)

Abstract:

Das manuelle Erkennen von Software-Plagiatsfällen in einer Menge von Quelltextabgaben ist nicht skalierbar, weshalb Lehrende auf automatische Werkzeuge zur Plagiatserkennung zurückgreifen. Moderne Ansätze basieren überwiegend auf Tokens und wandeln Quelltext in eine Sequenz struktureller Token um, die anschließend verglichen werden, um gemeinsame Teilsequenzen zu identifizieren. Sich ausschließlich auf strukturelle Tokens zu verlassen, kann jedoch zu falsch-positiven Klassifikationen führen, da unabhängig entwickelte Lösungen mit ähnlicher Struktur fälschlicherweise als Plagiat identifiziert werden können.
... mehr

Abstract (englisch):

Detecting cases of software plagiarism within a set of source code submissions is not scalable when performed manually, leading instructors to rely on automated plagiarism detection tools. State-of-the-art approaches are predominantly token-based, transforming source code into sequences of structural tokens that are subsequently compared to identify common subsequences. However, relying solely on structural tokens may result in false positives, as independently developed solutions with similar structure can be incorrectly identified as plagiarized.
This thesis presents an approach to mitigate this limitation by enriching tokens with additional structural and semantic context. ... mehr


Zugehörige Institution(en) am KIT Institut für Informationssicherheit und Verlässlichkeit (KASTEL)
Publikationstyp Hochschulschrift
Publikationsmonat/-jahr 04.2026
Sprache Englisch
Identifikator KITopen-ID: 1000192035
Art der Arbeit Abschlussarbeit - Bachelor
Prüfungsdaten 09.04.2026
Externe Relationen Forschungsdaten/Software
Schlagwörter Software Plagiarism Detection, Source Code Plagiarism Detection,, Tokenization, Computer Science Education, Code Semantic
Referent/Betreuer Maisch, Robin
Hagel, Nathan
KIT – Die Universität in der Helmholtz-Gemeinschaft
KITopen Landing Page