Abstract:
Die Wiederherstellung von Traceability-Links (Traceability Link Recovery, TLR) zwischen Softwarearchitekturdokumentation (SAD) und Quellcode ist essenziell für die Wahrung der architektonischen Konsistenz und das Systemverständnis. Etablierte automatisierte Ansätze – von Information Retrieval (IR) bis hin zu modernen Large Language Models (LLMs) – scheitern jedoch häufig daran, nicht-triviale Links wiederherzustellen, die von projektspezifischem Kontext, Laufzeitkonfigurationen oder polyglotten Implementierungen abhängen. Diese Arbeit adressiert diese Einschränkung, indem sie die statischen, codezentrierten Annahmen bestehender Benchmarks und Retrieval-Strategien hinterfragt. ... mehrZunächst führten wir eine rigorose manuelle Analyse von vier Open-Source-Projekten durch (JabRef, MediaStore, TEAMMATES und TeaStore). Diese qualitative Bewertung legte nahe, dass ein signifikanter Teil der architektonischen Links auf implizitem Wissen und Nicht-Java-Artefakten beruht, die von Standardanalysen oft ignoriert werden. Basierend auf diesen Erkenntnissen verfeinerten wir systematisch die existierenden Goldstandards, wobei wir von einer schlüsselwortbasierten zu einer absichtsbasierten (intent-based) Baseline übergingen. Ein Vergleich zwischen diesem verfeinerten Standard und den ursprünglichen Benchmarks impliziert eine erhebliche Divergenz in den Traceability-Definitionen. Zweitens schlagen wir zur Adressierung dieser strukturellen Diskrepanzen einen neuartigen Ansatz der komponenten-zentrierten Vorverarbeitung (Component-Centric Preprocessing) vor, der in das LiSSA-Framework integriert ist. Im Gegensatz zu naiven RetrievalMethoden, die blind Code-Fragmente abrufen, nutzt unser Ansatz LLM-basierte Agenten, um zunächst Sätze der Dokumentation auf Architekturkomponenten abzubilden und diese Komponenten anschließend mithilfe von semantischem Reasoning und Heuristiken der Build-Konfiguration auf ihre physischen Verzeichnisorte aufzulösen. Wir evaluierten diesen Ansatz gegen State-of-the-Art-Baselines (ArDoCo) und StandardRAG-Konfigurationen. Die Ergebnisse zeigen, dass unsere agentenbasierte, komponentenbewusste Strategie einen gewichteten durchschnittlichen F1-Score von .554 auf dem verfeinerten Benchmark mit diversen Artefakten erzielt und damit das naive Retrieval (.125) sowie modellbasierte Baselines (.382) signifikant übertrifft. Diese Erkenntnisse bestätigen, dass die Integration von architektonischem Reasoning und die Berücksichtigung von projektinternem Kontext Voraussetzungen sind, um die komplexen, konfigurationsgetriebenen Links in modernen Softwaresystemen wiederherzustellen.
Abstract (englisch):
Traceability Link Recovery (TLR) between Software Architecture Documentation (SAD) and source code is essential for preserving architectural consistency and facilitating system comprehension. However, established automated approaches—ranging from Information Retrieval (IR) to modern Large Language Models (LLMs)—often fail to recover non-trivial links that depend on project-specific context, runtime configurations, or polyglot implementations. This thesis addresses this limitation by challenging the static, code-centric assumptions of existing benchmarks and retrieval strategies. ... mehrFirst, we conducted a rigorous manual analysis of four open-source projects (JabRef, MediaStore, TEAMMATES, and TeaStore). This qualitative assessment suggested that a significant portion of architectural links relies on implicit knowledge and non-Java artifacts often ignored by standard analysis. Based on these findings, we systematically refined the existing gold standards, transitioning from a keyword-based to an intent-based baseline. A comparison between this refined standard and the original benchmarks implies a substantial divergence in traceability definitions. Second, to address these structural mismatches, we propose a novel Component-Centric Preprocessing approach integrated into the LiSSA framework. Unlike naive retrieval methods that blindly fetch code chunks, our approach utilizes LLM-based agents to first map documentation sentences to architectural components and then resolve those components to their physical directory locations using semantic reasoning and build configuration heuristics. We evaluated this approach against state-of-the-art baselines (ArDoCo) and standard RAG configurations. The results demonstrate that our agentic, component-aware strategy achieves a weighted average F1-score of .554 on the refined, diverse-artifact benchmark, significantly outperforming naive retrieval (.125) and model-based baselines (.382). These findings confirm that integrating architectural reasoning and handling project-intrinsic context are prerequisites for recovering the complex, configuration-driven links found in modern software systems.