KIT | KIT-Bibliothek | Impressum | Datenschutz

AI4DiTraRe: Towards LLM-Based Information Extraction for Standardising Climate Research Repositories

Jacyszyn, Anna M.; JIANG, Shufan; Gesese, Genet Asefa ORCID iD icon 1; Hertling, Sven; Kerzenmacher, Tobias ORCID iD icon 2; Nowack, Peer ORCID iD icon 3; Barthlott, Sabine ORCID iD icon 2; Posthumus, Etienne; Sack, Harald 1
1 Institut für Angewandte Informatik und Formale Beschreibungsverfahren (AIFB), Karlsruher Institut für Technologie (KIT)
2 Institut für Meteorologie und Klimaforschung Atmosphärische Spurengase und Fernerkundung (IMKASF), Karlsruher Institut für Technologie (KIT)
3 Institut für Theoretische Informatik (ITI), Karlsruher Institut für Technologie (KIT)

Abstract:

In the petabyte-era of climate research, harmonising diverse environmental and geoscientific datasets is critical to improve data interoperability and support effectiveness of interdisciplinary studies. This paper presents an idea of designing an LLM-based tool to extract and standardize metadata from climate research repositories. The solution leverages the adaptability of LLMs that are able to understand contextual nuances. By addressing common inconsistencies such as varying parameters (observation types), units, and definitions, the proposed tool will significantly improve effective data integration. It will be the first step to facilitate the creation of a unified metadata schema adhering to the FAIR principles.


Download
Originalveröffentlichung
DOI: 10.5281/zenodo.14925184
Zugehörige Institution(en) am KIT Institut für Angewandte Informatik und Formale Beschreibungsverfahren (AIFB)
Institut für Meteorologie und Klimaforschung Atmosphärische Spurengase und Fernerkundung (IMKASF)
Institut für Theoretische Informatik (ITI)
Publikationstyp Vortrag
Publikationsdatum 25.02.2025
Sprache Englisch
Identifikator KITopen-ID: 1000187251
HGF-Programm 12.11.35 (POF IV, LK 01) Tailored information for users and stakeholders
Veranstaltung First AAAI Bridge on Artificial Intelligence for Scholarly Communication (AI4SC) co-located with the 39th AAAI Conference on Artificial Intelligence (AAAI-25 2025), Philadelphia, PA, USA, 25.02.2025 – 26.02.2025
Projektinformation DiTraRe (LEIBNIZ, W74/2022)
Schlagwörter digitalisation, information extraction, large language models, metadata standardisation, climate research
Nachgewiesen in OpenAlex
Relationen in KITopen
KIT – Die Universität in der Helmholtz-Gemeinschaft
KITopen Landing Page