KIT | KIT-Bibliothek | Impressum | Datenschutz

Infrared spectrum analysis of organic molecules with neural networks using standard reference data sets in combination with real-world data

Punjabi, Dev 1; Huang, Yu-Chieh 1; Holzhauer, Laura 1; Tremouilhac, Pierre 1; Friederich, Pascal ORCID iD icon 2,3; Jung, Nicole ORCID iD icon 1,4; Bräse, Stefan 1,5
1 Institut für Biologische und Chemische Systeme (IBCS), Karlsruher Institut für Technologie (KIT)
2 Institut für Theoretische Informatik (ITI), Karlsruher Institut für Technologie (KIT)
3 Institut für Nanotechnologie (INT), Karlsruher Institut für Technologie (KIT)
4 Karlsruhe Nano Micro Facility (KNMF), Karlsruher Institut für Technologie (KIT)
5 Institut für Organische Chemie (IOC), Karlsruher Institut für Technologie (KIT)

Abstract:

In this study, we propose a neural network- based approach to analyze IR spectra and detect the presence of functional groups. Our neural network architecture is based on the concept of learning split representations. We demonstrate that our method achieves favorable validation performance using the NIST dataset. Furthermore, by incorporating additional data from the open-access research data repository Chemotion, we show that our model improves the classification performance for nitriles and amides.

Scientific contribution: Our method exclusively uses IR data as input for a neural network, making its performance, unlike other well-performing models, independent of additional data types obtained from analytical measurements. Furthermore, our proposed method leverages a deep learning model that outperforms previous approaches, achieving F1 scores above 0.7 to identify 17 functional groups. By incorporating real-world data from various laboratories, we demonstrate how open-access, specialized research data repositories can serve as yet unexplored, valuable benchmark datasets for future machine learning research.

Zugehörige Institution(en) am KIT Institut für Biologische und Chemische Systeme (IBCS)
Institut für Nanotechnologie (INT)
Institut für Organische Chemie (IOC)
Institut für Theoretische Informatik (ITI)
Karlsruhe Nano Micro Facility (KNMF)
Publikationstyp Zeitschriftenaufsatz
Publikationsjahr 2025
Sprache Englisch
Identifikator ISSN: 1758-2946
KITopen-ID: 1000180338
Erschienen in Journal of Cheminformatics
Verlag SpringerOpen
Band 17
Heft 1
Seiten Art.-Nr.: 24
Vorab online veröffentlicht am 26.02.2025
Nachgewiesen in Scopus
Web of Science
OpenAlex
Dimensions

Verlagsausgabe §
DOI: 10.5445/IR/1000180338
Veröffentlicht am 27.03.2025
Seitenaufrufe: 5
seit 27.03.2025
Downloads: 1
seit 30.03.2025
Cover der Publikation
KIT – Die Forschungsuniversität in der Helmholtz-Gemeinschaft
KITopen Landing Page