ExDRa - abgeschlossen

Exploratory Data Science over Raw Data

Technologiebereich: Data & Service Management; Machine Learning

ExDRa erleichtert die Analyse großer heterogener Mengen an Rohdaten aus unterschiedlichen, überregional verteilten Quellen und trägt dazu bei, dass Industrieanlagen zuverlässiger überwacht und ausfallsicherer betrieben werden können.

Herausforderung
Typische Prozesse zur Auswertung von Daten, sogenannte Data-Science-Prozesse, verlaufen in vielen Unternehmen explorativ. Das bedeutet, dass Datenwissenschaftler zunächst Hypothesen aufstellen, die erforderlichen Daten zentral zusammenführen und dann in verschiedenen Analysen nach Mustern oder Vorhersagemodellen suchen. Vorab ist nicht bekannt, ob der Prozess verwertbare Ergebnisse liefert, daher werden die Daten meist nicht systematisch akquiriert und aufbereitet. Der Vorgang wird jedes Mal aufwendig wiederholt, wodurch hohe Kosten entstehen. Hinzu kommt, dass Daten, die an verschiedenen Orten erhoben werden, oft aus rechtlichen Gründen oder zum Schutz von sensiblen Interna nicht ohne Weiteres an ein zentrales System übermittelt werden dürfen.

Umsetzung
Im Projekt ExDRa wurde ein Demonstrator entwickelt, der den explorativen Data-Science-Prozess mit heterogenen und verteilten Rohdaten unterstützt. Das umfasst Daten, die zum Beispiel aus unterschiedlichen Rechnersystemen stammen. Dadurch wurde die Bewertung neuer Datenprodukte vereinfacht und beschleunigt. Unter Datenprodukten sind hier zum Beispiel Vorhersagen oder Modelle des maschinellen Lernens zu verstehen, die bei der Analyse von Daten gewonnen wurden. Weil Rohdaten in ExDRa auch dezentral gespeichert und verarbeitet werden können, ist die rechtskonforme Verarbeitung sensibler oder exportbeschränkter Daten gewährleistet. Die Lösung wurde bei der Siemens AG in der Prozessindustrie erprobt: Beim ersten Use Case ging es um die Erkennung von Unregelmäßigkeiten in der Düngemittel-Produktion, im zweiten Use-Case wurde die Qualität einer Papierproduktion prognostiziert.

Das Projekt führte zu 16 wissenschaftlichen Veröffentlichungen. So wurde die grundlegende Plattform NebulaStream auf der internationalen Conference on Innovative Data Systems Research (CIDR) 2020 publiziert. Es folgten weitere Publikationen und Vorstellungen auf der Konferenz SIGMOD in den Jahren 2021-23. Das Gesamtsystem wurde auf der Conference on Information and Knowledge Management (CIKM) 2022 als Demonstrator publiziert und vorgeführt.

Anwendung und Nutzen
ExDRa hat die Entwicklung von Überwachungsmodellen vereinfacht und eignet sich besonders für die Fernüberwachung von verteilten Systemen, wie sie zum Beispiel in der Papier- und Chemieindustrie vorkommen. Ein Demonstrator des Systems wurde beim Projektpartner DFKI GmbH in Berlin ausgestellt. Die zentrale Software SystemDS für Ende-zu-Ende-ML-Pipelines steht als Open-Source-Projekt zur Verfügung (https://systemds.apache.org/). Weiterentwickelt wurde auch die Plattform NebulaStream für Datenmanagement (https://www.nebula.stream/). Ideen des ExDRa Projekts fließen bereits in andere Förderprojekte ein. Beispielsweise werden im EU-Projekt DAPHNE föderierte Datenrepräsentationen und Operationen für mehrere heterogene Hardware-Devices generalisiert.

Konsortium
Siemens AG (Konsortialführer), Technische Universität Berlin, DFKI GmbH, Technische Universität Graz