KI-Trainingsdatensätze erschließen und entwickeln

Der Erfolg und das Verhalten von maschinellen Lernalgorithmen bzw. KI-Modellen wird entscheidend von der Güte des Datensatzes beeinflusst, mit dem sie trainiert werden. Ist er nicht groß, divers oder repräsentativ genug, findet das Modell gegebenenfalls keine beständigen Muster bzw. Beziehungen in den Daten oder gibt verzerrte, im schlimmsten Fall sogar diskriminierende, Antworten und Empfehlungen aus. Auch Qualitätsmängel in einem Trainingsdatensatz wie z. B. Inkorrektheiten, Ungenauigkeiten, Inkonsistenzen, Unvollständigkeiten oder unzureichende Annotationen in Form von Metadaten und Kennzeichnungen (engl. labels) können zu diesen und ähnlichen Problemen beitragen. Die Frage danach, wie ein hinreichend guter Trainingsdatensatz erschlossen und entwickelt werden kann, ist daher von zentraler Bedeutung für viele KI-Vorhaben. Neben organisatorischen Maßnahmen wie dem frühzeitigen Aufsetzen eines konsequenten Qualitätsmanagements für das angestrebte KI-Produkt können auch technische Maßnahmen wie die gezielte synthetische Erweiterung von Trainingsdatensätzen hierauf Antworten liefern.

Lösungswege / -ansätze

  1. Durch ein konsequentes Qualitätsmanagement während der Konzeption eines KI-Vorhabens kann das Risiko für unzureichende Trainingsdaten gemindert werden (z. B. Vorabschätzung der erforderlichen Größe des Datensatzes).
  2. Limitierungen realer Daten (u.a. Datenknappheit, Unverfügbarkeit von Rand- oder Sonderfällen, fehlende Werte, datenschutzrechtliche Barrieren, Kostenbarrieren) können ggf. durch eine synthetische Datenerweiterung überwunden werden.
  3. In Bereichen mit zeitintensiven oder kostspieligen Datenakquisitions- und -sammlungsprozessen (z. B. Detektion seltener Ereignisse, medizinische Bildgebung) kann die Größe und Diversität von Datensätzen ggf. durch Data Augmentation erweitert werden.

Praxisbeispiele

AgriGaia

Synthetische Erweiterung von Datensätzen für das Trainieren von KI-Modellen im Bereich Landwirtschaft

Videostatement Kai von Szadkowski (DFKI)



KEEN

Datengetriebene Vervollständigung von Datensätzen in Matrixform im Bereich Prozessindustrie (z. B. Mischeigenschaften von Materialien)

Videostatement Michaek Bortz (Frauenhofer ITWM)



Weiterführende Informationen (Studien der Begleitforschung)