Meldung
29.06.2017

Zahl im Quartal

„Datenquelle Genom“: 1,3 Millionen Zellen enthält der derzeit größte Einzelzell-Datensatz

Zahl im Quartal
© Smart Data
Zahl im Quartal

Die Sequenzierung des menschlichen Genoms und die Auswertung der entstehenden Daten bieten große Chancen für die medizinische Forschung, zum Beispiel um die Entstehung von Erbkrankheiten oder immunologischen Erkrankungen besser zu verstehen. Die Sequenzierung des menschlichen Genoms gehört bereits zum Standard an deutschen Forschungseinrichtungen, nachdem das internationale Humangenomprojekt im Jahr 2001 die vollständige Sequenzierung des menschlichen Genoms verkündet hat.

Ein relativ neues Verfahren ist hingegen die Einzelzellsequenzierung. Während bei dem herkömmlichen Verfahren zur Genomanalyse ein Zellgemisch in die Sequenziermaschine gegeben und untersucht wird, kann bei dem neueren Verfahren die DNA oder RNA von zahlreichen individuellen Zellen analysiert werden. Bislang war eine Sequenzierung auf Einzelzell-Ebene nicht möglich, weil die dafür notwendigen Messgeräte nicht die erforderliche Auflösung erreicht haben. Dies hat sich jedoch inzwischen geändert – die Folge: Genauere, zuverlässige Daten – und riesige Datenmengen. So enthält der derzeit größte Einzelzell-Datensatz 1,3 Millionen Zellen. Die Anzahl der individuellen Proben ist damit wesentlich größer als bei der „herkömmlichen“ Sequenzierung, bei der ein Zellgemisch untersucht wird. Jede Zelle wiederum beinhaltet die vollständige DNA, die beim Menschen insgesamt etwa 30.000 Gene umfasst. Manch ein Lehrstuhl, der an Einzelzellsequenzierung forscht, produziert im Schnitt wöchentlich Proben mit etwa 1.500 oder mehr Zellen. So entsteht pro Woche leicht eine Datenmenge von 50 Gigabyte Rohdaten oder mehr. Künftig werden diese Datenmengen voraussichtlich noch weiterwachsen.

Herausforderungen bei der Auswertung

Diese riesigen Datenmengen stellen die Forschung vor Herausforderungen bei der Auswertung, da sie deutlich komplexer und schwieriger zu interpretieren sind als die Daten, die im Ergebnis einer herkömmlichen Sequenzierung entstehen. Um die Auswertung der Daten zu verbessern, arbeitet das Projekt FASTGenomics daran, solche Studien im Bereich der Transkriptomik (also der Untersuchung von RNA) zu vereinfachen. Dazu entwickelt das Projekt, das seit 2017 im Rahmen des Technologieprogramms „Smart Data – Innovationen aus Daten“ vom Bundesministerium für Wirtschaft und Energie (BMWi) gefördert wird, eine spezielle Plattform zur Datenanalyse. Die Anwendung soll äußert nutzerfreundlich gestaltet werden und hohen datenschutzrechtlichen Standards entsprechen. Darüber hinaus will sie den wissenschaftlichen Austausch fördern, zum Beispiel indem Forscher eigene Daten, Algorithmen oder Workflows hochladen und diese auf Wunsch mit der wissenschaftlichen Gemeinschaft teilen können. Ein initialer Prototyp der Plattform ist seit Anfang dieses Jahres online und, inklusive kostenfreier Demo-Version, erreichbar unter https://fastgenomics.org.

Dr. Christina Kratsch, Data Scientist bei der Comma Soft AG und Projektleiterin bei FASTGenomics: „Mit der Veröffentlichung unseres ersten Prototyps der Plattform sieben Monate nach Projektbeginn ist bereits ein erster Schritt hin zu einer effizienteren und einfacheren Auswertung von Einzelzell-Transkriptomdaten gemacht, aber es ist natürlich noch viel zu tun. Die medizinische Forschung in der Einzelzell-Transkriptomik hat das Potenzial, neue Erkenntnisse unter anderem über immunologische Krankheiten zu gewinnen und so die Grundlage für neue Therapie-Möglichkeiten zu legen. Langfristiges Ziel des Projektes ist es, diese Forschung und Entwicklung durch den Einsatz geeigneter IT-Technologien wie Machine Learning, Big Data Analytics und Cloud Computing zu unterstützen.“