Vereinfachte Bestimmung der Artenvielfalt in Umweltproben

In drei Projekten untersuchen wir, wie standardisiere Analyse-Pipelines DNA-basierte Artbestimmungen und deren Publikation in Fachdatenbanken erleichtern können.

Unsere Metabarcoding-Use-Cases

DNA-Metabarcoding ist eine noch relativ neue Methode, mit der in der Molekularbiologie und Biodiversitätsinformatik viele Arten gleichzeitig bestimmt werden können. Um die dazu notwendigen Algorithmen auszuführen und die Datentransformationen nachvollziehbar zu machen, kommen sogenannte Workflows oder Pipelines zum Einsatz. Aus den Anforderungen von drei Use-Case-Projekten, in denen Metabarcoding-Daten zu verschiedenen Organismengruppen analysiert werden – DNAquaNet, AlgaTerra und GBOL – wurde im Rahmen von NFDI4Biodiversity eine einfach nutzbare Pipeline zur Auswertung von Metabarcoding-Datensätzen entwickelt, die an die Bedarfe der Biodiversitätsforschung angepasst ist. Neben einer vereinfachten Langzeitspeicherung der Rohdaten werden Funktionalitäten zur Publikation der erzeugten Daten in einschlägige Fachdatenbanken integriert.

Über DNAquaNet

DNAquaNet ist ein europäisches Netzwerk, das DNA-basiertes Monitoring von Süßwasserökosystemen erforscht. Mit Hilfe von Umwelt-DNA, sogenannter eDNA, werden Lebewesen in Gewässern schnell und umfassend identifiziert. DNAquaNet, insbesondere die Universität Duisburg-Essen, verfügt über eine umfangreiche Sammlung von DNA- und eDNA-Datensätzen, die wertvolle Einblicke in Lebensgemeinschaften bieten und für die Überwachung der Wasserrahmenrichtlinien von Bedeutung sind. Die Herausforderung liegt derzeit in fehlenden Daten und Standardmethoden für die Analyse. Über NFDI4Biodiversity arbeitet DNAquaNet daran, diese Daten und Lösungen einer größeren Nutzerschaft zugänglich zu machen.

Über AlgaTerra

Das AlgaTerra-Information-System verbindet Forschungsdaten zu Mikroalgen mit molekularen Sequenzen. Im Rahmen von NFDI4Biodiversity wird dieses Wissen durch cloudbasierte Metabarcoding-Tools zugänglich gemacht und für die Forschung nutzbar gemacht. AlgaTerra bietet kuratierte Daten zu Kieselalgen und ermöglicht die Präsentation molekularer, ökologischer und taxonomischer Informationen. Diese Daten sind für wissenschaftliche und naturschutzfachliche Anwendungen zugänglich und werden durch mikroskopische Bilder ergänzt.

Über GBOL

Das Projekt German Barcode of Life (GBOL) erfasst Markergene für die Identifikation von Organismen und speichert diese in globalen Referenzbibliotheken. In der dritten Projektphase werden auch schwer identifizierbare „Dark Taxa“ erfasst. Ziel ist es, die GBOL-Daten an die cloudbasierte Infrastruktur von NFDI4Biodiversity anzubinden und eine Schnittstelle für Taxonomie-Checklisten zu entwickeln. Darüber hinaus sollen Funktionen zur Artbestimmung und die Einbindung von Citizen-Science-Projekten erweitert werden.

Das Ziel: Wertvolle Sequenzdaten langfristig verfügbar machen

DNA-Metabarcoding bietet ein enormes Potenzial, um die Artenvielfalt in verschiedenen Ökosystemen schnell und effizient zu erfassen. Durch die parallele Sequenzierung von kleinen, standardisierten Genfragmenten (DNA-Barcoding-Fragmenten) können Tausende von Individuen identifiziert werden, oft bis auf Artebene. Die gewonnenen DNA-Sequenzen werden mit bioinformatischen Algorithmen sortiert und durch den Abgleich mit einer Referenzdatenbank den entsprechenden Arten zugeordnet. Diese Methode ermöglicht es, nahezu die gesamte Artenvielfalt eines Habitats zu erfassen und liefert semi-quantitative Angaben zur Häufigkeit der Arten in den Proben.

Auf dieser Basis verfolgen wir im Rahmen von NFDI4Biodiversity das Ziel, eine benutzerfreundliche Pipeline bereitzustellen, um aus Rohsequenzdaten sogenannte Amplicon Sequence Variants (ASVs) zu bestimmen und die Häufigkeit dieser einzigartigen Sequenzen in den Proben zu ermitteln. Im nächsten Schritt wird diesen Sequenzen mithilfe einer Referenzdatenbank ihre taxonomische Identität zugeordnet, um eine präzise und vergleichbare Artbestimmung zu ermöglichen.

Um die Sequenzdaten langfristig verfügbar zu machen, stehen etablierte Archive wie das National Center for Biotechnology Information (NCBI) und das European Nucleotide Archive (ENA) zur Verfügung, die sich am MIxS-Standard orientieren und eine einfache Nutzung ermöglichen. Um die Datenübergabe an diese Archive zu vereinfachen, werden Templates bereitgestellt. Zusätzlich bietet NFDI4Biodiversity einen Data Submission Service, der langfristig Sequenzdaten an die Global Biodiversity Information Facility (GBIF) übermittelt und Unterstützung bei der Anwendung von Standards bietet.

Bisherige Erfolge: Datenmobilisierung und Community-Einbindung

Die Expert:innen der drei Use-Case-Projekte setzen bei der Analyse der Daten auf die apscale-Pipeline (apscale auf GitHub). In Kooperation mit dem NFDI-Konsortium NFDI4Microbiota wurde dafür ein benutzerfreundlicher Workflow für den cloudbasierten Workflow-Manager CloWM entwickelt. Dieser Workflow bietet eine Eingabemaske für die Rohdaten und Parameter und übernimmt die gesamte Ausführung und Datenverwaltung der apscale-Pipeline. Erste Tests wurden erfolgreich auf einer Staging-Instanz (clowm-staging.bi.denbi.de) durchgeführt; als Nächstes steht die Veröffentlichung auf der Produktionsinstanz clowm.de an. Die erhaltenen Sequenzdaten werden gegen taxonspezifische Referenzdatenbanken abgeglichen, um Artenlisten aus den Umweltproben zu erhalten.

Die durch de.NBI bereitgestellten Rechenkapazitäten ermöglichen es, auch große Datensätze mit geringem Zeitaufwand standardisiert zu analysieren – unabhängig von der individuellen technischen Ausstattung der Nutzenden – und dabei die Daten direkt in Langzeitarchive zu überführen. Die langfristige Betreuung und regelmäßige Aktualisierung der Pipeline sind fest eingeplant. Nachdem es nun eine Analyse-Pipeline gibt, die für diverse Artengruppen geeignet ist, wird an Best-Practice-Empfehlungen für die Communities der einzelnen Use Cases gearbeitet.

Für die Veröffentlichung der ausgewerteten Artenvorkommensdaten gibt es bereits vielversprechende Initiativen zur Zusammenarbeit zwischen der DNA-Metabarcoding-Community und dem GBIF-Netzwerk. Ein zentrales Projekt ist hier die Entwicklung des GBIF Metabarcoding Toolkits (GBIF MBT), das Forschenden ermöglicht, ihre Daten direkt in GBIF zu mobilisieren und zugänglich zu machen sowie über ChecklistBank und Catalogue of Life (COL) Synonymien zu identifizieren. Die Ausgabeformate der NFDI4Biodiversity-Metabarcoding-Pipeline orientieren sich an den in Entwicklung befindlichen Anforderungen des GBIF MBT. Dies soll den einfachen Umgang mit den generierten Artenvorkommensdaten gewährleisten und die Integration in Plattformen wie die Global Biodiversity Information Facility (GBIF) und den Lebendigen Atlas Natur Deutschland (LAND), einen weiteren NFDI4Biodiversity-Use-Case, erleichtern.

Kontakt

Sie möchten mehr über die genannten Use-Case-Projekte erfahren? Hier finden Sie Ansprechpartnerinnen.

Use-Case-Manager (NFDI4Biodiversity)

Christoph Schomburg (c.schomburg@uni-kassel.de)

Technische Expertise (NFDI4Biodiversity)

Ivaylo Kostadinov (ikostadi@gfbio.org)