MiCoDa

Die Daten der derzeit größten öffentlich zugänglichen Mikrobiom-Datenbank wiederverwendbar machen – das ist das Ziel des Use-Case-Projekts Microbial Community Database (MiCoDa).

"MiCoDa ist eine Rettungsmission für Metabarcoding-Daten."

Stephanie Jurburg (Department für Angewandte Mikrobielle Ökologie, Helmholtz-Zentrum für Umweltforschung (UFZ))

Über MiCoDa

MiCoDa – die Microbial Community Database – wurde in Zusammenarbeit zwischen dem Helmholtz-Zentrum für Umweltforschung (UFZ), dem Deutschen Zentrum für integrative Biodiversitätsforschung (iDiv) und der Friedrich-Schiller-Universität Jena (FSU) entwickelt, um die Auffindbarkeit, Interoperabilität und Nutzbarkeit von Sequenzdaten zu verbessern. MiCoDa ist eine öffentliche, kuratierte, durchsuchbare, interoperable 16S rRNA-Gen-Metabarcoding-Datenbank und beherbergt in ihrer ersten Version mehr als 35.000 verarbeitete Mikrobiomproben, die weltweit größte ihrer Art, und ermöglicht es Forschenden, Mikrobiomdaten zu suchen und für die eigene Nutzung herunterzuladen.

MiCoDa behält die INSDC-Zugangsnummern als Daten-IDs bei und verwendet die EMPO (Earth Microbiome Project Ontology) (Gilbert et al. 2014) und MIxS (Yilmaz et al. 2011). MiCoDa verknüpft außerdem Sequenzdaten mit den Publikationen (DOIs), in denen sie erstmals präsentiert wurden und erleichtert so die automatische Integration mit bibliometrischen Daten. Durch sorgfältige Kuratierung und bioinformatische Verarbeitung enthalten alle Sequenzen in MiCoDa das gleiche Segment des 16S rRNA-Gens als dauerhafte Taxon-/Spezies-Kennung, was studienübergreifende Vergleiche spezifischer bakterieller Taxa sowie Vergleiche mit anderen Datenbanken (z. B. über das Nukleotid-BLAST des NCBI) ermöglicht.

MiCoDa verfügt über zwei Wege zur Datenerfassung: die automatische Datenerfassung mit validierten Textparsing-Algorithmen (Jurburg et al. 2020) und die direkte und gezielte Zusammenarbeit mit Datenproduzenten, vor allem aus Blindspots der Biodiversität – mit dem Ziel, die Datenerhebenden in die Archivierung und Wiederverwendung einzubeziehen. Bei jährlichen Veranstaltungen in verschiedenen Teilen der Welt (Datathons) werden die Teilnehmenden in der Archivierung von Sequenzen in INSDC-Datenbanken unter Verwendung spezieller Leitfäden (z. B. auf Spanisch: https://github.com/MariaAlvBla/Dataton-2022/wiki) geschult und dazu ermutigt, Daten zu hinterlegen und dann selbst wiederzuverwenden (Datathon 2022 Consortium: et al. 2024). Durch diese Bemühungen ist bereits ein breites Netzwerk von disziplinären Nutzenden beider Sequenzdaten zur Verbreitung entstanden.

MiCoDa zielt darauf ab, die Wiederverwendbarkeit von Daten bakterieller Gemeinschaften zu verbessern durch:

  • Einbindung der Datenerhebenden in die Datenarchivierung und Wiederverwendung durch jährliche Datathons
  • Verbesserung der Zugänglichkeit und Vergleichbarkeit von bakteriellen Amplikon-Sequenzdaten durch Bereitstellung der Daten in einem gebrauchsfertigen Format, das eine einheitliche und universelle Taxondefinition verwendet
  • Anreicherung bestehender, mit der Metabarcodierung verbundener Metadaten aus der verlinkten Literatur

Der Use Case MiCoDa

Der Use Case MiCoDa hat zum Ziel, das MiCoDa-Datenportal mit den technischen Standards von NFDI4Biodiversity zu harmonisieren, um die Daten künftig nahtlos in die in NFDI4Biodiversity entstehende Dateninfrastruktur, die Research Data Commons, integrieren zu können – mit dem Ergebnis, die Sichtbarkeit, Zugänglichkeit und Nutzbarkeit der Daten in MiCoDa zu erhöhen. Durch Schulungen und Trainings zu MiCoDa, du denen Angehörige des Konsortiums sowie externe Interessierte herzlich eingeladen sind, soll zudem der Austausch zwischen der Forschungsdatenmanagement- und der Mikrobiomdaten-Community gefördert werden.

Das gemeinsame Ziel: Mikrobiomdaten langfristig wiederverwendbar machen

Das gemeinsame Ziel der Zusammenarbeit ist, Mikrobiomdaten wiederverwendbar zu machen, steht im Mittelpunkt des NFDI4Biodiversity-Projekts. Die Standardisierung und Harmonisierung von Datenformaten und Metadaten wird die nachhaltige und weit verbreitete Verfügbarkeit dieser Daten sicherstellen. Dies wird die Zusammenarbeit und Innovation in der Biodiversitätsforschung fördern, indem Forschern und anderen Interessengruppen ein einfacher Zugang zu qualitativ hochwertigen Mikrobiomdaten ermöglicht wird. Der Beitritt zu iDiv in der nächsten Förderphase ab 2025 wird die Verbindung zu einem starken Netzwerk weiter stärken, so dass das Projekt von einer engagierten Gemeinschaft und ihren Ressourcen profitieren kann. Darüber hinaus wird das Schulungsprogramm durch die Entwicklung etablierter, langfristiger Schulungselemente mit Schwerpunkt auf der Datenverarbeitung erweitert.

Weitere Informationen

Kontakt

Use-Case-Managerin (NFDI4Biodiversity)

Sarah Fischer (fischer.sarah@fbn-dummerstorf.de)

Use-Case-Partnerin (MiCoDa)

Stephanie Jurburg (stephanie.jurburg@ufz.de)