Virtual community efforts to make ancient metagenomic data more accessible [Multi-language: EN/FR/ES/CAT/DE/IT]

How a group of paleogenetics PhD and PostDoc volunteers used virtual platforms to organically come together to create a much needed community-resource.

Like Comment
Read more

🇬🇧 (EN) | 🇫🇷 (FR) | 🇪🇸 (ES) | 🇪🇸 (CAT) | 🇩🇪 (DE) | 🇮🇹 (IT)

Written by: James A. Fellows Yates, ‪Åshild J. Vågene, Maxime Borry, Shreya Ramachandran, & Miriam Bravo

Translated by: Maxime Borry 🇫🇷, Shreya Ramachandran 🇪🇸 (ES), Miriam Bravo 🇪🇸 (ES), Aida Andrades Valtueña 🇪🇸 (CAT), Antonio Fernandez-Guerra 🇪🇸 (CAT), Alexander Hübner 🇩🇪, & Valentina Zaro 🇮🇹

Thanks to Sergi Andrades Valtueña for proof-reading the 🇪🇸 (CAT) translation.

🇬🇧 English

“You have a list of published ancient metagenomes, right?” “Uhh no…?”

In August 2020, one of James Fellows Yates’s Ph.D. supervisors asked him for a list of publicly available ancient microbiome samples, with ages and geographic location, for a manuscript’s figure. A comprehensive list did not already exist, and James’s supervisor’s deadline was just two months away.

Compiling a list was far from trivial. Palaeogenetics, the study of ancient DNA, is a young but rapidly growing field, with the annual number of published papers now reaching hundreds. While in the past researchers have been commended for their consistency in uploading raw data to public archives, this does not necessarily make the data easily Findable, Accessible, Interoperable, and Reusable (FAIR). Although most studies report the project accession codes for their publicly available data, the actual metadata - location and age - are often difficult to find (main text vs. supplement, tables vs. article text), if at all available! 

So the question became, how could many studies be documented in such a short time... and in the middle of a pandemic!? 

“Can anybody help?”

Fortunately, around the same time, a diverse group of PhD students and PostDocs from around the world had begun to set up an open community platform for ancient metagenomics researchers - SPAAM (Standards, Precautions, and Advances in Ancient Metagenomics)-  to bring together members of the field to tackle its biggest challenges.

After putting the suggestion to the SPAAM community, it quickly became clear that an initiative to compile a comprehensive list of published ancient microbial samples would be of great value to the community as a whole, especially if it could keep up with the constant flood of published data. With this ‘AncientMetagenomeDir’ was created: a database that could be updated over time by anyone willing to contribute, providing great benefit for future comparative studies and meta-analyses.  

The initial volunteers were based in 12 institutions from 9 countries in Europe and the Americas. How could we efficiently collaborate? 

In a weird twist, the SARS-CoV-2 pandemic actually provided a bonus: everyone had already moved onto virtual platforms. Therefore, the project was set up to run entirely with free online collaborative tools: 

  • Slack for real-time text-based messaging, 
  • meet.jit.si for video calls and training workshops, 
  • GitHub for data hosting and validation automation 
  • Overleaf for collaborative paper writing.

“We did it, everyone!”

Using these platforms, we went from the first call for help to a preprint in just two months. We compiled metadata and accession codes for over 1000 ancient metagenome-related samples from 87 publications into the database. 

A number of factors were crucial to the success of the AncientMetagenomeDir project. 

We kept open and continuous communication between all of us, allowing peer mentoring that spanned timezones.  We produced detailed documentation and held training sessions on how to participate - particularly important for GitHub, which can be intimidating for beginners. 

We also created automation tools to assist in maintaining database consistency and quality. We adopted the GitHub Actions 'continuous-integration’ platform - typically used for running tests when computer code is modified  - to validate each contribution. We wrote a python tool to check each new contribution (via a GitHub pull request) to the database, using JSON schemas, regexes, and ontology lists to ensure that using the dataset would be as consistent and straightforward as possible. Again, open communication between all members was important to help come to a consensus on how to define each metadata category.

Ultimately, while the ancient DNA field can be competitive, our project succeeded due to a diverse group of people volunteering their time and collaborating to benefit the community. As well as producing a long-term archive that can help researchers quickly access data, we identified the main deficiencies in current metadata reporting in ancient metagenomics. Using this project as a precedent, the SPAAM community, and perhaps the field as a whole can find improved ways of making palaeogenetic data FAIR in a consensus-driven manner.

Publication: Fellows Yates, J. A., Andrades Valtueña, A., Vågene, Å. J., Cribdon, B., Velsko, I. M., Borry, M., Bravo-Lopez, M. J., Fernandez-Guerra, A., Green, E. J., Ramachandran, S. L., Heintzman, P. D., Spyrou, M. A., Hübner, A., Gancz, A. S., Hider, J., Allshouse, A. F., Zaro, V., & Warinner, C. (2021). Community-curated and standardised metadata of published ancient metagenomic samples with AncientMetagenomeDir. Scientific Data, 8(1), 31. https://doi.org/10.1038/s41597-021-00816-y

🇫🇷 Français / French

Une collaboration virtuelle pour créer une base de données de référence pour l’ADN ancien.

Comment un groupe de Doctorants et de Post-Docs en Paléogénétique ont collaboré ensemble en utilisant des plateformes virtuelles pour créer une base de données de référence nécessaire à la communauté.

"Vous avez une liste des métagénomes anciens publiés, n'est-ce pas ?" "Euh non... ?"

En août 2020, un des directrices de thèse de James Fellows Yates lui demande une liste d'échantillons de microbiomes anciens publiquement disponibles, avec leurs âges et coordonnées géographique, pour la figure d'un article. Mais aucune liste complète n’existait jusqu’alors, et l’encadrante de James n'avait plus que deux mois pour préparer l’article.

Compiler une liste s'avérait être loin d’une mince affaire. La paléogénétique, l'étude de l'ADN ancien, est un domaine relativement nouveau, mais en pleine expansion: le nombre annuel d'articles publiés atteignant aujourd'hui des centaines. Si, par le passé, les chercheurs ont été félicités pour leur partage de données brutes dans des archives publiques, cela ne rend pas nécessairement les données facilement Faciles à trouver, Accessible, Interopérable et Réutilisable (FAIR). Bien que la plupart des études du domaine rendent leurs données accessibles au public, les métadonnées quant à elles - lieu et âge - sont souvent plus difficiles à trouver (texte principal vs. annexe, tableaux vs. texte de l'article), si tant est qu'elles soient disponibles !

La question s'est donc posée : comment peut-on documenter autant d'études en si peu de temps... et en plein milieu d’une pandémie !

"Il y quelqu'un pour m’aider ?"

Heureusement, à peu près au même moment, un groupe de doctorants et de post-docs du monde entier avait commencé à mettre en place une plateforme communautaire, et ouverte aux chercheurs en métagénomique ancienne du monde entier - SPAAM (Standards, Precautions, and Advances in Ancient Metagenomics) - afin de rassembler les scientifiques du domaine pour travailler ensemble à relever ses plus grands défis.

Après avoir proposé l'idée du projet à la communauté SPAAM, l'évidence d'une initiative visant à dresser une liste complète des échantillons de microbiote ancien publiés  s’est rapidement imposée: elle serait d'une grande utilité pour la communauté dans son ensemble, surtout si elle pouvait suivre le flot constant de données publiées. C'est ainsi qu'a été créé l' "AncientMetagenomeDir", une base de données qui pourrait être mise à jour au fil du temps par toute personne désireuse d'y contribuer, ce qui serait très utile pour de futures études comparatives et méta-analyses.  

Les premiers volontaires étaient basés dans 12 institutions de 9 pays d'Europe et d'Amérique. Cependant, une question se posait: comment collaborer efficacement ?

Curieusement, la pandémie de SRAS-CoV-2 avait en partie apporté une solution : tout le monde était déjà passé sur des plateformes virtuelles. Le projet a donc été mis en place pour fonctionner entièrement avec des outils de collaboration en ligne gratuits :

  • Slack pour la communication,
  • meet.jit.si pour les appels vidéo et les workshop,
  • GitHub pour l'hébergement et la validation des données
  • Overleaf pour la rédaction de documents de manière collaborative.

"Ensemble, on a réussi !"

Grâce à ces plateformes, nous sommes passés du premier appel à l'aide à un article en préprint en seulement deux mois. Nous avons compilé une base reliant données, métadonnées, et leurs identifiants, pour plus de 1000 échantillons de métagénome anciens, provenant de 87 publications.

Un certain nombre de facteurs ont été déterminants pour le succès du projet AncientMetagenomeDir.

En premier lieu, nous avons maintenu une communication ouverte et continue, ce qui  permet une entraide ininterrompue s'étendant sur plusieurs fuseaux horaires.  Nous avons créé une documentation détaillée, et organisé des sessions de formation pour apprendre comment contribuer, ce qui est particulièrement important avec GitHub, qui peut être intimidant au début.

Nous avons également créé des outils d'automatisation pour aider à maintenir la cohérence et la qualité des bases de données. Nous avons adopté la plateforme d'intégration continue de GitHub Actions - généralement utilisée pour effectuer des tests lorsqu'un code informatique est modifié - afin de valider chaque contribution. Nous avons écrit un outil en Python pour vérifier chaque nouvelle contribution (via une GitHub Pull-Request) à la base de données, en utilisant des schémas JSON, des expression régulières, et des listes d’ontologies pour s’assurer que l'utilisation de l'ensemble des données soit aussi cohérente et simple que possible. Là encore, la communication entre tous les membres a été importante pour aider à parvenir à un consensus sur la façon de définir chaque catégorie de métadonnées.

Finalement, si le domaine de l'ADN ancien peut être compétitif, ce projet a avant tout réussi grâce un groupe diversifié de scientifiques qui ont donné de leur temps et collaboré au profit de la communauté. En plus de produire des archives à long terme qui pourront aider les chercheurs à accéder rapidement aux données, nous avons identifié les principaux manques concernant la publication de métadonnées en métagénomique ancienne. En utilisant ce projet comme point de départ, la communauté SPAAM, et peut-être le domaine de la paléogénétique dans son ensemble, pourront trouver de meilleures façons de rendre ses données publiées plus FAIR.

Publication: Fellows Yates, J. A., Andrades Valtueña, A., Vågene, Å. J., Cribdon, B., Velsko, I. M., Borry, M., Bravo-Lopez, M. J., Fernandez-Guerra, A., Green, E. J., Ramachandran, S. L., Heintzman, P. D., Spyrou, M. A., Hübner, A., Gancz, A. S., Hider, J., Allshouse, A. F., Zaro, V., & Warinner, C. (2021). Community-curated and standardised metadata of published ancient metagenomic samples with AncientMetagenomeDir. Scientific Data, 8(1), 31. https://doi.org/10.1038/s41597-021-00816-y

🇪🇸 Español / Castellano / Spanish

Esfuerzos de una comunidad virtual para facilitar el acceso a datos de metagenómica antigua

Como un grupo de estudiantes de doctorado e investigadores postdoctorales en paleogenética, crearon un recurso muy útil a la comunidad de manera colaborativa a través de una plataforma virtual.

“¿Tienes una lista de metagenomas antiguos publicados, verdad?” “Mmm, no…”

En agosto del 2020, una de las tutoras de doctorado de James Fellows Yates le pidió una lista de muestras de microbiomas antiguos publicados, incluyendo su temporalidad  y su origen geográfico, para realizar una figura de un manuscrito. En ese momento, no existía una lista que incluyera toda esta información, y la fecha límite era en 2 meses.

Recopilar una lista de muestras de microbiomas antiguos publicados, estaba muy lejos de ser trivial. La paleogenética, que se refiere al estudio de ADN antiguo, es un área reciente pero que ha crecido  aceleradamente, con cientos de artículos publicados al año. Mientras que a los investigadores se les ha reconocido su consistencia en subir datos crudos en archivos públicos, esto no significa necesariamente que los datos sean Fáciles de localizar, Accesibles, Interoperables, y Reutilizables (FAIR, por sus siglas en inglés). Aunque la mayoría de estudios reportan el número de acceso para sus datos públicamente disponibles, los metadatos—temporalidad  y origen geográfico—en muchas ocasiones son difíciles de encontrar (texto principal contra información suplementaria, tablas contra texto del artículo) si es que se encuentran disponibles.

Así la pregunta surgió: ¿cómo se podrán documentar tantos artículos en tan poco tiempo... y en medio de una pandemia?!

¿Alguien puede ayudar?

Afortunadamente, de manera simultánea, un grupo diverso de estudiantes de doctorado e investigadores posdoctorales de todo el mundo, comenzaron a establecer una plataforma comunitaria dirigida a investigadores de metagenómica antigua denominada Estándares, Precauciones, y Avances en Metagenómica Antigua (SPAAM, por sus siglas en inglés), creada para reunir a miembros del campo con el fin de abordar sus problemáticas principales.

Al exponer la sugerencia a la comunidad de SPAAM, quedó muy claro que la iniciativa de recopilar una lista de muestras de microbiomas antiguos publicados sería de gran importancia para el campo de estudio, en particular, permitiría mantener el paso con la continua publicación de información. Tomando en cuenta lo anterior, se creó el  AncientMetagenomeDir , que es una base de datos que puede ser actualizada de manera constante por cualquiera con disposición a contribuir,  proporcionando un gran beneficio para futuros estudios comparativos y meta-análisis.  

Los voluntarios iniciales provenían de 12 instituciones de 9 países en Europa y América. ¿Cómo podríamos colaborar eficientemente? 

En un giro extraño, la pandemia de SARS-CoV-2 fue un bono extra: todos se habían mudado a plataformas virtuales. Por lo tanto, el proyecto fue establecido para llevarlo a cabo en línea y gratuitamente con herramientas como:

  • Slack, para establecer comunicación en tiempo real, a través de mensajes de texto.
  • Meet.jit.si, para videollamadas y talleres de capacitaciones.
  • GitHub, para almacenamiento de la información y automatización de la validación. 
  • Overleaf, para la colaboración de la escritura del artículo.

“¡Lo logramos!”

Usando las plataformas anteriores, pasamos de una primera llamada de ayuda a un manuscrito en solo dos meses. Recopilamos metadatos y números de accesos para más de 1000 metagenomas relacionados con muestras antiguas a partir de 87 publicaciones, todo esto contenido en una base datos.

Diversos factores fueron cruciales para el éxito del proyecto ‘AncientMetagenomeDir’.

Mantuvimos una comunicación abierta y continua entre todos, permitiendo proporcionar tutorías que sobrepasaron zonas honorarias. Produjimos una documentación detallada y mantuvimos sesiones de capacitación sobre cómo participar, particularmente para GitHub, que puede ser intimidante para principiantes. 

También creamos herramientas de automatización para ayudar a mantener una consistencia y calidad en la base de datos. Adaptamos la plataforma de integración-continua de las Acciones de GitHub, comúnmente empleada para realizar pruebas cuando el código computacional es modificado, para validar cada contribución. Escribimos una herramienta en Python para evaluar cada contribución nueva (vía  petición de validación de GitHub) a la base de datos, usando esquemas JSON, expresiones regulares, y listas establecidas para asegurar que el uso del conjunto de datos sea consistente y directa en la mayor medida posible. Una vez más, fue importante establecer una comunicación abierta entre todos los miembros para llegar a un consenso en cómo definir cada categoría de los metadatos. 

Finalmente, mientras que el campo de ADN antiguo puede ser competitivo, nuestro proyecto tuvo éxito gracias a que un diverso grupo de personas colaboraron y dedicaron su tiempo en beneficio de la comunidad. Además de producir un archivo a largo plazo que pueda ayudar a los investigadores a acceder a la información de manera más rápida, identificamos las principales deficiencias en los metadatos que son reportados actualmente en metagenómica antigua. Tomando en cuenta este proyecto como precedente, la comunidad SPAAM, y tal vez el campo de estudio en su conjunto, pueden encontrar formas de generar información paleogenética FAIR de manera consensuada. 

Publication: Fellows Yates, J. A., Andrades Valtueña, A., Vågene, Å. J., Cribdon, B., Velsko, I. M., Borry, M., Bravo-Lopez, M. J., Fernandez-Guerra, A., Green, E. J., Ramachandran, S. L., Heintzman, P. D., Spyrou, M. A., Hübner, A., Gancz, A. S., Hider, J., Allshouse, A. F., Zaro, V., & Warinner, C. (2021). Community-curated and standardised metadata of published ancient metagenomic samples with AncientMetagenomeDir. Scientific Data, 8(1), 31. https://doi.org/10.1038/s41597-021-00816-y

🇪🇸 Catalá / Catalan

Els esforços d’una comunitat virtual per fer les dades de metagenòmica antiga més accessibles. 

Com un grup d’estudiants de doctorat i postdoctorat de paleogenètica van emprar les plataformes virtuals per crear junts un recurs molt necessari per la comunitat.

"Tens una llista dels metagenomes antics publicats, no?" "Mmm no...?"

L'agost del 2020 a en James Fellows Yates, un dels supervisors de doctorat li va demanar una llista de totes les mostres de metagenomes antics publicades amb la seva datació i la localització geogràfica per la figura d'un manuscrit. En aquell moment no existia una llista completa d’aquestes característiques i només disposava de dos mesos per entregar el manuscrit.

La compilació d'aquesta llista no era una tasca trivial. La paleogenètica, l'estudi de l'ADN antic, és una nova disciplina que creix ràpidament amb una producció científica que ara arriba als centenars de publicacions per any. Els investigadors sempre han sigut lloats per la seva consistència en compartir les dades de seqüenciació sense tractar, això no fa que les dades siguin Trobables, Accessibles, Interoperables i Reutilitzables (FAIR, pel seu acrònim en anglès). Tot i que molts dels estudis fan públic el codi d'accés per trobar les dades disponibles a les bases de dades, les metadades associades - com per exemple la localització o l'edat - són difícils de trobar i poden estar en diferents apartats de l’article (text principal/documentació suplementaria, taules/en el text de l'article). Fins i tot aquestes dades poden no estar disponibles.

La pregunta aleshores era, com podem documentar tots aquests estudis en un període tan curt ... i al bell mig d'una pandèmia?

"Algú pot ajudar?"

Afortunadament, de forma paral·lela, un grup d'estudiants de doctorat i postdoctorat de tot el món estaven en el procés d'establir una plataforma pública per investigadors de metagenòmica antiga - SPAAM (sigles en anglès per Estàndards, Precaucions, i Avenços en Metagenòmica Antiga) - amb l’objectiu de sumar esforços entre membres de la disciplina per abordar les seves problemàtiques principals.

Un cop la proposta es va sotmetre al consens de la comunitat d'SPAAM, ràpidament es va posar en evidència que una iniciativa per crear una llista completa de totes les mostres microbianes antigues publicades seria de gran valor per a tota la comunitat. Especialment si es pogués mantenir al dia amb la constant incorporació de noves dades públiques. I així es va crear 'AncientMetagenomeDir': una base de dades que pot ser actualitzada per qualsevol que hi vulgui contribuir, aportant així un gran benefici per futurs estudis comparatius o metanàlisis.

El primer grup de voluntaris formaven part de 12 institucions de 9 països d'Europa i d'Amèrica. Com ho faríem per col·laborar eficientment?

En un gir estrany l'actual pandèmia de SARS-CoV-2 va aportar un avantatge: tothom s'havia traslladat a plataformes virtuals. El projecte es va desenvolupar completament amb eines gratuïtes de col·laboració en línia:

  • Slack, un servei de missatgeria instantània
  • Meet.jit.si, per fer videoconferències i tallers de formació
  • GitHub, per emmagatzemar la informació i l’automatització de la validació
  • Overleaf, per escriure conjuntament articles

"Gent, ho hem aconseguit!"

Fent servir aquestes plataformes, es va passar de la primera crida per voluntaris a un "preprint" en tan sols dos mesos. Vam compilar a la nostra base de dades les metadades i codis d'accés de més de 1000 mostres relacionades amb metagenomes antics publicades en 87 articles.

Aquest èxit en el projecte "AncientMetagenomeDir" va ser gràcies a una sèrie de factors crucials: 

Ens vam mantenir oberts i en comunicació constant entre nosaltres, cosa que va permetre la tutoria entre iguals abastant diferents zones horàries. Vam produir documentació detallada i vam oferir sessions de formació sobre com participar en el projecte - particularment important per GitHub - que pot ser intimidant per a principiants.

També vam crear eines d'automatització per ajudar a mantenir la qualitat i la coherència en la base de dades. Vam adoptar la plataforma d'integració contínua de "GitHub Actions" - que normalment s'utilitza per executar proves quan es modifica el codi font d'un programa - per validar cada contribució. Vam escriure una eina en Python per comprovar cada nova contribució (mitjançant el sistema de "pull request" de GitHub) a la base de dades, que emprant esquemes JSON, expressions regulars i llistes d'ontologies per assegurar que l'ús del conjunt de dades fos el més coherent i senzill possible. Una vegada més, la comunicació oberta entre tots els membres va ser essencial per arribar a un consens sobre com definir cada categoria de les metadades.

En definitiva, tot i que la disciplina de l'ADN antic pot ser competitiva, el nostre projecte ha estat un èxit gràcies a la col·laboració d'un grup de gent que ha donat el seu temps per produir un recurs que beneficia a tota la comunitat. No només hem produït un arxiu a llarg termini que pot ajudar als investigadors a accedir a les dades ràpidament, sinó que també hem identificat les majors deficiències a l'hora d'informar les metadades en el camp de la metagenòmica antiga. Utilitzant aquest projecte com a precedent, la comunitat d'SPAAM, i potser la disciplina en conjunt, pot arribar d'una manera consensuada a solucions per fer que les dades paleogenètiques siguin FAIR.

Publication: Fellows Yates, J. A., Andrades Valtueña, A., Vågene, Å. J., Cribdon, B., Velsko, I. M., Borry, M., Bravo-Lopez, M. J., Fernandez-Guerra, A., Green, E. J., Ramachandran, S. L., Heintzman, P. D., Spyrou, M. A., Hübner, A., Gancz, A. S., Hider, J., Allshouse, A. F., Zaro, V., & Warinner, C. (2021). Community-curated and standardised metadata of published ancient metagenomic samples with AncientMetagenomeDir. Scientific Data, 8(1), 31. https://doi.org/10.1038/s41597-021-00816-y

🇩🇪 Deutsch / German

Bemühungen einer virtuellen Gemeinschaft, metagenomische Daten alter Proben besser zugänglich zu machen

Wie eine Gruppe paläogenetischer Doktoranden und PostDocs virtuelle Plattformen nutzte, um organisch zusammenzukommen und eine dringend benötigte Community-Ressource zu schaffen.

"Du hast eine Liste mit veröffentlichten alten Metagenomen, richtig?" "Ähh nein...?"

Im August 2020 bat eine von James Fellows Yates' Doktorarbeitsbetreuern ihn für eine Abbildung in einem Manuskript um eine Liste öffentlich verfügbarer alter Mikrobiomproben, mit Alter und geografischer Lage. Eine umfassende Liste existierte noch nicht, und die Abgabefrist von James' Betreuerin war nur zwei Monate entfernt.

Die Zusammenstellung einer Liste war alles andere als trivial. Die Paläogenetik, die Erforschung alter DNA, ist ein junges, aber schnell wachsendes Forschungsgebiet, in dem jährlich Hunderte von Artikeln veröffentlicht werden. Während in der Vergangenheit Forscher für ihre Konsequenz beim Hochladen von Rohdaten in öffentliche Archive gelobt wurden, macht dies die Daten nicht unbedingt leicht auffindbar, zugänglich, interoperabel und wiederverwendbar (im Englischen Findable, Accessible, Interoperable, and Reusable: FAIR). Obwohl die meisten Studien die Zugangscodes der Projekte für ihre öffentlich zugänglichen Daten angeben, sind die eigentlichen Metadaten - Ort und Alter - oft schwer zu finden (Haupttext oder Supplement, Tabellen oder Artikeltext), wenn überhaupt vorhanden! 

So stellte sich die Frage, wie viele Studien in so kurzer Zeit dokumentiert werden konnten... und das mitten in einer Pandemie! 

Kann jemand helfen?

Glücklicherweise hatte etwa zur gleichen Zeit eine Gruppe von Doktoranden und PostDocs aus der ganzen Welt damit begonnen, eine offene Community-Plattform für Forscher auf dem Gebiet der alten Metagenomik einzurichten, SPAAM (im Englischen Standards, Precautions, and Advances in Ancient Metagenomics; Standards, Vorsichtsmaßnahmen und Fortschritte in der alten Metagenomik), um die Mitglieder des Fachgebiets zusammenzubringen und die größten Herausforderungen zu bewältigen.

Nachdem wir den Vorschlag der SPAAM-Gemeinschaft unterbreitet hatten, wurde schnell klar, dass eine Initiative zur Zusammenstellung einer umfassenden Liste veröffentlichter alter mikrobieller Proben von großem Wert für die Gemeinschaft als Ganzes wäre, besonders wenn sie mit der ständigen Flut an veröffentlichten Daten Schritt halten könnte. Damit wurde 'AncientMetagenomeDir' geschaffen: eine Datenbank, die im Laufe der Zeit von jedem, der bereit ist, einen Beitrag zu leisten, aktualisiert werden kann und einen großen Nutzen für zukünftige vergleichende Studien und Meta-Analysen bietet.  

Die ersten Freiwilligen waren in 12 Institutionen aus 9 Ländern in Europa und Amerika beheimatet. Wie konnten wir effizient zusammenarbeiten? 

Die SARS-CoV-2-Pandemie hatte einen besonderen Vorteil: Alle hatten sich bereits auf virtuelle Plattformen eingerichtet. Daher wurde das Projekt so angelegt, dass es ausschließlich mit kostenlosen Online-Kollaborationsprogrammen lief: 

  • Slack für textbasierten Nachrichtenaustausch in Echtzeit, 
  • meet.jit.si für Videoanrufe und Trainingsworkshops, 
  • GitHub für das Hosting der Daten und die Automatisierung der Validierung 
  • Overleaf für das kollaborative Schreiben von Manuskripten.

"Wir haben es geschafft, Leute!"

Mit Hilfe dieser Plattformen sind wir in nur zwei Monaten vom ersten Hilferuf zu einem Preprint gelangt. Wir haben Metadaten und Zugangsdaten für über 1000 alter Metagenom-bezogene Proben aus 87 Publikationen in der Datenbank zusammengetragen. 

Eine Reihe von Faktoren war für den Erfolg des AncientMetagenomeDir-Projekts entscheidend. 

Wir pflegten eine offene und stetige Kommunikation zwischen uns allen, die uns ein zeitzonenübergreifendes Peer-Mentoring ermöglichte. Wir erstellten eine detaillierte Dokumentation und hielten Schulungen ab, wie man sich beteiligen kann - besonders wichtig für GitHub, das für Anfänger einschüchternd sein kann.

Wir haben auch Automatisierungswerkzeuge erstellt, die bei der Aufrechterhaltung der Datenbankkonsistenz und -qualität helfen. Wir übernahmen die GitHub Actions "Continuous-Integration"-Plattform, die normalerweise verwendet wird, um Tests auszuführen, wenn Computercode geändert wird, um jeden Beitrag zu validieren. Wir schrieben ein Python-Tool, um jeden neuen Beitrag (über einen GitHub-Pull-Request) zur Datenbank zu überprüfen. Dabei verwendeten wir JSON-Schemata, reguläre Ausdrücke und feste Listen, um sicherzustellen, dass die Verwendung des Datensatzes so konsistent und einfach wie möglich ist. Auch hier war eine offene Kommunikation zwischen allen Mitgliedern wichtig, um zu einem Konsens darüber zu kommen, wie die einzelnen Metadaten-Kategorien definiert werden sollten.

Auch wenn das Feld der alten DNA hart umkämpft sein kann, war unser Projekt letztlich erfolgreich, weil eine vielfältige Gruppe von Menschen ihre Zeit freiwillig zur Verfügung stellte und zum Nutzen der Gemeinschaft zusammenarbeitete. Wir haben nicht nur ein Langzeitarchiv erstellt, das Forschern einen schnellen Zugriff auf die Daten ermöglicht, sondern auch die Hauptmängel in der aktuellen Metadaten-Berichterstattung in der alten Metagenomik identifiziert. Mit diesem Projekt als Präzedenzfall kann die SPAAM-Gemeinschaft und vielleicht das gesamte Feld bessere Wege finden, um paläogenetische Daten auf eine konsensorientierte Weise FAIR zu machen.

Publication: Fellows Yates, J. A., Andrades Valtueña, A., Vågene, Å. J., Cribdon, B., Velsko, I. M., Borry, M., Bravo-Lopez, M. J., Fernandez-Guerra, A., Green, E. J., Ramachandran, S. L., Heintzman, P. D., Spyrou, M. A., Hübner, A., Gancz, A. S., Hider, J., Allshouse, A. F., Zaro, V., & Warinner, C. (2021). Community-curated and standardised metadata of published ancient metagenomic samples with AncientMetagenomeDir. Scientific Data, 8(1), 31. https://doi.org/10.1038/s41597-021-00816-y

🇮🇹 Italiano / Italian

Una collaborazione virtuale per rendere più facilmente accessibili i dati metagenomici ottenuti da campioni antichi.

Come un gruppo di dottorandi e post-docs in Paleogenetica si siano offerti di collaborare attraverso piattaforme virtuali per la realizzazione di un database di riferimento utile all’intera comunità.

"Hai un elenco di metagenomi antichi pubblicati, vero?" "Ehm no... ?"

Nel mese di agosto 2020, uno dei supervisori del dottorando James Fellows Yates gli chiese un elenco di campioni di microbiomi antichi disponibili in letteratura, comprensivo delle relative datazioni e localizzazioni geografiche, per l’illustrazione di un articolo. Una lista esaustiva non esisteva ancora e la scadenza del supervisore di James era solo due mesi dopo.

Preparare tale elenco era tutt’altro che banale. La Paleogenetica, ovvero lo studio del DNA antico, è un settore di ricerca relativamente giovane ma in rapida crescita, che conta centinaia di pubblicazioni all’anno. Nonostante in passato sia stato riconosciuto ai ricercatori il merito di condividere con costanza i propri dati grezzi su archivi pubblici, i dati in questione non risultano necessariamente Facili da trovare, Accessibili, Interoperabili e Riutilizzabili (FAIR). Sebbene nella maggior parte degli studi siano riportati i codici di accesso ai dati pubblicati, gli effettivi metadati - localizzazione geografica e datazione - sono spesso difficili da reperire (testo principale vs. informazioni supplementari, tabelle vs. testo dell’articolo), sempre che siano disponibili!

Di conseguenza, la domanda da porsi divenne: “Come è possibile documentare così tanti studi in così poco tempo… e nel mezzo di una pandemia?”

“Qualcuno può darmi una mano?”

Fortunatamente, più o meno nello stesso periodo, un gruppo di dottorandi e post-docs provenienti da tutto il mondo stava iniziando ad organizzare una piattaforma comunitaria aperta per ricercatori  che si occupano di metagenomica applicata a campioni antichi - SPAAM (Standards, Precautions, and Advances in Ancient Metagenomics) - con l’obiettivo di riunire membri dello stesso settore per affrontarne le sfide principali.

Dopo aver avanzato la proposta alla comunità SPAAM, è risultato immediatamente chiaro che la realizzazione di un elenco completo dei campioni microbici antichi presenti in letteratura sarebbe stata di grande utilità per la comunità intera, soprattutto nella prospettiva in cui avrebbe consentito di mantenere il passo con il flusso costante di dati pubblicati. Questo scenario ha condotto alla creazione di 'AncientMetagenomeDir': un database che può essere aggiornato nel corso del tempo da tutti coloro che desiderano apportare un contributo, facilitando in modo considerevole futuri studi di carattere comparativo e meta-analisi.

I primi volontari afferivano a 12 Istituti situati in 9 Paesi dell’Europa e dell’America. Come avremmo potuto collaborare in maniera efficiente?

In modo curiosamente inaspettato, il contesto della pandemia di SARS-CoV-2 forniva una soluzione: tutti avevano iniziato ad utilizzare piattaforme virtuali. Il progetto è stato, quindi, organizzato in modo tale da poter essere gestito interamente attraverso strumenti di collaborazione online gratuiti:

  • Slack per comunicare in tempo reale tramite messaggi;
  • meet.jit.si per effettuare videochiamate e workshops formativi;
  • GitHub per il caricamento dei dati e la loro convalida mediante processi di automazione;
  • Overleaf per collaborare nella scrittura dell’articolo.

“Insieme ce l’abbiamo fatta!”

Grazie all’impiego di queste piattaforme, sono stati necessari soltanto due mesi per passare dalla prima richiesta di aiuto ad un articolo in pre-stampa. Abbiamo inserito nel database i metadati e i codici di accesso relativi a più di 1000 campioni di metagenomi antichi, estrapolati da 87 pubblicazioni.

Diversi fattori si sono rivelati cruciali per il successo del progetto AncientMetagenomeDir.

In primo luogo, abbiamo mantenuto tra noi una comunicazione aperta e costante, garantendo così una continua assistenza reciproca nonostante i diversi fusi orari. Abbiamo poi preparato una documentazione dettagliata e tenuto corsi di formazione per spiegare le modalità attraverso le quali poter contribuire al progetto - iniziative particolarmente essenziali nel caso di GitHub, il quale può risultare ostico ai principianti.

Inoltre, abbiamo creato dei sistemi di automazione in grado di assicurare il mantenimento di qualità e consistenza all’interno del database. Abbiamo adottato la piattaforma di integrazione continua di GitHub Actions - tipicamente utilizzata per testare eventuali modifiche a codici informatici - per convalidare ogni contributo. Abbiamo creato uno strumento in linguaggio Python per verificare ogni contributo (attraverso una GitHub Pull Request) al database, utilizzando schemi JSON, espressioni regolari ed ontologie, al fine di rendere il database stesso il più coerente possibile e di semplice fruizione. Anche in questo caso, il dialogo tra tutti i membri è stato fondamentale per decidere come definire ciascuna categoria di metadati.

In conclusione, nonostante il settore del DNA antico possa considerarsi particolarmente competitivo, il nostro progetto ha avuto successo grazie all’impegno di un gruppo eterogeneo di persone che si sono offerte di collaborare a beneficio della comunità. Oltre ad aver creato un archivio a lungo termine che può aiutare i ricercatori ad accedere con maggiore rapidità ai dati, abbiamo anche evidenziato le principali lacune correlate alla pubblicazione di metadati nel campo della metagenomica applicata a campioni antichi. Considerando questo progetto come un punto di partenza, la comunità SPAAM, e forse l’intero settore di ricerca, sarà in grado di individuare nuove modalità condivise, attraverso le quali rendere i dati paleogenetici pubblicati maggiormente FAIR.

Publication: Fellows Yates, J. A., Andrades Valtueña, A., Vågene, Å. J., Cribdon, B., Velsko, I. M., Borry, M., Bravo-Lopez, M. J., Fernandez-Guerra, A., Green, E. J., Ramachandran, S. L., Heintzman, P. D., Spyrou, M. A., Hübner, A., Gancz, A. S., Hider, J., Allshouse, A. F., Zaro, V., & Warinner, C. (2021). Community-curated and standardised metadata of published ancient metagenomic samples with AncientMetagenomeDir. Scientific Data, 8(1), 31. https://doi.org/10.1038/s41597-021-00816-y

James Fellows Yates

PhD Student, Max Planck Institute for the Science of Human History

No comments yet.