Passer au contenu principal
FUN MOOC
  • Actualités
  • Cours
  • FormaPro
  • Établissements
  • À propos
  • FAQ
  • Vous êtes ici:
  • Accueil
  • Cours
  • Reproducible Research II: Practices and tools for managing computations and data

Reproducible Research II: Practices and tools for managing computations and data

Réf. 41023
CatégorieOutils pour la rechercheCatégorieNumérique et technologie
In this MOOC, we will show you how to improve your practices and your ability to manage and process larger amounts of data, complex computations, while controlling your software environment.
  • Effort : 35 heures
  • Rythme: Auto-rythmé
  • Langues: Anglais

Ce que vous allez apprendre

À la fin de ce cours, vous saurez :

Manage research data:
- understand the challenges posed by large volumes of data
- archive code and data on well-known archives such as Software Heritage and Zenodo
- integrate data into versioning (Git Annex)
- use structured binary data formats (FITS, HDF5)

Use tools and techniques for controlling the software environment:
- understand how software packages are built and managed
- work in controlled software environments on a daily basis
- deploy software environments as containers (e.g., with Docker)
- manage software environments using a functional package manager (e.g., with Guix)

Automate long or complex computations using scientific workflows:
- understand the challenges of scaling up: long calculations, distributed calculations
- choose a workflow tool adapted to your needs
- automate a data analysis using make and snakemake
- control the software environments of a workflow

Description

Following the success of the MOOC "Reproducible research: methodological principles for transparent science", the authors continue exploring reproducibility with a focus on massive data and complex calculations. These two MOOCs complement each other and offer a coherent training program on the subject.

In this 2nd MOOC, you will learn how to manage large datasets and complex computations in controlled software environments, using formats such as JSON, FITS, and HDF5, platforms like Zenodo and Software Heritage, tools like git-annex, Docker, Singularity, Guix, make, and Snakemake. Keys concepts are introduced and applied through numerous hands-on exercises and a real-life use case on sunspot detection, demonstrating how to work in a reliable and reproducible way.

A new module for this session proposes exercises illustrating how the tools and techniques we teach are helpful in the daily practice of computational research. Interviews with experienced practitioners of reproducible research also discuss related tools, helping you decide whether you should invest in more elaborate tools or not, and which pitfalls you may stumble upon.

Format

This MOOC consists of four independent modules that combine video lectures, quizzes, practical sessions, textual course supports, and many exercises for getting hands-on experience with the tools and methods that are presented.

Most of the exercises can be carried out in a JupyterLab environment made available to each MOOC learner. Some exercises require a Linux computer and the ability to install software on it.

Prérequis

This course is for everyone who relies on a computer to perform data analysis. You should have some experience with running commands in a terminal, and have a basic knowledge of git (at the level of the first MOOC) and Scientific Python.

Évaluation et Certification

An Open Badge for successful completion of the course will be issued on request to learners who obtain an overall score of 50% correct answers to all the quizzes and learning activities. Assessment is based on quizzes and practical exercises.

Plan de cours

Preparing for the mountain hike to reproducibility
  • Astronomers interviews about sunspots detection
  • Getting started with JupyterLab and the sunspot time series
  • Sunspot Time Series: Exercises
  • Reproducibility and research software communities
Module Managing data
  • Archiving
  • File formats
  • Project Organization
  • Git Annex
Module Managing software
  • On the Importance of Software Environment
  • Package Management Principles
  • Isolation and Containers
  • Using Containers
  • Building and Sharing Containers
  • Functional Package Managers (Guix, Docker, Singularity...)
Module Managing computations
  • Why do we need workflows?
  • From notebooks to shell scripts
  • Workflows with make
  • Workflows with snakemake
  • Workflows and environments
Module Reproducibility in the large
  • Getting familiar with the Sunspot project
  • Checking the reproducibility of computations
  • Checking the robustness of the workflow to a variation on the software environment
  • Injecting new data
  • Investigating specific aspects of the data
  • Parameterizing our workflow to evaluate parameter sensitivity
  • Inverviews with experts

Équipe pédagogique

Arnaud Legrand

Catégories

Arnaud Legrand est chercheur au CNRS au Laboratoire d'Informatique de Grenoble. Ses recherches portent sur l'évaluation de la performance des grandes infrastructures de calcul. Pour réaliser des expériences et analyser les résultats, il est essentiel de capturer le processus de manière rigoureuse.

Christophe Pouzat

Catégories

Christophe Pouzat est chercheur au CNRS à l'IRMA (Institut de Recherche Mathématique Avancée, Université de Strasbourg). Il est en fait neurophysiologiste et travaille sur l'analyse des données expérimentales. La recherche reproductible lui permet de communiquer explicitement avec les expérimentateurs, évitant ainsi de nombreuses erreurs.

Konrad Hinsen

Catégories

Konrad Hinsen est chercheur au CNRS au Centre de Biophysique Moléculaire d'Orléans et au Synchrotron SOLEIL de Saint Aubin. Il explore la structure et la dynamique des protéines par des méthodes informatiques qu'il tente de rendre reproductibles.

Matthieu Simonin

Catégories

Matthieu Simonin est ingénieur de recherche au centre Inria de l'université de Rennes. Il travaille au contact des équipes étudiant les systèmes distribués et apporte son soutien pour mener des campagnes expérimentales qui voient s'entremêler des contraintes matérielles, logicielles et des manipulations de données. Depuis peu, Matthieu a rejoint le GDR du labos1point5 en aidant au développement des outils de quantification carbone des activités de recherche, dont les calculs doivent bien sûr être reproductibles !

Ludovic Courtès

Catégories

Ludovic Courtès est ingénieur de recherche Inria à Bordeaux. Il contribue à Guix, un logiciel libre permettant de déployer des environnements logiciels de manière reproductible, avec pour objectif d’en faire un outil de base pour la recherche reproductible.

Kim Tâm HUYNH

Catégories

Kim Tâm HUYNH est ingénieure de recherche dans le SED (Service Expérimentation et Développement) du centre Inria de Paris. Elle s'intéresse aux méthodologies et outillages pour le développement logiciel de recherche.

Établissements

Inria

Avec le soutien du Fonds national de la science ouverte

Licence

Licence pour le contenu du cours

Attribution - Pas d’Utilisation Commerciale

Vous êtes autorisé à :

  • Partager — copier, distribuer et communiquer le matériel par tous moyens et sous tous formats
  • Adapter — remixer, transformer et créer à partir du matériel

Selon les conditions suivantes :

  • Attribution — Vous devez créditer l'oeuvre, intégrer un lien vers la licence et indiquer si des modifications ont été effectuées à l'oeuvre. Vous devez indiquer ces informations par tous les moyens raisonnables, sans toutefois suggérer que l'offrant vous soutient ou soutient la façon dont vous avez utilisé son oeuvre.
  • Pas d’Utilisation Commerciale — Vous n'êtes pas autorisé à faire un usage commercial de cette oeuvre, tout ou partie du matériel la composant.

Licence pour le contenu créé par les participants du cours

Attribution - Pas d’Utilisation Commerciale

Vous êtes autorisé à :

  • Partager — copier, distribuer et communiquer le matériel par tous moyens et sous tous formats
  • Adapter — remixer, transformer et créer à partir du matériel

Selon les conditions suivantes :

  • Attribution — Vous devez créditer l'oeuvre, intégrer un lien vers la licence et indiquer si des modifications ont été effectuées à l'oeuvre. Vous devez indiquer ces informations par tous les moyens raisonnables, sans toutefois suggérer que l'offrant vous soutient ou soutient la façon dont vous avez utilisé son oeuvre.
  • Pas d’Utilisation Commerciale — Vous n'êtes pas autorisé à faire un usage commercial de cette oeuvre, tout ou partie du matériel la composant.
FacebookTwitterLinkedin

En savoir plus

  • Aide et Contact
  • A propos de FUN
  • Foire aux questions
  • Boutique en ligne
  • Mentions légales
  • Politique de confidentialité
  • Infolettres
  • Conditions générales d'utilisation
  • Conditions générales de vente
  • Charte utilisateurs
  • Accessibilité : partiellement conforme
  • Plan de site
  • Gestion des cookies
Logo FUN Mooc propulsé par Richie