• End of Registration
  • mar 20 2021
  • Classes Start
  • mar 20 2020
  • Classes End
  • mar 20 2021
  • Estimated Effort
  • Sur 5 semaines, de 4 à 8 h/week
  • Language
  • French

This MOOC is bilingual French/English. See below for a description in English.

À propos du cours / About this course

Ce cours est la 3ème session du Mooc « Recherche reproductible », ouvert pour une durée de un an et enrichi avec de nouveaux contenus.

Vous prenez des notes et vous voulez vous y retrouver ? Vous faites des calculs sur ordinateur et vos résultats changent d’un jour à l’autre ? Vous aimeriez partager avec vos collègues vos analyses de données et vos derniers travaux et qu’ils puissent les réutiliser ?

Ce MOOC est pour vous, doctorant-e-s, chercheur-se-s , étudiant-e-s en master, enseignant-e-s, ingénieur-e-s de toutes disciplines qui souhaitez vous former à des environnements de publication et des outils fiables :
  • Markdown pour la prise de note structurée
  • des Outils d'indexation (DocFetcher et ExifTool)
  • Gitlab pour le suivi de version et le travail collaboratif
  • Notebooks (jupyter, rstudio ou org-mode) pour combiner efficacement calcul, représentation et analyse des données

Vous apprendrez au cours des exercices à utiliser ces outils pour améliorer votre prise de notes, votre gestion des données et des calculs. Nous vous présenterons également les enjeux et les difficultés de la recherche reproductible.

À l’issue de ce MOOC, vous aurez acquis les techniques vous permettant de préparer des documents computationnels réplicables et de partager en toute transparence les résultats de vos travaux.

🆕 De nombreux contenus ont été ajoutés dans cette session :
  • des vidéos sur git/Gitlab pour les débutants,
  • un aperçu historique de la recherche reproductible,
  • des synthèses et des témoignages pour des besoins spécifiques aux domaines des sciences humaines et sociales.

Format / Format

🆕 La 3ème session de ce Mooc est ouverte pour une durée de un an, ce qui vous permettra de suivre le Mooc à votre rythme et de vous inscrire quand vous aurez le temps. Le temps estimé pour suivre ce cours et faire les exercices est de 24h.

Ce MOOC est composé de quatre modules qui combinent des vidéos de cours, de nombreuses ressources notamment sur l'installation et l'utilisation des outils présentés (sous forme de vidéos ou de pages web), des quizz, et des exercices pour la mise en pratique des méthodes présentées.
Pour illustrer et approfondir certaines notions, vous pourrez écouter ou lire des interviews de nombreux chercheurs de domaines différents.

Des cas pratiques vous sont proposés tout au long du cours. Nous vous proposons par exemple de travailler sur un jeu de données "historique", celui de l'analyse du risque de défaillance des joints toriques de la navette spatiale Challenger, tristement célèbre en raison de sa désintégration 73 secondes après son décollage, provoquant la mort des sept astronautes de l'équipage. Cet accident aurait peut-être pu être évité ...
Un autre exercice, évalué par les autres participants, consiste à préparer une analyse de données sous forme d'un document computationnel, avec plusieurs sujets au choix basés sur des cas réels, sur des thématiques très différentes.

Pour réaliser ces exercices, nous proposons trois parcours différents dont chacun utilise une technologie de notebook:
  • Le premier parcours repose sur Jupyter et le langage Python. Il ne nécessite aucune installation de votre part sur votre ordinateur.
  • Le deuxième parcours repose sur RStudio et le langage R. Il nécessitera l’installation de RStudio sur votre ordinateur mais nous vous guiderons dans ce processus en temps voulu.
  • Le troisième parcours repose sur Emacs/Org-mode et les langages Python et R. Il nécessitera l’installation d’Emacs, Python, et R sur votre ordinateur mais nous vous guiderons dans ce processus en temps voulu.

Ce cours est en majorité bilingue français / anglais. Les vidéos sont en français sous-titrées en français et en anglais. Les supports de cours au format pdf sont fournis en anglais et en français ainsi que les Quiz et Exercices.
Vous pouvez modifier votre profil pour avoir l'interface de FUN en anglais.

Toutes les ressources de ce Mooc seront accessibles en français et en anglais dans un entrepot Gitlab ouvert, dans les formats Org-mode, markdown et html.

Prérequis / Prerequisites

Le premier module ne requiert aucune connaissance particulière. Dès le deuxième module, une connaissance des bases du langage Python (librairies pandas, numpy et matplotlib) ou du langage R est nécessaire.
Si vous ne connaissez pas les librairies Python, n'hésitez pas à suivre le chapitre correspondant du Mooc "Python 3 : des fondamentaux aux concepts avancés du langage" (semaine 7 : l'écosystème data science Python).
Dans le quatrième module, nous traitons des sujets plus spécialisés dont chacun peut nécessiter des compétences particulières.
Une familiarité avec l'analyse de données et les statistiques est nécessaire pour certains exercices de cette session.
🆕 De nouveaux sujets avec un prérequis moins élevé en statistiques sont ont été ajoutés dans cette 3ème session afin que chacun puisse trouver des exercices de son niveau. Néanmoins, même si vous ne parvenez pas à réaliser totalement ces exercices, cela ne vous empêchera pas de vous former sur de nombreux outils et méthodes pour la recherche reproductible.

Plan du cours / Course Syllabus

  • Module 1 : Cahier de notes, cahier de laboratoire
  • Module 2 : La vitrine et l’envers du décor : le document computationnel
  • Module 3 : La main à la pâte : une analyse réplicable
  • Module 4 : Vers une étude reproductible : la réalité du terrain

Les enseignants / Teachers

Course Staff Image #2

Christophe Pouzat

Christophe Pouzat est chercheur CNRS au laboratoire MAP5, mathématiques appliquées à Paris-Descartes. Il est en fait neurophysiologiste et travaille sur l’analyse de données ; la recherche reproductible lui permet une communication explicite avec les expérimentateurs, ce qui évite bien des erreurs.

Course Staff Image #1

Arnaud Legrand

Arnaud Legrand est chercheur CNRS au Laboratoire d’Informatique de Grenoble. Il s’intéresse à l’évaluation de la performance de grandes infrastructures. Que ça soit lors de l’expérimentation ou lors de l’analyse des mesures, il est indispensable de capturer rigoureusement le processus utilisé.

Course Staff Image #2

Konrad Hinsen

Konrad Hinsen est chercheur CNRS au Centre de Biophysique Moléculaire à Orléans et au Synchrotron SOLEIL à Saint Aubin. Il explore la structure et la dynamique des protéines par des méthodes computationnelles, qu’il tente de rendre reproductibles.

🆕 De nouveaux contributeurs ont participé à la 3ème session du Mooc dont :

  • Alexandre Hocquet est professeur des universités en histoire des sciences à l'Université de Lorraine. Ses travaux de recherche portent sur l'influence du logiciel dans l'activité scientifique.
  • Sabrina Granger est conservatrice des bibliothèques à l’Urfist (Unité régionale de formation à l'information scientifique et technique) de Bordeaux et docteure en littérature et langue françaises. Elle a piloté un book sprint sur la recherche reproductible.

Des chercheuses ont été interviewées pour illustrer et approfondir les notions de cahiers de laboratoire : Anne Estrade, professeure de mathématique à l'Université Paris-Descartes; Marie-Noëlle Bourguet, professeure émérite d’Histoire moderne à l’Université Paris-Diderot: Annie Lacroix-Riz, professeure émérite d’Histoire contemporaine à l’Université Paris-Diderot; Isabel Llano, neurophysiologiste au CNRS et à l’Université Paris-Descartes.
🆕 Par ailleurs, dans cette nouvelle session, des chercheurs ont été interviewés sur la question de la reproductibilité et de la transparence dans leur domaine de recherche : Francois Briatte, maître assistant en sciences politiques et sociales à l'Université Catholique de Lille; François Pellegrini, professeur des universités en informatique à l’Université de Bordeaux et chercheur au LaBRI et à Inria; Joël Zaffran, professeur des universités en sociologie à l’université de Bordeaux et chercheur au Centre Émile Durkheim; Valérie Orozco et Christophe Bontemps, ingénieurs-économètres à l’INRAE à Toulouse; Laurent Romary, directeur de recherche à l'Inria et expert de la TEI.

Evaluation / Evaluation

Tous les 3 mois, une attestation de suivi avec succès sera délivrée aux participants ayant obtenu la note minimale requise. L’évaluation est basée sur des quiz, des exercices pratiques et un devoir qui sera évalué par d'autres élèves.

Conditions d'utilisations / Term of use

Conditions d’utilisation du contenu du cours

Les ressources du cours sont, sauf mention contraire comme pour les vidéos, diffusées sous Licence Creative Commons CC-BY 3.0 : Attribution. Le titulaire des droits autorise toute exploitation de l’œuvre, y compris à des fins commerciales, ainsi que la création d’œuvres dérivées, dont la distribution est également autorisée sans restriction, à condition de l’attribuer à son auteur en citant son nom.

Conditions d’utilisation des contenus produits par les participants

Les contenus produits par les participants sont, sauf mention contraire, sous Licence Creative Commons BY-NC-ND : l’utilisateur doit mentionner le nom de l’auteur, il peut exploiter l’œuvre sauf dans un contexte commercial et il ne peut apporter de modifications à l’œuvre originale.

About this course

This course is the 3rd session of the Mooc "Reproducible research", open for one year and enriched with new content.

You take notes and you want to be able to find them back? You make calculations on your computer, but your results change from day to day? You analyse data, or you work on a new method that you would like to share easily with your colleagues so that they can use it as well?

This MOOC is for you. We will show you some modern and reliable tools:
  • Markdown for taking structured notes
  • Desktop search application (DocFetcher et ExifTool)
  • GitLab for version control and collaborative working
  • Computational notebooks (Jupyter, RStudio, and Org-Mode) for efficiently combining the computation, presentation, and analysis of data

By doing the exercises, you will learn how to use these tools for improving your skills in note taking, data management and computation. We will also explain what is at stake and where the challenges lie in reproducible research.

At the end of this MOOC, you will have acquired good habits for preparing replicable documents and for sharing the results of your work in a transparent fashion.

🆕 A lot of content have been added for this session:
  • new videos about git/Gitlab, aimed at beginners,
  • an historical overview of reproducible research,
  • overviews and testimonies of the issues of reproducibility and transparency in the humanities and social sciences.

Format

🆕 The 3rd session of this Mooc is open for one year, which will allow you to follow the Mooc at your own pace and to register when you have time. Note that the estimated time to follow this course and do the exercises is 24 hours.

This MOOC consists of four modules that combine video lectures, many resources describing installation and use of the presented tools (in the form of videos or web pages), quizzes an exercises for getting hands-on experience with the tools and methods that are presented.
To illustrate and deepen the concept of laboratory notebooks, you may view interviews with four researchers from different fields (mathematics, modern and contemporary history, neurophysiology).

Practical cases are proposed throughout the course. For example, we suggest that you work on a "historical" dataset, that of analyzing the risk of failure of the O-rings on the space shuttle Challenger, infamous for its disintegration 73 seconds after takeoff, resulting in the death of the crew's seven astronauts. This accident could perhaps have been avoided...
Another exercise, corrected by the other participants, consists in preparing a data analysis in the form of a computational document, with several subjects to choose from based on real cases, on very different subjects.

To perform these exercises, we propose three paths, each of which uses a different notebook technology:
  • The first path uses Jupyter notebooks and the Python language. It requires no software installation on your computer.
  • The second path uses RStudio and the R language. You will have to install RStudio on your computer, but we will guide you through this process.
  • The third path uses the Org-Mode package of the Emacs editor and the languages Python and R. You will have to install Emacs, Python, and R on your computer, but we will guide you through this process.

This course is mostly bilingual French / English. Videos are in French with French and English subtitles. The course materials in pdf format are provided in English and French as well as the quizzes and exercises.
You may modify your profile to have the FUN interface in English.

All the resources of this Mooc will be available in French and English in an open Gitlab repository, in Org-mode, markdown and html formats.

Prerequisites

The first module assumes no particular prior knowledge. Starting from the second module, a basic knowledge of Python (with the libraries pandas, numpy and matplotlib) or R is required.
In the fourth module, we treat more specialized topic, each of which may require specific competences.
A familiarity with data analysis and statistics is required for some of the exercises in this MOOC.
🆕 New topics with a lower prerequisite in statistics have been added in this 3rd session so that everyone can find exercises suitable for them. However, even if you can't fully complete these exercises, you will be able to learn about many tools and methods for reproducible research.

Course Syllabus

  • Module 1: Taking notes and finding them back
  • Module 2: From the showcase to the full story: computational documents
  • Module 3: Diving in: a replicable analysis
  • Module 4: The rough road to real-life reproducible research

Teachers

Course Staff Image #2

Christophe Pouzat

Christophe Pouzat is a CNRS researcher in the laboratory MAP5 (applied mathematics at Paris-Descartes). He is actually a neurophysiologist, working on the analysis of experimental data. Reproducible research enables him to communicate explicitly with experimentalists, avoiding many mistakes.
Course Staff Image #1

Arnaud Legrand

Arnaud Legrand is a CNRS researcher at the Laboratoire d'Informatique in Grenoble. His research interest is the evaluation of the performance of big computing infrastructures. Both for performing experiments and for analyzing the outcomes, it is essential to capture the process rigorously.

Course Staff Image #2

Konrad Hinsen

Konrad Hinsen is a CNRS researcher at the Centre de Biophysique Moléculaire in Orléans and at the Synchrotron SOLEIL in Saint Aubin. He explores the structure and dynamics of proteins by computational methods, which he tries to make reproducible.

🆕 Additional contributors participated in preparing the 3rd session of the Mooc:

  • Alexandre Hocquet is a professor in history of science at the University of Lorraine. His research work focuses on the influence of software in scientific activity.
  • Sabrina Granger is a librarian at Urfist de Bordeaux (regional unit for information and communications technology) and has a doctorate in French literature and language. She piloted book sprint on reproducible search.

Researchers were interviewed to illustrate and deepen the notions of laboratory notebooks: Anne Estrade, Professor of Mathematics; Marie-Noëlle Bourguet, Professor Emeritus of Modern History, Annie Lacroix-Riz, Professor Emeritus of Contemporary History; Isabel Llano, Neurophysiologist.
🆕 In addition, in this new session, researchers were interviewed on the issue of replicability and transparency in their field of research: Francois Briatte, assistant professor in political and social sciences; François Pellegrini, university professor in computer science; Joël Zaffran, university professor in sociology; Valérie Orozco and Christophe Bontemps, engineers-econometers.

Evaluation

Every 3 month, an attestation of achievement will be delivered to the participants who will have obtained the minimal score required. The evaluation is based on quizzes, application exercises and a pratical session that will be evaluated by other participants.

Term of use

Terms of use of the course content

Except otherwise specified as for videos, the course material is provided under Creative Commons License CC-BY 3.0: Attribution. The licensor permits others to copy, distribute, display, and perform the work. In return, licenses must give the original author credit.

Terms of use of the contents produced by users

The contents produced by users are shared under Creative Commons License BY-NC-ND: the name of the author should always be mentioned ; the user can exploit the work except in a commercial context and he cannot make changes to the original work.


logo Inria recherche logo CNRS logo Université Paris-Descartes
logo Université de Grenoble Alpes logo Soleil Synchrotron logo CBM

Credits

Crédits photos : © Inria / Photo G. Scagnelli