Enrollment is closed
  • End of Registration
  • Registration closed
  • Classes Start
  • apr 01 2019
  • Classes End
  • jun 20 2019
  • Estimated Effort
  • Sur 5 semaines, de 4 à 8 h/week
  • Language
  • French


À propos du cours / About this course

Vous prenez des notes et vous voulez vous y retrouver ? Vous faites des calculs sur ordinateur et vos résultats changent d’un jour à l’autre ? Vous aimeriez partager avec vos collègues vos analyses de données et vos développements méthodologiques et qu’ils puissent les réutiliser ?

Ce MOOC est pour vous, doctorant-e-s, chercheur-se-s , étudiant-e-s en master, enseignant-e-s, ingénieur-e-s de toutes disciplines qui souhaitez vous former à des environnements de publication et des outils fiables :
  • Markdown pour la prise de note structurée
  • des Outils d'indexation (DocFetcher et ExifTool)
  • Gitlab pour le suivi de version et le travail collaboratif
  • Notebooks (jupyter, rstudio ou org-mode) pour combiner efficacement calcul, représentation et analyse des données

Vous apprendrez au cours des exercices à utiliser ces outils pour améliorer votre prise de notes, votre gestion des données et des calculs. Nous vous présenterons également les enjeux et les difficultés de la recherche reproductible.

À l’issue de ce MOOC, vous aurez acquis les techniques vous permettant de préparer des documents réplicables et de partager en toute transparence les résultats de vos travaux.

You take notes and you want to be able to find them back? You make calculations on your computer, but your results change from day to day? You analyse data, or you work on a new method that you would like to share easily with your colleagues so that they can use it as well?

This MOOC is for you. We will show you some modern and reliable tools:
  • Markdown for taking structured notes
  • Desktop search application (DocFetcher et ExifTool)
  • GitLab for version control and collaborative working
  • Computational notebooks (Jupyter, RStudio, and Org-Mode) for efficiently combining the computation, presentation, and analysis of data

By doing the exercises, you will learn how to use these tools for improving your skills in note taking, data management and computation. We will also explain what is at stake and where the challenges lie in reproducible research.

At the end of this MOOC, you will have acquired good habits for preparing replicable documents and for sharing the results of your work in a transparent fashion.

Format

Ce MOOC est composé de quatre modules qui combinent des vidéos de cours, de nombreuses ressources notamment sur l'installation et l'utilisation des outils présentés (sous forme de vidéos ou de pages web), des quizz, et des exercices pour la mise en pratique des méthodes présentées.
Pour illustrer et approfondir les notions de cahiers de laboratoire, vous pourrez visionner des interviews de quatre chercheuses de domaines différents (Mathématiques, Histoire moderne et contemporaine, Neurophysiologie).

Des cas pratiques vous sont proposés tout au long du cours. Nous vous proposons par exemple de travailler sur un jeu de données "historique", celui de l'analyse du risque de défaillance des joints toriques de la navette spatiale Challenger, tristement célèbre en raison de sa désintégration 73 secondes après son décollage, provoquant la mort des sept astronautes de l'équipage. Cet accident aurait peut-être pu être évité ...
Un autre exercice, évalué par les autres participants, consiste à préparer une analyse de données sous forme d'un document computationnel, avec plusieurs sujets au choix basés sur des cas réels, sur des thématiques très différentes.

Pour réaliser ces exercices, nous proposons trois parcours différents dont chacun utilise une technologie de notebook:
  • Le premier parcours repose sur Jupyter et le langage Python. Il ne nécessite aucune installation de votre part sur votre ordinateur.
  • Le deuxième parcours repose sur RStudio et le langage R. Il nécessitera l’installation de RStudio sur votre ordinateur mais nous vous guiderons dans ce processus en temps voulu.
  • Le troisième parcours repose sur Emacs/Org-mode et les langages Python et R. Il nécessitera l’installation d’Emacs, Python, et R sur votre ordinateur mais nous vous guiderons dans ce processus en temps voulu.

Ce cours est en majorité bilingue français / anglais. Les vidéos sont en français sous-titrées en français et en anglais. Les supports de cours au format pdf sont fournis en anglais et en français ainsi que les Quiz et Exercices.
Vous pouvez modifier votre profil pour avoir l'interface de FUN en anglais.

A partir de la session02, toutes les ressources de ce Mooc seront accessibles en français et en anglais dans un entrepot Gitlab ouvert, dans les formats Org-mode, markdown et html.

This MOOC consists of four modules that combine video lectures, many resources describing installation and use of the presented tools (in the form of videos or web pages), quizzes an exercises for getting hands-on experience with the tools and methods that are presented.
To illustrate and deepen the concept of laboratory notebooks, you may view interviews with four researchers from different fields (mathematics, modern and contemporary history, neurophysiology).

Practical cases are proposed throughout the course. For example, we suggest that you work on a "historical" dataset, that of analyzing the risk of failure of the O-rings on the space shuttle Challenger, infamous for its disintegration 73 seconds after takeoff, resulting in the death of the crew's seven astronauts. This accident could perhaps have been avoided...
Another exercise, corrected by the other participants, consists in preparing a data analysis in the form of a computational document, with several subjects to choose from based on real cases, on very different subjects.

To perform these exercises, we propose three paths, each of which uses a different notebook technology:
  • The first path uses Jupyter notebooks and the Python language. It requires no software installation on your computer.
  • The second path uses RStudio and the R language. You will have to install RStudio on your computer, but we will guide you through this process.
  • The third path uses the Org-Mode package of the Emacs editor and the languages Python and R. You will have to install Emacs, Python, and R on your computer, but we will guide you through this process.

This course is mostly bilingual French / English. Videos are in French with French and English subtitles. The course materials in pdf format are provided in English and French as well as the quizzes and exercises.
You may modify your profile to have the FUN interface in English.

From session02 onwards, all the resources of this Mooc will be available in French and English in an open Gitlab repository, in Org-mode, markdown and html formats.

Prérequis / Prerequisites

Le premier module ne requiert aucune connaissance particulière. Dès le deuxième module, une connaissance des bases du langage Python (librairies pandas, numpy et matplotlib) ou du langage R est nécessaire. Si vous ne connaissez pas les librairies Python, n'hésitez pas à suivre le chapitre correspondant du Mooc "Python 3 : des fondamentaux aux concepts avancés du langage" (semaine 7 : l'écosystème data science Python). Dans le quatrième module, nous traitons des sujets plus spécialisés dont chacun peut nécessiter des compétences particulières.
Un assez bon niveau en analyse de données et en statistique est nécessaire pour certains exercices de cette session. Néanmoins, même si vous ne pouvez pas compléter ces exercices, vous pourrez vous former sur de nombreux outils et méthodes pour la recherche reproductible. Nous espérons pouvoir proposer dans la session suivante (session 03) des alternatives à ces exercices avec des prérequis plus souples.

The first module assumes no particular prior knowledge. Starting from the second module, a basic knowledge of Python (with the libraries pandas, numpy and matplotlib) or R is required. In the fourth module, we treat more specialized topic, each of which may require specific competences.
A fairly good level of competence in data analysis and statistics is required for some exercises in this session. Nevertheless, even if you are unable to complete these exercises, you will be able to learn about many tools and methods for reproducible research. We hope to be able to propose alternatives to these exercises in the next session (session 03) with less demanding requirements.

Plan du cours / Course Syllabus

  • Module 1 : Cahier de notes, cahier de laboratoire
  • Module 2 : La vitrine et l’envers du décor : le document computationnel
  • Module 3 : La main à la pâte : une analyse réplicable
  • Module 4 : Vers une étude reproductible : la réalité du terrain
  • Module 1: Taking notes and finding them back
  • Module 2: From the showcase to the full story: computational documents
  • Module 3: Diving in: a replicable analysis
  • Module 4: The rough road to real-life reproducible research

Les enseignants / Teachers

Course Staff Image #2

Christophe Pouzat

Christophe Pouzat est chercheur CNRS au laboratoire MAP5, mathématiques appliquées à Paris-Descartes. Il est en fait neurophysiologiste et travaille sur l’analyse de données ; la recherche reproductible lui permet une communication explicite avec les expérimentateurs, ce qui évite bien des erreurs.
Christophe Pouzat is a CNRS researcher in the laboratory MAP5 (applied mathematics at Paris-Descartes). He is actually a neurophysiologist, working on the analysis of experimental data. Reproducible research enables him to communicate explicitly with experimentalists, avoiding many mistakes.

Course Staff Image #1

Arnaud Legrand

Arnaud Legrand est chercheur CNRS au Laboratoire d’Informatique de Grenoble. Il s’intéresse à l’évaluation de la performance de grandes infrastructures. Que ça soit lors de l’expérimentation ou lors de l’analyse des mesures, il est indispensable de capturer rigoureusement le processus utilisé.
Arnaud Legrand is a CNRS researcher at the Laboratoire d'Informatique in Grenoble. His research interest is the evaluation of the performance of big computing infrastructures. Both for performing experiments and for analyzing the outcomes, it is essential to capture the process rigorously.

Course Staff Image #2

Konrad Hinsen

Konrad Hinsen est chercheur CNRS au Centre de Biophysique Moléculaire à Orléans et au Synchrotron SOLEIL à Saint Aubin. Il explore la structure et la dynamique des protéines par des méthodes computationnelles, qu’il tente de rendre reproductibles.
Konrad Hinsen is a CNRS researcher at the Centre de Biophysique Moléculaire in Orléans and at the Synchrotron SOLEIL in Saint Aubin. He explores the structure and dynamics of proteins by computational methods, which he tries to make reproducible.

Evaluation / Evaluation

A l'issue du cours, une attestation de suivi avec succès sera délivrée aux participants ayant obtenu la note minimale requise. L’évaluation est basée sur des quiz, des exercices pratiques et un devoir qui sera évalué par d'autres élèves.

At the end of the course, an attestation of achievement will be delivered to the participants who will have obtained the minimal score required. The evaluation is based on quizzes, application exercises and a pratical session that will be evaluated by other participants.

Conditions d'utilisations / Term of use

Conditions d’utilisation du contenu du cours

Les ressources du cours sont diffusées sous Licence Creative Commons BY-NC-ND : l’utilisateur doit mentionner le nom de l’auteur, il peut exploiter l’œuvre sauf dans un contexte commercial et il ne peut apporter de modifications à l’œuvre originale.

Terms of use of the course content

The course contents are shared under Creative Commons License BY-NC-ND: the name of the author should always be mentioned ; the user can exploit the work except in a commercial context and he cannot make changes to the original work.

Conditions d’utilisation des contenus produits par les participants

Les contenus produits par les participants sont, sauf mention contraire, sous Licence Creative Commons BY-NC-ND : l’utilisateur doit mentionner le nom de l’auteur, il peut exploiter l’œuvre sauf dans un contexte commercial et il ne peut apporter de modifications à l’œuvre originale.

Terms of use of the contents produced by users

The contents produced by users are shared under Creative Commons License BY-NC-ND: the name of the author should always be mentioned ; the user can exploit the work except in a commercial context and he cannot make changes to the original work.


logo Inria recherche logo CNRS logo Université Paris-Descartes
logo Université de Grenoble Alpes logo Soleil Synchrotron logo CBM

Credits

Crédits photos : © Inria / Photo G. Scagnelli