A propos du cours
Le cours « Fondamentaux en statistique 2.0 » du Professeur Avner
Bar-Hen est de retour en mars 2015 sur la plate-forme FUN-MOOC.
Fort du succès de sa version 2014 (plus de 8 000 personnes inscrites)
il vous est proposé cette année dans une version améliorée et augmentée.
Que vous soyez débutant(e) ou initié(e) en statistique, que vous ayez
suivi ou non le cours en 2014, venez découvrir ou approfondir ce
puissant outil d’aide à la décision.
Description du cours
La statistique est la science de la collecte, de l'organisation et de
l'interprétation des données numériques. Sa compréhension et sa pratique
sont essentielles pour comprendre les informations numériques et pour
prendre des décisions fondées sur leur analyse.
Ce cours est une introduction aux concepts de base en statistique.
Il met l’accent sur l'application pratique de la statistique. Les
étudiants apprendront :
- Quand et comment les outils statistiques peuvent être utilisés pour
analyser les données
- Comment choisir et appliquer des outils statistiques aux sources de
données
- De quelle façon interpréter les études quantitatives produites par
les autres.
L’ensemble du cours repose sur l’utilisation du logiciel libre et
gratuit R, dont l’installation et la manipulation seront expliquées pas
à pas en semaine 0.
Public visé
Ce cours s’adresse à toute personne intéressée à titre personnel ou
professionnel, par la manipulation, la compréhension et l’analyse de
données numériques, et ce quel que soit son secteur ou son projet
professionnel.
Pour suivre ce cours, un niveau bac général scientifique est conseillé,
bien qu'aucun pré-requis spécifique ne soit nécessaire.
L'enseignant
Avner Bar-Hen
Avner Bar-Hen est Professeur de statistique à l’Université Paris
Descartes (Sorbonne Paris Cité).
Il est également membre de la commission « Évaluation, stratégie et
prospective » du Haut Conseil de la Santé Publique, et de la section 3
de la CNECA (Commission Nationale des Enseignants-Chercheurs relevant
du ministre chargé de l'Agriculture), ainsi que du conseil
scientifique du Haut Conseil des Biotechnologies.
Ses sujets de prédilection : les statistiques spatiales en écologie
et l’analyse de données génomiques.
L'équipe pédagogique
Christine Keribin
Christine Keribin est maître de conférences à l'université Paris Sud,
membre du laboratoire de mathématiques d'Orsay et de l'équipe
INRIA-Select. Ses travaux de recherche portent sur les modèles de
mélanges et la sélection de modèle, en particulier dans le cadre de la
classification croisée (co-clustering); elle développe actuellement
des collaborations en génomique tumorale et en pharmacovigilance.
Etienne Côme
Etienne Côme est chargé de recherche à l'Institut Français des
Sciences et Technologies des Transports de l'Aménagement et des
Réseaux. Ses travaux de recherche portent sur l'analyse et la
visualisation de données et plus particulièrement sur l'analyse des
traces numériques de déplacement (données billettiques, bluetooth,
GPS, etc.).
USPC
Supported by Université Sorbonne Paris Cité
IDEX
Ce cours est financé sur le programme d'Investissements d'Avenir
lancé par l'Etat et mis en oeuvre par l'ANR.
Organisation du cours
Le cours se déroule pendant cinq semaines à compter du 26 mars 2015.
Chaque semaine constitue un module consacré à un concept statistique
spécifique, organisé en différentes séquences et abordé sous différentes
formes (vidéos, textes, quizz).
Le forum du cours, animé par l’équipe pédagogique, est consacré aux
échanges entre les étudiants, au travail collaboratif et aux
questions/réponses avec l'enseignant.
Plan du cours
Les modules sont organisés afin d'assurer une progressivité dans la
complexité des concepts abordés.
Semaine 0 : Introduction à R
- A. Installation de R et Rstudio
- B. Premiers pas : créer des objets
- C. Importer des données (format texte, excel, etc.)
- D. Manipuler des données
- E. Ecrire une fonction
Semaine 1 : Comment résumer l’information d’une variable
- A. Que mesure-t-on ?
- B. Caractérisation d'une variable
- C. Représentation graphique
- D. Indices résumés : paramètres de localisation
- E. Indices résumés : paramètres de dispersion
- F. Représentation graphique resumée : le box-plot
Semaine 2 : Analyses bidimensionnelles
- A. Cas de deux variables qualitatives : tableau de contingence
- B. Cas de deux variables qualitatives : représentation graphique
- C. Cas de deux variables quantitatives : covariance et corrélation
- D. Cas de deux variables quantitatives : introduction à la
régression
- E. Principe d'un test
- F. Application des tests en régression
Semaine 3 : Analyses multidimensionnelles
- A. Introduction aux méthodes factorielles
- B. Définition d'une distance entre individus
- C. Cas de p>2 variables quantitatives : projection et analyse en
composantes principales
- D. Cas de p > 2 variables quantitatives : Interprétation de
l’analyse en composantes principales (ACP)
- E. Cas de p > 2 variables qualitatives : analyse factorielle des
correspondances (AFC)
Semaine 4 : Apprentissage/Classification
- A. Préalable
- B. Classification Ascendante Hiérarchique
- C. Nuées dynamiques (k-means)
- D. Classement
Disponibilité moyenne nécessaire
Le temps de travail nécessaire est précisé au début de chaque semaine
et en en-tête de chaque séquence. En moyenne le cours nécessite une
charge de travail d'environ 6 à 8 heures par semaine. Au total, il est
recommandé de consacrer entre 35 et 40 heures à ce cours, afin
d'acquérir de manière durable et transférable les compétences visées
par la formation.
Conditions d'utilisation
- du cours : Licence Creative Commons
BY NC SA. L'utilisateur doit mentionner le nom de
l'auteur, il peut exploiter l'œuvre sauf dans un contexte
commercial, il peut créer une œuvre dérivée de l'œuvre originale si
l'œuvre dérivée est diffusée sous la même licence que l'œuvre
originale.
- du contenu produit par les internautes :
Licence Creative Commons BY NC SA L'utilisateur
doit mentionner le nom de l'auteur, il peut exploiter l'œuvre sauf
dans un contexte commercial, il peut créer une œuvre dérivée de
l'œuvre originale si l'œuvre dérivée est diffusée sous la même
licence que l'œuvre originale.