Les inscriptions sont closes
  • Fin d'inscription
  • Inscription close
  • Début du Cours
  • 26 mar 2015
  • Fin du cours
  • 14 mai 2015
  • Effort estimé
  • 6:00 h/semaine
  • Langue
  • Français

A propos du cours

Le cours « Fondamentaux en statistique 2.0 » du Professeur Avner Bar-Hen est de retour en mars 2015 sur la plate-forme FUN-MOOC.

Fort du succès de sa version 2014 (plus de 8 000 personnes inscrites) il vous est proposé cette année dans une version améliorée et augmentée.

Que vous soyez débutant(e) ou initié(e) en statistique, que vous ayez suivi ou non le cours en 2014, venez découvrir ou approfondir ce puissant outil d’aide à la décision.

Description du cours

La statistique est la science de la collecte, de l'organisation et de l'interprétation des données numériques. Sa compréhension et sa pratique sont essentielles pour comprendre les informations numériques et pour prendre des décisions fondées sur leur analyse.

Ce cours est une introduction aux concepts de base en statistique.

Il met l’accent sur l'application pratique de la statistique. Les étudiants apprendront :

  • Quand et comment les outils statistiques peuvent être utilisés pour analyser les données
  • Comment choisir et appliquer des outils statistiques aux sources de données
  • De quelle façon interpréter les études quantitatives produites par les autres.

L’ensemble du cours repose sur l’utilisation du logiciel libre et gratuit R, dont l’installation et la manipulation seront expliquées pas à pas en semaine 0.

Public visé

Ce cours s’adresse à toute personne intéressée à titre personnel ou professionnel, par la manipulation, la compréhension et l’analyse de données numériques, et ce quel que soit son secteur ou son projet professionnel.

Pour suivre ce cours, un niveau bac général scientifique est conseillé, bien qu'aucun pré-requis spécifique ne soit nécessaire.

L'enseignant

Avner Bar-Hen

Avner Bar-Hen est Professeur de statistique à l’Université Paris Descartes (Sorbonne Paris Cité).

Il est également membre de la commission « Évaluation, stratégie et prospective » du Haut Conseil de la Santé Publique, et de la section 3 de la CNECA (Commission Nationale des Enseignants-Chercheurs relevant du ministre chargé de l'Agriculture), ainsi que du conseil scientifique du Haut Conseil des Biotechnologies.

Ses sujets de prédilection : les statistiques spatiales en écologie et l’analyse de données génomiques.

L'équipe pédagogique

Christine Keribin

Christine Keribin est maître de conférences à l'université Paris Sud, membre du laboratoire de mathématiques d'Orsay et de l'équipe INRIA-Select. Ses travaux de recherche portent sur les modèles de mélanges et la sélection de modèle, en particulier dans le cadre de la classification croisée (co-clustering); elle développe actuellement des collaborations en génomique tumorale et en pharmacovigilance.

Etienne Côme

Etienne Côme est chargé de recherche à l'Institut Français des Sciences et Technologies des Transports de l'Aménagement et des Réseaux. Ses travaux de recherche portent sur l'analyse et la visualisation de données et plus particulièrement sur l'analyse des traces numériques de déplacement (données billettiques, bluetooth, GPS, etc.).

USPC

Supported by Université Sorbonne Paris Cité

IDEX

Ce cours est financé sur le programme d'Investissements d'Avenir lancé par l'Etat et mis en oeuvre par l'ANR.


Organisation du cours

Le cours se déroule pendant cinq semaines à compter du 26 mars 2015.

Chaque semaine constitue un module consacré à un concept statistique spécifique, organisé en différentes séquences et abordé sous différentes formes (vidéos, textes, quizz).

Le forum du cours, animé par l’équipe pédagogique, est consacré aux échanges entre les étudiants, au travail collaboratif et aux questions/réponses avec l'enseignant.

Plan du cours

Les modules sont organisés afin d'assurer une progressivité dans la complexité des concepts abordés.

Semaine 0 : Introduction à R

  • A. Installation de R et Rstudio
  • B. Premiers pas : créer des objets
  • C. Importer des données (format texte, excel, etc.)
  • D. Manipuler des données
  • E. Ecrire une fonction

Semaine 1 : Comment résumer l’information d’une variable

  • A. Que mesure-t-on ?
  • B. Caractérisation d'une variable
  • C. Représentation graphique
  • D. Indices résumés : paramètres de localisation
  • E. Indices résumés : paramètres de dispersion
  • F. Représentation graphique resumée : le box-plot

Semaine 2 : Analyses bidimensionnelles

  • A. Cas de deux variables qualitatives : tableau de contingence
  • B. Cas de deux variables qualitatives : représentation graphique
  • C. Cas de deux variables quantitatives : covariance et corrélation
  • D. Cas de deux variables quantitatives : introduction à la régression
  • E. Principe d'un test
  • F. Application des tests en régression

Semaine 3 : Analyses multidimensionnelles

  • A. Introduction aux méthodes factorielles
  • B. Définition d'une distance entre individus
  • C. Cas de p>2 variables quantitatives : projection et analyse en composantes principales
  • D. Cas de p > 2 variables quantitatives : Interprétation de l’analyse en composantes principales (ACP)
  • E. Cas de p > 2 variables qualitatives : analyse factorielle des correspondances (AFC)

Semaine 4 : Apprentissage/Classification

  • A. Préalable
  • B. Classification Ascendante Hiérarchique
  • C. Nuées dynamiques (k-means)
  • D. Classement

Disponibilité moyenne nécessaire

Le temps de travail nécessaire est précisé au début de chaque semaine et en en-tête de chaque séquence. En moyenne le cours nécessite une charge de travail d'environ 6 à 8 heures par semaine. Au total, il est recommandé de consacrer entre 35 et 40 heures à ce cours, afin d'acquérir de manière durable et transférable les compétences visées par la formation.

Conditions d'utilisation

  • du cours : Licence Creative Commons BY NC SA. L'utilisateur doit mentionner le nom de l'auteur, il peut exploiter l'œuvre sauf dans un contexte commercial, il peut créer une œuvre dérivée de l'œuvre originale si l'œuvre dérivée est diffusée sous la même licence que l'œuvre originale.
  • du contenu produit par les internautes : Licence Creative Commons BY NC SA L'utilisateur doit mentionner le nom de l'auteur, il peut exploiter l'œuvre sauf dans un contexte commercial, il peut créer une œuvre dérivée de l'œuvre originale si l'œuvre dérivée est diffusée sous la même licence que l'œuvre originale.