MOOC Fondamentaux en statistique

About the course

La statistique est la science de la collecte, de l’organisation et de l’interprétation des données numériques. Une compétence en statistique est essentielle pour comprendre et prendre des décisions basées sur l’analyse de l’information numérique.

Ce cours est une introduction aux concepts de base en statistiques et ne nécessite aucun prérequis.

L’accent sera mis sur l’application pratique aux questions de santé publique, plutôt que le développement théorique et mathématique. Les étudiants apprendront comment choisir et appliquer des outils statistiques aux sources de données, quand et comment les outils statistiques peuvent être utilisées pour analyser les données, et la façon d’interpréter les études quantitatives des autres.

Course team

Portrait_AVNER

Avner Bar-Hen est Professeur de statistique à l’Université Paris Descartes (Sorbonne Paris Cité).

Il est également membre de la commission « Évaluation, stratégie et prospective » du Haut Conseil de la Santé Publique, et de la section 3 de la CNECA (Commission Nationale des Enseignants-Chercheurs relevant du ministre chargé de l’Agriculture), ainsi que du conseil scientifique du Haut Conseil des Biotechnologies.

Ses sujets de prédilection : les statistiques spatiales en écologie et l’analyse de données génomiques.

Christine Keribin

Christine Keribin est maître de conférences à l’université Paris Sud, membre du laboratoire de mathématiques d’Orsay et de l’équipe INRIA-Select. Ses travaux de recherche portent sur les modèles de mélanges et la sélection de modèle, en particulier dans le cadre de la classification croisée (co-clustering); elle développe actuellement des collaborations en génomique tumorale et en pharmacovigilance.

Portrait_ETIENNE

Etienne Côme est chargé de recherche à l’Institut Français des Sciences et Technologies des Transports de l’Aménagement et des Réseaux. Ses travaux de recherche portent sur l’analyse et la visualisation de données et plus particulièrement sur l’analyse des traces numériques de déplacement (données billettiques, bluetooth, GPS, etc.).

Format

Le cours se déroule pendant cinq semaines à compter du 26 mars 2015.

Chaque semaine constitue un module consacré à un concept statistique spécifique, organisé en différentes séquences et abordé sous différentes formes (vidéos, textes, quizz).

Le forum du cours, animé par l’équipe pédagogique, est consacré aux échanges entre les étudiants, au travail collaboratif et aux questions/réponses avec l’enseignant.

Course plan

Semaine 0 : Introduction à R

  • A. Installation de R et Rstudio
  • B. Premiers pas : créer des objets
  • C. Importer des données (format texte, excel, etc.)
  • D. Manipuler des données
  • E. Ecrire une fonction

Semaine 1 : Comment résumer l’information d’une variable

  • A. Que mesure-t-on ?
  • B. Caractérisation d’une variable
  • C. Représentation graphique
  • D. Indices résumés : paramètres de localisation
  • E. Indices résumés : paramètres de dispersion
  • F. Représentation graphique resumée : le box-plot

Semaine 2 : Analyses bidimensionnelles

  • A. Cas de deux variables qualitatives : tableau de contingence
  • B. Cas de deux variables qualitatives : représentation graphique
  • C. Cas de deux variables quantitatives : covariance et corrélation
  • D. Cas de deux variables quantitatives : introduction à la régression
  • E. Principe d’un test
  • F. Application des tests en régression

Semaine 3 : Analyses multidimensionnelles

  • A. Introduction aux méthodes factorielles
  • B. Définition d’une distance entre individus
  • C. Cas de p>2 variables quantitatives : projection et analyse en composantes principales
  • D. Cas de p > 2 variables quantitatives : Interprétation de l’analyse en composantes principales (ACP)
  • E. Cas de p > 2 variables qualitatives : analyse factorielle des correspondances (AFC)

Semaine 4 : Apprentissage/Classification

  • A. Préalable
  • B. Classification Ascendante Hiérarchique
  • C. Nuées dynamiques (k-means)
  • D. Classement

Français

Pour suivre ce cours, un niveau bac général scientifique est conseillé, bien qu’aucun pré-requis spécifique ne soit nécessaire.

Ce cours s’adresse à toute personne intéressée à titre personnel ou professionnel, par la manipulation, la compréhension et l’analyse de données numériques, et ce quel que soit son secteur ou son projet professionnel.

Social networks

Partners

X