Formation R/Stat module 2 – Introduction aux statistiques : Notions de base et planification expérimentale

Agenda :

2 séances de 4 à 6h.

Les deux séances peuvent être suivies de manière presque totalement indépendantes.

Description

Ce module 2 se divise en deux sections relativement indépendantes :

2.1 : Notions de bases en statistiques

On aborde dans cette partie les trois grands domaines des statistiques : représentation graphique, estimation de paramètre et inférence en insistant sur ce dernier point (p valeurs, intervalles de confiance,…) qui pose en général le plus de difficulté. On ne verra pas à proprement parler comment faire des tests statistiques classiques (student, chi2, anova). On se concentrera sur l’interprétation de ce qui est commun à la plupart de ces tests (test d’hypothèse nulle, erreurs standard, …).

2.2 : Planification expérimentale : quels sont les caractéristiques d’une étude « idéale » ?

On ne verra PAS dans cette partie un bestiaire des designs expérimentaux classiquement utilisés en analyse de données (blocs aléatoires complets, carrés latins, split plot, etc) et on ne verra pas comment les analyser.

On examinera toute une série de critères qui si il ne sont pas remplis ou pris en compte peuvent rendre les résultats d’une étude complètement inutilisables ou du moins réduire fortement l’impact des conclusions : témoins, échantillonnage aléatoire, randomisation, pseudoréplication,… On verra de nombreux exemples fortement inspirés de faits réels des conséquences parfois dramatiques d’un design conçu de manière sous optimale (tout en gardant en tête qu’un design parfait n’existe pas) …

On examinera ensuite ce qu’est la puissance statistique et comment on peut augmenter la puissance statistique dans une étude. On abordera enfin rapidement comment on peut aujourd’hui faire relativement facilement des analyses de puissance par simulation.

Pour qui ?

Le module 2 ne demande pas absolument un travail personnel intensif en dehors des heures de formation contrairement aux deux autres modules. Il peut être vu comme une révision de notions devenues un peu vagues chez certains scientifiques, comme une base de réflexion pour améliorer la manière dont on récolte ses données, ou pour repérer les erreurs/imperfections les plus fréquentes, etc…

Module 2.1 : On utilisera un peu de R dans se module pour montrer comment on applique les notions théoriques dans R mais on peut très bien suivre se module sans connaître R. Aucune notion mathématique/statistique n’est requise si on a un minimum de bagage scientifique. On ré-expliquera les bases (p valeurs etc…) en utilisant une approche non conventionnelle d’abord (randomisation, bootstrap) pour des raisons didactiques, puis on utilisera une approche plus conventionnelle (distribution normale, de student, etc…).

Le module 2.1 peut vous être utile si vous pensez par exemple que p>0.05 veut dire qu’il n’y a pas de différence entre deux échantillons ou que p = 0.00001 veut dire qu’il y a une très forte différence entre deux échantillon, si vous pensez que quand on a un coefficient de corrélation aussi grand que 0.85 les p-valeurs ne sont pas nécessaires, si vous faites une soupe entre erreur standard, écart type, standard deviation, intervalle de confiance, variance, etc…, si vous pensez que le salaire moyen est un bon indicateur de la richesse des salariés d’une entreprise,…

Module 2.2 : dans cette partie on n’utilisera pas du tout R et aucune formule mathématique. Aucune notion n’est requise si vous avez un minimum de bagage scientifique.

Ce module 2.2 peut vous être utile si vous pensez réellement que vos échantillons sont prélevés aléatoirement sur le terrain, si vous n’avez jamais entendu parler de pseudo-réplication ou que vous pensez que c’est un problème peu fréquent, si vous vous demandez comment déterminer quelle taille d’échantillonnage est « suffisante » pour une étude, si vous ne voyez pas l’intérêt de faire des témoins, …

Contenu :

2.1 : Introduction

  • Définitions (population, échantillon, probabilité, …)
  • Estimation (moyenne, médiane, quantile, écart-type, variance, covariance, corrélation, régression)
  • Inférence : erreur standard et intervalle de confiance par bootstrap et par distributions théoriques (loi Normale etc…)
  • Inférence : tests d’hypothèse nulle (p valeurs) par permutation (=randomisation) et par distribution théorique
  • Inférence : tests d’hypothèse nulle : les risques de mauvaise interprétation

2.2 : Planification expérimentale

  • Généralités : approches expérimentale vs observative vs semi-expérimentale, compromis qualité – coût – faisabilité, …
  • Les « règles d’or » :
    • question et population d’intérêt bien définies
    • adéquation des mesures
    • réplication
    • échantillonnage aléatoire
    • randomisation des mesures et des traitements
    • indépendance des échantillons
    • contrôles judicieusement choisis
  • Puissance statistique : qu’est-ce que c’est ? Comment la modifier ? Comment calculer la taille d’échantillon nécessaire pour une étude (analyse de puissance par simulation) ?

Supports de la formation

 

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *