Formation R/Stat module 3 – Les modèles linéaires généralisés (GLM) et extensions

Agenda

6 séances de 4h
Prévoir un travail intensif en dehors de ces heures pour faire les exercices et assimiler le contenu qui est assez dense ! La résolution des exercices n’est pas prévue dans les 6x4h.

Description

Les GLM sont devenus un outil très largement utilisés aujourd’hui de par leur flexibilité et la possibilité de les étendre à de nombreux cas plus complexes (modèles mixtes, modèles additifs, modèles non linéaires,…). De nombreux tests statistiques classiques (test de student, anova, anova mixte, régression linéaire, régression logistique, test de G, …) sont en fait des cas particuliers de GLM. L’angle d’approche de cette formation sera de partir de ces tests simples connus de la plupart des scientifiques et de montrer comment on les réalise avec une approche GLM puis de complexifier progressivement les données de façon à être capables d’analyser des jeux de données plus complexes.
On utilisera majoritairement des données simulées qui permettent de bien comprendre la structure sous-jacente à ces modèles. Progressivement on ira vers des jeux de données plus proches de la réalité avec leur lot de problèmes…
La formation est résolument orientée vers la pratique. La théorie n’est abordée que dans la mesure où elle permet un travail de statistiques appliquées de meilleure qualité.

Pour qui ?

On considère comme prérequis l’utilisation basique de R : savoir importer des données, savoir extraire une partie de son jeu de données (subscripting), avoir quelques notions de base des graphiques en R.
On considère aussi comme acquises les bases de l’inférence (qu’est-ce qu’une erreur standard, un intervalle de confiance, un test d’hypothèse nulle).
Autrement dit le contenu du début (première moitié) des modules 1 et 2 de la formation R/stats sont requis.

Contenu

Introduction
Modèle linéaire général
- Régression simple
- Comparaison de moyennes entre 2 groupes (test de student)
- Comparaison de moyennes entre plusieurs groupes (Anova 1)
- Comparaisons multiples (contrastes, post-hocs, Tukkey, etc…)
- Régression multiple
- Mélange de variables explicatives qualitatives et quantitatives (ANCOVA)
- Interactions
- Transformations de variables, régression polynomiale
Modèle linéaire généralisé (GLM):
- Régression binomiale (régression logistique, analyse probit)
- Régression de Poisson
- Surdispersion
- Tables de contingence avec les modèles log-linéaires (test de G proche du Chi carré)
Extensions des GLM :
- Modèles mixtes (GLMM) : facteurs fixes, facteurs aléatoires, données groupées, pseudoréplication, blocs aléatoires, mesures répétées dans le temps, etc…
- Sélection de modèles avec les AIC (underfitting/overfitting, model averaging, multimodel inference,…)
Conditions d’applications et problèmes avec des vrais jeux de données
- Présupposés du modèle
  - Adéquation
  - Indépendance (données groupées, répétées dans le temps etc…)
  - Linéarité
  - Variance des résidus (heteroscedasticité, surdispersion)
  - Distribution des résidus (normalité etc..)
- Autres problèmes :
  - Données extrèmes
  - Multicolinéarité
  - Overfitting
  - Faut-il centrer ou standardiser les données ?
  - Types de tests (Sum of Squares type I, II, III), tests par permutation,…

Supports de la formation

Pdfs des présentations :

Introduction : l’analyse de données aujourd’hui (data science) et le processus d’analyse des données de A à Z
Carte des méthodes statistiques : Essai de représentation synthétique et de classification (univariée/multivariée – supervisée/non supervisée) des méthodes fréquemment utilisées en Ecologie/Agronomie
GLMs : Modèles linéaires généralisés. Il y a une version plus récente mais simplifiée ici utilisée en guise de rappel. On y a ajouté les représentations graphiques avec le package visreg et la première partie sur les GLM proprement-dits a été clarifiée. Il y a aussi quelques informations en plus sur les indicateurs de qualité des modèles (RMSA, MAE, AUC).
Modèles Mixtes : aussi appelés modèles multiniveaux ou modèles hiérarchiques
Nouvelle version avec une synthèse des étapes à suivre pour l’analyse de données
AIC : Sélection de modèle par AIC et « multimodel inference » + « Model averaging »
GLMs en pratique (Partie1 – Partie2): révision et approfondissement des conditions d’application et des problèmes potentiels : comment les diagnostiquer et quelles sont les pistes de solutions (pdf trop gros pour être placé ici pour le moment).

Exercices

Il y a quelques erreurs qui traînent (pas trop grosses j’espère). Écrivez-moi si vous en trouvez. Une version corrigée devrait bientôt être mise en ligne

Énoncés des exercices (les jeux de données sont inclus)
Exercices résolus

Scripts

Vous trouverez ici 2 scripts contenant des fonctions régulièrement utilisées pendant la formation en particulier pour faciliter l’exploration des résultats des GLMs (diagplot, diagplot2, pairs2, corheatmap, …)

Divers

Exemple de représentation graphique d’un modèle binomial dans un tableur (LibreOffice Calc)

Exemple d’analyse complète d’un jeu de données

Le but de cet exemple est d’illustrer l’entièreté du processus d’analyse de données y compris les étapes de vérification et nettoyage du jeu de données et l’étape importante d’exploration des données ainsi que de vérification des conditions d’application des modèles.

On a analysé un « vrai » jeu de données (donc avec des problèmes…) sur l’abondance d’une espèce de libellule et essayé de comprendre les facteurs environnementaux expliquant cette abondance. Une question classique en sciences environnementales. Le rapport d’analyse complet est disponible ici (ainsi que le script) et l’article original présentant l’étude. Une carte interactive n’a pas pu être intégrée au rapport pdf et est disponible ici. Enfin vous pouvez répéter ces analyses sur base des jeux de données 1 et 2 et des couches carto suivantes.

Cet exemple a été utilisé notamment dans le cadre d’un cours donné à l’UCL où les étudiants doivent en guise d’exercice analyser également un « vrai » jeu de données complexe : des données de distribution d’espèces en Belgique publiquement disponibles sur la plate-forme GBIF (coccinelles, papillons, oiseaux, plantes,…) à expliquer en fonction de ~150 variables environnementales publiques également (climat, sol, occupation du sol,…).

Un document présente le processus et les questions auxquelles il faut répondre pour cet exercice. Les jeux de données ont été pré-nettoyés et mis en forme entièrement avec R. Pour vous faire une idée de leur contenu vous pouvez voir une présentation d’un des jeux de données de distribution d’espèces GBIF et une présentation des données environnementales. Si vous voulez une copie de ces jeux de données, il sont disponibles sur demande ainsi que les scripts qui ont permis le nettoyage et les données brutes.