Agenda
6 séances de 4h
Prévoir un travail intensif en dehors de ces heures pour faire les exercices et assimiler le contenu qui est assez dense !
Description :
On apprend d’abord les bases : qu’est-ce qu’une ligne de commande, une console, un script, comment importer ses données dans R et vérifier qu’il n’y a pas de problèmes dans le jeu de données, comment extraire une partie de son jeu de données (par exemple extraire uniquement les données de l’année 2013, uniquement les échantillons où on a observé au moins 3 individus, etc…), …
On enchaîne ensuite sur des notions un peu plus avancées (boucles, fonctions, agrégation,…) qui permettent au final de faire à peu près tout ce qu’on peut imaginer avec des données. On verra aussi comment interagir avec le système par exemple pour manipuler des fichiers en masse (par exemple rassembler en un seul fichier les sorties d’un chromatographe réparties dans 500 fichiers séparés).
Dans ce module on ne fait pas de statistiques (tout au plus quelques calculs de moyennes). On apprend uniquement à utiliser le langage R pour manipuler ses données pas à faire un test de Student ou un Chi carré ! Ceci-dit, après avoir appris le contenu de se module, on devrait être capable d’apprendre par soi-même comment faire un test de Student dans R.
Pour qui ?
Le profil idéal est une personne qui est amenée à manipuler et explorer des données très régulièrement sans avoir spécialement besoin d’analyses statistiques poussées.
Aucune connaissance ni en R ni en statistiques n’est requise. On part d’un niveau 0 pour un public qui n’a jamais fait de programmation et qui n’a jamais utilisé un logiciel en ligne de commande mais on atteint en quelques séances un niveau qui permet de faire de nombreuses manipulations de données avancées. Il est très probablement inutile de suivre cette formation si on a pas le temps de s’investir et de pratiquer en dehors des heures prévues. Comme pour l’apprentissage d’une langue humaine la pratique est indispensable…
Pour ceux à qui çà parle on fera régulièrement un parallèle avec le langage SQL.
Contenu :
-
Présentation générale (à quoi R peut-il servir, logiciels libres, avantages/inconvénients, …)
-
Premier contact (interface, utilisation efficace de l’aide, fonctions de base,…)
-
Les objets (vecteurs, matrices, listes, data.frames, facteurs, dates)
-
Importer des données
-
Extraire des données (subscripting)
-
Manipulation de caractères (regular expressions) et de dates
-
Boucles
-
Fonctions personnalisées
-
Fusionner des tableaux (merge – JOIN)
-
Agrégation
-
Reshaping (format long vers format court, tableaux croisés,…)
-
Introduction aux graphiques (Base et ggplot)
-
Introduction au reporting avec knitr (génération de rapports automatiques)
Supports de la formation
- Introduction et Manipulation de données avec R
- Graphiques (Base et ggplot) et reporting (knitr)
- Exemples de rapports knitr
- Exercices : énoncés, corrigés et jeux de données