Séance 2 : "Organiser et traiter plus facilement ses données avec R : utiliser le package dplyr"

the Thursday 07 February 2019 at l'EHESS, 54 Bvd Raspail 75006 Paris (salle BS1_05) de 9h30 à 12h

Séminaire RUSS (R à l'usage des sciences sociales)

 

Elodie Baril (Ined) et Arnaud Bringé (Ined)

 La gestion de données sous R apparait souvent compliquée et peut constituer un frein pour des utilisateurs habitués au management de données sous d’autres logiciels statistiques ou des débutants en R. Cette séance s'adresse aux personnes souhaitant s'initier à cette syntaxe claire et cohérente, sous formes de verbes permettant de traiter et manipuler facilement les données contenues dans une ou plusieurs tables R.

Ce package, proposé en 2016, fait partie du tidyverse (https://www.tidyverse.org/) et a l’avantage de présenter une grammaire unifiée. Il semble aujourd’hui incontournable pour qui souhaite traiter ses données avec R en toute autonomie.

Grâce à sa syntaxe plus « naturelle » dplyr permet de sélectionner des lignes/colonnes, créer des variables, regrouper de données et enfin calculer des statistiques descriptives.  Des fonctions servent également à renommer les variables, ordonner les données, fusionner des tableaux très simplement. Elles sont en général plus rapides que leur équivalent sous R de base et sont adaptées au traitement de données de grande dimension.

Nous verrons à l’aide d’un exemple concret comment préparer ses données, expliciter les éléments de la grammaire de dplyr, enchaîner les opérations élémentaires pour constituer un fichier d’analyse et enfin calculer facilement des statistiques agrégées.

La capacité maximum de la salle étant atteinte, les inscriptions sont closes