Data Science,
Séance 5 : dplyr, tidyr

Etienne Côme

21 novembre 2019

dplyr,tidyr

2 libraries pour faciliter la manipulationde données (Cheatsheet)
! Introduction d’un nouvel opérateur !
Enchainer des opérations introduction de l’opérateur de pipe :

%>%

 x%>% f(y) =f(x,y) 
 x%>% f(y) %>% g(z) = g(f(x,y),z) 

Faciliter la lecture du code produit

dplyr,tidyr

Sélection de lignes “filter”

data %>% filter(condition)
data %>% distinct(v1)
data %>% sample_n(15,replace=FALSE)
data %>% sample_frac(0.2)
data %>% top_n(5,v1)
data %>% slice(20:30)

dplyr,tidyr

Sélection de colonnes “select”

data %>% select(v1,v2)
data %>% select(contains('var'))
data %>% select(-v3)
...

dplyr,tidyr

Transformation “mutate”

data %>% mutate(v3=v1/v2)

 data %>% rename(v4=v1)

dplyr,tidyr

Résumé “summarise”

data %>% summarise(v1m=mean(v1))
data %>% count(v4)
...

Avec des données groupées “group_by”


data %>% group_by(group) %>% summarise(v1m=mean(v1))
data %>% group_by(group) %>% summarise(v1med=median(v1))
...

dplyr,tidyr

jointure “X_join”

 
data1 %>% left_join(data2)
data1 %>% right_join(data2)
data1 %>% inner_join(data2)
data1 %>% full_join(data2)

dplyr,tidyr

Remise en forme

  • gather : format large -> format long
  • spread : format long -> format large
  • separate : split d’une colonne
  • unite : concatenation de colonnes

dplyr,tidyr, exercice

Prénoms

Faire une carte représentant le prénoms masculin le plus fréquement donnés aux enfants nés en 2005 pour l’ensemble des départements français. Les données à utiliser sont disponnibles dans le répertoire data :

dplyr,tidyr, exercice