Dans ce TP nous allons pratiquer un peu de R, en explorant les données de la série Game of thrones avec les librairies dplyr
et sf
et nous les visualiserons à l’aide de la bibliothèque ggplot2. Les données tabulaires utilisées ont été collectées par Jeffrey Lancaster et sont issues de ce projet. Les données spatiales ont été créer par ESRI et sont disponnibles ici. Pour débuter vous pouvez cloner le repository https://github.com/comeetie/got afin de récupérer l’ensemble des données de ce tp.
de préférence à de la libraririe readr
pour une meilleure reconnaissance automatique des types des variables.
et summary
sur les différentes tables pour bien comprendre leurs structures et leurs relations. Faites un schéma des relations entre les différentes tables.
nrow, ncol
ou dim
pour connaitres les dimensions des data.frame. Utiliser la fonction names
pour connaitres le noms des colones et l’opérateur %in%
ou la fonction intersect
par exemple pour trouver les variables communes.
comme précédement mais selectionez les bonnes ligne à l’aide d’un vecteur booléen consrtuit à l’aide de la colonne épisode id.
et sort
et head
pour faire une jointure avec la table appearences.
et summarize
pour faire une aggrégation.
lors de l’aggrégation et faites des jointures pour pouvoir aggréger à l’échelle de l’épisode.
appearances %>%filter(name=="Jon Snow") %>%
left_join(scenes) %>% left_join(episodes) %>%
group_by(name,episodeId,episodeTitle) %>%
summarise(screenTime=sum(duration)) %>%
arrange(desc(screenTime)) %>% head(1)
appearances %>% left_join(appearances,by=c("sceneId"="sceneId")) %>%
filter(name.x!=name.y) %>%
left_join(scenes %>% select(sceneId,duration)) %>%
group_by(name.x,name.y) %>%
summarise(commonTime=sum(duration)) %>%
et un summary
puis servez vous de la fonction pivot_wider
de la librairie tidyr
pour transformer le résultat en format large et compléter les valeures manquantes avec des zéros.
et rowSums
pour calculer la distance de manhatan netre chaque ligne de la matrice précedente. Réalisez ensuite un clustering hierarchique sur cette matrice et tracer le dendogramme. Vous devriez obtenir une figure similaire a la suivante:
mais spécifiez qu’aucune aggrégation ne doit être faites avec l’option stat='identity'
mais spécifiez qu’aucune aggrégation ne doit être faites avec l’option stat='identity'
et geom_area
pour calculer le nombre de morts cumulé et le temps passé. Uilisez geom_line
préparez un vecteur avec les temps de début de chaque saison et modifiez les axes avece les fonction scale_x_continuous
et scale_y_continuous
# nombre de morts cumulé et temps passé
deaths = scenes %>% select(nbdeath,duration,location,episodeId) %>%
# instant de changement de saison
# ? lag
season_t = episodes %>% mutate(ld=lag(total_duration)) %>%
mutate(ld=if_else(is.na(ld),0,ld), td = cumsum(ld)) %>%
filter(episodeNum==1) %>% pull(td)
# geom_line + labels personalisés
ggplot(deaths) + geom_line(aes(x=t/3600,y=tdeath)) +
scale_x_continuous("",expand = c(0,0),breaks = season_t/3600,
labels = paste("Saison",1:8),)+
scale_y_continuous("Nombre de morts cumulés", expand=c(0,0))+
ggtitle("Evolution du nombre de mort au cours du temps")
et dplyr.
et paramètrez les échelles et le thème.
labels = scenes_stats %>% filter(duration_max>400|nb_scenes>200)
scale_x_continuous("Nombre de scène",limits = c(0,280))+
scale_y_continuous("Durée de la scène la plus longue",limits = c(100,800))+
scale_color_brewer("Saison",palette ="Spectral")+
guides(colour = "legend", size = "legend")+
labels = scenes %>% filter(duration>400)
ggplot(scenes %>% left_join(episodes))+
geom_text(data=labels ,aes(x=factor(episodeId),y=duration,label=subLocation),hjust = "right",vjust="top")+
scale_x_discrete("N° épisode",as.character(seq(1,73, by=5)))+
ylab("Durée des scènes (min)")+
ggtitle("Répartition des durées des scènes par épisodes")+
Construisez une table contenant pour chaque personnage et chaque saison le temps de présence à l’écran. Filtrez cette table pour ne conservez que les personnages qui appaissent plus d’une heure sur l’ensemble des saisons. Réordonner les niveaux du facteur name pour que les niveaux soient trier par ordre croissant de temps d’apparition.
Réalisez un bar-plot stacké de ces données identique a la figure suivante. Servez vous de color-brewer pour retrouver la palette utilisée.screenTimePerSeasons = appearances %>% left_join(scenes) %>%
left_join(episodes) %>%
group_by(name,seasonNum) %>%
summarise(screenTime=sum(duration)) %>%
screenTimeTotal = screenTimePerSeasons %>%
group_by(name) %>%
mainCharacters = screenTimeTotal %>%
filter(screenTimeTotal>60*60) %>%
arrange(screenTimeTotal) %>%
mutate(nameF=factor(name,levels = name))
data = screenTimePerSeasons %>% left_join(mainCharacters) %>% filter(!is.na(nameF))
scale_fill_brewer("Saison",palette = "Spectral")+theme_bw()+
geom_text(data=mainCharacters,aes(y=nameF,x=screenTimeTotal/60+5,label=paste(round(screenTimeTotal/60),'min')),hjust = "left")+
scale_x_continuous("Temps d'apparition (min)",breaks = seq(0,750,by=120),limits = c(0,780),expand = c(0,1))+
ylab("")+ggtitle("Temps d'apparition cumulé par personnage et saison")
sous forme de fichiers shapefile avec la libraries sf
et chargez les dans des data-frames aux noms explicites, vous spécifierez lors de l’import que le système de coordonnées est (comparable avec) le système wgs-84 dont le code crs est 4326. Observez les différentes tables créées : dimensions, variables, type de géométrie, méta-données.
et l’agurment crs
et les fonctions classiques des data.frames nrow, dim, summary,…
pour calculer les distances en m entre les localisations de taille supérieur à 5. Quelles villes sont les plus proches ? Les plus éloignées ?
pour faire une jointure spatiale en la table location et la table kingdoms (political).
CastlesPerKingdoms= st_join(locations,kingdoms) %>%
filter(type=="Castle") %>%
st_drop_geometry() %>%
et lapply
castles_cover = st_covers(kingdoms,locations %>% filter(type=="Castle"))
kingdoms$nbcastles = sapply(castles_cover,length)
kingdoms %>% arrange(desc(nbcastles))
devrait vous faciliter la tâche mais n’oubliez pas non plus la fonction st_area
pour calculer les aires ni les fonctions de base de dplyr
de dplyr
après un group_by
par personnage pour construire une colone contenant la localisation précédente du personnage. Faire une double jointure avec la table scenes_locations et utilisez la fonction st_distance
en utilisant l’option by_element
pour calculer la distance parcouru entre deux scènes et enfin résumez le tout grâce à une somme.
main_char= c("Jon Snow", "Tyrion Lannister","Daenerys Targaryen","Sansa Stark","Cersei Lannister","Arya Stark")
distance_characters = scenes %>% left_join(appearances) %>%
filter(name %in% main_char) %>%
group_by(name) %>%
mutate(previous_location=lag(location)) %>%
filter(location!=previous_location) %>%
left_join(scenes_locations,by=c("previous_location"="location")) %>%
mutate(dist=st_distance(geometry.x,geometry.y,by_element = TRUE)) %>%
vous donnera les localisations des lieux référencés dans la table scène. Vous n’utiliserez pas la fonction lag de dplyr.
pour groupez ces points dans muntipoint qui conservera l’ordre (l’option do_union
devrait vous intéresser). Convertissez ces points en ligne à l’aide de la fonction st_cast
et calculer la longueur de ces lignes.
distance_characters = scenes %>% left_join(appearances) %>%
filter(name %in% main_char) %>%
left_join(scenes_locations) %>%
st_as_sf() %>%
group_by(name) %>% summarise(do_union=FALSE) %>% sf::st_cast("LINESTRING") %>% mutate(dist=as.numeric(st_length(geometry))/1000)
et de geom_sf_text
et vous inspirer de cette carte:
ainsi que les options du système de coordonées du graphique avec coord_sf
borderland = "ivory3"
geom_sf(data=landscapes %>% filter(type=="forest"),fill=colforest,col=colforest)+
geom_sf_text(data= locations %>% filter(size>4,name!='Tolos'),aes(label=name),size=2.5,family="Palatino", fontface="italic")+
theme_minimal()+coord_sf(expand = 0,ndiscr = 0)+
theme(panel.background = element_rect(fill = colriver,color=NA)) +
labs(title = "GoT",caption = "Etiennne Côme, 2020",x="",y="")
et joindre celle-ci avec la table précéndente. Enfin réalisez une carte avec des symboles proportionels pour visualisez ces données.
contenant une colonne name
avec les noms des 6 personnages principaux de la série “Jon Snow”, “Tyrion Lannister”,“Daenerys Targaryen”,“Sansa Stark”,“Cersei Lannister”,“Arya Stark” et une colonne geometry identique pour tous les personnages contenant l’union de tout les polygones de terre et d’île.
pour extraire les géométrie uniquement et st_union
plusieurs fois pour combiner les polygones en un unique multi-polygone. Enfin, utilisez st_as_s
f pour convertir une data.frame avec une colone geometrie et une colonne name en data.frame spatiale.
main_char= c("Jon Snow", "Tyrion Lannister","Daenerys Targaryen","Sansa Stark","Cersei Lannister","Arya Stark")
landpol = st_union(st_geometry(land))
islandpol = st_union(st_geometry(islands))
background = st_as_sf(data.frame(name=main_char,geometry=rep(backpol,6)))
avec les deux data.frame construites précédement.
geom_sf(data=loc_time_mc%>% filter(!is.na(duration)),aes(size=duration/60,color=name))+
geom_sf_text(data=loc_time_mc%>% filter(duration>60*60),aes(label=location),color="#000000",vjust="bottom",family="Palatino", fontface="italic")+
coord_sf(expand = 0,ndiscr = 0)+
scale_size_area("Durée (min) :",max_size = 12,breaks=c(30,60,120,240))+
theme(panel.background = element_rect(fill = colriver,color=NA),
text = element_text(family="Palatino",face = "bold",size = 14),
legend.key = element_rect(fill="#ffffff"),
) +
labs(title = "Temps de présence des personnage principaux",caption = "@comeetie, 2020",x="",y="")
