Ceux qui manipulent les données au quotidien sont au courant du problème épineux que sont les données manquantes.
J’aimerais vous présenter dans ce billet le package DataExplorer de R qui permet de visualiser graphiquement les données dans une table.
J’utilise spécifiquement ce package pour avoir une idée de la fréquence des données manquantes sur chaque variable de mon jeu de données.
Je vais vous présenter ci-dessous un exemple de la visualisation des données manquantes sur la table mtcars de R en utilisant ce package.
` ` `{r}
# Librairie
Library(DataExplorer)
# Importation de la table mtcars
data(“mtcars”) head(mtcars)
` ` `
A partir de la table initiale, je vais créer une nouvelle table de plus petite taille afin de simplifier la lecture de ce billet.
` ` `{r}
don <- mtcars [1:10, 1:4]
don
` ` `
La table de 10 lignes et 4 colonnes ainsi créée ne contient pas de valeurs manquantes. C’est le même résultat que l’on obtient en visualisant le graphe des valeurs manquantes via la fonction plot_missing du package ci-dessus cité :
` ` `{r}
plot_missing(don)
` ` `
Je vais maintenant introduire manuellement des valeurs manquantes dans cette table.
` ` `{r}
don$mpg[1:3] <- NA
don$cyl[1:2] <- NA
don$disp[7:10] <- NA
don
` ` `
La fonction plot_missing nous permet de visualiser rapidement l’ensemble des colonnes contenant des valeurs manquantes et nous affiche le pourcentage de valeurs manquantes pour chaque colonne du tableau, ce qui est très pratique quand nous faisons des analyses sur de très grosses tables.
` ` `{r}
plot_missing(don)
` ` `
Le seul inconvénient que je vois dans l’utilisation de cette fonction c’est le code couleur qui me semble être un peu décalé. Je m’attends par exemple à avoir de la couleur verte quand c’est GOOD et du rouge quand c’est OK (moins bon)…
Willie Lekeufack – Associé chez Cents Consulting