ggplot2 - Présentation

ggplot2 est un package R spécialement conçu pour la visualisation de données et fournissant la meilleure analyse exploratoire des données. Il fournit de belles parcelles sans tracas qui prennent soin des détails infimes comme dessiner des légendes et les représenter. Les tracés peuvent être créés de manière itérative et modifiés ultérieurement. Ce package est conçu pour fonctionner en couches, en commençant par une couche montrant les données brutes collectées lors de l'analyse exploratoire des données avec R puis en ajoutant des couches d'annotations et de résumés statistiques.

Même les utilisateurs de R les plus expérimentés ont besoin d'aide pour créer des graphiques élégants. Cette bibliothèque est un outil phénoménal pour créer des graphiques en R, mais même après de nombreuses années d'utilisation quasi quotidienne, nous devons toujours nous référer à notre aide-mémoire.

Ce paquet fonctionne sous une grammaire profonde appelée «Grammaire des graphiques» qui est composée d'un ensemble de composants indépendants qui peuvent être créés de plusieurs manières. La «grammaire des graphiques» est la seule raison qui rend ggplot2 très puissant car le développeur R n'est pas limité à un ensemble de graphiques pré-spécifiés qui sont utilisés dans d'autres packages. La grammaire comprend un ensemble simple de règles et de principes fondamentaux.

En 2005, Wilkinson a créé ou plutôt créé le concept de grammaire des graphiques pour décrire les caractéristiques profondes qui sont incluses entre tous les graphiques statistiques. Il se concentre sur les couches primaires qui incluent l'adaptation des fonctionnalités intégrées avec R.

Relation entre «Grammaire des graphiques» et R

Il indique à l'utilisateur ou au développeur qu'un graphique statistique est utilisé pour mapper les données sur des attributs esthétiques tels que la couleur, la forme, la taille des objets géométriques concernés tels que les points, les lignes et les barres. Le tracé peut également contenir diverses transformations statistiques des données concernées qui sont dessinées sur le système de coordonnées mentionné. Il comprend également une fonction appelée «Faceting» qui est généralement utilisée pour créer le même graphique pour différents sous-ensembles de l'ensemble de données mentionné. R comprend divers ensembles de données intégrés. La combinaison de ces composants indépendants comprend totalement un graphique particulier.

Concentrons-nous maintenant sur différents types de tracés qui peuvent être créés en référence à la grammaire -

Les données

Si l'utilisateur souhaite visualiser l'ensemble donné de mappages esthétiques qui décrit comment les variables requises dans les données sont mappées ensemble pour la création d'attributs esthétiques mappés.

Couches

Il est composé d'éléments géométriques et de la transformation statistique requise. Les couches comprennent des objets géométriques, des géomes pour des données courtes qui représentent réellement le tracé à l'aide de points, de lignes, de polygones et bien d'autres. La meilleure démonstration consiste à classer et à compter les observations pour créer l'histogramme spécifique pour résumer la relation 2D d'un modèle linéaire spécifique.

Balance

Les échelles sont utilisées pour mapper les valeurs dans l'espace de données utilisé pour la création de valeurs, qu'il s'agisse de couleur, de taille et de forme. Il permet de dessiner une légende ou des axes nécessaires pour fournir une cartographie inverse permettant de lire les valeurs de données d'origine à partir du tracé mentionné.

Système de coordonnées

Il décrit comment les coordonnées des données sont mises en correspondance avec le plan mentionné du graphique. Il fournit également des informations sur les axes et les quadrillages nécessaires à la lecture du graphique. Normalement, il est utilisé comme système de coordonnées cartésiennes qui comprend des coordonnées polaires et des projections cartographiques.

Facettes

Il comprend des spécifications sur la façon de diviser les données en sous-ensembles requis et d'afficher les sous-ensembles en tant que multiples de données. Ceci est également appelé processus de conditionnement ou de treillisage.

Thème

Il contrôle les points d'affichage les plus fins comme la taille de la police et les propriétés de couleur d'arrière-plan. Pour créer une parcelle attrayante, il est toujours préférable de considérer les références.

Maintenant, il est également tout aussi important de discuter des limitations ou des fonctionnalités que la grammaire ne fournit pas -

  • Il manque la suggestion des graphiques à utiliser ou un utilisateur est intéressé à faire.

  • Il ne décrit pas l'interactivité car il ne comprend que la description des graphiques statiques. Pour la création de graphiques dynamiques, une autre solution alternative doit être appliquée.

Le graphique simple créé avec ggplot2 est mentionné ci-dessous -