R est extrêmement populaire parmi les mineurs de données et les statisticiens, et une partie de la raison est la gamme étendue de bibliothèques qui vient avec R. Ces outils et fonctions peuvent simplifier les tâches statistiques dans une large mesure, rendant des tâches telles que la manipulation des données, la visualisation, l’exploration du Web, l’apprentissage automatique et plus, un jeu d’enfant. Certaines de ces bibliothèques ont été brièvement expliquées ci-dessous :
dplyr
Le paquet dplyr, également connu comme la grammaire de la manipulation des données, fournit essentiellement des outils et des fonctions fréquemment utilisés pour la manipulation des données, qui comprend les fonctions suivantes :
- filter() : pour filtrer vos données en fonction des critères
- mutate() : pour ajouter de nouvelles variables qui agiront comme des fonctions des variables existantes
- select() : pour sélectionner les variables en fonction des noms
- summarise() : aide à résumer les données à partir de plusieurs valeurs
- arrange() : pour réorganiser l’ordre des lignes
- En outre, vous pouvez utiliser la fonction group_by(), qui peut retourner les résultats groupés selon les exigences. Si vous êtes désireux de vérifier le paquet dplyr, vous pouvez soit l’obtenir à partir du tidyverse ou installer le paquet directement avec la commande « install.packages(« dplyr »).
tidyr
tidyr est l’un des paquets de base de l’écosystème Tidyverse, et comme son nom l’indique, il est utilisé pour ordonner les données désordonnées. Maintenant, si vous vous demandez ce qu’est une donnée ordonnée, laissez-moi l’éclaircir pour vous. Une donnée tidy indique que chaque colonne est variable, chaque ligne est une observation, et chaque cellule est une valeur singulière.
Selon tidyr, les données tidy sont une façon de stocker les données qui seront utilisées dans tout le tidyverse et peuvent vous aider à gagner du temps et à être plus productif dans vos analyses. Vous pouvez obtenir le paquet à partir de tidyverse ou par la commande suivante « install.packages(« tidyr ») ».
ggplot2
ggplot2 est parmi les meilleures bibliothèques R pour la visualisation de données et est activement utilisé par des milliers d’utilisateurs à travers le monde pour créer des diagrammes, des graphiques et des tracés convaincants. La raison derrière cette popularité est ggplot2 a été créé pour simplifier le processus de visualisation en prenant une entrée minimale du développeur, comme les données à visualiser, le style, et les primitives à utiliser tout en laissant le reste sur la bibliothèque.
Le résultat est un graphique qui présente sans effort des statistiques complexes pour des visualisations instantanées. Si vous cherchez à ajouter plus de personnalisation à vos graphiques, vous pouvez utiliser des IDE comme RStudio pour un contrôle plus granulaire. Vous pouvez mettre la main sur ggplot2 via la collection tidyverse ou en utilisant la bibliothèque autonome via la commande « install.packages(« ggplot2″) ».
Lisez cette documentation R pour connaître les fonctions ggplot2-
lubridate
R est un excellent langage de programmation pour la science des données, mais il y a certains domaines où R peut se sentir incomplet. L’un de ces domaines est la manipulation de la date et de l’heure. Pour toute personne travaillant intensivement avec la date et l’heure dans R, peut trouver ses capacités intégrées encombrantes.
Pour surmonter cela, nous avons un paquet pratique appelé lubridate. Le paquet ne gère pas seulement la date et l’heure standard dans R, mais offre également des améliorations supplémentaires telles que les périodes de temps, les heures d’été, les jours bissextiles, le support de divers fuseaux horaires, l’analyse rapide de l’heure et de nombreuses fonctions d’aide. Si votre projet nécessite de travailler avec l’heure et la date, vous pouvez obtenir le paquet lubridate de tidyverse ou installer juste le paquet avec la commande « install.packages(« lubridate ») ».
Lisez la documentation ici:
lattice
lattice est une autre bibliothèque de visualisation de données élégante mais puissante axée sur les données multivariées. Ce qui rend cette bibliothèque spéciale, c’est qu’en plus de gérer les visualisations régulières, lattice est également préparé avec un support pour les situations et les exigences non standard. En raison d’être la mise en œuvre pratique des graphiques de Trellis pour R, il vous permet de créer des graphiques de Trellis et offre même des options pour régler les graphiques en fonction de vos besoins. lattice est livré avec R par défaut, mais il existe une version avancée de lattice appelée latticeExtra, qui pourrait s’avérer pratique dans le cas où vous souhaitez étendre les fonctionnalités de base fournies par le lattice.
mlr
L’apprentissage automatique en R(mlr), est une bibliothèque qui a été publiée en 2013 et a été mise à jour à mlr3 avec de nouvelles techniques, une meilleure architecture et une conception de base en 2019. À partir de maintenant, la bibliothèque fournit un cadre pour aborder plusieurs classifications, la régression, les machines à vecteurs de support et de nombreuses autres activités d’apprentissage automatique.
mlr3 est destiné aux praticiens et aux chercheurs en apprentissage automatique pour faciliter l’évaluation comparative et le déploiement de divers algorithmes d’apprentissage automatique sans trop de tracas. Pour ceux qui cherchent à étendre et même à combiner les apprenants existants et à affiner la meilleure technique pour une tâche, trouveront mlr3 comme une option parfaite. mlr3 peut être installé en utilisant la commande « install.packages(« mlr3″) ».
La large gamme de fonctions est mentionnée ici –
caret
Short for Classification And REgression Training, la bibliothèque caret fournit plusieurs fonctions pour optimiser le processus de formation de modèles pour les problèmes délicats de régression et de classification. caret est livré avec plusieurs outils et fonctions supplémentaires pour des tâches comme le fractionnement des données, l’estimation de l’importance des variables, la sélection des caractéristiques, le prétraitement, et bien d’autres. Avec caret, vous pouvez également mesurer la performance des modèles, et même affiner le comportement du modèle en utilisant divers paramètres comme tuneLength ou tuneGrid selon vos besoins. Le paquetage lui-même est facile à utiliser et ne charge que les composants nécessaires au fur et à mesure. La bibliothèque peut être installée avec la commande « install.packages(« caret ») ».
esquisse
esquisse n’est pas une bibliothèque en soi, mais un addin pour la puissante bibliothèque de visualisation de données ggplot2. Vous vous demandez peut-être pourquoi vous auriez besoin de cela avec ggplot2, laissez-moi l’éclaircir pour vous. ggplot2 est déjà assez intelligent, mais si vous avez besoin d’une couche supplémentaire d’intuitivité pour vos visualisations, esquisse est la bonne voie à suivre. esquisse vous permet de simplement glisser et déposer les données requises, de choisir les options de personnalisation souhaitées, et voilà, un tracé sur mesure construit dans une courte période et prêt à être exporté vers l’application de votre choix. Avec esquisse, vous pouvez créer des visualisations telles que des diagrammes à barres, des histogrammes, des diagrammes de dispersion et des objets Sf. Vous pouvez ajouter esquisse à votre environnement en utilisant « install.packages(« esquisse ») ».
shiny
shiny est un cadre d’application web de RStudio qui permet aux développeurs de créer des applications web interactives en utilisant R avec un bagage minimal de développement web. Avec shiny, vous pouvez construire des pages web, des visualisations interactives, des tableaux de bord, et même intégrer des widgets sur des documents R. shiny peut également être facilement étendu avec des thèmes CSS, des actions JavaScript et des htmlwidgets pour une personnalisation accrue. Il est livré avec une foule de widgets intégrés attrayants pour présenter des graphiques, des tableaux et des résultats d’objets R. Tout ce que vous codez dans shiny est mis en ligne instantanément, ce qui élimine les rafraîchissements fréquents et ennuyeux des pages. Si vous êtes vendu sur les fonctionnalités et que vous voulez lui donner un coup de feu, vous pouvez obtenir shiny en utilisant la commande « install.packages(« shiny ») ».
Rcrawler
Si vous êtes à la recherche d’un outil pour gratter des données sur les sites Web et cela aussi dans un format compréhensible, ne cherchez pas plus loin, Rcrawler est la bonne option pour vous. Grâce aux puissantes capacités de Rcrawler en matière d’exploration du Web, d’extraction de données et d’exploration de données, vous pouvez non seulement parcourir des sites Web et extraire des données, mais aussi analyser la structure du réseau de n’importe quel site Web, y compris ses hyperliens internes et externes. Au cas où vous vous demanderiez pourquoi ne pas utiliser rvest, le paquetage Rcrawler est un cran au-dessus de rvest car il parcourt toutes les pages d’un site Web et en extrait les données, ce qui peut être extrêmement utile lorsque vous essayez de rassembler toutes les informations d’une seule source et en une seule fois. Le paquet peut être installé avec la commande « install.packages(« Rcrawler ») ».
DT
Le paquet DT agit comme un wrapper de la bibliothèque JavaScript appelée DataTables, pour R. DT vous permet de transformer les données de votre matrice R en un tableau interactif sur votre page HTML, ce qui facilite la recherche, le tri et le filtrage des données. Le paquet fonctionne en laissant la fonction principale, c’est-à-dire la fonction datatable(), créer un widget HTML pour les objets R. DT permet d’affiner les réglages via les arguments « options » et même de personnaliser davantage vos tableaux, le tout sans entrer profondément dans le codage. Le paquet DT peut être installé en utilisant la commande « install.packages(« DT ») ».
plotly
Si vous voulez créer des visualisations interactives qui volent la vedette, plotly serait parfait pour vous. Avec Plotly, vous pouvez créer des visualisations étonnantes, dignes d’une publication, à partir d’une collection diversifiée de diagrammes et de graphiques, tels que des diagrammes de dispersion et de ligne, des diagrammes à barres, des diagrammes circulaires, des histogrammes, des cartes thermiques, des tracés de contour, des séries chronologiques, vous le nommez et plotly peut le faire. Construites à partir de la bibliothèque plotly.js, les visualisations de plotly peuvent également être affichées dans des applications Web via Dash, dans des carnets de notes Jupyter ou enregistrées dans des fichiers HTML. Si vous êtes intéressé à essayer le paquet, vous pouvez l’installer en utilisant la commande « install.packages(« plotly ») ».
Autres bibliothèques R valables –
- BioConductor
- Knitr
- Janitor
- randomForest
- e1071
- stringr
- data.table
- RMarkdown
- Rvest